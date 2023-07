Sous la capuche

Préparer LLaMA 2 au lancement a nécessité de nombreux ajustements pour rendre le modèle plus sûr et moins susceptible de cracher des mensonges toxiques que son prédécesseur, explique Al-Dahle.

Meta a beaucoup de gaffes passées à apprendre. Son modèle de langage pour la science, Galactica, a été mis hors ligne après seulement trois jours, et son précédent modèle LlaMA, qui n’était destiné qu’à des fins de recherche, a été divulgué en ligne, suscitant les critiques des politiciens qui se demandaient si Meta tenait dûment compte des risques associés. avec des modèles de langage d’IA, tels que la désinformation et le harcèlement.

Pour atténuer le risque de répéter ces erreurs, Meta a appliqué une combinaison de différentes techniques d’apprentissage automatique visant à améliorer l’utilité et la sécurité.

L’approche de Meta pour la formation de LLaMA 2 comportait plus d’étapes que d’habitude pour les modèles d’IA générative, explique Sasha Luccioni, chercheuse à la startup d’IA Hugging Face.

Le modèle a été formé sur 40 % de données en plus que son prédécesseur. Al-Dahle dit qu’il y avait deux sources de données de formation : les données récupérées en ligne et un ensemble de données affiné et modifié en fonction des commentaires des annotateurs humains pour se comporter de manière plus souhaitable. La société affirme qu’elle n’a pas utilisé les données utilisateur Meta dans LLaMA 2 et a exclu les données des sites dont elle savait qu’elles contenaient de nombreuses informations personnelles.

Malgré cela, LLaMA 2 crache toujours un langage offensant, nuisible et autrement problématique, tout comme les modèles rivaux. Meta dit qu’il n’a pas supprimé les données toxiques de l’ensemble de données, car les laisser pourrait aider LLaMA 2 à mieux détecter les discours de haine, et les supprimer pourrait risquer de filtrer accidentellement certains groupes démographiques.

Néanmoins, l’engagement de Meta envers l’ouverture est passionnant, dit Luccioni, car il permet à des chercheurs comme elle d’étudier correctement les biais, l’éthique et l’efficacité des modèles d’IA.

Le fait que LLaMA 2 soit un modèle open-source permettra également aux chercheurs et développeurs externes de le sonder pour des failles de sécurité, ce qui le rendra plus sûr que les modèles propriétaires, dit Al-Dahle.

Liang est d’accord. « Je suis très enthousiaste à l’idée d’essayer des choses et je pense que ce sera bénéfique pour la communauté », dit-il.