À l’instar de la communauté open source au sens large, Pineau et ses collègues estiment que la transparence devrait être la norme. « Une chose que je pousse mes chercheurs à faire est de démarrer un projet en pensant que vous voulez l’open-source », dit-elle. « Parce que lorsque vous faites cela, la barre est beaucoup plus élevée en termes de données que vous utilisez et de la manière dont vous construisez le modèle. »

Mais il y a aussi des risques sérieux. Les grands modèles de langage crachent de la désinformation, des préjugés et des discours de haine. Ils peuvent être utilisés pour produire en masse de la propagande ou alimenter des usines de logiciels malveillants. « Il faut faire un compromis entre transparence et sécurité », dit Pineau.

Pour Meta AI, ce compromis peut signifier que certains modèles ne sont pas du tout publiés. Par exemple, si l’équipe de Pineau a formé un modèle sur les données des utilisateurs de Facebook, il restera en interne, car le risque de fuite d’informations privées est trop grand. Sinon, l’équipe peut publier le modèle avec une licence de clic qui spécifie qu’il doit être utilisé uniquement à des fins de recherche.

C’est l’approche qu’il a adoptée pour LLaMA. Mais quelques jours après sa sortie, quelqu’un a publié le modèle complet et les instructions pour l’exécuter sur le forum Internet 4chan. « Je pense toujours que c’était le bon compromis pour ce modèle particulier », déclare Pineau. « Mais je suis déçu que les gens fassent cela, car cela rend plus difficile la réalisation de ces versions. »

« Nous avons toujours eu un soutien solide de la direction de l’entreprise jusqu’à Mark [Zuckerberg] pour cette approche, mais cela ne vient pas facilement », dit-elle.

Les enjeux pour Meta AI sont élevés. « La responsabilité potentielle de faire quelque chose de fou est beaucoup plus faible lorsque vous êtes une très petite startup que lorsque vous êtes une très grande entreprise », dit-elle. « En ce moment, nous distribuons ces modèles à des milliers de personnes, mais si cela devient plus problématique ou si nous estimons que les risques pour la sécurité sont plus importants, nous fermerons le cercle et nous ne diffuserons qu’aux partenaires universitaires connus qui ont de très solides références— en vertu d’accords de confidentialité ou de NDA qui les empêchent de construire quoi que ce soit avec le modèle, même à des fins de recherche.

Si cela se produit, alors de nombreux chouchous de l’écosystème open source pourraient constater que leur licence pour s’appuyer sur tout ce que Meta AI publiera ensuite a été révoquée. Sans LLaMA, les modèles open source tels que Alpaca, Open Assistant ou Hugging Chat ne seraient pas aussi bons. Et la prochaine génération d’innovateurs open-source n’aura pas la longueur d’avance que le lot actuel a eu.