Nous pourrions manquer de données pour former des programmes de langage d’IA

Le problème est que les types de données généralement utilisés pour la formation des modèles linguistiques pourraient être épuisés dans un avenir proche, dès 2026, selon un article de chercheurs d’Epoch, une organisation de recherche et de prévision en IA. Le problème vient du fait que, à mesure que les chercheurs construisent des modèles plus puissants avec de plus grandes capacités, ils doivent trouver de plus en plus de textes sur lesquels les former. Les grands chercheurs de modèles linguistiques craignent de plus en plus de manquer de ce type de données, explique Teven Le Scao, chercheur à la société d’intelligence artificielle Hugging Face, qui n’a pas participé aux travaux d’Epoch.

Le problème découle en partie du fait que les chercheurs en IA linguistique filtrent les données qu’ils utilisent pour former des modèles en deux catégories : haute et basse qualité. La ligne entre les deux catégories peut être floue, explique Pablo Villalobos, chercheur à Epoch et auteur principal de l’article, mais le texte de la première est considéré comme mieux écrit et est souvent produit par des écrivains professionnels.

Les données des catégories de faible qualité se composent de textes tels que des publications sur les réseaux sociaux ou des commentaires sur des sites Web comme 4chan, et dépassent largement les données considérées comme de haute qualité. Les chercheurs ne forment généralement des modèles qu’à l’aide de données appartenant à la catégorie de haute qualité, car c’est le type de langage qu’ils souhaitent que les modèles reproduisent. Cette approche a donné des résultats impressionnants pour les grands modèles de langage tels que GPT-3.

Selon Swabha Swayamdipta, professeur d’apprentissage automatique à l’Université de Californie du Sud, spécialisé dans la qualité des ensembles de données, une façon de surmonter ces contraintes de données serait de réévaluer ce qui est défini comme “faible” et “élevé” de qualité. Si les pénuries de données poussent les chercheurs en IA à incorporer des ensembles de données plus diversifiés dans le processus de formation, ce serait un « net positif » pour les modèles linguistiques, dit Swayamdipta.

Les chercheurs peuvent également trouver des moyens de prolonger la durée de vie des données utilisées pour la formation des modèles linguistiques. Actuellement, les grands modèles de langage ne sont entraînés qu’une seule fois sur les mêmes données, en raison de contraintes de performances et de coûts. Mais il peut être possible de former un modèle plusieurs fois en utilisant les mêmes données, explique Swayamdipta.

Certains chercheurs pensent que grand n’est pas synonyme de meilleur quand il s’agit de modèles de langage de toute façon. Percy Liang, professeur d’informatique à l’Université de Stanford, affirme qu’il existe des preuves que rendre les modèles plus efficaces peut améliorer leur capacité, plutôt que simplement augmenter leur taille.
“Nous avons vu comment des modèles plus petits formés sur des données de meilleure qualité peuvent surpasser des modèles plus grands formés sur des données de moindre qualité”, explique-t-il.