Les grands modèles de langage ne sont pas adaptés à une utilisation dans le monde réel, préviennent les scientifiques : même de légers changements provoquent l’effondrement de leurs modèles du monde.
Génératif intelligence artificielle Les systèmes d’IA (IA) sont peut-être capables de produire des résultats révélateurs, mais de nouvelles recherches montrent qu’ils n’ont pas une compréhension cohérente du monde et des règles réelles.
Dans une nouvelle étude publiés dans la base de données de prépublication arXiv, des scientifiques du MIT, Harvard et Cornell ont découvert que les grands modèles de langage (LLM), comme GPT-4 ou Anthropique Claude 3 Opusne parviennent pas à produire des modèles sous-jacents qui représentent avec précision le monde réel.
Lorsqu’ils étaient chargés de fournir des itinéraires routiers détaillés à New York, par exemple, les LLM les fournissaient avec une précision proche de 100 %. Mais les cartes sous-jacentes utilisées étaient pleines de rues et d’itinéraires inexistants lorsque les scientifiques les ont extraites.
Les chercheurs ont découvert que lorsque des changements inattendus étaient ajoutés à une directive (comme des détours et des rues fermées), la précision des directions données par les LLM s’effondrait. Dans certains cas, cela a abouti à un échec total. En tant que tel, cela soulève des inquiétudes quant au risque de dysfonctionnement des systèmes d’IA déployés dans une situation réelle, par exemple dans une voiture sans conducteur, lorsqu’ils sont confrontés à des environnements ou à des tâches dynamiques.
En rapport: L’IA « peut retarder les compétences nécessaires à l’auto-création indépendante » : s’appuyer sur des algorithmes pourrait remodeler toute votre identité sans que vous vous en rendiez compte
« Un espoir est que, parce que les LLM peuvent accomplir toutes ces choses étonnantes en langage, nous pourrions peut-être également utiliser ces mêmes outils dans d’autres domaines de la science. Mais la question de savoir si les LLM apprennent des modèles mondiaux cohérents est très importante si nous voulons utiliser ces techniques pour faire de nouvelles découvertes », a déclaré l’auteur principal Ashesh Rambachanprofesseur adjoint d’économie et chercheur principal au Laboratoire des systèmes d’information et de décision (LIDS) du MIT, dans un déclaration.
Transformateurs délicats
L’essentiel des IA génératives repose sur la capacité des LLM à apprendre en parallèle de grandes quantités de données et de paramètres. Pour ce faire, ils s’appuient sur modèles de transformateurqui constituent l’ensemble sous-jacent de réseaux de neurones qui traitent les données et permettent l’aspect d’auto-apprentissage des LLM. Ce processus crée ce qu’on appelle un « modèle mondial » qu’un LLM formé peut ensuite utiliser pour déduire des réponses et produire des résultats pour les requêtes et les tâches.
Une telle utilisation théorique des modèles mondiaux consisterait à extraire les données des trajets en taxi à travers une ville pour générer une carte sans avoir à tracer minutieusement chaque itinéraire, comme l’exigent les outils de navigation actuels. Mais si cette carte n’est pas précise, les écarts apportés à un itinéraire entraîneraient une sous-performance ou un échec de la navigation basée sur l’IA.
Pour évaluer la précision et la cohérence des LLM des transformateurs lorsqu’il s’agit de comprendre les règles et les environnements du monde réel, les chercheurs les ont testés à l’aide d’une classe de problèmes appelés automatisations finies déterministes (DFA). Il s’agit de problèmes liés à une séquence d’états tels que les règles d’un jeu ou les intersections d’un itinéraire sur le chemin vers une destination. Dans ce cas, les chercheurs ont utilisé des DFA tirés du jeu de société Othello et de la navigation dans les rues de New York.
Pour tester les transformateurs avec des DFA, les chercheurs ont examiné deux mesures. Le premier était la « détermination de séquence », qui évalue si un transformateur LLM a formé un modèle mondial cohérent s’il a vu deux états différents de la même chose : deux tableaux Othello ou une carte d’une ville avec des routes fermées et une autre sans. La deuxième métrique était la « compression de séquence » — une séquence (dans ce cas, une liste ordonnée de points de données utilisés pour générer des sorties) qui devrait montrer qu’un LLM avec un modèle mondial cohérent peut comprendre que deux états identiques (disons deux cartes Othello qui sont exactement les mêmes) ont la même séquence d’étapes possibles à suivre.
S’appuyer sur les LLM est une entreprise risquée
Deux classes courantes de LLM ont été testées sur ces métriques. L’un a été formé sur des données générées à partir de séquences produites de manière aléatoire tandis que l’autre sur des données générées par le suivi de processus stratégiques.
Les transformateurs formés sur des données aléatoires formaient un modèle mondial plus précis, ont découvert les scientifiques. Cela était peut-être dû au fait que le LLM voyait une plus grande variété d’étapes possibles. Auteur principal Keyon Vafaun chercheur de Harvard, a expliqué dans un communiqué : « Dans Othello, si vous voyez deux ordinateurs aléatoires jouer plutôt que des joueurs de championnat, en théorie vous verriez l’ensemble complet des mouvements possibles, même les mauvais mouvements que les joueurs de championnat ne feraient pas. « . En voyant davantage de mouvements possibles, même s’ils sont mauvais, les LLM étaient théoriquement mieux préparés à s’adapter aux changements aléatoires.
Cependant, malgré la génération de mouvements Othello valides et de directions précises, un seul transformateur a généré un modèle mondial cohérent pour Othello, et aucun des deux types n’a produit une carte précise de New York. Lorsque les chercheurs ont introduit des éléments tels que les détours, tous les modèles de navigation utilisés par les LLM ont échoué.
« J’ai été surpris par la rapidité avec laquelle les performances se détérioraient dès que nous ajoutions un détour. Si nous fermons seulement 1 pour cent des rues possibles, la précision chute immédiatement de près de 100 pour cent à seulement 67 pour cent », a ajouté Vafa.
Cela montre que différentes approches de l’utilisation des LLM sont nécessaires pour produire des modèles mondiaux précis, ont indiqué les chercheurs. Ce que pourraient être ces approches n’est pas clair, mais cela met en évidence la fragilité des LLM de transformateur face à des environnements dynamiques.
« Souvent, nous voyons ces modèles faire des choses impressionnantes et pensons qu’ils doivent avoir compris quelque chose au monde », a conclu Rambachan. « J’espère que nous pourrons convaincre les gens que c’est une question à laquelle il faut réfléchir très attentivement et que nous n’avons pas besoin de nous fier à nos propres intuitions pour y répondre. »