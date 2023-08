Au lieu d’utiliser des images, les chercheurs ont codé la forme, la couleur et la position dans des séquences de nombres. Cela garantit que les tests n’apparaîtront dans aucune donnée d’entraînement, explique Webb : « J’ai créé cet ensemble de données à partir de zéro. Je n’ai jamais entendu parler de quelque chose de pareil.

Mitchell est impressionné par le travail de Webb. «J’ai trouvé cet article assez intéressant et provocateur», dit-elle. « C’est une étude bien faite. » Mais elle a des réserves. Mitchell a développé son propre test de raisonnement analogique, appelé ConceptARC, qui utilise des séquences codées de formes tirées de l’ensemble de données ARC (Abstraction and Reasoning Challenge) développé par le chercheur de Google François Chollet. Dans les expériences de Mitchell, GPT-4 obtient de moins bons résultats que les personnes ayant répondu à de tels tests.

Mitchell souligne également que le codage des images en séquences (ou matrices) de nombres facilite le problème du programme car il supprime l’aspect visuel du puzzle. « Résoudre des matrices de chiffres n’équivaut pas à résoudre les problèmes de Raven », dit-elle.

Essais de fragilité

Les performances des grands modèles de langage sont fragiles. Parmi les gens, il est raisonnable de supposer qu’une personne qui obtient de bons résultats à un test obtiendra également de bons résultats à un test similaire. Ce n’est pas le cas avec les grands modèles de langage : une petite modification d’un test peut faire passer une note de A à F.

« En général, l’évaluation de l’IA n’a pas été réalisée de manière à nous permettre de réellement comprendre les capacités de ces modèles », explique Lucy Cheke, psychologue à l’Université de Cambridge, au Royaume-Uni. « Il est tout à fait raisonnable de tester les performances d’un système dans une tâche particulière, mais il n’est pas utile de prendre cette tâche et de faire des déclarations sur ses capacités générales. »

Prenons l’exemple d’un article publié en mars par une équipe de chercheurs de Microsoft, dans lequel ils affirmaient avoir identifié des « étincelles d’intelligence artificielle générale » dans GPT-4. L’équipe a évalué le grand modèle de langage à l’aide d’une série de tests. Dans l’une d’elles, ils ont demandé à GPT-4 comment empiler un livre, neuf œufs, un ordinateur portable, une bouteille et un clou de manière stable. Il a répondu : « Placez l’ordinateur portable sur les œufs, avec l’écran vers le bas et le clavier vers le haut. L’ordinateur portable s’adaptera parfaitement aux limites du livre et des œufs, et sa surface plate et rigide fournira une plate-forme stable pour la couche suivante.

Pas mal. Mais lorsque Mitchell a essayé sa propre version de la question, demandant à GPT-4 d’empiler un cure-dent, un bol de pudding, un verre d’eau et une guimauve, cela a suggéré de coller le cure-dent dans le pudding et la guimauve sur le cure-dent, et équilibrer le plein verre d’eau sur la guimauve. (Il se terminait par une mise en garde utile : « Gardez à l’esprit que cette pile est délicate et peut ne pas être très stable. Soyez prudent lors de sa construction et de sa manipulation pour éviter les déversements ou les accidents. »)