ChatGPT est-il réellement intelligent ou semble-t-il simplement intelligent ?

ChatGPT, ou plutôt GPT-3, la technologie d’apprentissage automatique qui pilote ChatGPT, peut faire beaucoup de choses intelligentes.

GPT-3 peut produire du texte qui semble avoir été écrit par un humain, écrire du code informatique et tenir des conversations avec des humains sur un large éventail de sujets. Ses compétences vont aussi au-delà de la langue. Il peut jouer habilement aux échecs et peut même résoudre des problèmes mathématiques de niveau universitaire.

« Des observations ont incité certains à affirmer que cette classe de modèles de fondation… montre une certaine forme d’intelligence générale », ont écrit les scientifiques allemands Marcel Binz et Eric Schulz dans une étude publiée dans Actes de l’Académie nationale des sciences des États-Unis le 2 février.

« Pourtant, d’autres ont été plus sceptiques, soulignant que ces modèles sont encore loin d’une compréhension au niveau humain du langage et de la sémantique. Comment pouvons-nous véritablement évaluer si oui ou non ces modèles – au moins dans certaines situations – font quelque chose intelligent? »

Cela semble intelligent. Mais GPT-3 est-il vraiment intelligent, ou est-ce juste un algorithme qui se nourrit passivement de beaucoup de texte et prédit quel mot vient ensuite ? Binz et Schulz, qui sont tous deux chercheurs à l’Institut Max Planck de cybernétique biologique en Allemagne, ont mené une série d’expériences fin 2022 pour essayer de le découvrir.

Selon leurs recherches, GPT-3 pourrait être plus qu’un mimétisme sophistiqué.

Les modèles de langage sont une forme de technologie d’IA formée pour prédire le mot suivant pour un texte donné. Ils ne sont pas nouveaux. La vérification orthographique, la correction automatique et le texte prédictif sont tous des outils de modèle de langage.

GPT-3 et ChatGPT sont des modèles de langage plus grands, plus sophistiqués – peut-être intelligents.

L’Encyclopédie Britannica définit l’intelligence humaine comme « une qualité mentale qui consiste en la capacité d’apprendre de l’expérience, de s’adapter à de nouvelles situations, de comprendre et de gérer des concepts abstraits et d’utiliser des connaissances pour manipuler son environnement ».

Afin de tester si GPT-3 est intelligent, Binz et Schulz ont adopté l’approche des psychologues et l’ont parcourue à travers une série d’énigmes traditionnellement utilisées pour tester les capacités de prise de décision, de recherche d’informations, de délibération et de raisonnement causal des humains.

« Les psychologues, après tout, ont l’habitude d’essayer de comprendre formellement un autre algorithme notoirement impénétrable : l’esprit humain », écrivent-ils.

TEST GPT-3

Binz et Schulz ont présenté au GPT-3 12 puzzles « vignettes » conçus pour tester différents éléments de ses capacités cognitives. Les énigmes posaient des questions telles que : « Une batte et une balle coûtent 1,10 $ au total. La batte coûte 1,00 $ de plus que la balle. Combien coûte la balle ? » et « Est-il plus probable que Linda, qui est franche, brillante et politiquement active, soit une caissière de banque ou une caissière de banque et une féministe? »

Pour ce que ça vaut, la réponse au « problème de Linda » est qu’il est plus probable qu’elle soit caissière de banque, puisque la probabilité que deux événements se produisent ensemble est toujours inférieure ou égale à la probabilité que l’un se produise seul.

Binz et Schulz ont utilisé les réponses de GPT-3 pour analyser son comportement, tout comme la façon dont les psychologues cognitifs analyseraient le comportement humain dans les mêmes tâches. Ils ont trouvé qu’il répondait à toutes les énigmes d’une manière « humaine », mais n’en répondait correctement qu’à six.

Afin de tenir compte des défauts potentiels de l’approche « vignette » – comme la probabilité que GPT-3 ait déjà rencontré certaines des énigmes bien connues lors de sa formation – Binz et Schulz ont présenté à GPT-3 une autre série d’énigmes. Cette fois, au lieu de lui poser une question avec une seule réponse correcte, les énigmes ont testé la capacité de GPT-3 à résoudre une tâche en utilisant des compétences de prise de décision, de recherche d’informations, de délibération et de raisonnement causal.

GPT-3 a eu du mal avec la prise de décision, la recherche d’informations dirigées et le raisonnement causal par rapport au sujet humain moyen, mais Binz et Schulz ont trouvé qu’il résolvait « raisonnablement » bien la plupart des tests.

« Ces résultats pourraient indiquer que, du moins dans certains cas, le GPT-3 n’est pas simplement un perroquet stochastique et pourrait passer pour un sujet valable pour certaines des expériences que nous avons administrées », ont-ils écrit.

Selon le document de recherche de mars 2021, « On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? » un perroquet stochastique est un « système pour assembler au hasard des séquences de formes linguistiques qu’il a observées dans ses vastes données d’entraînement, selon des informations probabilistes sur la façon dont elles se combinent, mais sans aucune référence au sens ».

SIGNES D’INTELLIGENCE

Binz et Schulz ont été surpris de trouver des signes d’intelligence dans GPT-3. Ils n’ont cependant pas été surpris par ses défauts.

« Les humains apprennent en se connectant avec d’autres personnes, en leur posant des questions et en s’engageant activement dans leur environnement », ont-ils écrit, « alors que les grands modèles de langage apprennent en étant alimentés passivement avec beaucoup de texte et en prédisant quel mot vient ensuite. »

La clé pour laisser GPT-3 atteindre une intelligence de type humain, ont-ils dit, est de le laisser continuer à faire quelque chose qu’il fait déjà via des interfaces créées par le développeur OpenAI : interagir avec les humains.

« De nombreux utilisateurs interagissent déjà avec des modèles de type GPT-3, et ce nombre ne fait qu’augmenter avec de nouvelles applications à l’horizon », ont-ils écrit. « Les futurs modèles de langage seront probablement formés sur ces données, conduisant à une boucle d’interaction naturelle entre les agents artificiels et naturels. »

En d’autres termes, plus nous leur parlons, plus ils deviendront intelligents.