Une étude révolutionnaire publiée dans le numéro de Noël du Journal médical britannique a soulevé une question inattendue et alarmante : IA avancée des modèles comme ChatGPT ou Gémeaux développer déficiences cognitives semblable au stade précoce démence chez l’homme ? Les chercheurs ont testé certains des principaux modèles de langage (LLM) au monde à l’aide du très respecté outil d’évaluation cognitive de Montréal (MoCA), un outil conçu pour détecter le déclin cognitif précoce chez l’homme, et les résultats ont été tout simplement surprenants.
Les faiblesses cognitives de l’IA révélées
L’étude, menée par une équipe de neurologues et de spécialistes de l’IA dirigée par le Dr Emilia Kramer de l’Université d’Édimbourg, a évalué plusieurs LLM importants, notamment :
- ChatGPT-4 et 4o par OpenAI
- Claude 3.5 « Sonnet » par Anthropique
- Gémeaux 1.0 et 1.5 par Alphabet
Les chercheurs ont administré le MoCA, un test cognitif en 30 points initialement développé pour un usage humain. Les IA ont été évaluées dans des catégories comprenant l’attention, la mémoire, le raisonnement visuospatial et la maîtrise du langage.
Principales conclusions : décomposition des résultats
L’étude a révélé des disparités significatives dans les capacités cognitives des principaux modèles de langage lorsqu’ils sont soumis à l’évaluation cognitive de Montréal (MoCA). Voici un aperçu plus approfondi des performances de chaque IA, en mettant en évidence leurs forces et leurs vulnérabilités :
- ChatGPT-4o (OpenAI)
- Note globale : 26/30 (seuil de réussite).
- Points forts : Excellé dans les tâches impliquant l’attention, la compréhension du langage et l’abstraction. Réussite du test Stroop, démontrant une forte flexibilité cognitive.
- Faiblesses : J’ai eu du mal à réaliser des tâches visuospatiales telles que relier des chiffres et des lettres dans l’ordre et dessiner une horloge.
- Claude 3.5 « Sonnet » (Anthropique)
- Note globale : 22/30.
- Points forts : Modérément doué pour les tâches linguistiques et la résolution de problèmes de base.
- Faiblesses : A affiché des limitations dans la rétention de la mémoire et des défis de raisonnement en plusieurs étapes, et a échoué dans les exercices visuospatiaux.
- Gémeaux 1.0 (Alphabet)
- Note globale : 16/30.
- Points forts : Minime, avec un succès sporadique dans des tâches de dénomination simples.
- Faiblesses : Échec de la mémorisation même de séquences de mots de base et performances lamentables dans le raisonnement visuospatial et les activités basées sur la mémoire, reflétant une incapacité à traiter des informations structurées.
- Gémeaux 1.5 (Alphabet)
- Note globale : 18/30.
- Points forts : Légères améliorations du raisonnement de base et des tâches linguistiques par rapport à son prédécesseur.
- Faiblesses : A continué à sous-performer dans les domaines nécessitant une interprétation visuospatiale, un séquençage et une rétention de mémoire, restant bien en dessous du seuil de réussite.
Ces résultats soulignent de fortes différences entre les modèles, en soulignant particulièrement ChatGPT-4o comme le système le plus performant de cette gamme. Cependant, même les plus performants ont révélé des lacunes critiques, en particulier dans les tâches qui simulent des défis cognitifs réels.
Tableau d’instantanés des performances
Pour mieux visualiser les résultats, voici un résumé des mesures de performances :
Modèle | Note globale | Points forts | Faiblesses majeures |
---|---|---|---|
ChatGPT-4o | 26/30 | Compréhension du langage, attention | Tâches visuospatiales, rétention de mémoire |
Claude 3.5 | 22/30 | Résolution de problèmes, abstraction | Raisonnement en plusieurs étapes, analyse visuospatiale |
Gémeaux 1.0 | 16/30 | Nommer des tâches (sporadiques) | Mémoire, raisonnement visuospatial, pensée structurée |
Gémeaux 1.5 | 18/30 | Gains de raisonnement incrémentaux | Échecs similaires à Gemini 1.0, amélioration minime |
Ce tableau met non seulement en évidence les lacunes, mais soulève également des questions sur la conception fondamentale de ces modèles d’IA et leurs applications dans des scénarios du monde réel. Ils ont été utilisés dans des tâches nécessitant des compétences visuospatiales, comme relier des séquences de chiffres et de lettres ou dessiner une horloge analogique réglée pour une heure précise. Comme l’a dit le Dr Kramer, « Nous avons été choqués de constater à quel point les Gémeaux se comportaient mal, en particulier dans les tâches de mémoire de base comme le rappel d’une simple séquence de cinq mots. »
L’IA a du mal à penser comme les humains
Le test MoCA, incontournable des évaluations cognitives depuis les années 1990, évalue diverses compétences requises pour le fonctionnement quotidien. Vous trouverez ci-dessous une ventilation des performances des modèles dans les principales catégories :
Catégorie | Faits saillants des performances |
---|---|
Attention | Fort dans ChatGPT-4o mais faible dans les modèles Gemini. |
Mémoire | ChatGPT-4o a retenu 4/5 mots ; Les Gémeaux ont échoué. |
Langue | Tous les modèles excellaient dans les tâches liées au vocabulaire. |
Visuospatial | Tous les modèles ont connu des difficultés, avec les Gémeaux en bas. |
Raisonnement | Claude et ChatGPT ont montré des performances modérées. |
Une valeur aberrante surprenante était le test de Stroop, qui mesure la capacité d’un sujet à traiter des stimuli contradictoires (par exemple, identifier la couleur de l’encre de mots incompatibles comme «ROUGE« écrit en vert). Seulement ChatGPT-4o réussi, démontrant une capacité supérieure de flexibilité cognitive.
Implications pour la médecine : un rappel à la réalité
Ces résultats pourraient remodeler le dialogue autour du rôle de l’IA dans soins de santé. Bien que les LLM comme ChatGPT aient démontré un potentiel important dans des domaines tels que le diagnostic, leurs limites dans l’interprétation visuel complexe et données contextuelles mettre en évidence une vulnérabilité critique. Par exemple, le raisonnement visuospatial fait partie intégrante de tâches telles que la lecture d’examens médicaux ou l’interprétation de relations anatomiques – tâches pour lesquelles ces modèles d’IA échouent de façon spectaculaire.
Citations notables des auteurs de l’étude :
- « Ces résultats jettent le doute sur l’idée selon laquelle l’IA remplacera bientôt les neurologues humains. » fit remarquer le Dr Kramer.
- Un autre co-auteur a ajouté, « Nous sommes aujourd’hui confrontés à un paradoxe : plus ces systèmes semblent intelligents, plus nous découvrons leurs défauts cognitifs frappants. »
Un avenir pour l’IA cognitive limitée ?
Malgré leurs défauts, les LLM avancés restent des outils précieux pour aider les experts humains. Cependant, les chercheurs mettent en garde contre une dépendance excessive à l’égard de ces systèmes, en particulier dans des contextes de vie ou de mort. La possibilité d’une « IA avec troubles cognitifs », comme le dit l’étude, ouvre une toute nouvelle voie de questions éthiques et technologiques.
Comme l’a conclu le Dr Kramer, « Si les modèles d’IA montrent aujourd’hui des vulnérabilités cognitives, à quels défis pourrions-nous être confrontés à mesure qu’ils deviennent plus complexes ? Pourrions-nous par inadvertance créer des systèmes d’IA qui imitent les troubles cognitifs humains ?
Cette étude met en lumière les limites des systèmes d’IA, même les plus avancés, et appelle à une exploration urgente de ces questions alors que nous continuons à intégrer l’IA dans des domaines critiques.
Quelle est la prochaine étape ?
Les résultats de cette étude sont susceptibles d’alimenter le débat dans les secteurs technologique et médical. Les questions clés à aborder comprennent :
- Comment les développeurs d’IA peuvent-ils remédier à ces faiblesses cognitives ?
- Quelles garanties doivent être mises en place pour garantir la fiabilité de l’IA en médecine ?
- Une formation spécialisée pourrait-elle améliorer les performances de l’IA dans des domaines tels que le raisonnement visuospatial ?
La conversation est loin d’être terminée et, à mesure que l’IA continue d’évoluer, notre compréhension de ses capacités et de ses vulnérabilités doit également évoluer.
L’étude est publiée dans le Journal médical britannique
Vous avez une réaction ? Partagez vos réflexions dans les commentaires
Vous avez apprécié cet article ? Abonnez-vous à notre newsletter gratuite pour des histoires captivantes, du contenu exclusif et les dernières nouvelles.