Étude : ChatGPT ne réussit pas les tests de l’American College of Gastroenterology

ChatGPT-3 et ChatGPT-4, les modèles de traitement du langage d’OpenAI, ont échoué aux tests d’auto-évaluation 2021 et 2022 de l’American College of Gastroenterology, selon une étude publiée plus tôt cette semaine dans Le Journal américain de gastroentérologie.

ChatGPT est un grand modèle de langage qui génère un texte de type humain en réponse aux questions ou aux déclarations des utilisateurs.

Des chercheurs des Feinstein Institutes for Medical Research ont demandé aux deux versions de ChatGPT de répondre à des questions sur les tests afin d’évaluer ses capacités et sa précision.

Chaque test comprend 300 questions à choix multiples. Les chercheurs ont copié et collé chaque question et réponse à choix multiples, à l’exclusion de celles nécessitant une image, dans la plate-forme alimentée par l’IA.

ChatGPT-3 et ChatGPT-4 ont répondu à 455 questions, avec ChatGPT-3 répondant correctement à 296 des 455 questions et ChatGPT-4 répondant correctement à 284.

Pour réussir le test, les individus doivent obtenir un score de 70 % ou plus. ChatGPT-3 a obtenu un score de 65,1 % et ChatGPT-4 un score de 62,4 %.

Le test d’auto-évaluation est utilisé pour déterminer comment un individu obtiendrait un score à l’examen de l’American Board of Internal Medicine Gastroenterology.

« Récemment, ChatGPT et l’utilisation de l’IA ont suscité beaucoup d’attention dans diverses industries. En ce qui concerne l’enseignement médical, il y a un manque de recherche autour de cet outil potentiellement révolutionnaire », a déclaré le Dr Arvind Trindade, professeur agrégé. à l’Institut des sciences du système de santé des instituts Feinstein et auteur principal de l’article, a déclaré dans un communiqué. « Sur la base de nos recherches, ChatGPT ne devrait pas être utilisé pour l’enseignement médical en gastro-entérologie pour le moment et a encore du chemin à faire avant d’être mis en œuvre dans le domaine de la santé. »

POURQUOI EST-CE IMPORTANT

Les chercheurs de l’étude ont noté que la note d’échec de ChatGPT pourrait être due à un manque d’accès à des revues médicales payantes ou à des informations obsolètes dans son système, et des recherches supplémentaires sont nécessaires avant de pouvoir l’utiliser de manière fiable.

Toujours un étude publié dans PLOS Digital Health en février a révélé que les chercheurs ont testé les performances de ChatGPT lors de l’examen de licence médicale aux États-Unis, qui se compose de trois examens. L’outil d’IA a réussi ou s’est approché du seuil pour les trois examens et a montré un haut niveau de perspicacité dans ses explications.

ChatGPT a également fourni des réponses « largement appropriées » aux questions sur la prévention des maladies cardiovasculaires, selon un lettre de recherche publiée dans JAMA.

Les chercheurs ont rassemblé 25 questions sur les concepts fondamentaux de la prévention des maladies cardiaques, y compris les conseils sur les facteurs de risque, les résultats des tests et les informations sur les médicaments, et a posé les questions au chatbot AI. Les cliniciens ont évalué les réponses comme étant appropriées, inappropriées ou non fiables, et ont constaté que 21 des 25 questions étaient considérées comme appropriées, quatre ont été jugées inappropriées.