Le LLM médical de Google s’avère de plus en plus précis
Une étude réalisée par chercheurs de Google et publié dans Nature révèle que la technologie d’IA générative du géant de la technologie, Med-PaLM, a fourni des réponses détaillées alignées sur le consensus scientifique sur 92,6 % des questions, à égalité avec les réponses générées par les cliniciens à 92,9 %.
Med-PaLM est une technologie d’IA générative qui utilise les LLM de Google pour répondre aux questions médicales.
Les chercheurs ont utilisé MultiMedQA, une norme combinant six ensembles de données de questions médicales existantes couvrant la portée de la recherche, de la médecine professionnelle et des requêtes des consommateurs, et HealthSearchQA, un ensemble de données de questions médicales fréquemment recherchées.
Les questions MultiMedQA ont été posées via PaLM, un LLM de 540 milliards de paramètres, et Flan-PaLM, sa variante réglée sur les instructions.
Les réponses ont ensuite été soumises à des évaluations humaines pour évaluer la compréhension, le raisonnement, la factualité et les éventuels préjudices et préjugés.
En utilisant diverses stratégies d’incitation, Flan-PaLM s’est avéré précis dans la réponse à l’ensemble de données MultiMedQA, avec une précision de 67,6 % sur les questions de type US Medical Licensing Exam, dépassant les niveaux de précision précédents de 17 %. Pourtant, les chercheurs ont noté des lacunes importantes dans ses réponses aux questions médicales des consommateurs.
Par conséquent, les chercheurs ont introduit le réglage rapide des instructions, une technique d’alignement efficace des données et des paramètres, résultant en Med-PaLM, qui a révélé des réponses nettement plus précises (92,9 %) que Flan-PaLM (61,9 %).
Les réponses Flan-PaLM ont également été jugées comme pouvant entraîner des résultats néfastes 29,7 % du temps, contre 5,9 % du temps pour Med-PaLM. La précision des réponses générées par les cliniciens était similaire à Med-PaLM à 5,7 %.
Les chercheurs ont reconnu que de nombreuses limitations doivent encore être surmontées avant que les modèles soient viables pour une utilisation clinique, et une évaluation plus approfondie est nécessaire, en particulier en ce qui concerne la sécurité, les biais et l’équité.
« Nous espérons que les systèmes LLM tels que Med-PaLM, qui sont conçus pour des applications médicales où la sécurité est primordiale, démocratiseront l’accès à des informations médicales de haute qualité, en particulier dans les zones géographiques avec un nombre limité de professionnels de la santé », Vivek Natarajan, chercheur en IA chez Google et l’un des chercheurs de l’étude, a déclaré sur LinkedIn.
« Et finalement, avec un développement ultérieur, une validation rigoureuse de l’innocuité et de l’efficacité, nous espérons que Med-PaLM trouvera une large adoption dans les parcours de soins directs, augmentant ainsi nos cliniciens, réduisant leur charge administrative, aidant à la prise de décision clinique, leur donnant plus de temps pour se concentrer sur les patients et, dans l’ensemble, rendre les soins de santé plus accessibles, équitables, plus sûrs et plus humains. »
LA GRANDE TENDANCE
En mars, le Med-PaLM 2 de la société technologique testé sur des questions de style US Medical Licensing Examination, performant à un niveau de test « expert » avec une précision de plus de 85%. Il a également reçu une note de passage sur le Ensemble de données MedMCQAun ensemble de données à choix multiples conçu pour répondre aux questions réelles des examens d’entrée en médecine.
Un mois plus tard, la société a annoncé Med-PaLM 2 sera disponible pour certains clients Google Cloud dans les semaines à venir pour partager des commentaires, explorer des cas d’utilisation et pour des tests limités.
La société a également annoncé une nouvelle suite d’accélération des réclamations basée sur l’IA, créée pour faciliter le processus d’autorisation préalable et le traitement des réclamations de l’assurance maladie. La Suite convertit les données non structurées (ensembles de données non organisés de manière prédéfinie) en données structurées (ensembles de données hautement organisés et facilement déchiffrables).