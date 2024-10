Des chercheurs à Google DeepMind a récemment publié un article sur Autocorrection via l’apprentissage par renforcement (SCoRe), une technique pour améliorer la capacité des LLM à s’auto-corriger lors de la résolution de problèmes de mathématiques ou de codage. Les modèles affinés avec SCoRe atteignent des performances améliorées sur plusieurs benchmarks par rapport aux modèles de base.

Contrairement aux méthodes d’autocorrection précédentes qui s’appuient sur une ingénierie rapide ou sur des modèles « enseignants » distincts, SCoRe utilise les données générées par le LLM lui-même pour générer une autocorrection. traces: dialogues synthétiques où le LLM donne une réponse incorrecte, suivi d’une invite de correction, suivi du LLM donnant une réponse correcte. Ces données sont utilisées dans un processus RL en deux étapes pour affiner le LLM. Lorsqu’il est évalué par rapport aux modèles de référence Gemini 1.0, le LLM affiné s’est amélioré de 15,6 points de pourcentage par rapport au MATHÉMATIQUES de référence et 9,1 points de pourcentage sur HumanEval. Selon Google,

L’importance de notre recette en deux étapes (basée sur une initialisation minutieuse et une mise en forme des récompenses) pour obtenir une autocorrection positive suggère peut-être plus généralement qu’une sorte de régularisation est nécessaire pour garantir que les LLM apprennent des stratégies nuancées qui peuvent bien se généraliser à des requêtes nouvelles et invisibles. au moment du test.