Google publie l’algorithme d’auto-correction LLM SCoRe

Harold Fortieril y a 11 heuresDernière mise à jour: octobre 15, 2024

Des chercheurs à Google DeepMind a récemment publié un article sur Autocorrection via l’apprentissage par renforcement (SCoRe), une technique pour améliorer la capacité des LLM à s’auto-corriger lors de la résolution de problèmes de mathématiques ou de codage. Les modèles affinés avec SCoRe atteignent des performances améliorées sur plusieurs benchmarks par rapport aux modèles de base.

Contrairement aux méthodes d’autocorrection précédentes qui s’appuient sur une ingénierie rapide ou sur des modèles « enseignants » distincts, SCoRe utilise les données générées par le LLM lui-même pour générer une autocorrection. traces: dialogues synthétiques où le LLM donne une réponse incorrecte, suivi d’une invite de correction, suivi du LLM donnant une réponse correcte. Ces données sont utilisées dans un processus RL en deux étapes pour affiner le LLM. Lorsqu’il est évalué par rapport aux modèles de référence Gemini 1.0, le LLM affiné s’est amélioré de 15,6 points de pourcentage par rapport au MATHÉMATIQUES de référence et 9,1 points de pourcentage sur HumanEval. Selon Google,

L’importance de notre recette en deux étapes (basée sur une initialisation minutieuse et une mise en forme des récompenses) pour obtenir une autocorrection positive suggère peut-être plus généralement qu’une sorte de régularisation est nécessaire pour garantir que les LLM apprennent des stratégies nuancées qui peuvent bien se généraliser à des requêtes nouvelles et invisibles. au moment du test.

L’équipe DeepMind a développé SCoRe après avoir étudié les lacunes d’autres méthodes. Ils ont déclaré qu’« il n’y a pas de travail majeur » qui montre qu’une ingénierie rapide à elle seule peut aboutir à une auto-correction réussie dans les modèles disponibles dans le commerce. Tenter d’améliorer le modèle avec un réglage fin supervisé (SFT) nécessite généralement un humain ou un LLM plus fort pour fournir des corrections. Les méthodes qui utilisent SFT sur des corrections auto-générées « souvent [amplify] le biais du modèle » pour ne pas apporter de corrections, sous peine de « souffrir de la malédiction du changement de distribution ».

Étapes de formation SCoRe

Étapes de formation SCoRe. Source des images : Document de recherche Google DeepMind

SCoRe améliore les méthodes précédentes en utilisant un processus RL en deux étapes. Dans la première étape, le modèle est entraîné pour conserver sa réponse initiale identique mais générer une réponse correcte lors de la deuxième tentative. Dans la deuxième étape, le modèle est récompensé pour les réponses correctes dans les deux réponses, avec une récompense bonus pour une deuxième réponse améliorée. L’objectif est d’empêcher le modèle d’apprendre à « produire la meilleure réponse dès la première tentative et à ne la modifier que de manière mineure ».

Dans un discussion sur SCoRe sur Reddit, un utilisateur a écrit :

Dans l’ensemble, il est intéressant qu’on enseigne comment effectuer des corrections. Mais j’aurais aimé voir les 2ème, 4ème, 5ème tours de quelques exemples pour voir quelles améliorations les tests produisent. De manière informelle, on dirait que le deuxième tour peut faire une grande différence, mais que les tours suivants ont des rendements décroissants.

Utilisateurs dans une discussion Hacker News comparé SCoRe à la méthode OpenAI de peaufiner leurs modèles Omni :

OpenAI a déclaré que l’une des avancées nécessaires au fonctionnement de la pensée de o1 était l’apprentissage par renforcement pour lui apprendre à se remettre d’un raisonnement erroné. [It’s] incroyablement similaire à cet article, qui discute de la difficulté de trouver une méthode de formation qui guide le modèle pour apprendre une technique d’autocorrection (dans laquelle les tentatives ultérieures apprennent et améliorent les tentatives précédentes), au lieu de simplement « s’effondrer » dans un mode de essayer d’obtenir la bonne réponse dès le premier essai.

InfoQ a couvert la sortie par OpenAI de son modèle Omni plus tôt cette année. InfoQ a également couvert l’utilisation par OpenAI d’un LLM pour générer des données de formation afin d’améliorer le code généré par ChatGPT.

Source link

Harold Fortieril y a 11 heuresDernière mise à jour: octobre 15, 2024

Articles similaires

Après Kamal Haasan, Rajinikanth subit une perte contre Lyca

L’Irak commence à construire la plus haute tour de Bagdad

Patrick Mahomes révèle que Taylor Swift cuisine avec sa fille de 3 ans, Sterling

charlotte skene catling sur la relance du silo abandonné d’alvar aalto à oulu en tant que centre de recherche