Jouer aux échecs contre les LLM et le mystère des modèles d’instruction

À première vue, essayer de jouer aux échecs contre un grand modèle de langage (LLM) semble une idée stupide, car ses nœuds pondérés ont, tout au plus, été formés sur certains textes adjacents aux échecs. Il n’a aucune notion d’état du plateau, de stratagèmes, ou même de pièce de « tour » ou de « chevalier ». Cette bêtise est en effet démontrée par [Dynomight] dans un récent article de blog (Version sous-pile), où le Stockfisch L’IA des échecs est opposée à une gamme de LLM, du petit modèle Lama au GPT-3.5. Bien que les résultats (voir l’image sélectionnée) soient en grande partie ceux auxquels on s’attend, il y a une surprise : le gpt-3.5-turbo-instruct modèle, qui semble tout à fait capable de donner du fil à retordre à Stockfish, bien qu’avec les réglages les plus bas de Stockfish.

Chaque modèle a reçu la même requête, lui indiquant d’être un grand maître d’échecs, d’utiliser la notation standard et de choisir son prochain coup. La différence marquée entre le modèle d’instruction et les autres appelle une enquête. OpenAI décrit le modèle instruct comme un « modèle de classe InstructGPT 3.5 », qui nous amène à cette page sur le site d’OpenAI et un article associé 2022 qui décrit comment InstructGPT est effectivement le modèle GPT LLM standard, fortement affiné à l’aide des commentaires humains.

En fin de compte, il semble que les modèles d’instruction fonctionnent mieux avec les requêtes basées sur des instructions car ils ont été programmés de cette façon à l’aide de réglages approfondis. UN [Hacker News] fil de l’année dernière discute de la version Turbo vs Instruct de GPT 3.5. Ce fil utilise également les échecs comme point de comparaison. Entre-temps, ChatGPT est un frère d’InstructGPTselon OpenAI, en utilisant l’apprentissage par renforcement à partir des commentaires humains (RLHF), les utilisateurs de ChatGPT fournissant probablement désormais principalement ces commentaires.

OpenAI note à plusieurs reprises qu’InstructGPT ni ChatGPT fournissent à tout moment des réponses correctes. Cependant, dans le cadre limité des problèmes des échecs, il semblerait qu’il suffise de ne pas ennuyer une IA dédiée aux échecs dans l’oubli numérique.

Si vous voulez un partenaire d’échecs numérique, essayez votre imprimante Postscript. Un logiciel d’échecs n’a pas besoin d’être aussi volumineux qu’un modèle d’IA.

Source link

Canes place Seth Jarvis dans la réserve des blessés »

« Prince Harry, la stratégie de Meghan Markle pour répondre aux inquiétudes du prince Archie

Categories: Tech

Harold Fortier: