OpenAI publie un nouveau modèle appelé o1, le premier d’une série prévue de modèles de « raisonnement » qui ont été formés pour répondre à des questions plus complexes, plus rapidement qu’un humain. Il est publié en même temps que o1-mini, une version plus petite et moins chère. Et oui, si vous êtes plongé dans les rumeurs d’IA : il s’agit en fait de la fraise extrêmement en vogue modèle.

Pour OpenAI, o1 représente une étape vers son objectif plus large d’intelligence artificielle de type humain. Plus concrètement, elle est plus efficace que les modèles précédents pour écrire du code et résoudre des problèmes à plusieurs étapes. Mais elle est également plus chère et plus lente à utiliser que GPT-4o. OpenAI appelle cette version d’o1 une « preview » pour souligner à quel point elle est naissante.

Les utilisateurs de ChatGPT Plus et Team ont accès à o1-preview et o1-mini à partir d’aujourd’hui, tandis que les utilisateurs Enterprise et Edu y auront accès au début de la semaine prochaine. OpenAI a annoncé qu’elle prévoyait d’offrir l’accès à o1-mini à tous les utilisateurs gratuits de ChatGPT, mais n’a pas encore fixé de date de sortie. L’accès des développeurs à o1 est vraiment cher : dans l’API, o1-preview coûte 15 $ par million de jetons d’entrée, ou de morceaux de texte analysés par le modèle, et 60 $ par million de jetons de sortie. À titre de comparaison, GPT-4o coûte 5 $ par million de jetons d’entrée et 15 $ par million de jetons de sortie.

Jerry Tworek, responsable de la recherche chez OpenAI, m’a expliqué que la formation d’o1 était fondamentalement différente de celle de ses prédécesseurs, même si l’entreprise reste vague sur les détails exacts. Il a déclaré qu’o1 « a été formé à l’aide d’un tout nouvel algorithme d’optimisation et d’un nouvel ensemble de données de formation spécialement conçu pour lui ».

OpenAI a appris aux modèles GPT précédents à imiter les modèles issus de ses données d’entraînement. Avec o1, il a entraîné le modèle à résoudre les problèmes par lui-même en utilisant une technique connue sous le nom d’apprentissage par renforcement, qui enseigne au système par le biais de récompenses et de pénalités. Il utilise ensuite une « chaîne de pensée » pour traiter les requêtes, de la même manière que les humains traitent les problèmes en les parcourant étape par étape.

Grâce à cette nouvelle méthodologie d’entraînement, OpenAI estime que le modèle devrait être plus précis. « Nous avons remarqué que ce modèle hallucine moins », explique Tworek. Mais le problème persiste. « Nous ne pouvons pas dire que nous avons résolu le problème des hallucinations. »

La principale chose qui distingue ce nouveau modèle du GPT-4o est sa capacité à résoudre des problèmes complexes, tels que le codage et les mathématiques, bien mieux que ses prédécesseurs tout en expliquant son raisonnement, selon OpenAI.

« Le modèle est sans aucun doute meilleur que moi pour résoudre le test de mathématiques AP, et j’étais en mathématiques à l’université », m’a confié Bob McGrew, directeur de la recherche d’OpenAI. Il a également testé o1 lors d’un examen de qualification pour l’Olympiade internationale de mathématiques, et alors que GPT-4o n’a résolu correctement que 13 % des problèmes, o1 a obtenu un score de 83 %.

Dans les concours de programmation en ligne connus sous le nom de concours Codeforces, ce nouveau modèle a atteint le 89e percentile des participants, et OpenAI affirme que la prochaine mise à jour de ce modèle fonctionnera « de manière similaire aux étudiants en doctorat sur des tâches de référence difficiles en physique, chimie et biologie ».

En même temps, o1 n’est pas aussi performant que GPT-4o dans de nombreux domaines. Il n’est pas aussi performant en matière de connaissances factuelles sur le monde. Il n’a pas non plus la capacité de naviguer sur le Web ou de traiter des fichiers et des images. Pourtant, la société estime qu’il représente une toute nouvelle classe de capacités. Il a été nommé o1 pour indiquer « remettre le compteur à 1 ».

« Je vais être honnête : je pense que nous sommes terribles en matière de noms traditionnels », déclare McGrew. « J’espère donc que ce sera la première étape vers de nouveaux noms plus sensés qui transmettront mieux ce que nous faisons au reste du monde. »

Je n’ai pas pu tester o1 moi-même, mais McGrew et Tworek me l’ont montré lors d’un appel vidéo cette semaine. Ils lui ont demandé de résoudre ce puzzle :

« Une princesse a le même âge que le prince lorsqu’il aura deux fois l’âge du prince lorsque l’âge de la princesse sera la moitié de la somme de leur âge actuel. Quel est l’âge du prince et de la princesse ? Donnez toutes les réponses à cette question. »

Le modèle a mis en mémoire tampon pendant 30 secondes, puis a fourni une réponse correcte. OpenAI a conçu l’interface pour afficher les étapes de raisonnement au fur et à mesure que le modèle réfléchit. Ce qui m’a frappé, ce n’est pas qu’il ait montré son travail (GPT-4o peut le faire si on le lui demande), mais la façon dont o1 a délibérément semblé imiter la pensée humaine. Des phrases comme « Je suis curieux de savoir », « Je réfléchis » et « Ok, laissez-moi voir » ont créé une illusion de réflexion étape par étape.

Mais ce modèle ne pense pas, et il n’est certainement pas humain. Alors, pourquoi le concevoir de façon à ce qu’il semble penser ainsi ?

Selon Tworek, OpenAI ne croit pas à l’idée d’assimiler la pensée des modèles d’IA à la pensée humaine. Mais l’interface est censée montrer comment le modèle passe plus de temps à traiter et à approfondir la résolution des problèmes, explique-t-il. « Il y a des manières dont il semble plus humain que les modèles précédents. »

« Je pense que vous verrez qu’il y a de nombreuses façons dont cela semble un peu étrange, mais il y a aussi des façons dont cela semble étonnamment humain », explique McGrew. Le modèle dispose d’un temps limité pour traiter les requêtes, il peut donc dire quelque chose comme : « Oh, je n’ai plus beaucoup de temps, laissez-moi trouver une réponse rapidement. » Au début, pendant sa chaîne de pensée, il peut aussi sembler faire un brainstorming et dire quelque chose comme : « Je pourrais faire ceci ou cela, que dois-je faire ? »

Construire vers les agents

Les grands modèles de langage ne sont pas vraiment si intelligents tels qu’ils existent aujourd’hui. Ils se contentent essentiellement de prédire des séquences de mots pour vous donner une réponse basée sur des modèles appris à partir de vastes quantités de données. Prenez ChatGPT, qui a tendance à prétendent à tort que le mot « fraise » n’a que deux R car il ne décompose pas correctement le mot. Pour ce que ça vaut, le nouveau modèle o1 a réussi à obtenir cette requête correctement.

OpenAI chercherait apparemment à lever davantage de fonds à une valorisation époustouflante de 150 milliards de dollarsson élan dépend de nouvelles avancées en matière de recherche. L’entreprise apporte des capacités de raisonnement aux LLM car elle voit un avenir avec des systèmes autonomes, ou agents, capables de prendre des décisions et d’agir en votre nom.

Pour les chercheurs en intelligence artificielle, déchiffrer le raisonnement est une étape importante vers l’intelligence de niveau humain. L’idée est que si un modèle est capable de faire plus que de reconnaître des formes, il pourrait ouvrir la voie à des avancées dans des domaines tels que la médecine et l’ingénierie. Pour l’instant, cependant, les capacités de raisonnement d’o1 sont relativement lentes, ne sont pas comparables à celles d’un agent et sont coûteuses à utiliser pour les développeurs.