Google abandonne le nouveau modèle Gemini et il passe directement au sommet du classement LLM
Google met constamment à jour Gemini, publiant de nouvelles versions de sa famille de modèles d’IA toutes les quelques semaines. La dernière en date est si bonne qu’elle s’est hissée directement au sommet du classement Imarena Chatbot Arena, renversant la dernière version du GPT-4o d’OpenAI.
Anciennement connu sous le nom de Arène LMSys, il s’agit d’une plate-forme qui permet aux laboratoires d’IA d’opposer leurs meilleurs modèles dans un face-à-face aveugle. Les utilisateurs votent mais ne savent quel modèle est quel modèle avant d’avoir voté.
Le nouveau modèle de Google DeepMind porte le nom accrocheur Gemini-Exp-1114 et correspond à la dernière version de GPT-4o et dépasse les capacités du modèle de raisonnement o1-preview d’OpenAI.
Les 5 meilleurs modèles de l’arène sont toutes des versions de modèles OpenAI ou Google. Le premier modèle du classement qui n’est fabriqué par aucune de ces sociétés est le Grok 2 de xAI.
Le succès de ce nouveau modèle intervient alors que Google publie enfin une application Gemini pour iPhone, qui a battu l’application ChatGPT lors de notre confrontation en 7 rounds Gemini contre ChatGPT.
Dans quelle mesure le nouveau modèle fonctionne-t-il ?
Nouvelles massives de Chatbot Arena🔥@Le dernier Gemini de GoogleDeepMind (Exp 1114), testé avec plus de 6 000 votes de la communauté au cours de la semaine dernière, se classe désormais au premier rang du classement général avec un impressionnant bond de score de 40+, correspondant au dernier 4o et dépassant l’aperçu o1 ! Il revendique également le numéro 1 sur Vision… https://t.co/AgfOk9WHNZ pic.twitter.com/HPmcWE6zzI14 novembre 2024
Le dernier modèle Gemini semble particulièrement performant dans les tâches de mathématiques et de vision, ce qui est logique car ce sont des domaines dans lesquels tous les modèles Gemini excellent.
Gemini-Exp-1114 n’est actuellement pas disponible dans l’application ou le site Web Gemini. Vous ne pouvez y accéder qu’en créant un compte gratuit Google AI Studio (la plateforme destinée aux développeurs souhaitant essayer de nouvelles idées).
Je ne sais pas non plus s’il s’agit d’une version de Gemini 1.5 ou s’il s’agit d’un premier aperçu de Gemini 2, attendu le mois prochain. Si c’est cette dernière solution, l’amélioration par rapport à la génération précédente pourrait ne pas être aussi extrême que certains l’espéraient.
Cependant, il s’en sort bien dans les domaines techniques et créatifs selon les benchmarks. Cela serait lié à l’idée que cela va être utile pour le raisonnement et la gestion des agents. C’est d’abord en mathématiques, en résolution de problèmes difficiles, en écriture créative et en vision.
Contrairement à d’autres benchmarks, Chatbot Arena est basé sur des perceptions humaines des performances et de la qualité des résultats, plutôt que sur des tests rigides par rapport aux données.
Qu’il s’agisse simplement d’une nouvelle version de Gemini 1.5 Pro ou d’un premier aperçu des capacités de Gemini 2, ces mois s’annoncent intéressants au pays de l’IA.