Jaque Silva | Images SOPA | LighTrocket | Images getty
Google Mercredi, a publié Gemini 2.0 – sa suite de modèles d’intelligence artificielle « la plus compétente » à ce jour – à tout le monde.
En décembre, la société a donné accès aux développeurs et aux testeurs de confiance, ainsi qu’à emballer certaines fonctionnalités dans Google Products, mais il s’agit d’une « version générale », selon Google.
La suite de modèles comprend 2.0 Flash, qui est présentée comme un « modèle de cheval de bataille, optimal pour les tâches à haute fréquence à volume élevé »; 2.0 Pro expérimental, qui est largement axé sur les performances de codage; et 2.0 Flash-Lite, que Google facture comme « son modèle le plus rentable à ce jour ».
Gemini Flash coûte aux développeurs 10 cents par million de jetons pour les entrées de texte, d’image et de vidéo, tandis que Flash-Lite, sa version plus rentable, coûte 0,75 de centime pour le même.
Les sorties continues font partie d’une stratégie plus large pour l’investissement massivement dans les « agents de l’IA », car la course aux armements de l’IA se réchauffe parmi les géants et les startups de la technologie.
MétaAmazon, MicrosoftOpenai et Anthropic se dirigent également vers une IA agentique, ou des modèles qui peuvent effectuer des tâches complexes en plusieurs étapes au nom d’un utilisateur, plutôt qu’un utilisateur devant lui parcourir chaque étape individuelle.
« Au cours de la dernière année, nous avons investi dans le développement de modèles plus agentiques, ce qui signifie qu’ils peuvent mieux comprendre le monde qui vous entoure, penser plusieurs étapes et prendre des mesures en votre nom, avec votre supervision », a écrit Google en décembre article de blogajoutant que Gemini 2.0 a « de nouvelles avancées dans la multimodalité – comme l’image native et la sortie audio – et l’utilisation d’outils natifs » et que la famille des modèles « nous permettra de construire de nouveaux agents d’IA qui nous rapprochent de notre vision d’un universel assistant. »
Anthropic, la startup d’IA soutenue par Amazon fondée par les ex-dirigeants de la recherche-openai, est un concurrent clé de la course pour développer des agents de l’IA. En octobre, la startup a déclaré que ses agents de l’IA avaient pu utiliser des ordinateurs comme les humains pour effectuer des tâches complexes. La capacité d’utilisation de l’ordinateur d’Anthropic permet à sa technologie d’interpréter ce qu’il y a sur un écran d’ordinateur, de sélectionner des boutons, de saisir du texte, de naviguer sur des sites Web et d’exécuter des tâches via tous les logiciels et la navigation sur Internet en temps réel, a déclaré le démarrage.
L’outil peut « utiliser des ordinateurs de la même manière que nous », a déclaré Jared Kaplan, directeur des sciences d’Anthropic, à CNBC dans une interview à l’époque. Il a dit que cela peut faire des tâches avec « des dizaines ou même des centaines de pas ».
OpenAI a récemment publié un outil similaire, introduisant une fonctionnalité intitulée Opérateur qui automatisera des tâches telles que la planification des vacances, le remplissage des formulaires, la réservation de restaurants et la commande d’épicerie. L’opérateur a décrit le démarrage à dos de Microsoft comme « un agent qui peut aller sur le Web pour effectuer des tâches pour vous ».
Plus tôt cette semaine, OpenAI a annoncé un autre outil appelé Deep Research qui permet à un agent d’IA de compiler des rapports de recherche complexes et d’analyser les questions et sujets du choix de l’utilisateur. Google a lancé en décembre un outil similaire du même nom – Deep Research – qui agit comme un « assistant de recherche, explorant des sujets complexes et compilant des rapports en votre nom ».
CNBC a rapporté en décembre pour la première fois que Google présenterait plusieurs fonctionnalités d’IA au début de 2025.
« Dans l’histoire, vous n’avez pas toujours besoin d’être le premier, mais vous devez bien exécuter et être vraiment le meilleur de la classe en tant que produit », a déclaré le PDG Sundar Pichai lors d’une réunion de stratégie à l’époque. « Je pense que c’est ce qu’est 2025. »