Initialement lancé en décembre 2023, Google Gemini a récemment subi une mise à niveau substantielle avec la sortie début décembre de Gemini 2.0. Il est conçu pour ce que Google appelle « l’ère de l’agent », avec des capacités qui lui permettent d’agir de manière plus indépendante sur des processus complexes en plusieurs étapes.
D’autres améliorations majeures incluent le traitement natif de l’image et du son, des temps de réponse plus rapides, des capacités de codage améliorées et de nouvelles intégrations en cours de développement avec d’autres applications et solutions Google pour vous aider à alimenter votre smartphone, ordinateur et autres appareils connectés Android.
En rapport
5 façons simples de booster votre Android avec Google Gemini
Le tueur de Google Assistant ?
Un assaut époustouflant de nouveaux modèles Gemini
Google a récemment développé une tonne de modèles d’IA différents, avec plusieurs nouvelles versions publiées au cours des dernières semaines. À certains égards, comme la vitesse dans Flash 2.0, les améliorations sont facilement perceptibles. D’autres travaillent dans des domaines plus spécialisés, comme le codage. Pendant ce temps, 2.0 Pro est toujours en développement.
Les nouveaux modèles 2.0 sont disponibles sur ordinateur, et plus récemment dans l’application mobile Gemini, où vous trouverez un sélecteur pour choisir entre eux. Et n’oublions pas le modèle Nano intégré, qui alimente déjà certaines fonctionnalités de Google Pixel telles que les résumés d’appels. Il convient également de noter qu’un autre nouveau modèle, 2.0 Experimental Advanced, est apparu sur le bureau ces derniers jours.
Cependant, comme le souligne Taylor Kerns, Gemini devient de plus en plus complexe et il devient difficile de suivre toutes les variantes. Comme il n’y a pas beaucoup d’informations disponibles sur Experimental Advanced, je me suis contenté des deux dans la comparaison ci-dessous.
Fonctionnalité | Gémeaux 1.5 Pro | Gemini 2.0 Flash expérimental |
Fenêtre contextuelle | 1 million de jetons (environ 750 000 mots ou 1 500 pages de texte) | 1 million de jetons (environ 750 000 mots ou 1 500 pages de texte) |
Vitesse | Réponses en quelques secondes | Environ 2 fois plus rapide |
Consommation d’énergie | Plus haut | Inférieur |
Raisonnement/Logique | Raisonnement et collaboration solides | Revendique un raisonnement amélioré et ajoute des capacités d’agent |
Multimodal | Image et audio convertis en texte pour traitement. | Traitement natif de l’image et du son. Peut désormais « parler » en utilisant les voix de l’IA. |
Création d’images | A été suspendu | Soutenu |
Codage | Peut générer du code | Peut générer et exécuter du code, analyser les réponses API et intégrer des données dans des applications externes |
Gemini 2.0 Flash est une question de vitesse et d’efficacité
Source : Google
Comme son nom l’indique, Gemini 2.0 Flash est conçu pour la vitesse. Google affirme qu’il double la vitesse de son prédécesseur, et en tant qu’utilisateur de 1.5 Pro et 2.0 Flash Experimental, je peux attester de sa vivacité.
2.0 fournit des réponses presque instantanées aux mêmes requêtes qui peuvent prendre quelques secondes à 1.5 Pro. Cela ne semble peut-être pas avoir un impact considérable, mais la réponse instantanée ouvre de nouvelles possibilités pour les applications en temps réel telles que les interactions vocales. Cela rend également l’expérience utilisateur globale plus raffinée. Malgré sa puissance accrue, Gemini 2.0 Flash est également conçu pour être plus économe en énergie, ce qui pourrait directement se traduire par une meilleure autonomie de la batterie de votre smartphone.
Gemini 2.0 Flash apporte des fonctionnalités améliorées dans d’autres domaines essentiels. Google affirme qu’il surpasse Gemini 1.5 Pro dans des tâches complexes telles que le codage, les mathématiques et le raisonnement logique. De plus, Gemini 2.0 Flash peut désormais exécuter directement du code, traiter de manière autonome les réponses de l’API et appeler des fonctions définies par l’utilisateur. La version 2.0 commence à ressembler davantage à une solution de développement de bout en bout qu’à un simple générateur de code.
Gemini veut être votre agent IA
L’IA agentique amène Gemini vers une assistance proactive. Cela signifie que Gemini peut désormais agir en tant qu’agent, effectuant des tâches en plusieurs étapes en votre nom. Les applications futures incluront tout, des jeux et de la robotique à la planification de voyages.
Disons que vous planifiez un voyage à Tokyo. Au lieu de simplement demander à Gemini des suggestions de visites touristiques, vous pouvez lui demander de « créer un itinéraire détaillé pour un voyage de 5 jours à Tokyo, comprenant les attractions incontournables, les recommandations de restaurants locaux et les coûts estimés ». J’ai essayé cette invite exacte et la plate-forme a généré pour moi un itinéraire quotidien convaincant. Mais il manque encore des composants.
Théoriquement, les Gémeaux pourraient même aller plus loin en réservant des vols et des hébergements, en réservant des tables dans des restaurants et bien plus encore. En fait, Flash 2.0 s’intègre à Google Flights et peut afficher la disponibilité des hôtels à votre destination, mais la dernière étape d’automatisation de l’ensemble du processus est encore à venir. Il est facile de comprendre à quel point cela pourrait être difficile à résoudre, car réserver le mauvais vol, par exemple, peut littéralement entraîner un prix élevé. Imaginez une IA vous réservant un voyage vers le mauvais Springfield !
Les Gémeaux 2.0 peuvent voir, entendre et parler
Les progrès en matière d’entrée et de sortie multimodales dans Gemini 2.0 sont une autre caractéristique clé. En intégrant de manière transparente des informations provenant de diverses sources telles que du texte, des images, de la vidéo et de l’audio, Gemini 2.0 peut découvrir le monde davantage comme nous. Cela ouvre la voie à une communication plus humaine.
Gemini 2.0 peut désormais converser en utilisant une voix IA. Dans l’application mobile, j’ai trouvé plusieurs voix différentes parmi lesquelles choisir, j’en ai sélectionné une qui me plaisait et j’ai eu une conversation étonnamment naturelle et fluide au cours de laquelle j’ai posé des questions à l’IA sur une ville que j’aimerais visiter. Le niveau d’effort était nettement inférieur à celui de la saisie de requêtes et de la lecture des réponses. Bien que cette fonctionnalité ne soit pas nouvelle dans l’industrie (pensez aux applications « compagnons » d’IA), elle est nouvelle pour Gemini.
Le traitement natif de l’image et du son apporte des améliorations notables
Une amélioration intéressante de Gemini 2.0 est sa capacité à traiter directement les images et l’audio. En revanche, ses prédécesseurs convertissaient ces entrées en texte, entraînant davantage de pertes d’informations. Le traitement direct permet une compréhension plus approfondie de l’entrée. Gemini 2.0 peut non seulement identifier les éléments d’une image ou d’un son, mais peut également comprendre les interrelations et la scène dans son ensemble.
Pendant les tests, j’ai alimenté Gemini 2.0 Flash avec une image que j’avais prise depuis mon bureau. Au premier plan se trouve une moustiquaire, tandis qu’au milieu se trouvent des arbustes et d’autres objets. L’IA a tout de suite su que la photo avait été prise à travers un écran et a décrit de manière très détaillée les autres éléments de la scène. Dans l’ensemble, j’ai constaté que le modèle 2.0 offre une analyse des images plus nuancée et détaillée que la version précédente.
La génération d’image des Gémeaux est de retour, mais est-ce que ça intéresse quelqu’un ?
Malgré la fanfare autour des capacités améliorées de Gemini 2.0, le retour de sa fonction de génération d’images Imagen a été un peu ennuyeux. Après la controverse initiale et la désactivation ultérieure de la fonctionnalité en raison de préjugés et d’inexactitudes, la réédition semble inintéressante. Peut-être qu’Imagen a été édulcoré pour éviter une controverse supplémentaire, ou peut-être est-ce simplement que la nouveauté de la génération d’images par l’IA s’est dissipée pendant la longue pause de Google.
L’image ci-dessus est celle créée par Gemini 2.0 Flash Experimental lorsqu’il est invité à « créer l’image la plus intéressante que vous puissiez créer ». Même si je comprends qu’il s’agit d’une invite subjective, je qualifierais néanmoins le résultat de décevant. Au mieux, cela ressemble à une scène de jeu vidéo.
Grâce à d’autres expérimentations, lorsque j’ai demandé à Flash Experimental 2.0 simplement de « créer une image de personnes », il a refusé. Revenir à 1.5 Pro et donner la même invite a donné lieu à une image ressemblant à une photo d’un groupe d’amis aux couleurs vives. Avec Imagen, nous voyons à travers les yeux de l’IA de Google, et sa perspective n’est pas très inspirante.
De nouvelles intégrations préfigurent l’avenir
Source : Google
En intégrant les capacités de Gemini dans des services de base tels que la recherche, Maps et Workspace, Google vise à offrir une expérience utilisateur plus unifiée.
À l’avenir, vos requêtes de recherche sur Google produiront des réponses dynamiques basées sur l’IA qui s’appuieront probablement sur les informations de vos e-mails, de vos documents et même de votre historique de localisation pour fournir des résultats plus pertinents sur le plan personnel. Google expérimente déjà des résumés de recherche IA qui présentent des aperçus audio dans le style de son produit sœur, NotebookLM.
Les premières initiatives comme le Projet Astra et le Projet Mariner voient enfin le jour dans les derniers modèles Gemini. Astra comprend l’expérimentation d’agents de code basés sur l’IA, tels que Jules. Pendant ce temps, Mariner pourrait permettre des tâches telles que le remplissage automatique de formulaires ou la synthèse de pages Web. Ces projets constituent essentiellement les piliers philosophiques sur lesquels Google développe ses applications et services d’IA.
En rapport
Le modèle expérimental Gemini 2.0 Advanced de Google est là, mais pas pour tout le monde
L’abonnement gratuit de votre Pixel pourrait s’avérer utile
Google construit une base solide d’IA avec Gemini
Gemini 2.0 constitue une avancée significative pour l’IA de Google, offrant des vitesses plus rapides, un raisonnement amélioré et une intégration multimodale transparente. Le retour terne de la génération d’images et la gamme confuse de variantes de modèles mettent en évidence la complexité de cette catégorie en évolution rapide.
Cependant, les progrès de l’IA agentique, les nouvelles capacités de codage, de voix et d’image, ainsi que l’intégration plus approfondie avec les principaux services de Google présagent de bonnes choses à venir en 2025.