Rejoignez nos newsletters quotidiennes et hebdomadaires pour les dernières mises à jour et le contenu exclusif sur la couverture de l’IA. Apprendre encore plus
La série Gémeaux de Google de modèles de grande langue (LLMS) de Google a commencé à être brut il y a près d’un an avec des incidents embarrassants de génération d’images qui ont mal tourné, mais il s’est régulièrement amélioré depuis lors, et la société semble déterminée à faire ses efforts de deuxième génération – Gemini 2.0 – Le plus grand et le meilleur à ce jour pour les consommateurs et les entreprises.
Aujourd’hui, l’entreprise annoncé La libération générale de Gemini 2.0 Flash, a introduit Gemini 2.0 Flash-Lite et déployé une version expérimentale de Gemini 2.0 Pro.
Ces modèles, conçus pour soutenir les développeurs et les entreprises, sont désormais accessibles via Google AI Studio et Vertex AI, avec Flash-Lite en aperçu public et pro disponible pour les tests précoces.
« Tous ces modèles présenteront une entrée multimodale avec une sortie de texte à la version, avec plus de modalités prêtes pour la disponibilité générale dans les prochains mois », a écrit Koray Kavukcuoglu, CTO de Google Deepmind à la table même si des concurrents tels que Deepseek et Openai continuent de lancer de puissants rivaux.
Google joue à ses strenthts multimodaux
Ni Deepseek-R1 ni le nouveau modèle O3-MinI d’OpenAI ne peuvent accepter les entrées multimodales – c’est-à-dire des images et des téléchargements de fichiers ou des pièces jointes.
Bien que R1 puisse les accepter sur son site Web et son chat d’application mobile, le modèle effectue une technologie de la reconnaissance optique des caractères (OCR), une technologie de plus de 60 ans, pour extraire le texte uniquement de ces téléchargements – ne comprenant ni n’analysant l’un des autres caractéristiques qui y sont contenues.
Cependant, les deux sont une nouvelle classe de modèles de «raisonnement» qui prennent délibérément plus de temps pour réfléchir aux réponses et réfléchir aux «chaînes de pensées» et à l’exactitude de leurs réponses. Cela s’oppose à des LLM typiques comme la série Gemini 2.0 Pro, donc la comparaison entre Gemini 2.0, Deepseek-R1 et Openai O3 est un peu une pomme-orange.
Mais il y avait aussi quelques nouvelles sur le raisonnement du raisonnement de Google: le PDG de Google, Sundar Pichai réseau social x pour déclarer que le Google Gemini L’application mobile pour iOS et Android a été mise à jour avec le modèle de raisonnement rival de Google Gemini 2.0 Flash Thinking. Le modèle peut être connecté à Google Maps, YouTube et Google Search, permettant une toute nouvelle gamme de recherches et d’interactions propulsées par l’IA qui ne peuvent tout simplement pas être appariées par des arrivants sans des services tels que Deepseek et Openai.
Je l’ai essayé brièvement sur l’application Google Gemini iOS sur mon iPhone lors de l’écriture de cette pièce, et c’était impressionnant basé sur mes questions initiales, en réfléchissant aux points communs des 10 vidéos YouTube les plus populaires du mois dernier et me fournissant également un tableau des bureaux des médecins à proximité et des heures d’ouverture / de fermeture, le tout en quelques secondes.
Gemini 2.0 Flash entre une version générale
Le modèle Flash Gemini 2.0, lancé à l’origine en tant que version expérimentale en décembre, est désormais prêt pour la production.
Conçu pour les applications d’IA à haute efficacité, il fournit des réponses à faible latence et prend en charge le raisonnement multimodal à grande échelle.
Un avantage majeur sur la concurrence est dans sa fenêtre de contexte, ou le nombre de jetons que l’utilisateur peut ajouter sous la forme d’une invite et recevoir en une seule interaction de va-et-vient avec un chatbot ou une interface de programmation d’application LLM (application ( Api).
Alors que de nombreux modèles de premier plan, tels que le nouvel O3-Mini d’Openai qui a fait ses débuts la semaine dernière, ne prend en charge que 200 000 jetons ou moins – sur l’équivalent d’un roman de 400 à 500 pages – Gemini 2.0 Flash prend en charge 1 million, ce qui signifie qu’il est capable de gérer un vaste quantités d’informations, ce qui les rend particulièrement utiles pour les tâches à haute fréquence et à grande échelle.
Gemini 2.0 Flash-Lite arrive pour plier la courbe de coût au plus bas à ce jour
Gemini 2.0 Flash-Lite, quant à lui, est un tout nouveau LLM visant à fournir une solution d’IA rentable sans compromettre la qualité.
Google DeepMind déclare que Flash-Lite surpasse son prédécesseur complet (plus grand-nombre de paramètres), Gemini 1.5 Flash, sur des références tierces telles que MMLU Pro (77,6% contre 67,3%) et la programmation SQL Bird (57,4% vs. 45,6%), tout en conservant les mêmes prix et vitesse.
Il prend également en charge les entrées multimodales et dispose d’une fenêtre de contexte de 1 million de jetons, similaire au modèle Flash complet.
Actuellement, Flash-Lite est disponible dans l’aperçu public via Google AI Studio et Vertex AI, avec une disponibilité générale attendue dans les semaines à venir.
Comme le montre le tableau ci-dessous, Gemini 2.0 Flash-Lite est au prix de 0,075 $ par million de jetons (entrée) et 0,30 $ par million de jetons (sortie). Flash-Lite est positionné comme une option très abordable pour les développeurs, surpassant les Gemini 1.5 Flash dans la plupart des repères tout en conservant la même structure de coûts.
Logan Kilpatrick a souligné l’abordabilité et la valeur des modèles, indiquant X: « Gemini 2.0 Flash est la meilleure valeur de n’importe quel LLM, il est temps de construire! »
En effet, par rapport aux autres LLM traditionnels de premier plan disponibles via l’API du fournisseur, comme Openai 4O-MINI (0,15 $ / 0,6 $ pour 1 million de jetons en / sortie), Claude anthropique (0,8 $ / 4 $! Par 1 m dans / out) et même le LLM V3 traditionnel de Deepseek (0,14 $ / 0,28 $), dans Gemini 2.0 Flash semble être le meilleur coup pour le mâle.
Gemini 2.0 Pro arrive dans la disponibilité expérimentale avec une fenêtre de contexte de 2 millions de jetons
Pour les utilisateurs nécessitant des capacités d’IA plus avancées, le modèle Gemini 2.0 Pro (expérimental) est désormais disponible pour les tests.
Google DeepMind décrit cela comme son modèle le plus fort pour le codage des performances et la possibilité de gérer des invites complexes. Il dispose d’une fenêtre de contexte de 2 millions de personnes et de capacités de raisonnement améliorées, avec la possibilité d’intégrer des outils externes tels que Google Search et Exécution de code.
Sam Witteveen, co-fondatrice et PDG de Red Dragon AI et expert externe de développeur Google pour l’apprentissage automatique qui s’associe souvent à VentureBeat, a discuté du modèle Pro dans une revue YouTube. « Le nouveau modèle Gemini 2.0 Pro a une fenêtre de contexte de deux millions de millions, prend en charge les outils, l’exécution de code, l’appel de fonction et la mise à la terre avec Google Search – tout ce que nous avions dans Pro 1.5, mais amélioré. »
Il a également noté l’approche itérative de Google au développement de l’IA: «L’une des principales différences dans la stratégie de Google est qu’ils publient des versions expérimentales de modèles avant de passer GA (généralement accessible), permettant une itération rapide en fonction de la rétroaction.»
Les références de performance illustrent en outre les capacités de la famille des modèles Gemini 2.0. Gemini 2.0 Pro, par exemple, surpasse Flash et Flash-Lite entre les tâches comme le raisonnement, la compréhension multilingue et le traitement à long contexte.
Sécurité de l’IA et développements futurs
Parallèlement à ces mises à jour, Google Deepmind implémente de nouvelles mesures de sécurité et de sécurité pour ses modèles Gemini 2.0. La société tire parti des techniques d’apprentissage du renforcement pour améliorer la précision de la réponse, en utilisant l’IA pour critiquer et affiner ses propres résultats. De plus, des tests de sécurité automatisés sont utilisés pour identifier les vulnérabilités, y compris les menaces d’injection rapide indirectes.
Pour l’avenir, Google Deepmind prévoit d’élargir les capacités de la famille des modèles Gemini 2.0, avec des modalités supplémentaires au-delà du texte qui devraient être généralement disponibles dans les prochains mois.
Avec ces mises à jour, Google renforce sa poussée dans le développement de l’IA, offrant une gamme de modèles conçus pour l’efficacité, l’abordabilité et la résolution de problèmes avancés, et répondant à la montée en profondeur avec sa propre suite de modèles allant de puissants à très puissants et extrêmement abordables à un peu moins (mais toujours considérablement) abordable.
Sera-ce suffisant pour aider Google à manger dans une partie du marché de l’IA de l’entreprise, qui était autrefois dominé par OpenAI et a maintenant été bouleversé par Deepseek? Nous continuerons de suivre et vous le ferons savoir!