Google DeepMind, le laboratoire de recherche phare de Google sur l’IA, veut battre OpenAI dans le jeu de génération vidéo – et cela pourrait bien, au moins pour un petit moment.
Lundi, DeepMind a annoncé Veo 2, une IA de génération vidéo de nouvelle génération et le successeur de Veo, qui alimente un nombre croissant de produits dans le portefeuille de Google. Veo 2 peut créer des clips de plus de deux minutes dans des résolutions allant jusqu’à 4k (4 096 x 2 160 pixels).
Notamment, cela représente 4 fois la résolution – et plus de 6 fois la durée – que Sora d’OpenAI peut atteindre.
C’est un avantage théorique pour l’instant, certes. Dans l’outil expérimental de création vidéo de Google, VideoFX, où Veo 2 est désormais exclusivement disponible, les vidéos sont limitées à 720p et durent huit secondes. (Sora peut produire des clips jusqu’à 1080p d’une durée de 20 secondes.)
VideoFX est derrière une liste d’attente, mais Google affirme qu’il augmente le nombre d’utilisateurs pouvant y accéder cette semaine.
Eli Collins, vice-président des produits chez DeepMind, a également déclaré à TechCrunch que Google rendrait Veo 2 disponible via sa plate-forme de développement Vertex AI « à mesure que le modèle sera prêt à être utilisé à grande échelle ».
« Au cours des prochains mois, nous continuerons à itérer en fonction des commentaires des utilisateurs », a déclaré Collins, « et [we’ll] cherchez à intégrer les capacités mises à jour de Veo 2 dans des cas d’utilisation convaincants à travers l’écosystème Google… [W]Nous prévoyons de partager davantage de mises à jour l’année prochaine.
Plus contrôlable
Comme Veo, Veo 2 peut générer des vidéos à partir d’une invite textuelle (par exemple « Une voiture qui roule sur une autoroute ») ou d’un texte et d’une image de référence.
Alors quoi de neuf dans Veo 2 ? Eh bien, DeepMind affirme que le modèle, qui peut générer des clips dans une gamme de styles, a une « compréhension » améliorée de la physique et des commandes de la caméra, et produit des images « plus claires ».
Par plus clair, DeepMind signifie que les textures et les images des clips sont plus nettes, en particulier dans les scènes comportant beaucoup de mouvement. Quant aux commandes de caméra améliorées, elles permettent à Veo 2 de positionner plus précisément la « caméra » virtuelle dans les vidéos qu’elle génère, et de déplacer cette caméra pour capturer des objets et des personnes sous différents angles.
DeepMind affirme également que Veo 2 peut modéliser de manière plus réaliste le mouvement, la dynamique des fluides (comme le café versé dans une tasse) et les propriétés de la lumière (telles que les ombres et les reflets). Cela inclut différents objectifs et effets cinématographiques, explique DeepMind, ainsi qu’une expression humaine « nuancée ».
DeepMind a partagé quelques échantillons triés sur le volet de Veo 2 avec TechCrunch la semaine dernière. Pour les vidéos générées par l’IA, elles avaient l’air plutôt bonnes, voire exceptionnellement bonnes. Veo 2 semble avoir une solide maîtrise de la réfraction et des liquides délicats, comme le sirop d’érable, et un talent pour imiter une animation de style Pixar.
Mais malgré l’insistance de DeepMind sur le fait que le modèle est moins susceptible d’halluciner des éléments tels que des doigts supplémentaires ou des « objets inattendus », Veo 2 ne peut pas vraiment dégager cette étrange vallée.
Notez les yeux sans vie de cette créature ressemblant à un chien de dessin animé :
Et la route étrangement glissante dans cette séquence – plus les piétons en arrière-plan qui se mélangent les uns aux autres et les bâtiments aux façades physiquement impossibles :
Collins a admis qu’il y avait du travail à faire.
« La cohérence et l’homogénéité sont des domaines de croissance », a-t-il déclaré. « Veo peut systématiquement adhérer à une invite pendant quelques minutes, mais [it can’t] adhérer à des invites complexes sur de longs horizons. De même, la cohérence des personnages peut être un défi. Il est également possible de s’améliorer en générant des détails complexes, des mouvements rapides et complexes, et en continuant à repousser les limites du réalisme.
DeepMind continue de travailler avec des artistes et des producteurs pour affiner ses modèles et outils de génération vidéo, a ajouté Collins.
« Nous avons commencé à travailler avec des créatifs comme Donald Glover, the Weeknd, d4vd et d’autres depuis le début de notre développement Veo pour vraiment comprendre leur processus créatif et comment la technologie pourrait aider à donner vie à leur vision », a déclaré Collins. « Notre travail avec les créateurs sur Veo 1 a éclairé le développement de Veo 2, et nous sommes impatients de travailler avec des testeurs et des créateurs de confiance pour obtenir des commentaires sur ce nouveau modèle. »
Sécurité et formation
Veo 2 a été formé sur de nombreuses vidéos. C’est généralement ainsi que fonctionnent les modèles d’IA : fournis exemple après exemple d’une certaine forme de données, les modèles détectent des modèles dans les données qui leur permettent de générer de nouvelles données.
DeepMind ne dira pas exactement où il a récupéré les vidéos pour entraîner Veo 2, mais YouTube est une source possible ; Google possède YouTube, et DeepMind a précédemment déclaré à TechCrunch que les modèles Google comme Veo « pourraient » être formés sur certains contenus YouTube.
« Veo a été formé sur les couplages vidéo-description de haute qualité », a déclaré Collins. « Les paires vidéo-description sont une vidéo et une description associée de ce qui se passe dans cette vidéo. »
Alors que DeepMind, via Google, héberge des outils permettant aux webmasters d’empêcher les robots du laboratoire d’extraire les données de formation de leurs sites Web, DeepMind n’offre pas de mécanisme permettant aux créateurs de supprimer des œuvres de ses ensembles de formation existants. Le laboratoire et sa société mère soutiennent que les modèles de formation utilisant des données publiques sont utilisation équitablece qui signifie que DeepMind estime qu’il n’est pas obligé de demander la permission aux propriétaires de données.
Tous les créatifs ne sont pas d’accord, surtout à la lumière de études on estime que des dizaines de milliers d’emplois dans le cinéma et la télévision pourraient être perturbés par l’IA dans les années à venir. Plusieurs sociétés d’IA, dont la startup éponyme à l’origine de la populaire application artistique d’IA Midjourney, sont dans la ligne de mire de poursuites judiciaires les accusant de porter atteinte aux droits des artistes en formant des contenus sans consentement.
« Nous nous engageons à travailler en collaboration avec les créateurs et nos partenaires pour atteindre des objectifs communs », a déclaré Collins. « Nous continuons à travailler avec la communauté créative et les personnes de l’ensemble du secteur, en recueillant des informations et en écoutant les commentaires, y compris ceux qui utilisent VideoFX. »
En raison du comportement actuel des modèles génératifs lorsqu’ils sont entraînés, ils comportent certains risques, comme la régurgitation, qui fait référence au moment où un modèle génère une copie miroir des données d’entraînement. La solution de DeepMind consiste en des filtres au niveau des invites, notamment pour les contenus violents, graphiques et explicites.
Google politique d’indemnisationqui fournit une défense à certains clients contre les allégations de violation du droit d’auteur découlant de l’utilisation de ses produits, ne s’appliquera pas à Veo 2 jusqu’à ce qu’il soit généralement disponible, a déclaré Collins.
Pour atténuer le risque de deepfakes, DeepMind affirme utiliser sa technologie de filigrane exclusive, SynthID, pour intégrer des marqueurs invisibles dans les images générées par Veo 2. Cependant, comme toutes les technologies de filigrane, SynthID n’est pas infaillible.
Mises à niveau de l’image
En plus de Veo 2, Google DeepMind a annoncé ce matin des mises à niveau d’Imagen 3, son modèle commercial de génération d’images.
Une nouvelle version d’Imagen 3 est déployée dès aujourd’hui auprès des utilisateurs d’ImageFX, l’outil de génération d’images de Google. Il peut créer des images et des photos « plus lumineuses et mieux composées » dans des styles tels que le photoréalisme, l’impressionnisme et l’anime, selon DeepMind.
«Cette mise à niveau [to Imagen 3] suit également les invites plus fidèlement et restitue des détails et des textures plus riches », a écrit DeepMind dans un article de blog fourni à TechCrunch.
Parallèlement au modèle, des mises à jour de l’interface utilisateur d’ImageFX sont déployées. Désormais, lorsque les utilisateurs tapent des invites, les termes clés de ces invites deviendront des « chiplets » avec un menu déroulant de mots suggérés et associés. Les utilisateurs peuvent utiliser les puces pour répéter ce qu’ils ont écrit ou sélectionner parmi une rangée de descripteurs générés automatiquement sous l’invite.