Meta dévoile une IA qui génère une vidéo basée sur des invites textuelles

Bien que l’effet soit plutôt grossier, le système offre un premier aperçu de ce qui s’en vient pour l’intelligence artificielle générative, et c’est la prochaine étape évidente des systèmes d’IA texte-image qui ont provoqué une énorme excitation cette année.

L’annonce par Meta de Make-A-Video, qui n’est pas encore mise à la disposition du public, incitera probablement d’autres laboratoires d’IA à publier leurs propres versions. Cela soulève également de grandes questions éthiques.

Rien qu’au cours du dernier mois, le laboratoire d’intelligence artificielle OpenAI a mis à la disposition de tous son dernier système d’IA texte-image DALL-E, et la start-up Stability.AI a lancé Stable Diffusion, un système texte-image open source.

Mais l’IA text-to-video s’accompagne de défis encore plus importants. D’une part, ces modèles nécessitent une grande quantité de puissance de calcul. Ils représentent une augmentation de calcul encore plus importante que les grands modèles d’IA texte-image, qui utilisent des millions d’images pour s’entraîner, car l’assemblage d’une seule courte vidéo nécessite des centaines d’images. Cela signifie que seules les grandes entreprises technologiques peuvent se permettre de construire ces systèmes dans un avenir prévisible. Ils sont également plus difficiles à former, car il n’existe pas d’ensembles de données à grande échelle de vidéos de haute qualité associées à du texte.

Pour contourner ce problème, Meta a combiné les données de trois ensembles de données d’images et de vidéos open source pour former son modèle. Des ensembles de données texte-image standard d’images fixes étiquetées ont aidé l’IA à savoir comment les objets sont appelés et à quoi ils ressemblent. Et une base de données de vidéos l’a aidé à comprendre comment ces objets sont censés se déplacer dans le monde. La combinaison des deux approches a aidé Make-A-Video, qui est décrit dans un rapport non évalué par des pairs article publié aujourd’huigénérer des vidéos à partir de texte à grande échelle.

Tanmay Gupta, chercheur en vision par ordinateur à l’Allen Institute for Artificial Intelligence, affirme que les résultats de Meta sont prometteurs. Les vidéos partagées montrent que le modèle peut capturer des formes 3D lorsque la caméra tourne. Le modèle a également une certaine notion de profondeur et de compréhension de l’éclairage. Gupta dit que certains détails et mouvements sont décemment faits et convaincants.

Cependant, “il y a beaucoup de place pour la communauté des chercheurs, surtout si ces systèmes doivent être utilisés pour le montage vidéo et la création de contenu professionnel”, ajoute-t-il. En particulier, il est encore difficile de modéliser des interactions complexes entre objets.

Dans la vidéo générée par l’invite “Peinture au pinceau d’un artiste sur une toile”, le pinceau se déplace sur la toile, mais les traits sur la toile ne sont pas réalistes. “J’aimerais voir ces modèles réussir à générer une séquence d’interactions, telles que” L’homme prend un livre sur l’étagère, met ses lunettes et s’assoit pour le lire en buvant une tasse de café “”, Gupta dit.