Des exemples de vidéos omnihuman démontrent la portée du mouvement humain et animal.
Le propriétaire de Tiktok, ByTedance, a dévoilé Omnihuman-1, un système d’IA qui peut générer des vidéos réalistes de personnes qui parlent, des gestes, du chant, de la lecture d’instruments et plus – le tout à partir d’une seule photo.
«Omnihuman surpasse considérablement les méthodes existantes, générant des vidéos humaines extrêmement réalistes basées sur des entrées de signal faibles, en particulier audio», lit un article de recherche sur l’outil Publié dimanche sur les archives en ligne en ligne Arxiv. «Il prend en charge les entrées d’image de tout rapport d’aspect, qu’il s’agisse de portraits, d’images demi-corps ou de corps complet, fournissant des résultats plus réalisants et de haute qualité dans divers scénarios.»
Sur Page du projet Omnihuman-1les chercheurs partagent des exemples de vidéos présentant les capacités de l’outil. Des exemples démontrent des mouvements de main et de corps observés sous plusieurs angles, des personnages animés, des animaux et des figures historiques ramenées à la vie.
Dans une vidéo noire et blanche nette, Albert Einstein parle devant un tableau noir, ponctuant ses mots avec des gestes de la main et des expressions faciales subtiles: «À quoi ressemblerait l’art sans émotions? Ce serait vide », dit-il. «À quoi ressemblerait nos vies sans émotion? Ils seraient vides de valeurs. »
C’est comme si nous étions remontés dans le temps pour voir le célèbre physicien théorique donner une conférence universitaire, seule les images semblent filmées aujourd’hui.
« Ils sont très impressionnants, » Freddy Tran Nagerprofesseur agrégé de communications clinicienne à l’école Annenberg pour la communication et le journalisme de l’Université de Californie du Sud, a déclaré dans une interview après avoir visionné les exemples de vidéos. «Si vous pensiez à raviver Humphrey Bogart et à le lancer dans un film, je ne sais pas à quoi cela ressemblerait. Mais sur un petit écran, surtout sur un téléphone, ceux-ci sont impressionnants. »
L’outil place la byédance, et donc Tiktok, carrément dans la race bondée et compétitive pour créer les meilleures images les plus réalistes des humains générés par l’IA. Ces chiffres numériques apparaissent partout – comme influenceurs virtuels qui font la promotion de produits, des représentants du gouvernement aidant les citoyens à naviguer dans les services sociaux et les fausses versions de célébrités qui peut divertir et interagir avec les fans – ou en grande partie, apparaissent dans fausses approbations politiques.
Nager dit qu’il pourrait imaginer des systèmes tels que Omnihuman utilisé dans des contextes éducatifs par les enseignants et les élèves: «J’aimerais que Marilyn Monroe m’apprenne les statistiques.» En raison du lien d’Omnihuman avec Tiktok, il pourrait également envisager qu’il soit finalement utilisé par des créateurs de contenu brûlés qui se tournent vers des versions virtuelles d’eux-mêmes pour un répit.
Ou, a-t-il dit, «Tiktok peut dire:« Vous savez quoi? Maintenant, nous pouvons simplement créer des vidéos par nous-mêmes. Qui a besoin des êtres humains? »»
Samantha G. Wolfe – Un professeur auxiliaire à la Steinhardt School of Culture, Education and Human Development de NYU et fondateur de PitchFWD, un cabinet de cabinet de marketing en technologie émergente – voit également à la fois la promesse et le péril potentiel dans des outils comme Omnihuman.
« Créer quelque chose à partir d’une image et donner l’impression que c’est vraiment parler et vraiment émouvant est fascinant d’un point de vue technologique, mais il pourrait également avoir beaucoup de conséquences négatives potentielles », a-t-elle déclaré dans une interview. «Faire semblant de versions de chefs d’entreprise ou de dirigeants politiques qui disent que quelque chose qui n’est pas exact peut avoir une énorme influence sur une entreprise ou une énorme influence sur un pays.»
À mesure que les vidéos générées par l’AI se développent plus sophistiquées, les risques augmentent également, a déclaré Wolfe. « Quand cela commence à ressembler à la réalité, de plus en plus les humains le faisant réellement, la probabilité que les gens croient que cela devient beaucoup plus grand », a-t-elle déclaré.
L’équipe Bytedance a formé Omnihuman sur plus de 18 700 heures de données vidéo humaines, combinant plusieurs types d’entrées, tels que le texte, l’audio et les poses physiques, bien que Bytedance n’ait pas immédiatement répondu à une demande de commentaire pour plus de détails sur les données de formation.
Omnihuman n’est pas le premier outil d’IA à générer des vidéos à partir d’une seule photo, mais ce qui le distingue aux yeux de Nager, c’est la quantité de données d’entraînement auxquelles l’équipe derrière elle a accès. « Si vous avez créé une vidéo Tiktok », a-t-il dit, « il y a de fortes chances que vous soyez maintenant dans une base de données qui va être utilisée pour créer des humains virtuels. »