Regardez la courte vidéo Head Head ci-dessous. Certes, il est en français, et une inspection étroite peut-elle susciter des soupçons, mais peut-être que cela ne savait pas que cela pourrait bien tromper les gens de croire qu’il s’agit d’une vraie vidéo et non générée par l’AI.
Le clip provient d’Omnihuman-1, un système vidéo AI créé par Bytedance – la société chinoise derrière Tiktok – qui peut profondément une personne utilisant une seule photo et un seul élément d’audio.
Omnihuman-1 n’est qu’un document de recherchepour l’instant, mais les démos byédance montrent puissamment impressionnantes et semblent être une amélioration des autres applications DeepFake qui souffrent du syndrome d’Incanny Valley.
Croquant technologique rapports Cet Omnihuman-1 a été formé sur 19 000 heures de contenu vidéo provenant de «sources non divulguées» que vous pouvez garantir que toute byédance vidéo trouvée sur Internet ou toute autre plate-forme – protégeait ou non. L’outil d’IA peut également modifier les vidéos existantes et peut modifier les mouvements des membres d’une personne. Croquant technologique Appelle les résultats «étonnants».
Dans les exemples ci-dessous, une femme donnant une fausse conversation TED atteint un bon niveau de vraisemblance tandis qu’une AI Albert Einstein donne une conférence devant un tableau.
«Nous proposons un cadre de génération de vidéos humaines de bout en bout climatisé nommé Omnihuman, qui peut générer des vidéos humaines basées sur une seule image humaine et des signaux de mouvement (par exemple, audio uniquement, vidéo uniquement ou une combinaison d’audio et de vidéo) », Écrivent les chercheurs de Bytedance.
«Dans Omnihuman, nous introduisons une stratégie de formation mixte de conditionnement de mouvement multimodalité, permettant au modèle de bénéficier d’une mise à l’échelle des données du conditionnement mixte. Cela surmonte le problème auquel les approches de bout en bout précédentes sont confrontées en raison de la rareté des données de haute qualité. Omnihuman surpasse considérablement les méthodes existantes, générant des vidéos humaines extrêmement réalistes basées sur des entrées de signal faibles, en particulier l’audio. Il prend en charge les entrées d’image de tout rapport d’aspect, qu’il s’agisse de portraits, de demi-corps ou d’images du corps complet, fournissant des résultats plus réalisants et de haute qualité dans divers scénarios. »
Les utilisateurs d’Omnihuman-1 obtiendront de meilleurs résultats s’ils utilisent des images de référence de haute qualité et haute résolution. Il a même partagé une série de vidéos montrant Deepfakes en parlant avec leurs mains – une partie de l’imagerie corporelle avec l’imagerie avec les difficultés.
Le début de la technologie Deepfake a des implications inquiétantes dans le monde réel: les acteurs malveillants essaient d’utiliser une vidéo de l’IA pour influencer les électeurs lors des élections en publiant de fausses aventures ou en dépeignant le nom d’un politicien adverse.
En février, un travailleur financier a été arnaqué en payant 200 millions de dollars à Hong Kong (25,6 millions de dollars) aux criminels après une réunion virtuelle avec un imitateur Deepfake.