L’IA de World Labs peut générer des scènes 3D interactives à partir d’une seule photo
World Labs, la startup fondée par le pionnier de l’IA Fei-Fei Li, a dévoilé son premier projet : un système d’IA capable de générer des scènes 3D de type jeu vidéo à partir d’une seule image.
Beaucoup de IA systèmes peut transformer une photo en modèles et environnements 3D. Mais les scènes de World Labs sont uniques dans le sens où elles sont interactives et modifiables.
« [Our tech] vous permet d’accéder à n’importe quelle image et de l’explorer en 3D », World Labs a écrit dans un article de blog. « Au-delà de l’image d’entrée, tout est généré. »
Les scènes générées par l’IA, que toute personne possédant un clavier et une souris peut explorer lors d’une démo sur le site Web de World Labs, sont impressionnantes, même si elles sont un peu caricaturales. Ils sont rendus en direct dans le navigateur et disposent d’une caméra contrôlable avec une profondeur de champ simulée (DoF) réglable. Plus l’effet DoF est fort, plus les objets d’arrière-plan apparaissent flous.
Le système de World Labs fait partie d’une catégorie émergente d’IA appelée « modèles mondiaux ». Beaucoup de ces les modèles peuvent simuler des jeux et des environnements 3D, mais avec des problèmes d’artefacts et de cohérence. Par exemple, Oasis, le modèle mondial de simulation Minecraft de la startup Decart, a une faible résolution et « oublie » rapidement la disposition des niveaux.
En revanche, l’approche de World Labs garantit que les scènes restent les mêmes une fois générées et qu’elles obéissent aux lois fondamentales de la physique, ce qui signifie qu’elles ont une impression de solidité et de profondeur.
Le système de World Labs peut également appliquer des effets et des animations interactifs aux scènes, comme changer la couleur des objets et éclairer dynamiquement les arrière-plans.
« La plupart des outils d’IA générative créent du contenu 2D comme des images ou des vidéos », a écrit World Labs. « La génération en 3D améliore le contrôle et la cohérence. Cela changera la façon dont nous réalisons des films, des jeux, des simulateurs et d’autres manifestations numériques de notre monde physique.
Maintenant, il y a certainement place à l’amélioration. Les scènes de World Labs ne sont pas entièrement explorables : vos mouvements sont limités à une petite zone. (Essayez de vous déplacer en dehors et vous atteindrez une limite.) Et il y a des erreurs de rendu occasionnelles, par exemple des objets qui se mélangent de manière non naturelle.
Mais World Labs affirme qu’il ne s’agit que d’un « premier aperçu ».
« Nous travaillons dur pour améliorer la taille et la fidélité de nos mondes générés et expérimenter de nouvelles façons permettant aux utilisateurs d’interagir avec eux », a écrit la startup sur le blog.
World Labs, lancé plus tôt cette année, a levé 230 millions de dollars en capital-risque auprès d’investisseurs dont Andreessen Horowitz (a16z), Ashton Kutcher, Intel Capital, AMD Ventures et Eric Schmidt. Évaluée à plus d’un milliard de dollars, la société espère que son premier produit sera prêt en 2025.
Au-delà des scènes interactives, World Labs prévoit de créer des outils qui pourraient être utiles aux professionnels tels que les artistes, les designers, les développeurs, les cinéastes et les ingénieurs. Il cible une clientèle allant des développeurs de jeux vidéo aux studios de cinéma.
« Nous avons déjà la capacité de créer des mondes virtuels et interactifs, mais cela coûte des centaines et des centaines de millions de dollars et une tonne de temps de développement », a déclaré Justin Johnson, co-fondateur de World Labs, lors d’une récente conférence de presse. épisode du podcast a16z. « [World models] vous permettra non seulement d’obtenir une image ou un clip, mais aussi un monde 3D entièrement simulé, dynamique et interactif.