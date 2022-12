La grande avancée derrière les nouveaux modèles réside dans la manière dont les images sont générées. La première version de DALL-E utilisait une extension de la technologie derrière le modèle de langage GPT-3 d’OpenAI, produisant des images en prédisant le prochain pixel d’une image comme s’il s’agissait de mots dans une phrase. Cela a fonctionné, mais pas bien. “Ce n’était pas une expérience magique”, dit Altman. “C’est incroyable que cela ait fonctionné.”

Au lieu de cela, DALL-E 2 utilise ce qu’on appelle un modèle de diffusion. Les modèles de diffusion sont des réseaux de neurones formés pour nettoyer les images en supprimant le bruit pixélisé ajouté par le processus de formation. Le processus consiste à prendre des images et à en modifier quelques pixels à la fois, en plusieurs étapes, jusqu’à ce que les images d’origine soient effacées et qu’il ne vous reste plus que des pixels aléatoires. “Si vous faites cela un millier de fois, l’image finit par donner l’impression que vous avez arraché le câble d’antenne de votre téléviseur : ce n’est que de la neige”, déclare Björn Ommer, qui travaille sur l’IA générative à l’Université de Munich en Allemagne et qui a aidé à construire le modèle de diffusion qui alimente désormais Stable Diffusion.

Le réseau de neurones est ensuite formé pour inverser ce processus et prédire à quoi ressemblerait la version la moins pixélisée d’une image donnée. Le résultat est que si vous donnez à un modèle de diffusion un gâchis de pixels, il essaiera de générer quelque chose d’un peu plus propre. Rebranchez l’image nettoyée et le modèle produira quelque chose de plus propre. Faites cela suffisamment de fois et le modèle peut vous emmener de la neige télévisée à une image haute résolution.

Les générateurs d’art IA ne fonctionnent jamais exactement comme vous le souhaitez. Ils produisent souvent des résultats hideux qui peuvent au mieux ressembler à des images d’archives déformées. D’après mon expérience, la seule façon de vraiment rendre le travail beau est d’ajouter un descripteur à la fin avec un style qui a l’air esthétique. ~Erik Carter

L’astuce avec les modèles texte-image est que ce processus est guidé par le modèle de langage qui essaie de faire correspondre une invite aux images que le modèle de diffusion produit. Cela pousse le modèle de diffusion vers des images que le modèle de langage considère comme une bonne correspondance.

Mais les modèles ne tirent pas les liens entre le texte et les images à partir de rien. Aujourd’hui, la plupart des modèles texte-image sont entraînés sur un vaste ensemble de données appelé LAION, qui contient des milliards d’associations de texte et d’images extraites d’Internet. Cela signifie que les images que vous obtenez à partir d’un modèle texte-image sont un condensé du monde tel qu’il est représenté en ligne, déformé par les préjugés (et la pornographie).

Une dernière chose : il y a une petite mais cruciale différence entre les deux modèles les plus populaires, DALL-E 2 et Stable Diffusion. Le modèle de diffusion de DALL-E 2 fonctionne sur des images en taille réelle. La diffusion stable, quant à elle, utilise une technique appelée diffusion latente, inventée par Ommer et ses collègues. Il fonctionne sur des versions compressées d’images encodées dans le réseau de neurones dans ce qu’on appelle un espace latent, où seules les caractéristiques essentielles d’une image sont conservées.

Cela signifie que la diffusion stable nécessite moins de puissance de calcul pour fonctionner. Contrairement à DALL-E 2, qui tourne sur les puissants serveurs d’OpenAI, Stable Diffusion peut tourner sur de (bons) ordinateurs personnels. Une grande partie de l’explosion de la créativité et du développement rapide de nouvelles applications est due au fait que Stable Diffusion est à la fois open source – les programmeurs sont libres de le modifier, de le développer et d’en tirer de l’argent – et suffisamment léger pour que les gens puissent l’exécuter. à la maison.

Redéfinir la créativité

Pour certains, ces modèles sont une étape vers l’intelligence générale artificielle, ou AGI – un mot à la mode surfait faisant référence à une future IA qui a des capacités à usage général ou même de type humain. OpenAI a été explicite sur son objectif d’atteindre l’AGI. Pour cette raison, Altman ne se soucie pas du fait que DALL-E 2 soit désormais en concurrence avec une multitude d’outils similaires, dont certains sont gratuits. « Nous sommes ici pour créer des AGI, pas des générateurs d’images », dit-il. “Cela s’intégrera dans une feuille de route de produit plus large. C’est un petit élément de ce qu’un AGI fera.