Le logiciel d’IA appelé DALL-E transforme vos mots en images

Le logiciel DALL-E Mini d’un groupe de développeurs open source n’est pas parfait, mais parfois il propose effectivement des images qui correspondent aux descriptions textuelles des gens.

Capture d’écran

En faisant défiler vos flux de médias sociaux ces derniers temps, il y a de fortes chances que vous ayez remarqué des illustrations accompagnées de légendes. Ils sont populaires maintenant.

Les images que vous voyez sont probablement rendues possibles par un programme de conversion de texte en image appelé DALL-E. Avant de publier les illustrations, les gens insèrent des mots, qui sont ensuite convertis en images grâce à des modèles d’intelligence artificielle.

Par exemple, un utilisateur de Twitter a posté un tweet avec le texte “Être ou ne pas être, rabbin tenant un avocat, sculpture en marbre”. La photo ci-jointe, qui est assez élégante, montre une statue en marbre d’un homme barbu en robe et chapeau melon, tenant un avocat.

Les modèles d’IA proviennent du logiciel Imagen de Google ainsi que d’OpenAI, une start-up soutenue par Microsoft qui a développé DALL-E 2. Sur son site InternetOpenAI appelle DALL-E 2 “un nouveau système d’IA qui peut créer des images réalistes et de l’art à partir d’une description en langage naturel”.

Mais la plupart de ce qui se passe dans ce domaine provient d’un groupe relativement restreint de personnes partageant leurs photos et, dans certains cas, générant un fort engagement. En effet, Google et OpenAI n’ont pas rendu la technologie largement accessible au public.

Bon nombre des premiers utilisateurs d’OpenAI sont amis et parents des employés. Si vous souhaitez y accéder, vous devez vous inscrire sur une liste d’attente et indiquer si vous êtes un artiste professionnel, un développeur, un chercheur universitaire, un journaliste ou un créateur en ligne.

“Nous travaillons dur pour accélérer l’accès, mais cela prendra probablement un certain temps avant d’atteindre tout le monde ; au 15 juin, nous avons invité 10 217 personnes à essayer DALL-E”, a écrit Joanne Jang d’OpenAI sur un page d’aide sur le site Web de l’entreprise.

Un système accessible au public est DALL-E Mini. ça tire sur code open-source d’une équipe de développeurs peu organisée et est souvent surchargée de demandes. Les tentatives d’utilisation peuvent être accueillies par une boîte de dialogue indiquant “Trop de trafic, veuillez réessayer”.

Cela rappelle un peu le service Gmail de Google, qui a attiré les gens avec un espace de stockage de courrier électronique illimité en 2004. Les premiers utilisateurs ne pouvaient entrer que sur invitation au début, laissant des millions de personnes attendre. Aujourd’hui, Gmail est l’un des services de messagerie les plus populaires au monde.

La création d’images à partir de texte ne sera peut-être jamais aussi répandue que le courrier électronique. Mais la technologie connaît certainement un moment, et une partie de son attrait réside dans l’exclusivité.

Le laboratoire de recherche privé Midjourney exige que les gens remplir un formulaire s’ils souhaitent expérimenter son bot de génération d’images à partir d’un canal sur l’application de chat Discord. Seul un groupe restreint de personnes utilise Imagen et en publie des images.

Les services de synthèse texte-image sont sophistiqués, identifiant les parties les plus importantes des invites d’un utilisateur, puis devinant la meilleure façon d’illustrer ces termes. Google a entraîné son modèle Imagen avec des centaines de ses puces d’IA internes sur 460 millions de paires image-texte internes, en plus de données extérieures.

Les interfaces sont simples. Il y a généralement une zone de texte, un bouton pour démarrer le processus de génération et une zone en dessous pour afficher les images. Pour indiquer la source, Google et OpenAI ajoutent des filigranes dans le coin inférieur droit des images de DALL-E 2 et Imagen.

Les entreprises et les groupes qui construisent le logiciel s’inquiètent à juste titre de voir tout le monde prendre d’assaut les portes en même temps. La gestion des requêtes Web pour exécuter des requêtes avec ces modèles d’IA peut coûter cher. Plus important encore, les modèles ne sont pas parfaits et ne produisent pas toujours des résultats qui représentent fidèlement le monde.

Les ingénieurs ont formé les modèles sur de vastes collections de mots et d’images provenant du Web, y compris des photos publiées sur Flickr.

OpenAI, qui est basée à San Francisco, reconnaît le potentiel de préjudice qui pourrait provenir d’un modèle qui a appris à créer des images en parcourant essentiellement le Web. Pour essayer de réduire le risque, les employés ont supprimé le contenu violent des données de formation, et il existe des filtres qui empêchent DALL-E 2 de générer des images si les utilisateurs soumettent des invites susceptibles de violer l’entreprise. politique contre la nudité, la violence, les conspirations ou les contenus politiques.

“Il y a un processus continu d’amélioration de la sécurité de ces systèmes”, a déclaré Prafulla Dhariwal, chercheur à OpenAI.

Les biais dans les résultats sont également importants à comprendre et représentent une préoccupation plus large pour l’IA. Boris Dayma, un développeur du Texas, et d’autres qui ont travaillé sur DALL-E Mini ont expliqué le problème dans un explication de leur logiciel.

“Les professions démontrant des niveaux d’éducation plus élevés (comme les ingénieurs, les médecins ou les scientifiques) ou un travail physique élevé (comme dans l’industrie de la construction) sont principalement représentées par des hommes blancs”, ont-ils écrit. “En revanche, les infirmières, les secrétaires ou les assistantes sont généralement des femmes, souvent blanches également.”

Google a décrit des lacunes similaires de son modèle Imagen dans un article académique.

Malgré les risques, OpenAI est enthousiasmé par les types de choses que la technologie peut permettre. Dhariwal a déclaré que cela pourrait ouvrir des opportunités créatives pour les particuliers et pourrait aider avec des applications commerciales pour la décoration intérieure ou l’habillage de sites Web.

Les résultats devraient continuer à s’améliorer avec le temps. DALL-E 2, qui était introduit en avril, crache des images plus réalistes que la version initiale annoncée par OpenAI l’année dernière, et le modèle de génération de texte de l’entreprise, GPT, est devenu plus sophistiqué à chaque génération.

“Vous pouvez vous attendre à ce que cela se produise pour beaucoup de ces systèmes”, a déclaré Dhariwal.

REGARDEZ: Ancien Prés. Obama s’attaque à la désinformation et dit que cela pourrait empirer avec l’IA