X

Whisk, le nouvel outil d’IA de Google, utilise des images comme invites

Google a encore un autre outil d’IA à ajouter à la pile. Fouet est un générateur d’images Google Labs qui vous permet d’utiliser une image existante comme invite. Mais sa sortie ne capture que « l’essence » de votre image de départ plutôt que de la recréer avec de nouveaux détails. C’est donc mieux pour le brainstorming et les visualisations rapides que pour les modifications de l’image source.

La société décrit Whisk comme « un nouveau type d’outil créatif ». L’écran de saisie commence par une interface simple avec des entrées pour le style et le sujet. Cette interface d’introduction simple vous permet uniquement de choisir parmi trois styles prédéfinis : autocollant, épingle en émail et peluche. Je soupçonne que Google a trouvé que ces trois éléments permettaient le type de résultats approximatifs pour lesquels l’outil expérimental est le plus idéal dans sa forme actuelle.

Comme vous pouvez le voir sur l’image ci-dessus, cela a produit une image solide d’une peluche Wilford Brimley. (Les termes de Google interdisent les photos de célébrités, mais Wilford s’est glissé par les portes, Quaker Oats à ses côtés, sans alerter les gardes.)

Whisk comprend également un éditeur plus avancé (trouvé en cliquant sur « Partir de zéro » depuis l’écran principal). Dans ce mode, vous pouvez utiliser du texte ou une image source dans trois catégories : sujet, scène et style. Il existe également une barre de saisie pour ajouter plus de texte pour la touche finale. Cependant, dans leur forme actuelle, les contrôles avancés n’ont pas produit de résultats qui ressemblaient à mes requêtes.

Par exemple, regardez ma tentative de générer le regretté M. Brimley dans une scène lightbox dans le style d’une image de peluche de morse que j’ai trouvée en ligne :

Related Post

Google / Capture d’écran de Will Shanklin pour Engadget

Whisk crache ce qui ressemble vaguement à un acteur à la Wilford Brimley mangeant des flocons d’avoine dans un cadre de lightbox. Pour autant que je sache, ce mec n’est pas une peluche. Il est donc clair pourquoi Google recommande d’utiliser davantage l’outil pour « l’exploration visuelle rapide » et moins pour le contenu prêt à être produit.

Google reconnaît que Whisk ne s’appuiera que sur « quelques caractéristiques clés » de votre image source. « Par exemple, le sujet généré peut avoir une taille, un poids, une coiffure ou un teint différent », prévient la société.

Pour comprendre pourquoi, ne cherchez pas plus loin que la description de Google sur le fonctionnement de Whisk sous le capot. Il utilise le modèle linguistique Gemini pour rédiger une légende détaillée de l’image source que vous téléchargez. Il alimente ensuite cette description dans le générateur d’images Imagen 3. Le résultat est donc une image basée sur Les mots des Gémeaux sur votre image – pas l’image source elle-même.

Whisk n’est disponible qu’aux États-Unis, du moins pour le moment. Vous pouvez l’essayer sur le site du projet Site des laboratoires Google.

Categories: Tech