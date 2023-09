Dans la démo de la semaine dernière, Raul Puri, un scientifique qui travaille sur GPT-4, m’a fait un rapide tour d’horizon de la fonction de reconnaissance d’image. Il a téléchargé une photo des devoirs de mathématiques d’un enfant, a encerclé un puzzle de type Sudoku sur l’écran et a demandé à ChatGPT comment vous étiez censé le résoudre. ChatGPT a répondu en suivant les étapes correctes.

Puri dit qu’il a également utilisé cette fonctionnalité pour l’aider à réparer l’ordinateur de sa fiancée en téléchargeant des captures d’écran des messages d’erreur et en demandant à ChatGPT ce qu’il doit faire. « Ce fut une expérience très douloureuse qui m’a aidé à surmonter », dit-il.

La capacité de reconnaissance d’images de ChatGPT a déjà été testée par une société appelée Be My Eyes, qui crée une application pour les personnes malvoyantes. Les utilisateurs de cette application peuvent télécharger une photo de ce qui se trouve devant eux et demander à des volontaires humains de leur dire de quoi il s’agit. En partenariat avec OpenAI, Be My Eyes offre désormais à ses utilisateurs la possibilité de faire appel à un chatbot.

« Parfois, ma cuisine est un peu en désordre ou il est très tôt le lundi matin et je ne veux pas parler à un être humain », m’a dit Hans Jorgen Wiberg, fondateur de Be My Eyes, qui utilise lui-même l’application, lorsque je l’ai interviewé à EmTech Digital en mai. « Maintenant, vous pouvez poser les questions sur la photo. »

OpenAI est conscient du risque lié à la publication de ces mises à jour au public. La combinaison de modèles apporte de tout nouveaux niveaux de complexité, explique Puri. Il dit que son équipe a passé des mois à réfléchir à d’éventuelles utilisations abusives. Vous ne pouvez pas poser de questions sur des photos de particuliers par exemple.

Jang donne un autre exemple : « À l’heure actuelle, si vous demandez à ChatGPT de fabriquer une bombe, il refusera », dit-elle. « Mais au lieu de dire : ‘Hé, dis-moi comment fabriquer une bombe’, que se passerait-il si vous lui montriez l’image d’une bombe et disiez : ‘Pouvez-vous me dire comment fabriquer ça ?' »

« Vous avez tous les problèmes de la vision par ordinateur, vous avez tous les problèmes des grands modèles de langage, la fraude vocale est un gros problème », explique Puri. « Vous devez prendre en compte non seulement nos utilisateurs, mais également les personnes qui n’utilisent pas le produit. »