OpenAI a enfin publié les fonctionnalités vidéo en temps réel pour ChatGPT dont il a fait la démonstration il y a près de sept mois.
Jeudi, lors d’une diffusion en direct, la société a déclaré que le mode vocal avancé, sa fonctionnalité conversationnelle de type humain pour ChatGPT, était en train de devenir visible. À l’aide de l’application ChatGPT, les utilisateurs abonnés à ChatGPT Plus, Team ou Pro peuvent pointer leur téléphone vers des objets et demander à ChatGPT de répondre en temps quasi réel.
Le mode vocal avancé avec vision peut également comprendre ce qui se trouve sur l’écran d’un appareil via le partage d’écran. Il peut par exemple expliquer divers menus de paramètres ou donner des suggestions sur un problème mathématique.
Pour accéder au mode vocal avancé avec vision, appuyez sur l’icône vocale à côté de la barre de discussion ChatGPT, puis appuyez sur l’icône vidéo en bas à gauche, ce qui lancera la vidéo. Pour partager l’écran, appuyez sur le menu à trois points et sélectionnez « Partager l’écran ».
Le déploiement du mode vocal avancé avec vision débutera jeudi, indique OpenAI, et se terminera la semaine prochaine. Mais tous les utilisateurs n’y auront pas accès. OpenAI indique que les abonnés ChatGPT Enterprise et Edu ne bénéficieront pas de la fonctionnalité avant janvier et qu’il n’y a pas de calendrier pour les utilisateurs de ChatGPT dans l’UE, en Suisse, en Islande, en Norvège ou au Liechtenstein.
Dans un démo récente dans l’émission « 60 Minutes » de CNN, le président d’OpenAI, Greg Brockman, avait le mode vocal avancé avec un quiz visuel Anderson Cooper sur ses compétences en anatomie. Pendant que Cooper dessinait des parties du corps sur un tableau noir, ChatGPT pouvait « comprendre » ce qu’il dessinait.
« L’emplacement est parfait », a déclaré ChatGPT. « Le cerveau est là, dans la tête. Quant à la forme, c’est un bon début. Le cerveau est plutôt ovale.
Dans cette même démo, le mode vocal avancé avec vision a cependant commis une erreur sur un problème de géométrie, suggérant qu’il est enclin aux hallucinations.
Le mode vocal avancé avec vision a été retardé plusieurs fois — aurait en partie parce qu’OpenAI a annoncé la fonctionnalité bien avant qu’elle ne soit prête pour la production. En avril, OpenAI a promis que le mode vocal avancé serait déployé auprès des utilisateurs « d’ici quelques semaines ». Quelques mois plus tard, l’entreprise a déclaré qu’elle avait besoin de plus de temps.
Lorsque le mode vocal avancé est finalement arrivé au début de l’automne pour certains utilisateurs de ChatGPT, il lui manquait le composant d’analyse visuelle. Avant le lancement de jeudi, OpenAI a concentré son attention sur l’introduction de l’expérience du mode vocal avancé uniquement sur des plates-formes supplémentaires et utilisateurs dans l’UE.
Des concurrents comme Google et Meta travaillent sur des fonctionnalités similaires pour leurs produits chatbots respectifs. Cette semaine, Google a mis sa fonctionnalité d’IA conversationnelle d’analyse vidéo en temps réel, Project Astra, à la disposition d’un groupe de « testeurs de confiance » sur Android.
En plus du mode vocal avancé avec vision, OpenAI a lancé jeudi un « Mode Père Noël » festif qui ajoute la voix du Père Noël comme voix prédéfinie dans ChatGPT. Les utilisateurs peuvent le trouver en appuyant ou en cliquant sur l’icône en forme de flocon de neige dans l’application ChatGPT à côté de la barre d’invite.