OpenAI a dévoilé de nouvelles fonctionnalités ChatGPT qui incluent la possibilité d’avoir une conversation avec le chatbot comme si vous passiez un appel, vous permettant d’obtenir instantanément des réponses à vos questions orales avec une voix synthétique réaliste, comme l’a rapporté mon collègue Will Douglas Heaven. OpenAI a également révélé que ChatGPT pourra effectuer des recherches sur le Web.

Le robot rival de Google, Bard, est connecté à la plupart des écosystèmes de l’entreprise, notamment Gmail, Docs, YouTube et Maps. L’idée est que les gens pourront utiliser le chatbot pour poser des questions sur leur propre contenu, par exemple en lui faisant effectuer une recherche dans leurs e-mails ou en organisant leur calendrier. Bard pourra également récupérer instantanément des informations à partir de la recherche Google. Dans la même veine, Meta a également annoncé qu’elle lançait des chatbots IA sur tout. Les utilisateurs pourront poser des questions aux chatbots IA et aux avatars IA de célébrités sur WhatsApp, Messenger et Instagram, le modèle IA récupérant des informations en ligne à partir de la recherche Bing.

C’est un pari risqué, compte tenu des limites de la technologie. Les entreprises technologiques n’ont pas résolu certains problèmes persistants liés aux modèles linguistiques de l’IA, comme leur propension à inventer des choses ou à « halluciner ». Mais ce qui me préoccupe le plus, c’est qu’il s’agit d’un désastre en matière de sécurité et de confidentialité, comme je l’ai écrit plus tôt cette année. Les entreprises technologiques mettent cette technologie profondément défectueuse entre les mains de millions de personnes et permettent aux modèles d’IA d’accéder à des informations sensibles telles que leurs e-mails, calendriers et messages privés. Ce faisant, ils nous rendent tous vulnérables aux escroqueries, au phishing et aux piratages à grande échelle.

J’ai déjà abordé les problèmes de sécurité importants liés aux modèles de langage d’IA. Maintenant que les assistants IA ont accès aux informations personnelles et peuvent simultanément naviguer sur le Web, ils sont particulièrement sujets à un type d’attaque appelé injection indirecte. C’est ridiculement facile à exécuter et il n’existe aucune solution connue.

Dans une attaque indirecte par injection rapide, un tiers « modifie un site Web en ajoutant du texte caché destiné à modifier le comportement de l’IA », comme je l’ai écrit en avril. « Les attaquants pourraient utiliser les réseaux sociaux ou le courrier électronique pour diriger les utilisateurs vers des sites Web contenant ces invites secrètes. Une fois que cela se produit, le système d’IA pourrait être manipulé pour permettre à l’attaquant d’essayer d’extraire les informations de carte de crédit des personnes, par exemple. Avec cette nouvelle génération de modèles d’IA connectés aux réseaux sociaux et aux e-mails, les opportunités pour les pirates sont infinies.

J’ai demandé à OpenAI, Google et Meta ce qu’ils faisaient pour se défendre contre les attaques par injection rapide et les hallucinations. Meta n’a pas répondu à temps pour la publication et OpenAI n’a pas fait de commentaires officiels.

Concernant la propension de l’IA à inventer des choses, un porte-parole de Google a déclaré que la société publiait Bard à titre « expérimental » et qu’elle permettait aux utilisateurs de vérifier les réponses de Bard à l’aide de la recherche Google. « Si les utilisateurs voient une hallucination ou quelque chose qui n’est pas exact, nous les encourageons à cliquer sur le bouton pouce vers le bas et à fournir leurs commentaires. C’est une façon pour Bard d’apprendre et de s’améliorer », a déclaré le porte-parole. Bien entendu, cette approche impose à l’utilisateur la responsabilité de repérer l’erreur, et les gens ont tendance à accorder trop de confiance aux réponses générées par un ordinateur. Google n’a pas de réponse à ma question sur l’injection rapide.

Pour une injection rapide, Google a confirmé qu’il ne s’agissait pas d’un problème résolu et qu’il restait un domaine de recherche actif. Le porte-parole a déclaré que la société utilise d’autres systèmes, tels que des filtres anti-spam, pour identifier et filtrer les tentatives d’attaque, et qu’elle mène des tests contradictoires et des exercices d’équipe rouge pour identifier comment des acteurs malveillants pourraient attaquer des produits basés sur des modèles de langage. « Nous utilisons des modèles spécialement formés pour aider à identifier les entrées malveillantes connues et les sorties dangereuses connues qui violent nos politiques », a déclaré le porte-parole.