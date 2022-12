Étant donné que les grands modèles de langage fonctionnent en prédisant le mot suivant dans une phrase, ils sont plus susceptibles d’utiliser des mots courants tels que “le”, “il” ou “est” au lieu de mots bizarres et rares. C’est exactement le genre de texte que les systèmes de détection automatisés sont bons pour détecter, Ippolito et une équipe de chercheurs de Google trouvé dans la recherche qu’ils ont publiée en 2019.

Mais l’étude d’Ippolito a également montré quelque chose d’intéressant : les participants humains avaient tendance à penser que ce type de texte « propre » était plus beau et contenait moins d’erreurs, et donc qu’il devait avoir été écrit par une personne.

En réalité, le texte écrit par l’homme est truffé de fautes de frappe et est incroyablement variable, incorporant différents styles et argots, tandis que « les modèles de langage font très, très rarement des fautes de frappe. Ils sont bien meilleurs pour générer des textes parfaits », déclare Ippolito.

“Une faute de frappe dans le texte est en fait un très bon indicateur qu’il a été écrit par un humain”, ajoute-t-elle.

Les grands modèles de langage eux-mêmes peuvent également être utilisés pour détecter le texte généré par l’IA. L’une des façons les plus efficaces d’y parvenir est de recycler le modèle sur certains textes écrits par des humains et d’autres créés par des machines, afin qu’il apprenne à différencier les deux, explique Muhammad Abdul-Mageed, titulaire de la chaire de recherche du Canada en sciences naturelles. -traitement du langage et apprentissage automatique à l’Université de la Colombie-Britannique et a détection étudiée.

Scott Aaronson, informaticien à l’Université du Texas en détachement comme chercheur à OpenAI pendant un an, a quant à lui été développer des filigranes pour des morceaux de texte plus longs générés par des modèles tels que GPT-3 – “un signal secret autrement imperceptible dans ses choix de mots, que vous pouvez utiliser pour prouver plus tard que, oui, cela vient de GPT”, écrit-il dans son blog.

Un porte-parole d’OpenAI a confirmé que la société travaille sur les filigranes et a déclaré que ses politiques stipulent que les utilisateurs doivent clairement indiquer le texte généré par l’IA “d’une manière que personne ne pourrait raisonnablement manquer ou mal comprendre”.

Mais ces correctifs techniques s’accompagnent de grosses mises en garde. La plupart d’entre eux n’ont aucune chance face à la dernière génération de modèles de langage d’IA, car ils sont construits sur GPT-2 ou d’autres modèles antérieurs. Beaucoup de ces outils de détection fonctionnent mieux lorsqu’il y a beaucoup de texte disponible ; ils seront moins efficaces dans certains cas d’utilisation concrets, comme les chatbots ou les assistants de messagerie, qui s’appuient sur des conversations plus courtes et fournissent moins de données à analyser. Et l’utilisation de grands modèles de langage pour la détection nécessite également des ordinateurs puissants et l’accès au modèle d’IA lui-même, ce que les entreprises technologiques ne permettent pas, explique Abdul-Mageed.