Par exemple, depuis le lancement du chatbot ChatGPT d’OpenAI en novembre, les étudiants ont déjà commencé à l’utiliser pour tricher en écrivant des essais pour eux. Le site Web d’actualités CNET a utilisé ChatGPT pour écrire des articles, seulement pour avoir à publier corrections au milieu de accusations de plagiat. Mais il existe un moyen prometteur de repérer le texte de l’IA : en intégrant des modèles cachés qui nous permettent d’identifier le texte généré par l’IA dans ces systèmes avant qu’il ne soit publié.

Dans des études, ces filigranes ont déjà montré qu’ils peuvent identifier le texte généré par l’IA avec une quasi-certitude. L’un, développé par une équipe de l’Université du Maryland, a pu repérer le texte créé par le modèle de langage open source de Meta, OPT-6.7B, en utilisant un algorithme de détection qu’ils ont construit. Le travail est décrit dans un papier qui n’a pas encore fait l’objet d’un examen par les pairs, et le le code sera disponible gratuitement vers le 15 février.

Les modèles de langage IA fonctionnent en prédisant et en générant un mot à la fois. Après chaque mot, l’algorithme de filigrane divise au hasard le vocabulaire du modèle de langage en mots sur une « liste verte » et une « liste rouge », puis invite le modèle de langage à choisir des mots sur la liste verte.

Plus il y a de mots sur la liste verte dans un passage, plus il est probable que le texte soit généré par une machine. Le texte écrit par une personne a tendance à contenir un mélange de mots plus aléatoire. Par exemple, pour le mot “belle”, l’algorithme de tatouage pourrait classer le mot “fleur” en vert et “orchidée” en rouge. Le modèle d’IA avec l’algorithme de filigrane utiliserait plus probablement le mot “fleur” que “orchidée”, explique Tom Goldstein, professeur adjoint à l’Université du Maryland, qui a participé à la recherche.