Un nouvel outil de détection d’IA résout les faux positifs grâce à l’écriture des étudiants : chercheurs
Un groupe de chercheurs affirme avoir créé un outil très précis pour identifier le texte produit par des applications d’intelligence artificielle générative et de grands modèles de langage.
Dans un papier publié lundi, huit chercheurs, principalement de l’Université du Maryland, ont déclaré qu’un outil qu’ils avaient baptisé Binoculars surpassait les autres outils disponibles, notamment GPTZero et Ghostbuster, conçus pour détecter l’écriture générée par des applications d’IA comme ChatGPT d’OpenAI. Les chercheurs ont testé les jumelles sur de vastes ensembles de données comprenant la rédaction de nouvelles, l’écriture créative et les essais d’étudiants. Ils ont déclaré que l’outil avait détecté « plus de 90 % » des échantillons des ensembles de données écrits par l’IA, avec un taux de précision de 99,9 %, soit un taux de faux positifs de 0,01 %.
Alors que les outils d’IA générative comme ChatGPT ont explosé en popularité, les inquiétudes se sont accrues quant au fait que les étudiants utilisent l’IA pour terminer leurs travaux universitaires tout en les faisant passer pour les leurs. Dans le même temps, de nombreux étudiants ont été accusés à tort d’utiliser l’IA, sur la base des résultats des outils de détection de l’IA. Cela a fait craindre que les gens soient accusés à tort de tricherie. L’année dernière, les écoles et les universités ont commencé à désactiver ces outils de détection de l’IA. Lorsque l’Université Vanderbilt a déclaré qu’elle avait a décidé d’arrêter d’utiliser Turnitinil a cité le taux de faux positifs de 1% de l’outil de détection, affirmant que cela signifierait que des centaines d’étudiants pourraient être accusés de tricherie alors qu’ils n’avaient pas triché.
D’autres préoccupations concernant les textes générés par l’IA incluent la prolifération de fausses critiques de produits et la désinformation politique.
Les chercheurs de Binoculars ont affirmé un taux de faux positifs beaucoup plus faible avec leur nouvel outil. L’équipe a déclaré qu’elle envisageait de faire des jumelles un produit plus utilisable qui pourrait faire l’objet d’une licence.
« La commercialisation précoce de mauvais produits a conduit les gens à penser que la détection LLM est impossible, ou que les détecteurs LLM ne peuvent jamais fonctionner suffisamment bien pour être utiles », a déclaré Abhimanyu Hans, chercheur à l’Université du Maryland, à Business Insider. « La réalité est que la recherche scientifique sur la détection des LLM a fait d’énormes progrès au cours des six derniers mois et est arrivée au point où elle peut être utilisée efficacement pour certaines applications. »
Les chercheurs travaillent pour l’Université du Maryland, l’Université Carnegie Mellon, l’Université de New York et le Tübingen AI Center. La recherche a été financée par Capital One, le programme Amazon Research Awards et Open Philanthropy, financé principalement par le duo milliardaire mari et femme Dustin Moskovitz et Cari Tuna.
Les jumelles pourraient contribuer à « l’intégrité de la plate-forme »
Les chercheurs ont testé les jumelles avec des modèles d’IA open source comme Meta’s Llama et Le faucon d’Abu Dhabi. Ils l’ont testé sur des données composées à parts égales de texte écrit par un humain et de sortie de texte ChatGPT.
Les chercheurs ont déclaré que les jumelles n’avaient fait l’objet d’aucun réglage précis, ni d’ajustements, d’entraînement et de pondération d’un modèle d’IA pour lui permettre de fonctionner comme quelqu’un qui l’utilisait ou le testait, mais qu’elles fonctionnaient mieux que d’autres « systèmes de détection commerciaux » qui avaient fonctionné correctement. réglé pour analyser le texte généré par ChatGPT.
Les chercheurs ont déclaré que leur modèle de détection « n’a pas été réglé ni formé pour détecter ChatGPT en particulier » et est donc « indépendant du modèle » dans ses capacités de détection, ce qui est « critique pour la modération des médias sociaux et l’assurance de l’intégrité de la plateforme ».
Hans a déclaré que même si lui et ses collègues chercheurs étaient « en conflit sur l’utilisation des détecteurs LLM dans les écoles », ils sont « motivés par l’utilisation de détecteurs LLM par les équipes d’intégrité des plates-formes des principaux sites Web » pour « maintenir les campagnes d’ingénierie sociale, les campagnes électorales ». manipulations et spams sur les réseaux sociaux. »
Comment fonctionnent les jumelles
Les chercheurs ont déclaré dans leur article que leur modèle « fonctionne entièrement dans un environnement de tir nul ». En apprentissage automatique, le tir zéro fait référence à la réponse d’un modèle à des mots ou à des objets sur lesquels il n’a pas été formé.
« Dans le même temps, en raison de la nature zéro tir de notre détecteur, le même détecteur peut détecter plusieurs LLM différents avec une grande précision – ce que toutes les solutions existantes ne parviennent pas à faire », indique le journal.
Les jumelles fonctionnent en comparant deux étapes de « visualisation de texte », une fois en utilisant un LLM « observateur » et une fois en utilisant un LLM « interprète ». Si une machine écrit des chaînes de texte, les perplexités des deux étapes devraient être similaires ; si le texte a été écrit par un humain, ils devraient être différents. La perplexité fait référence à la façon dont un LLM est surpris par une prédiction, comme le mot suivant dans une phrase. Ainsi, moins les deux LLM sont surpris par une chaîne de texte, plus l’outil est susceptible de décider que le texte provient d’une machine.
« La perplexité a été utilisée pour détecter les LLM, car les humains produisent des textes plus surprenants que les LLM », indique le journal.
Les chercheurs ont déclaré que leur méthode « mesure également à quel point les résultats d’un modèle sont surprenants par rapport à un autre ». Ils ont qualifié cela dans leur article de « perplexité croisée ».
Les chercheurs ont déclaré que la méthode de Binoculars corrige le rôle joué par une personne incitant un outil d’IA dans le résultat, qui a été identifié comme une cause de faux positifs dans les outils de détection d’IA.
« Les jumelles séparent bien mieux le texte automatique du texte humain que la seule perplexité », indique le journal, ajoutant : « Avec les jumelles, nous sommes capables de repérer le texte généré par la machine dans un certain nombre de domaines. » Ces domaines comprenaient Reddit, WikiHow, Wikipedia et arXiv.
Les chercheurs ont déclaré avoir également testé les jumelles sur un ensemble de données d’essais académiques rédigés par des anglophones non natifs, notant une inquiétude parmi les chercheurs selon laquelle les détecteurs d’IA sont biaisés contre de tels écrits et sont plus susceptibles de les considérer comme générés par l’IA. Ils ont déclaré que les jumelles avaient un taux de précision de 99,67 % avec un tel texte.