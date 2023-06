Pas étonnant que certains d’entre eux se tournent vers des outils comme ChatGPT pour maximiser leur potentiel de revenus. Mais combien ? Pour le savoir, une équipe de chercheurs de l’Ecole polytechnique fédérale de Lausanne (EPFL) a engagé 44 personnes sur la plateforme de travail à la demande Amazon Mechanical Turk pour synthétiser 16 extraits d’articles de recherche médicale. Ensuite, ils ont analysé leurs réponses à l’aide d’un modèle d’IA qu’ils avaient formé eux-mêmes et qui recherche des signaux révélateurs de la sortie ChatGPT, tels que le manque de variété dans le choix des mots. Ils ont également extrait les frappes des travailleurs afin de déterminer s’ils avaient copié et collé leurs réponses, un indicateur qu’ils avaient généré leurs réponses ailleurs.

Ils ont estimé qu’entre 33 % et 46 % des travailleurs avaient utilisé des modèles d’IA comme ChatGPT d’OpenAI. C’est un pourcentage qui devrait encore augmenter à mesure que ChatGPT et d’autres systèmes d’IA deviennent plus puissants et facilement accessibles, selon les auteurs de l’étude, qui a été partagée sur arXiv et n’a pas encore été évaluée par des pairs.

« Je ne pense pas que ce soit la fin des plateformes de crowdsourcing. Cela change simplement la dynamique », explique Robert West, professeur assistant à l’EPFL, co-auteur de l’étude.

L’utilisation de données générées par l’IA pour former l’IA pourrait introduire d’autres erreurs dans des modèles déjà sujets aux erreurs. Les grands modèles de langage présentent régulièrement de fausses informations comme des faits. S’ils génèrent une sortie incorrecte qui est elle-même utilisée pour former d’autres modèles d’IA, les erreurs peuvent être absorbées par ces modèles et amplifiées au fil du temps, ce qui rend de plus en plus difficile de déterminer leurs origines, explique Ilia Shumailov, chercheur junior en informatique. science à l’Université d’Oxford, qui n’a pas participé au projet.

Pire encore, il n’y a pas de solution simple. « Le problème, c’est que lorsque vous utilisez des données artificielles, vous obtenez les erreurs à cause des malentendus des modèles et des erreurs statistiques », dit-il. « Vous devez vous assurer que vos erreurs ne biaisent pas la sortie d’autres modèles, et il n’y a pas de moyen simple de le faire. »

L’étude souligne la nécessité de nouvelles façons de vérifier si les données ont été produites par des humains ou par l’IA. Cela met également en évidence l’un des problèmes liés à la tendance des entreprises technologiques à s’appuyer sur des travailleurs de chantier pour effectuer le travail vital de rangement des données fournies aux systèmes d’IA.

« Je ne pense pas que tout va s’effondrer », déclare West. « Mais je pense que la communauté de l’IA devra enquêter de près sur les tâches les plus susceptibles d’être automatisées et trouver des moyens d’éviter cela. »