L’étude des citations ChatGPT est une lecture lamentable pour les éditeurs

Alors que de plus en plus d’éditeurs concluent des accords de licence de contenu avec OpenAI, le créateur de ChatGPT, un étude publié cette semaine par le Centre de remorquage pour le journalisme numérique – regarder comment le chatbot IA produit des citations (c’est-à-dire des sources) pour le contenu des éditeurs – rend la lecture intéressante, voire préoccupante.

En un mot, les résultats suggèrent que les éditeurs restent à la merci de la tendance des outils d’IA générative à inventer ou à déformer les informations, qu’ils autorisent ou non OpenAI à explorer leur contenu.

La recherche, menée à la Columbia Journalism School, a examiné les citations produites par ChatGPT après qu’il lui a été demandé d’identifier la source d’échantillons de citations provenant d’un mélange d’éditeurs – dont certains avaient signé des accords avec OpenAI et d’autres non.

Le Centre a pris des citations en bloc de 10 articles chacun produits par un total de 20 éditeurs sélectionnés au hasard (donc 200 citations différentes en tout) – y compris le contenu du New York Times (qui poursuit actuellement OpenAI dans le cadre d’une réclamation pour atteinte aux droits d’auteur) ; Le Washington Post (qui n’est pas affilié au créateur ChatGPT) ; Le Financial Times (qui a signé un accord de licence) ; et d’autres.

« Nous avons choisi des citations qui, si elles étaient collées dans Google ou Bing, renverraient l’article source parmi les trois premiers résultats et avons évalué si le nouvel outil de recherche d’OpenAI identifierait correctement l’article qui était la source de chaque citation », ont écrit les chercheurs de Tow, Klaudia Jaźwińska et Aisvarya Chandrasekar dans un article de blog expliquant leur approche et résumant leurs conclusions.

« Ce que nous avons découvert n’était pas prometteur pour les éditeurs de presse », poursuivent-ils. « Bien qu’OpenAI mette l’accent sur sa capacité à fournir aux utilisateurs des « réponses rapides avec des liens vers des sources Web pertinentes », la société ne s’engage pas explicitement à garantir l’exactitude de ces citations. Il s’agit d’une omission notable pour les éditeurs qui attendent que leurs contenus soient référencés et représentés fidèlement. »

« Nos tests ont révélé qu’aucun éditeur, quel que soit son degré d’affiliation avec OpenAI, n’a été épargné par des représentations inexactes de son contenu dans ChatGPT », ont-ils ajouté.

Approvisionnement peu fiable

Les chercheurs affirment avoir trouvé « de nombreux » cas où le contenu des éditeurs a été cité de manière inexacte par ChatGPT – découvrant également ce qu’ils appellent « un spectre d’exactitude dans les réponses ». Ainsi, même s’ils ont trouvé « quelques » citations entièrement correctes (c’est-à-dire que ChatGPT renvoyait avec précision l’éditeur, la date et l’URL de la citation en bloc partagée avec lui), il y avait « de nombreuses » citations qui étaient entièrement fausses ; et « certains » qui se situent quelque part entre les deux.

En bref, les citations de ChatGPT semblent être un mélange peu fiable. Les chercheurs ont également trouvé très peu de cas où le chatbot ne projetait pas une confiance totale dans ses (mauvaises) réponses.

Certaines citations proviennent d’éditeurs qui ont activement bloqué les robots de recherche d’OpenAI. Dans ces cas-là, les chercheurs disent qu’ils s’attendaient à des difficultés pour produire des citations correctes. Mais ils ont constaté que ce scénario soulevait un autre problème : le robot avouait « rarement » son incapacité à produire une réponse. Au lieu de cela, il s’est tourné vers la confabulation afin de générer du sourcing (quoique incorrect).

« Au total, ChatGPT a renvoyé des réponses partiellement ou totalement incorrectes à 153 reprises, bien qu’il n’ait reconnu son incapacité à répondre avec précision à une requête que sept fois », ont déclaré les chercheurs. « Ce n’est que dans ces sept résultats que le chatbot a utilisé des mots et des expressions qualificatifs tels que « semble », « c’est possible » ou « pourrait », ou des déclarations telles que « Je n’ai pas pu localiser l’article exact ».

Ils comparent cette situation malheureuse à une recherche Internet standard dans laquelle un moteur de recherche comme Google ou Bing localise généralement un devis exact et dirige l’utilisateur vers le ou les sites Web où il l’a trouvé, ou déclare n’avoir trouvé aucun résultat avec une correspondance exacte. .

« Le manque de transparence de ChatGPT quant à sa confiance dans une réponse peut rendre difficile pour les utilisateurs d’évaluer la validité d’une affirmation et de comprendre à quelles parties d’une réponse ils peuvent ou ne peuvent pas faire confiance », affirment-ils.

Pour les éditeurs, il pourrait également y avoir des risques de réputation découlant de citations incorrectes, suggèrent-ils, ainsi que le risque commercial que les lecteurs soient orientés ailleurs.

Des données décontextualisées

L’étude met également en lumière un autre problème. Cela suggère que ChatGPT pourrait essentiellement récompenser le plagiat. Les chercheurs racontent un cas où ChatGPT a cité par erreur un site Web qui avait plagié un article journalistique « très médiatisé » du New York Times, c’est-à-dire en copiant-collant le texte sans attribution, comme source de l’article du New York Times – spéculant que, dans ce cas. , le robot a peut-être généré cette fausse réponse afin de combler une lacune d’informations résultant de son incapacité à explorer le site Web du New York Times.

« Cela soulève de sérieuses questions sur la capacité d’OpenAI à filtrer et à valider la qualité et l’authenticité de ses sources de données, en particulier lorsqu’il s’agit de contenu sans licence ou plagié », suggèrent-ils.

Dans d’autres conclusions susceptibles d’être préoccupantes pour les éditeurs qui ont signé des accords avec OpenAI, l’étude a révélé que les citations de ChatGPT n’étaient pas non plus toujours fiables dans leurs cas – donc laisser ses robots d’exploration entrer ne semble pas non plus garantir l’exactitude.

Les chercheurs soutiennent que le problème fondamental est que la technologie d’OpenAI traite le journalisme « comme un contenu décontextualisé », avec apparemment peu de considération pour les circonstances de sa production originale.

Un autre problème signalé par l’étude est la variation des réponses de ChatGPT. Les chercheurs ont testé de poser plusieurs fois la même requête au robot et ont constaté qu’il « renvoyait généralement une réponse différente à chaque fois ». Bien que cela soit typique des outils GenAI, en général, dans un contexte de citation, une telle incohérence est évidemment sous-optimale si vous recherchez la précision.

Bien que l’étude Tow soit à petite échelle – les chercheurs reconnaissent que des tests « plus rigoureux » sont nécessaires – elle n’en reste pas moins remarquable compte tenu des accords de haut niveau que les principaux éditeurs sont en train de conclure avec OpenAI.

Si les entreprises médiatiques espéraient que ces arrangements aboutiraient à un traitement spécial pour leur contenu par rapport à leurs concurrents, au moins en termes de production d’approvisionnement précis, cette étude suggère qu’OpenAI n’a pas encore offert une telle cohérence.

Alors que les éditeurs qui n’ont pas d’accords de licence mais aussi n’ai pas a carrément bloqué les robots d’exploration d’OpenAI – peut-être dans l’espoir d’au moins capter du trafic lorsque ChatGPT renvoie du contenu sur leurs histoires – l’étude donne également une lecture lamentable, car les citations peuvent ne pas être exactes dans leur cas non plus.

En d’autres termes, il n’y a aucune « visibilité » garantie pour les éditeurs dans le moteur de recherche d’OpenAI, même lorsqu’ils autorisent l’accès de leurs robots d’exploration.

Le blocage complet des robots d’exploration ne signifie pas non plus que les éditeurs peuvent se protéger des risques d’atteinte à leur réputation en évitant toute mention de leurs histoires dans ChatGPT. L’étude a révélé que le robot attribuait toujours à tort des articles au New York Times malgré le procès en cours, par exemple.

« Une agence peu significative »

Les chercheurs concluent qu’à l’heure actuelle, les éditeurs ont « peu d’influence significative » sur ce qui arrive à leur contenu lorsque ChatGPT met la main dessus (directement ou, enfin, indirectement).

Le billet de blog comprend une réponse d’OpenAI aux résultats de la recherche – qui accuse les chercheurs d’avoir effectué un « test atypique de notre produit ».

« Nous soutenons les éditeurs et les créateurs en aidant 250 millions d’utilisateurs hebdomadaires de ChatGPT à découvrir un contenu de qualité grâce à des résumés, des citations, des liens clairs et des attributions », leur a également déclaré OpenAI, ajoutant : « Nous avons collaboré avec des partenaires pour améliorer la précision des citations en ligne et respecter les préférences des éditeurs, notamment en permettant leur apparition dans la recherche en gérant OAI-SearchBot dans leur robots.txt. Nous continuerons à améliorer les résultats de recherche.

« La Turquie n’est pas la seule responsable de votre coma alimentaire après Thanksgiving. Voici ce qui vous donne envie de faire une sieste après le repas des Fêtes.

Categories: Tech