Les fermes de contenu en ligne utilisent des chatbots IA pour « brouiller et réécrire » des milliers d’articles d’actualité provenant de publications majeures comme le New York Times et les republier pour générer des revenus publicitaires. selon un nouveau rapport du moniteur de désinformation NewsGuard. Les histoires, qui réutilisaient souvent des lignes entières directement à partir d’autres articles sans crédit, ont été trouvées sur 37 sites différents. Dans certains cas, note NewsGuard, ces sites semblaient être complètement automatisés, aucun humain impliqué.

Pourquoi tout le monde poursuit-il les sociétés d’IA ? | Technologie du futur

NewsGuard, qui crée une extension de navigateur évaluant la fiabilité des sites d’information, affirme que les fermes de contenu qu’elle a identifiées utilisaient des chatbots pour réécrire des articles publiés pour la première fois sur CNN, Reuters et d’autres médias grand public. Cette confiance explicite dans le texte d’histoires déjà éditées et publiées signifie que la qualité de la rédaction des articles plagiés sur l’IA a marqué une amélioration par rapport à cas passés où les usines de contenu demandaient simplement aux modèles d’IA de générer des histoires sans aucun matériel source. Le résultat, selon NewsGuard, a donné lieu à des articles qui semblent presque impossibles à distinguer d’une histoire authentique pour le lecteur moyen.

Le rapport a identifié 37 sites réutilisant des articles d’actualité, mais NewsGuard affirme que le nombre réel pourrait être bien plus élevé. NewsGuard n’a pu identifier les sites en question que parce que chacun d’entre eux comportait au moins un article avec un message d’erreur commun du chatbot, comme « En tant que modèle d’IA, je ne peux pas réécrire ce titre ». Mais d’autres sites qui prennent un moment pour supprimer ces signes révélateurs pourraient passer totalement inaperçus.

« Il existe probablement des centaines, voire des milliers, de sites Web qui utilisent l’IA pour récupérer du contenu provenant de sources extérieures que NewsGuard n’a pas pu identifier parce qu’ils n’ont pas publié par erreur un message d’erreur de l’IA », a écrit NewsGuard. Gizmodo n’a pas pu vérifier de manière indépendante les 37 sites identifiés. NewsGuard n’a pas immédiatement répondu à notre demande d’informations complémentaires. commentaire.

Ces sites variaient considérablement en termes de sujets, certains étant axés sur la science et l’espace et d’autres sur le sport, la politique ou les dernières nouvelles. Plusieurs sites Web présentaient des noms comme DailyHeadliner.com et TalkGlitz.com. L’un des sites, appelé WhatsNew2Day.com, semble avoir écrit un article sur l’IA basé sur une Article du 21 juin dans The Vergeironiquement, à propos des publicités diffusées contre des actualités générées par l’IA.

Dans de nombreux cas, ces articles plagiés sont utilisés pour générer des revenus publicitaires auprès de grandes marques. NewGuard affirme avoir découvert des publicités programmatiques provenant de 55 sociétés de premier ordre diffusées sur 15 des 37 sites analysés. Cela signifie que les marques, sciemment ou non, financent directement ces œuvres de plagiat d’IA. NewsGuard n’a pas répondu à Gizmodo demande de commentaires de cherchant les noms des marques de premier ordre identifiées.

« Parce que le processus publicitaire programmatique – qui utilise des algorithmes pour diffuser des publicités très ciblées aux utilisateurs sur Internet – est si opaque, les marques publicitaires n’ont probablement aucune idée qu’elles financent la prolifération de ces sites de copie d’IA », a ajouté NewsGuard.

On ne sait pas exactement quels modèles d’IA ont été utilisés pour créer ces œuvres plagiées, mais Gizmodo a confirmé que cela peut être facilement réalisé en utilisant les outils les plus populaires disponibles sur Google et OpenAI. Lors d’un test, Gizmodo a demandé Google Barde réécrire cette histoire récente de Gizmodo à propos d’une quasi-collision dans l’industrie aérienne pour être plus convivial pour le référencement. Bard a rapidement répondu en disant « Bien sûr, voici l’article de presse réécrit » avant de fournir un résumé 258- histoire de mots. NewsGuard a trouvé des résultats similaires lorsqu’il a demandé à ChatGPT de réécrire un article du New York Times.

OpenAI et Google ont tous deux des politiques interdisant aux utilisateurs d’utiliser leurs modèles pour se livrer au plagiat ou contribuer à la « fausse déclaration sur la provenance du contenu généré ». Mais ces politiques, pour l’instant, semblent n’être que de simples suggestions. Ni OpenAI ni Google n’ont répondu aux demandes de commentaires de Gizmodo.

L’industrie de l’information aux prises avec l’IA

L’agrégation d’actualités et les usines de contenu ne sont pas nouvelles et sont bien antérieures à la vague actuelle de grands modèles de langage à la mode, développant rapidement comme ChatGPT d’OpenAI et Bard de Google. Néanmoins, la rapidité avec laquelle ces modèles peuvent recréer des histoires, généralement en quelques secondes, signifie que les mauvais acteurs cherchant à remplir rapidement les sites avec du contenu copié peuvent générer des centaines, voire des milliers d’articles en une journée, pouvant tous aspirer des revenus publicitaires.

Les éditeurs de presse traditionnels, quant à eux, sont aux prises avec l’impact que l’IA aura sur les salles de rédaction. Publications techniques comme CNETet autres, ont été surpris en train d’utiliser l’IA pour générer des articles sans expliquer clairement comment ils sont créés. Certains, comme Insider, ont commencé à travailler avec des outils d’IA pour réfléchir à des idées d’histoires et proposer des questions d’entretien. Cependant, tout le monde n’est pas à bord du train d’actualités de l’IA. La semaine dernière, l’Associated Press dit toute sortie générée par une IA devrait être « traité comme un matériel source non vérifié ». Même les meilleurs modèles d’IA sont connus pour faits hallucinés et sont presque certainement formés sur du matériel protégé par le droit d’auteur, ce qui en fait un cauchemar pour le journalisme éthique.

Le New York Times a repoussé les entreprises d’IA plus tôt ce mois-ci en modifier ses politiques de conditions d’utilisation d’interdire explicitement aux entreprises d’utiliser ses archives pour former des systèmes d’apprentissage automatique ou d’intelligence artificielle. Maintenant, il semble que le Times soit peut-être poursuivre OpenAI en justice sur le problème du grattage des données.