C’était rapide : l’intelligence artificielle est passée de la science-fiction à la nouveauté à Thing We Are Sure Is the Future. Très, très rapide.

Un moyen simple de mesurer le changement consiste à faire les gros titres, comme ceux annonçant l’investissement de 10 milliards de dollars de Microsoft dans OpenAI, la société à l’origine de l’éblouissant générateur de texte ChatGPT, suivi par d’autres startups d’IA à la recherche de gros sous. Ou ceux sur les districts scolaires essayant frénétiquement de faire face aux étudiants utilisant ChatGPT pour rédiger leurs dissertations. Ou ceux sur les éditeurs numériques comme CNET et BuzzFeed admettant ou se vantant qu’ils utilisent l’IA pour créer une partie de leur contenu – et les investisseurs les récompensant pour cela.

“Jusqu’à très récemment, il s’agissait d’expériences scientifiques dont personne ne se souciait”, explique Mathew Dryhurst, co-fondateur de la startup d’IA Spawning.ai. « En peu de temps, [they] sont devenus des projets de conséquence économique.

Ensuite, il y a un autre indicateur avancé : les poursuites intentées contre OpenAI et des sociétés similaires, qui soutiennent que les moteurs d’IA utilisent illégalement le travail d’autres personnes pour créer leurs plates-formes et leurs produits. Cela signifie qu’ils visent directement le boom actuel de l’IA générative – des logiciels, comme ChatGPT, qui utilisent du texte, des images ou du code existants pour créer de nouvelles œuvres.





Enregistrez-vous pour recevoir le bulletin d’informations

Kafka dans les médias

Peter Kafka rend compte de la collision des médias et de la technologie.

L’automne dernier, un groupe de titulaires de droits d’auteur anonymes a poursuivi Open AI et Microsoft, propriétaire de la plate-forme logicielle GitHub, pour avoir prétendument enfreint les droits des développeurs qui ont fourni des logiciels à GitHub. Microsoft et OpenAI ont collaboré pour créer GitHub Copilot, qui dit qu’il peut utiliser l’IA pour écrire du code.

Et en janvier, nous avons vu un recours collectif similaire intenté (par les mêmes avocats) contre Stability AI, le développeur du générateur d’art IA Stable Diffusion, alléguant des violations du droit d’auteur. Pendant ce temps, Getty Images, la photothèque et la bibliothèque d’art basée au Royaume-Uni, a annoncé qu’elle poursuivrait également Stable Diffusion pour avoir utilisé ses images sans licence.

Il est facile de rejeter par réflexe les dépôts juridiques comme un marqueur inévitable d’un boom technologique – s’il y a du battage médiatique et de l’argent, les avocats suivront. Mais il y a des questions vraiment intéressantes en jeu ici – sur la nature de la propriété intellectuelle et les avantages et les inconvénients de conduire à toute vitesse dans un nouveau paysage technologique avant que quiconque ne connaisse les règles de la route. Oui, l’IA générative semble désormais incontournable. Ces combats pourraient façonner la façon dont nous l’utilisons et comment cela affecte les affaires et la culture.

Nous avons déjà vu des versions de cette histoire se jouer. Demandez à l’industrie de la musique, qui a passé des années à lutter contre le passage des CD aux morceaux numériques, ou aux éditeurs de livres qui se sont opposés à la décision de Google de numériser les livres.

Le boom de l’IA va “déclencher une réaction commune parmi les gens que nous considérons comme des créateurs :” Mes affaires sont volées “”, déclare Lawrence Lessig, le professeur de droit de Harvard qui a passé des années à se battre contre les labels de musique à l’époque de Napster. il a fait valoir que les propriétaires de musique utilisaient les règles du droit d’auteur pour étouffer la créativité.

Au début des années 2000, les querelles sur les droits numériques et les droits d’auteur étaient une lumière secondaire, préoccupante pour une tranche relativement restreinte de la population. Mais maintenant, tout le monde est en ligne, ce qui signifie que même si vous ne vous considérez pas comme un « créateur », les éléments que vous écrivez ou partagez pourraient faire partie d’un moteur d’IA et être utilisés d’une manière que vous n’auriez jamais imaginée.

Et les géants de la technologie qui mènent la charge dans l’IA – en plus de Microsoft, Google et Facebook ont ​​fait d’énormes investissements dans l’industrie, même s’ils n’en ont pas encore mis une grande partie devant le public – sont beaucoup plus puissants et enracinés que leurs homologues du boom des point-com. Ce qui signifie qu’ils ont plus à perdre d’une contestation devant un tribunal et qu’ils ont les ressources nécessaires pour lutter et retarder les conséquences juridiques jusqu’à ce que ces conséquences soient hors de propos.

Le régime alimenté par les données de l’IA

La technologie derrière l’IA est une boîte noire compliquée, et de nombreuses affirmations et prédictions concernant sa puissance peuvent être exagérées. Oui, certains logiciels d’intelligence artificielle semblent être en mesure de réussir certaines parties des tests de MBA et de licence médicale, mais ils ne remplaceront pas encore votre médecin ou votre directeur financier. Ils ne sont pas non plus conscients, malgré ce qu’un Googleur perplexe aurait pu dire.

Mais l’idée de base est relativement simple : des moteurs comme ceux construits par OpenAI ingèrent des ensembles de données géants, qu’ils utilisent pour former des logiciels qui peuvent faire des recommandations ou même générer du code, de l’art ou du texte.

Dans de nombreux cas, les moteurs parcourent le Web à la recherche de ces ensembles de données, de la même manière que les robots de recherche de Google, afin qu’ils puissent savoir ce qu’il y a sur une page Web et la cataloguer pour les requêtes de recherche. Dans certains cas, comme Meta, les moteurs d’IA ont accès à d’énormes ensembles de données propriétaires construits en partie par le texte, les photos et les vidéos que leurs propres utilisateurs ont publiés sur leurs plateformes – bien qu’un porte-parole de Meta affirme que les données sont utilisées pour aider à affiner les recommandations. , pas pour créer des produits d’IA comme un moteur ChatGPT-esque. D’autres fois, les moteurs concéderont également des licences de données, comme Meta et OpenAI l’ont fait avec la photothèque Shutterstock.

Contrairement aux poursuites pour piratage de musique au début du siècle, personne ne prétend que les moteurs d’IA font des copies bit à bit des données qu’ils utilisent et les distribuent sous le même nom. Les problèmes juridiques, pour l’instant, ont tendance à porter sur la façon dont les données sont entrées dans les moteurs en premier lieu et qui a le droit d’utiliser ces données.

Les partisans de l’IA soutiennent que 1) les moteurs peuvent apprendre des ensembles de données existants sans autorisation car il n’y a pas de loi contre l’apprentissage, et 2) transformer un ensemble de données – même si vous ne le possédez pas – en quelque chose de complètement différent est protégé par la loi, confirmé par une longue bataille judiciaire que Google a remportée contre les auteurs et les éditeurs qui ont poursuivi la société pour son index de livres, qui a catalogué et extrait une énorme quantité de livres.

Les arguments contre les moteurs semblent encore plus simples : Getty, pour sa part, se dit heureuse de concéder ses images sous licence aux moteurs d’IA, mais Stability AI, le constructeur de Stable Diffusion, n’a pas payé. Dans l’affaire OpenAI/Microsoft/GitHub, les avocats soutiennent que Microsoft et OpenAI violent les droits des développeurs qui ont contribué au code de GitHub, en ignorant les licences logicielles open source qui régissent l’utilisation commerciale de ce code.

Et dans le procès Stability AI, ces mêmes avocats soutiennent que le moteur d’image fait en réalité des copies du travail des artistes, même si la sortie n’est pas une image miroir de l’original. Et que leur propre production entre en concurrence avec la capacité des artistes à gagner leur vie.

« Je ne suis pas opposé à l’IA. Personne ne s’oppose à l’IA. Nous voulons juste que ce soit juste et éthique – pour que tout soit bien fait », déclare Matthew Butterick, un avocat représentant les plaignants dans les deux recours collectifs.

Et parfois, la question des données change en fonction de la personne à qui vous posez la question. Elon Musk a été l’un des premiers investisseurs dans OpenAI – mais une fois qu’il a possédé Twitter, il a déclaré qu’il ne voulait pas laisser OpenAI explorer la base de données de Twitter.

Pas surprenant, car je viens d’apprendre qu’OpenAI avait accès à la base de données Twitter pour la formation. Je mets ça en pause pour le moment. Besoin d’en savoir plus sur la structure de gouvernance et les plans de revenus à l’avenir. OpenAI a été lancé en tant qu’open source et à but non lucratif. Ni l’un ni l’autre ne sont encore vrais. – Elon Musk (@elonmusk) 4 décembre 2022

Que nous dit le passé sur l’avenir de l’IA ?

Ici, rappelons-nous que le Next Big Thing n’est pas toujours le cas : rappelez-vous quand des gens comme moi essayaient sérieusement de comprendre ce que signifiait vraiment Web3, Jimmy Fallon faisait la promotion des NFT Bored Ape, et FTX payait des millions de dollars pour les publicités du Super Bowl ? C’était il y a un an.

Pourtant, alors que la bulle de battage médiatique de l’IA gonfle, j’ai beaucoup réfléchi aux parallèles avec les combats musique contre technologie d’il y a plus de deux décennies.

En bref : les services de « partage de fichiers » ont fait exploser l’industrie de la musique presque du jour au lendemain, car ils ont donné à toute personne disposant d’une connexion haut débit la possibilité de télécharger la musique de son choix, gratuitement, au lieu de payer 15 $ pour un CD. L’industrie de la musique a réagi en poursuivant en justice les propriétaires de services comme Napster, ainsi que des utilisateurs ordinaires comme une grand-mère de 66 ans. Au fil du temps, les labels ont gagné leurs batailles contre Napster et ses semblables, et, dans certains cas, leurs investisseurs. Ils ont également généré des tonnes d’opprobre de la part des auditeurs de musique, qui ont continué à ne pas acheter beaucoup de musique, et la valeur des labels de musique a chuté.

Mais après une décennie à essayer de faire revenir les ventes de CD, les labels de musique ont finalement fait la paix avec Spotify, qui offrait aux utilisateurs la possibilité de s’abonner à un service d’écoute à volonté moyennant des frais mensuels. Ces frais ont fini par éclipser ce que l’auditeur moyen dépenserait un an sur des CD, et maintenant les droits musicaux et les personnes qui les possèdent valent beaucoup d’argent.

Vous pouvez donc imaginer un résultat ici : à terme, des groupes de personnes qui mettent des choses sur Internet négocieront collectivement avec des entités technologiques sur la valeur de leurs données, et tout le monde y gagnera. Bien sûr, ce scénario pourrait également signifier que les personnes qui mettent des choses sur Internet découvrent que leur photo, tweet ou croquis individuel signifie très peu pour un moteur d’IA qui utilise des milliards d’entrées pour la formation.

Il est également possible que les tribunaux – ou, alternativement, les régulateurs qui s’intéressent de plus en plus à la technologie, en particulier dans l’UE – appliquent des règles qui rendent très difficile le fonctionnement d’OpenAI et/ou les punissent rétroactivement pour avoir pris des données. sans consentement. J’ai entendu des responsables techniques dire qu’ils se méfieraient de travailler avec des moteurs d’IA de peur de se retrouver en costume ou d’être obligés de défaire le travail qu’ils avaient fait avec des moteurs d’IA.

Mais le fait que Microsoft, qui connaît certainement les dangers des régulateurs punitifs, vient d’investir 10 milliards de dollars supplémentaires dans OpenAI suggère que l’industrie technologique estime que la récompense l’emporte sur le risque. Et que toute résolution légale ou réglementaire apparaîtra longtemps, longtemps après que les gagnants et les perdants de l’IA auront été triés.

Un terrain d’entente, pour l’instant, pourrait être que les personnes qui connaissent et s’intéressent à ce genre de choses prennent le temps de dire aux moteurs d’IA de les laisser tranquilles. De la même manière que les personnes qui savent comment les pages Web sont créées savent que “robots.txt” est censé dire à Google de ne pas explorer votre site.

Spawning.Ai a construit “Have I Been Trained”, un outil simple qui est censé dire si votre œuvre a été consommée par un moteur d’IA, et vous donne la possibilité de dire aux moteurs de ne pas l’inhaler à l’avenir. Le co-fondateur de Spawning, Dryhurst, affirme que l’outil ne fonctionnera pas pour tout le monde, ni pour tous les moteurs, mais c’est un début. Et, plus important encore, c’est un espace réservé car nous déterminons collectivement ce que nous voulons que l’IA fasse, et ne fasse pas.

“C’est une répétition générale et une opportunité d’établir des habitudes qui s’avéreront cruciales dans les décennies à venir”, m’a-t-il dit par e-mail. “Il est difficile de dire si nous avons deux ans ou 10 ans pour bien faire les choses.”