Harvard publie un vaste ensemble de données gratuites de formation en IA financé par OpenAI et Microsoft

En plus de cette mine de livres, l’Institutional Data Initiative travaille également avec la Bibliothèque publique de Boston pour numériser des millions d’articles de différents journaux désormais dans le domaine public, et se dit ouverte à la formation de collaborations similaires à terme. La manière exacte dont l’ensemble de données sur les livres sera publié n’est pas réglée. L’Institutional Data Initiative a demandé à Google de travailler ensemble sur la distribution publique, et la société a promis son soutien.

Quelle que soit la manière dont l’ensemble de données de l’IDI sera publié, il rejoindra une multitude de projets, startups et initiatives similaires qui promettent de donner aux entreprises l’accès à du matériel de formation sur l’IA substantiel et de haute qualité sans risquer de se heurter à des problèmes de droits d’auteur. Des entreprises comme Calliope Networks et ProRata ont vu le jour pour délivrer des licences et concevoir des systèmes de compensation conçus pour rémunérer les créateurs et les titulaires de droits pour la fourniture de données de formation à l’IA.

Il existe également d’autres nouveaux projets du domaine public. Au printemps dernier, la startup française d’IA Pleias a déployé son propre ensemble de données du domaine public, Common Corpus, qui contient environ 3 à 4 millions de livres et collections de périodiques, selon le coordinateur du projet Pierre-Carl Langlais. Soutenu par le ministère français de la Culture, le Corpus commun a été téléchargé plus de 60 000 fois rien que ce mois-ci sur la plateforme open source d’IA Hugging Face. La semaine dernière, Pleias a annoncé la publication de son premier ensemble de grands modèles de langage formés sur cet ensemble de données, qui, selon Langlais, constituent les premiers modèles « jamais formés exclusivement sur des données ouvertes et conformes aux [EU] Loi sur l’IA.

Des efforts sont en cours pour créer également des ensembles de données de mage similaires. Génération de startups IA libéré le sien cet été appelé Source.Plus, qui contient des images du domaine public provenant de Wikimedia Commons ainsi que de divers musées et archives. Plusieurs importants institutions culturelles ont depuis longtemps rendu leurs propres archives accessibles au public dans le cadre de projets autonomes, comme le Metropolitan Museum of Art.

Ed Newton-Rex, ancien cadre de Stability AI qui dirige désormais une organisation à but non lucratif qui certifie des outils d’IA formés de manière éthique, affirme que l’augmentation de ces ensembles de données montre qu’il n’est pas nécessaire de voler des matériaux protégés par le droit d’auteur pour créer des modèles d’IA performants et de qualité. OpenAI avait précédemment déclaré aux législateurs du Royaume-Uni que ce serait «impossible » pour créer des produits comme ChatGPT sans utiliser d’œuvres protégées par le droit d’auteur. « De vastes ensembles de données du domaine public comme ceux-ci démolissent encore davantage la « défense de nécessité » que certaines sociétés d’IA utilisent pour justifier la suppression d’œuvres protégées par le droit d’auteur afin de former leurs modèles », déclare Newton-Rex.

Mais il a encore des réserves quant à la capacité de l’IDI et des projets similaires à modifier réellement le statu quo en matière de formation. « Ces ensembles de données n’auront un impact positif que s’ils sont utilisés, probablement en conjonction avec l’octroi de licences pour d’autres données, pour remplacer des œuvres protégées par le droit d’auteur. S’ils sont simplement ajoutés au mélange, en tant que partie d’un ensemble de données qui inclut également le travail sans licence des créateurs du monde entier, ils bénéficieront massivement aux entreprises d’IA », dit-il.

« 9 centenaires étonnants révèlent leurs secrets de longévité