Tech

La promesse et les périls des données synthétiques

Est-il possible qu’une IA soit entraînée uniquement sur les données générées par une autre IA ? Cela peut paraître une idée farfelue. Mais c’est une solution qui existe depuis un certain temps – et comme il est de plus en plus difficile d’obtenir de nouvelles données réelles, elle gagne du terrain.

Anthropic a utilisé des données synthétiques pour entraîner l’un de ses modèles phares, Claude 3.5 Sonnet. Meta a affiné ses modèles Llama 3.1 à l’aide de données générées par l’IA. Et OpenAI s’approvisionnerait en données de formation synthétiques auprès de o1, son modèle de « raisonnement », pour le prochain Orion.

Mais pourquoi l’IA a-t-elle besoin de données en premier lieu – et quoi ? gentil de données dont il a besoin ? Et ces données peuvent-elles vraiment être remplacé par des données synthétiques ?

L’importance des annotations

Les systèmes d’IA sont des machines statistiques. Formés sur de nombreux exemples, ils apprennent les modèles de ces exemples pour faire des prédictions, comme « à qui » dans un e-mail précède généralement « cela peut concerner ».

Les annotations, généralement du texte indiquant la signification ou des parties des données ingérées par ces systèmes, sont un élément clé de ces exemples. Ils servent de repères, « enseignant » un modèle permettant de distinguer les choses, les lieux et les idées.

Prenons un modèle de classification de photos montrant de nombreuses photos de cuisines étiquetées avec le mot « cuisine ». Au fur et à mesure de son entraînement, le modèle commencera à faire des associations entre la « cuisine » et les choses générales. caractéristiques des cuisines (par exemple, qu’elles contiennent des réfrigérateurs et des comptoirs). Après formation, à partir d’une photo d’une cuisine qui ne figurait pas dans les exemples initiaux, le modèle devrait être capable de l’identifier comme telle. (Bien sûr, si les photos de cuisines étaient étiquetées « vache », cela les identifierait comme des vaches, ce qui souligne l’importance d’une bonne annotation.)

L’appétit pour l’IA et la nécessité de fournir des données étiquetées pour son développement ont fait exploser le marché des services d’annotation. Étude de marché dimensionnelle estimations qu’il vaut 838,2 millions de dollars aujourd’hui – et vaudra 10,34 milliards de dollars dans les dix prochaines années. Bien qu’il n’existe pas d’estimations précises du nombre de personnes engagées dans le travail d’étiquetage, une étude de 2022 papier fixe le nombre en « millions ».

Les entreprises, grandes et petites, s’appuient sur les travailleurs employés par des sociétés d’annotation de données pour créer des étiquettes pour les ensembles de formation en IA. Certains de ces emplois sont relativement bien rémunérés, en particulier si l’étiquetage nécessite des connaissances spécialisées (par exemple, des compétences en mathématiques). D’autres peuvent être éreintants. Annotateurs dans les pays en développement sont payés seulement quelques dollars de l’heure en moyenne sans aucun avantage ni garantie de futurs concerts.

Un puits de données de séchage

Il existe donc des raisons humanistes de rechercher des alternatives aux étiquettes générées par l’homme. Mais il y en a aussi des pratiques.

Les humains ne peuvent étiqueter qu’à une vitesse limitée. Les annotateurs ont également des préjugés qui peuvent se manifester dans leurs annotations et, par la suite, dans tous les modèles formés sur celles-ci. Les annotateurs font erreursou vous laisser trébucher par les instructions d’étiquetage. Et payer des humains pour faire des choses coûte cher.

Données en général c’est cher, d’ailleurs. Shutterstock facture des dizaines de millions de dollars aux fournisseurs d’IA pour accéder à ses archivestandis que Reddit a gagné des centaines de millions grâce aux données de licence à Google, OpenAI et autres.

Enfin, les données deviennent également de plus en plus difficiles à acquérir.

La plupart des modèles sont formés sur des collections massives de données publiques – des données que les propriétaires choisissent de plus en plus de contrôler par crainte que leurs données ne soient plagiées ou qu’ils ne reçoivent pas de crédit ou d’attribution pour celles-ci. Plus de 35 % des 1 000 meilleurs sites Web au monde bloque maintenant le grattoir Web d’OpenAI. Et environ 25 % des données provenant de sources de « haute qualité » ont été restreintes aux principaux ensembles de données utilisés pour former les modèles, selon une étude récente. étude trouvé.

Si la tendance actuelle au blocage d’accès se poursuit, le groupe de recherche Epoch AI projets que les développeurs seront à court de données pour former des modèles d’IA génératifs entre 2026 et 2032. Cela, combiné aux craintes de poursuites en matière de droits d’auteur et de matériel répréhensible se retrouvant dans des ensembles de données ouvertes, a obligé les fournisseurs d’IA à rendre des comptes.

Alternatives synthétiques

À première vue, les données synthétiques semblent être la solution à tous ces problèmes. Besoin d’annotations ? Générez-les. Plus d’exemples de données ? Aucun problème. Le ciel est la limite.

Et dans une certaine mesure, c’est vrai.

« Si ‘les données sont le nouveau pétrole’, les données synthétiques se présentent comme un biocarburant, pouvant être créé sans les externalités négatives de la réalité », a déclaré à TechCrunch Os Keyes, doctorant à l’Université de Washington qui étudie l’impact éthique des technologies émergentes. . « Vous pouvez prendre un petit ensemble de données de départ, simuler et extrapoler de nouvelles entrées à partir de celui-ci. »

L’industrie de l’IA a adopté le concept et l’a utilisé.

Ce mois-ci, Writer, une société d’IA générative axée sur les entreprises, a lancé un modèle, Palmyra X 004, formé presque entièrement sur des données synthétiques. Son développement n’a coûté que 700 000 dollars, affirme Writer – comparé à des estimations de 4,6 millions de dollars pour un modèle OpenAI de taille comparable.

Les modèles ouverts Phi de Microsoft ont été formés en partie à l’aide de données synthétiques. Il en était de même pour les modèles Gemma de Google. Nvidia cet été a dévoilé une famille de modèles conçue pour générer des données d’entraînement synthétiques, et la startup d’IA Hugging Face a récemment publié ce qu’elle prétend être le le plus grand ensemble de données de formation en IA de texte synthétique.

La génération de données synthétiques est devenue une activité à part entière, qui pourrait être valeur 2,34 milliards de dollars d’ici 2030. Gartner prédit que 60 % des données utilisées cette année pour les projets d’IA et d’analyse seront générées de manière synthétique.

Luca Soldaini, chercheur principal à l’Allen Institute for AI, a noté que des techniques de données synthétiques peuvent être utilisées pour générer des données de formation dans un format qui n’est pas facilement obtenu par scraping (ou même par licence de contenu). Par exemple, lors de la formation de son générateur vidéo Movie Gen, Meta a utilisé Llama 3 pour créer des légendes pour les séquences dans les données de formation, que les humains ont ensuite affinées pour ajouter plus de détails, comme des descriptions de l’éclairage.

Dans le même esprit, OpenAI affirme avoir affiné GPT-4o à l’aide de données synthétiques pour créer la fonctionnalité Canvas de type carnet de croquis pour ChatGPT. Et Amazon a dit qu’il génère des données synthétiques pour compléter les données du monde réel qu’il utilise pour former des modèles de reconnaissance vocale pour Alexa.

« Les modèles de données synthétiques peuvent être utilisés pour développer rapidement l’intuition humaine quant aux données nécessaires pour obtenir un comportement de modèle spécifique », a déclaré Soldaini.

Risques synthétiques

Toutefois, les données synthétiques ne sont pas une panacée. Elle souffre du même problème de « déchets entrants et sortants » que toute l’IA. Modèles créer données synthétiques, et si les données utilisées pour former ces modèles présentent des biais et des limites, leurs résultats seront également entachés. Par exemple, des groupes mal représentés dans les données de base le seront dans les données synthétiques.

« Le problème est que vous ne pouvez pas faire grand-chose », a déclaré Keyes. «Disons que vous n’avez que 30 Noirs dans un ensemble de données. Extrapoler pourrait aider, mais si ces 30 personnes appartiennent toutes à la classe moyenne ou à la peau claire, c’est à cela que ressembleront toutes les données « représentatives ».

À ce stade, un 2023 étude par des chercheurs de l’Université Rice et de Stanford ont découvert qu’une dépendance excessive à l’égard de données synthétiques pendant la formation peut créer des modèles dont « la qualité ou la diversité diminuent progressivement ». Selon les chercheurs, le biais d’échantillonnage – une mauvaise représentation du monde réel – entraîne une détérioration de la diversité d’un modèle après quelques générations de formation (bien qu’ils aient également constaté que le mélange d’un peu de données du monde réel contribue à atténuer ce phénomène).

Keyes voit des risques supplémentaires dans les modèles complexes tels que le o1 d’OpenAI, qui, selon lui, pourraient produire des hallucinations plus difficiles à repérer dans leurs données synthétiques. Ceux-ci, à leur tour, pourraient réduire la précision des modèles formés sur les données, surtout si les sources des hallucinations ne sont pas faciles à identifier.

« Les modèles complexes hallucinent ; les données produites par des modèles complexes contiennent des hallucinations », a ajouté Keyes. « Et avec un modèle comme o1, les développeurs eux-mêmes ne peuvent pas nécessairement expliquer pourquoi les artefacts apparaissent. »

Des hallucinations combinées peuvent conduire à des modèles crachant du charabia. UN étude publié dans la revue Nature révèle comment les modèles, formés sur des données truffées d’erreurs, génèrent encore plus des données truffées d’erreurs et comment cette boucle de rétroaction dégrade les futures générations de modèles. Les modèles perdent la compréhension de connaissances plus ésotériques au fil des générations, ont découvert les chercheurs – devenant plus génériques et produisant souvent des réponses sans rapport avec les questions qui leur sont posées.

Crédits images :Ilia Shumailov et al.

Un suivi étude montre que d’autres types de modèles, comme les générateurs d’images, ne sont pas à l’abri de ce type d’effondrement :

Crédits images :Ilia Shumailov et al.

Soldaini convient qu’il ne faut pas faire confiance aux données synthétiques « brutes », du moins si l’objectif est d’éviter de former des chatbots oublieux et des générateurs d’images homogènes. Pour l’utiliser « en toute sécurité », dit-il, il faut l’examiner, le trier et le filtrer minutieusement, et idéalement l’associer à des données fraîches et réelles, comme vous le feriez avec n’importe quel autre ensemble de données.

Ne pas le faire pourrait éventuellement conduire à l’effondrement du modèleoù un modèle devient moins « créatif » – et plus biaisé – dans ses résultats, compromettant finalement sérieusement sa fonctionnalité. Bien que ce processus puisse être identifié et arrêté avant qu’il ne devienne sérieux, il constitue néanmoins un risque.

« Les chercheurs doivent examiner les données générées, répéter le processus de génération et identifier les mesures de protection permettant de supprimer les points de données de mauvaise qualité », a déclaré Soldaini. « Les pipelines de données synthétiques ne sont pas une machine qui s’améliore d’elle-même ; leurs résultats doivent être soigneusement inspectés et améliorés avant d’être utilisés pour la formation.

Le PDG d’OpenAI, Sam Altman, a un jour soutenu que l’IA un jour produire des données synthétiques suffisamment bonnes pour s’entraîner efficacement. Mais – en supposant que cela soit réalisable – la technologie n’existe pas encore. Aucun grand laboratoire d’IA n’a publié de modèle formé sur les seules données synthétiques.

Au moins dans un avenir prévisible, il semble que nous aurons besoin d’humains au courant quelque part pour s’assurer que la formation d’un mannequin ne se passe pas mal.

Source link