Chandhiramowuli me parle d’un cas où un annotateur de données en Inde a dû différencier les images de bouteilles de soda et choisir celles qui ressemblaient au Dr Pepper. Mais Dr. Pepper n’est pas un produit vendu en Inde, et il incombait à l’annotateur de données de le découvrir.

On s’attend à ce que les annotateurs comprennent les valeurs qui sont importantes pour l’entreprise, dit Chandhiramowuli. « Ils n’apprennent pas seulement ces choses lointaines et lointaines qui n’ont absolument aucun sens pour eux, ils découvrent également non seulement quels sont ces autres contextes, mais quelles sont les priorités du système qu’ils construisent », dit-elle.

En fait, nous sommes tous des travailleurs des données pour les grandes entreprises technologiques, que nous en soyons conscients ou non, soutiennent des chercheurs de l’Université de Californie à Berkeley, de l’Université de Californie à Davis, de l’Université du Minnesota et de la Northwestern University dans un nouveau papier présenté au FAccT.

Les modèles d’IA de texte et d’image sont formés à l’aide d’énormes ensembles de données extraits d’Internet. Cela inclut nos données personnelles et les œuvres d’artistes protégées par le droit d’auteur, et ces données que nous avons créées font désormais partie à jamais d’un modèle d’IA conçu pour rapporter de l’argent à une entreprise. Nous contribuons involontairement à notre travail gratuitement en téléchargeant nos photos sur des sites publics, en votant pour les commentaires sur Reddit, en étiquetant les images sur reCAPTCHA ou en effectuant des recherches en ligne.

À l’heure actuelle, le déséquilibre des pouvoirs est fortement biaisé en faveur de certaines des plus grandes entreprises technologiques du monde.

Pour changer cela, nous n’avons besoin que d’une révolution des données et d’une réglementation. Les chercheurs affirment que l’une des façons dont les gens peuvent reprendre le contrôle de leur existence en ligne est de plaider pour la transparence sur la façon dont les données sont utilisées et de trouver des moyens de donner aux gens le droit d’offrir des commentaires et de partager les revenus de l’utilisation de leurs données.

Même si ce travail de données constitue l’épine dorsale de l’IA moderne, le travail de données reste chroniquement sous-estimé et invisible dans le monde, et les salaires restent bas pour les annotateurs.

« Il n’y a absolument aucune reconnaissance de la contribution du travail sur les données », déclare Chandhiramowuli.