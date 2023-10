La semaine dernière, nous avons eu des éclaircissements sur ce à quoi tout cela pourrait ressembler dans la pratique.

Le 11 octobre, une organisation gouvernementale chinoise appelée Comité technique national de normalisation de la sécurité de l’information a publié un projet de document proposant des règles détaillées sur la manière de déterminer si un modèle d’IA générative pose problème. Souvent abrégé en TC260, le comité consulte des représentants d’entreprises, des universitaires et des régulateurs pour établir des règles pour l’industrie technologique sur des questions allant de la cybersécurité à la confidentialité en passant par l’infrastructure informatique.

Contrairement à de nombreux manifestes que vous avez peut-être vus sur la manière de réglementer l’IA, ce document de normes est très détaillé : il définit des critères clairs pour savoir quand une source de données doit être interdite dans la formation de l’IA générative, et il donne des mesures sur le nombre exact de mots-clés et des exemples de questions qui doivent être préparés pour tester un modèle.

Matt Sheehan, chercheur en technologie mondiale au Carnegie Endowment for International Peace qui a signalé le document pour moi, a déclaré que lorsqu’il l’a lu pour la première fois, il « avait l’impression qu’il s’agissait du document le plus solide et le plus spécifique lié à la réglementation de l’IA générative ». Il ajouta, «Cela donne essentiellement aux entreprises une rubrique ou un manuel sur la façon de se conformer aux réglementations sur l’IA générative qui comportent de nombreuses exigences vagues.

Il clarifie également ce que les entreprises devraient considérer comme un « risque de sécurité » dans les modèles d’IA, puisque Pékin tente de se débarrasser à la fois des préoccupations universelles, comme les biais algorithmiques, et des contenus sensibles uniquement dans le contexte chinois.. « Il s’agit d’une adaptation à une infrastructure de censure déjà très sophistiquée », dit-il.

Alors, à quoi ressemblent ces règles spécifiques ?

En formation : Tous les modèles de base de l’IA sont actuellement formés sur de nombreux corpus (bases de données de textes et d’images), dont certains présentent des biais et un contenu non modéré. Les normes TC260 exigent que les entreprises non seulement diversifient les corpus (mélangant langues et formats) mais évaluent également la qualité de tous leurs supports de formation.

Comment? Les entreprises devraient échantillonner au hasard 4 000 « éléments de données » provenant d’une seule source. Si plus de 5 % des données sont considérées comme des « informations illégales et négatives », ce corpus doit être mis sur liste noire pour de futures formations.