Google note également que ce type de filigrane fonctionne mieux lorsqu’il y a beaucoup « d’entropie » dans la distribution LLM, ce qui signifie plusieurs candidats valides pour chaque jeton (par exemple, « mon fruit tropical préféré est [mango, lychee, papaya, durian] »). Dans les situations où un LLM « renvoie presque toujours exactement la même réponse à une invite donnée » – comme des questions factuelles de base ou des modèles réglés sur une « température » plus basse – le filigrane est moins efficace.





Un diagramme expliquant le fonctionnement du filigrane de texte de SynthID. Un diagramme expliquant le fonctionnement du filigrane de texte de SynthID.

Crédit: Google/Nature



Google affirme que SynthID s’appuie sur des outils de filigrane de texte IA similaires précédents en introduisant ce qu’il appelle une approche d’échantillonnage de tournoi. Au cours de la boucle de génération de jetons, cette approche fait passer chaque jeton candidat potentiel à travers un tournoi de type bracket en plusieurs étapes, où chaque tour est « jugé » par une fonction de filigrane aléatoire différente. Seul le gagnant final de ce processus figure dans le résultat final.

Peuvent-ils dire que c’est Folgers ?

Changer le processus de sélection des jetons d’un LLM avec un outil de filigrane aléatoire pourrait évidemment avoir un effet négatif sur la qualité du texte généré. Mais dans son article, Google montre que SynthID peut être « sans distorsion » au niveau des jetons individuels ou de courtes séquences de texte, en fonction des paramètres spécifiques utilisés pour l’algorithme du tournoi. D’autres paramètres peuvent augmenter la « distorsion » introduite par l’outil de filigrane tout en augmentant la détectabilité du filigrane, indique Google.

Pour tester comment d’éventuelles distorsions de filigrane pourraient affecter la qualité perçue et l’utilité des sorties LLM, Google a acheminé « une fraction aléatoire » des requêtes Gemini via le système SynthID et les a comparées à leurs homologues sans filigrane. Sur un total de 20 millions de réponses, les utilisateurs ont attribué 0,1 % de notes « pouce levé » en plus et 0,2 % de notes « pouce vers le bas » en moins aux réponses filigranées, ne montrant pratiquement aucune différence perceptible par l’homme dans un large ensemble d’interactions LLM réelles.





Les recherches de Google montrent que SynthID est plus fiable que les autres outils de filigrane IA, mais son taux de réussite dépend fortement de la longueur et de l’entropie. Les recherches de Google montrent que SynthID est plus fiable que les autres outils de filigrane IA, mais son taux de réussite dépend fortement de la longueur et de l’entropie.

Crédit: Google/Nature



Les tests de Google ont également montré que son algorithme de détection SynthID a détecté avec succès le texte généré par l’IA beaucoup plus souvent que les systèmes de filigrane précédents comme Échantillonnage de gommes. Mais l’ampleur de cette amélioration – et la vitesse totale à laquelle SynthID peut détecter avec succès le texte généré par l’IA – dépend fortement de la longueur du texte en question et de la taille du texte. réglage de la température du modèle utilisé. SynthID a pu détecter près de 100 % des échantillons de texte générés par l’IA d’une longueur de 400 tokens à partir de Gemma 7B-1T à une température de 1,0, par exemple, contre environ 40 % pour les échantillons de 100 tokens du même modèle à une température de 0,5. température.