« Par exemple, les informations nocives peuvent être cachées dans une demande inoffensive, comme enterrer des demandes nuisibles dans un mur de contenu inoffensif, ou déguiser la demande nocive dans le jeu de rôle de fiction, ou utiliser des substitutions évidentes », lit-on dans une telle wrapper.
Du côté de la sortie, un classificateur spécialement formé calcule la probabilité que toute séquence spécifique de jetons (c’est-à-dire les mots) dans une réponse discute de tout contenu refusé. Ce calcul est répété lorsque chaque jeton est généré et le flux de sortie est arrêté si le résultat dépasse un certain seuil.
Maintenant c’est à toi
Depuis aoûtAnthropic a dirigé un programme de primes de bogues via Hackerone offrant 15 000 $ à toute personne qui pourrait concevoir un « jailbreak universel » qui pourrait faire en sorte que ce classificateur constitutionnel réponde à un ensemble de 10 questions interdites. La société affirme que 183 experts différents ont passé un total de plus de 3 000 heures à tenter de faire exactement cela, avec le meilleur résultat fournissant des informations utilisables sur seulement cinq des 10 invites interdites.
Anthropic a également testé le modèle contre un ensemble de 10 000 invites en jailbreaking générées synthétiquement par le Claude LLM. Le classificateur constitutionnel a réussi à bloquer 95% de ces tentatives, contre seulement 14% pour le système Claude non protégé.
Malgré ces succès, anthropic avertit que le système de classificateur constitutionnel est livré avec des frais généraux importants de 23,7%, augmentant à la fois le prix et les demandes énergétiques de chaque requête. Le système de classificateur a également refusé de répondre à 0,38% supplémentaire des invites inoffensives par rapport à Claude non protégé, que Anthropic considère une augmentation de manière acceptable.
Anthropic ne cesse de prétendre que son nouveau système fournit un système infaillible contre tout jailbreak. Mais il note que « même la petite proportion de jailbreaks qui dépassent nos classificateurs nécessitent beaucoup plus d’efforts pour découvrir quand les garanties sont utilisées ». Et tandis que les nouvelles techniques de jailbreak peuvent et seront découvertes à l’avenir, Anthropic affirme que « la constitution utilisée pour former les classificateurs peut rapidement être adaptée pour couvrir de nouvelles attaques telles qu’elles sont découvertes ».
Pour l’instant, Anthropic est suffisamment confiant dans son système de classificateur constitutionnel pour l’ouvrir pour des tests adversaires généralisés. Jusqu’au 10 février, les utilisateurs de Claude peuvent Visitez le site de test Et essayez de percer les nouvelles protections pour obtenir des réponses à huit questions sur les armes chimiques. Anthropic dit qu’il annoncera tout jailbreaks nouvellement découvert au cours de ce test. Godspeed, New Red Teamers.