Apprendre à jouer à la diplomatie est un gros problème pour plusieurs raisons. Non seulement cela implique plusieurs joueurs, qui effectuent des mouvements en même temps, mais chaque tour est précédé d’une brève négociation au cours de laquelle les joueurs discutent par paires pour tenter de former des alliances ou de se liguer contre des rivaux. Après ce tour de négociation, les joueurs décident alors quelles pièces déplacer et s’ils doivent honorer ou renoncer à un accord.

À chaque étape du jeu, Cicero modélise la manière dont les autres joueurs sont susceptibles d’agir en fonction de l’état du plateau et de ses conversations précédentes avec eux. Il détermine ensuite comment les acteurs peuvent travailler ensemble pour un bénéfice mutuel et génère des messages conçus pour atteindre ces objectifs.

Pour construire Cicero, Meta marie deux types d’IA différents : un modèle d’apprentissage par renforcement qui détermine les mouvements à effectuer et un grand modèle de langage qui négocie avec les autres joueurs.

Cicéron n’est pas parfait. Il envoyait toujours des messages contenant des erreurs, contredisant parfois ses propres plans ou faisant des erreurs stratégiques. Mais Meta affirme que les humains ont souvent choisi de collaborer avec lui plutôt qu’avec d’autres joueurs.

Et c’est toujours important car alors que des jeux comme les échecs ou le go se terminent par un gagnant et un perdant, les problèmes du monde réel n’ont généralement pas de résolutions aussi simples. Trouver des compromis et des solutions de contournement est souvent plus précieux que de gagner. Meta affirme que Cicero est une étape vers l’IA qui peut aider à résoudre une gamme de problèmes complexes nécessitant des compromis, de la planification d’itinéraires autour d’un trafic dense à la négociation de contrats.