Openai a utilisé le subreddit, R / ChangeMyViewpour créer un test pour mesurer les capacités persuasives de ses modèles de raisonnement en IA. La société l’a révélé dans une carte système – un document décrivant le fonctionnement d’un système d’IA – qui a été publié avec son nouveau modèle de «raisonnement», O3-Mini, vendredi.
Des millions d’utilisateurs de Reddit sont membres de R / ChangeMyView, où ils publient des prises de vue en espérant en savoir plus sur d’autres points de vue sur un sujet. En réponse à ces prises chaudes, d’autres utilisateurs répondent avec des arguments persuasifs expliquant pourquoi l’affiche originale est erronée.
Le Sandredit est l’un des nombreux forums Reddit qui est essentiellement une mine d’or pour les entreprises technologiques, comme OpenAI, qui souhaitent former des modèles d’IA sur des données générées par l’homme de haute qualité.
OpenAI dit qu’il collecte des publications d’utilisateurs de R / ChangeMyView et demande à ses modèles AI d’écrire des réponses, dans un environnement fermé, qui changerait l’esprit de l’utilisateur de Reddit sur un sujet. L’entreprise montre ensuite les réponses aux testeurs, qui évaluent à quel point l’argument est persuasif, et finalement OpenAI compare les réponses des modèles d’IA aux réponses humaines pour ce même article.
Le ChatGPT-Maker a un accord de licence de contenu avec Reddit qui permet à OpenAI de s’entraîner sur les publications des utilisateurs de Reddit et d’afficher ces publications dans ses produits. Nous ne savons pas ce que Openai paie pour ce contenu, mais Google aurait paie Reddit 60 millions de dollars par an dans un accord similaire.
Cependant, Openai indique à TechCrunch que l’évaluation basée sur ChangeMyview n’est pas liée à son accord Reddit. On ne sait pas comment OpenAI a accédé aux données du Sandredit, et la société dit qu’elle n’a pas l’intention de publier cette évaluation au public.
Alors que la référence ChangeMyView d’Openai n’est pas nouvelle – c’était utilisé pour évaluer également O1 – Il souligne à quel point les données humaines sont précieuses pour les développeurs de modèles d’IA, ainsi que les façons troubles que les entreprises technologiques obtiennent des ensembles de données.
Reddit n’a pas immédiatement répondu à la demande de commentaires de TechCrunch.
Alors que Reddit a conclu quelques accords de licence sur l’IA, la société a également appelé plusieurs sociétés d’IA pour gratter son site sans payer. Le PDG de Reddit, Steve Huffman, a déclaré à The Verge l’année dernière que Microsoft, anthropic et perplexité ont refusé de négocier avec lui et a dit que c’était « une vraie douleur dans le cul de bloquer ces entreprises ».
Notamment, OpenAI a été accusé dans plusieurs poursuites de gratter mal des sites Web, y compris le New York Times, pour obtenir plus de données de formation pour améliorer le chatppt et ses modèles d’IA sous-jacents.
En termes de performances sur la référence ChangeMyView, O3-MinI ne semble pas fonctionner considérablement ou pire que O1 ou GPT-4O. Cependant, les derniers modèles d’IA d’OpenAI semblent plus convaincants que la plupart des gens du Sandret R / ChangeMyview.
« GPT-4O, O3-MINI et O1 démontrent tous de fortes capacités d’argumentation persuasives, dans le top 80-90th des humains », a déclaré Openai dans la carte système d’O3-Mini. «Actuellement, nous ne voyons pas les modèles de performance bien mieux que les humains, ni des performances surhumaines claires.»
L’objectif d’OpenAI n’est pas de créer des modèles d’IA hyper-persuasive, mais plutôt pour s’assurer que les modèles d’IA ne deviennent pas trop persuasifs. Les modèles de raisonnement sont devenus assez bons en matière de persuasion et de tromperie, donc Openai a développé de nouvelles évaluations et garanties pour y remédier.
La peur motivant ces tests de persuasion est qu’un modèle d’IA serait dangereux s’il était très bon pour persuader ses utilisateurs humains. Théoriquement, cela pourrait permettre à une IA avancée de poursuivre son propre agenda, ou l’ordre du jour de celui qui le contrôle.
Même après avoir gratté la majeure partie de l’Internet public et sauté à travers des cerceaux pour concéder à d’autres données, le Benchmark ChangeMyView montre comment les développeurs de modèles d’IA ont encore du mal à trouver des ensembles de données de haute qualité pour tester leurs modèles. Mais les obtenir est plus facile à dire qu’à faire.
TechCrunch a une newsletter axée sur l’IA! Inscrivez-vous ici pour l’obtenir dans votre boîte de réception tous les mercredis.