Lorsqu’une entreprise lance un nouveau générateur vidéo IA, quelqu’un ne tarde pas à l’utiliser pour réaliser une vidéo de l’acteur Will Smith mangeant des spaghettis.
C’est devenu à la fois un mème et une référence : voir si un nouveau générateur vidéo peut représenter de manière réaliste Smith en train de siroter un bol de nouilles. Smith lui-même parodié la tendance dans une publication Instagram en février.
Google Veo 2 l’a fait.
Nous mangeons enfin des spaghettis. pic.twitter.com/AZO81w8JC0
-Jerrod Lew (@jerrod_lew) 17 décembre 2024
Will Smith et les pâtes ne sont que l’un des nombreux repères « non officiels » bizarres qui prendront d’assaut la communauté de l’IA en 2024. Un développeur de 16 ans a créé une application qui donne à l’IA le contrôle de Minecraft et teste sa capacité à concevoir des structures. Ailleurs, un programmeur britannique a créé une plate-forme sur laquelle l’IA joue à des jeux comme Pictionary et Connect 4 les uns contre les autres.
Ce n’est pas comme s’il n’existait pas davantage de tests académiques sur les performances d’une IA. Alors pourquoi les plus étranges ont-ils explosé ?
D’une part, la plupart des références d’IA standard de l’industrie ne disent pas grand-chose à la personne moyenne. Les entreprises citent souvent la capacité de leur IA à répondre aux questions des examens de l’Olympiade de mathématiques ou à trouver des solutions plausibles à des problèmes de niveau doctorat. Pourtant, la plupart des gens – y compris le vôtre – utilisent des chatbots pour des choses comme répondre aux e-mails et aux recherches de base.
Les mesures sectorielles participatives ne sont pas nécessairement meilleures ou plus informatives.
Prenez, par exemple, Chatbot Arena, une référence publique que de nombreux passionnés et développeurs d’IA suivent de manière obsessionnelle. Chatbot Arena permet à n’importe qui sur le Web d’évaluer les performances de l’IA sur des tâches particulières, comme la création d’une application Web ou la génération d’une image. Mais les évaluateurs ont tendance à ne pas être représentatifs – la plupart viennent des cercles de l’IA et de l’industrie technologique – et votent en fonction de préférences personnelles difficiles à cerner.
Ethan Mollick, professeur de gestion à Wharton, a récemment souligné dans un poste sur X, un autre problème avec de nombreux benchmarks de l’industrie de l’IA : ils ne comparent pas les performances d’un système à celles d’une personne moyenne.
« Le fait qu’il n’y ait pas 30 références différentes émanant de différentes organisations en médecine, en droit, en qualité des conseils, etc. est vraiment dommage, car les gens utilisent des systèmes pour ces choses, quoi qu’il en soit », a écrit Mollick.
Des tests d’IA étranges comme Connect 4, Minecraft et Will Smith mangeant des spaghettis le sont très certainement pas empirique – ou même tout cela généralisable. Ce n’est pas parce qu’une IA réussit le test de Will Smith qu’elle générera bien, disons, un hamburger.
Un expert à qui j’ai parlé des benchmarks de l’IA a suggéré que la communauté de l’IA se concentre sur les impacts en aval de l’IA plutôt que sur ses capacités dans des domaines restreints. C’est raisonnable. Mais j’ai le sentiment que les repères étranges ne vont pas disparaître de si tôt. Non seulement ils sont divertissants, mais qui n’aime pas regarder l’IA construire des châteaux Minecraft ? – mais ils sont faciles à comprendre. Et comme mon collègue Max Zeff l’a récemment écrit, l’industrie continue de lutter pour distiller une technologie aussi complexe que l’IA dans un marketing digeste.
La seule question qui me vient à l’esprit est la suivante : quels nouveaux critères de référence deviendront viraux en 2025 ?
TechCrunch propose une newsletter axée sur l’IA ! Inscrivez-vous ici pour le recevoir dans votre boîte de réception tous les mercredis.