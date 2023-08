Sur TikTok k, entre les vidéos « Préparez-vous avec moi », les astuces de vie et les mèmes, quelques robots travaillent sur un défi que beaucoup d’entre nous ont relevé à un moment donné de leur vie : battre Super Mario Monde. Au cours de la semaine dernière, les utilisateurs ont été diffusion en direct et les IA tente d’apprendre à jouer à Mario, et pour un robot en particulier, ça va très bien. Son nom est Rupert et il vient de dépasser le niveau 2.

La stratégie de l’IA sera familière à tous ceux qui se souviennent de leur première utilisation d’une manette Super Nintendo. Rupert court, saute, percute les ennemis, tombe des falaises et meurt, encore et encore. Chaque fois qu’il meurt, Rupert réessaye. Habituellement, il effectue presque exactement les mêmes mouvements qui l’ont tué au dernier tour. Mais si vous regardez assez longtemps, vous remarquerez que Rupert évolue et aller mieux. Il’ c’est l’apprentissage.

« C’est un programme conçu pour simuler la sélection naturelle avec des réseaux de neurones », a déclaré Join The PCMasterRace, l’utilisateur de TikTok responsable de Rupert, qui a demandé à ne pas utiliser son vrai nom. (PCMasterRace est le nom répréhensible d’un subreddit sur les ordinateurs de bureau.)

En d’autres termes, Rupert est un système d’algorithmes d’apprentissage automatique qui s’améliore en surveillant ses propres erreurs. Rupert a un objectif fixé : arriver à l’autre bout du niveau. Il sait sur quels boutons il peut appuyer et peut voir ce qui se passe à l’écran. (Vous pouvez réellement voir ce que Rupert « voit » s » en haut à gauche de la vidéo ci-dessous.) Mais contrairement à un opérateur humain de Mario, une IA ne peut pas simplement supposer qu’elle doit éviter les Koopas ou essayer de ne pas tomber d’un rebord. Tout ce que Rupert a, ce sont des commentaires positifs et négatifs. Essentiellement, Rupert essaie les choses au hasard. Il se souvient de ce qui a fonctionné et de ce qui n’a pas fonctionné, et sa stratégie s’améliore au fil du temps.

Rupert est calqué sur l’évolution dans le sens où il fonctionne en utilisant des « espèces » et des « générations ». L’IA essaie une stratégie particulière pour chaque espèce, qui dure environ deux à six exécutions. Pour 50 à 100 espèces, l’IA rassemble ce qu’elle a appris dans une « génération ».

Au fur et à mesure que l’IA joue, elle obtient un score de « forme physique ». La forme physique augmente en fonction de la distance parcourue Mario arrive à droite et plus vite il y arrive. Les générations les plus en forme sont sélectionnées pour être « élevées » pour les générations futures, ce qui signifie que l’IA s’appuie sur les comportements et les modèles qui ont fonctionné et repart à zéro. Cela permet à sa prise de décision de devenir plus sophistiquée et complexe au fil du temps.

C’est lent, mais ça marche. Il n’a fallu que 57 générations à Rupert pour battre le niveau un, ce qui a suscité la célébration dans les commentaires alors que les téléspectateurs acclamaient le succès de Rupert.

Rupert, avec un autre joueur AI Mario en streaming sur TikTok affectueusement nommé George, exécute un programme open source appelé MarI/O. Il a été construit par le codeur et streamer en direct Seth Hendrickson, qui passe par SethBling en ligne. MarI/O n’est pas nouveau. Hendrickson l’a publié il y a des années, mais les machinations du robot ont une importance renouvelée à une époque où l’industrie technologique veut nous faire croire que l’IA prendra bientôt le dessus. le monde.

MarI/O est bien plus simpliste qu’un système comme ChatGPT, mais c’est une fenêtre sur la façon dont Modèles d’IA travail . Ces outils d’IA jettent en quelque sorte des spaghettis au mur, et les humains conçoivent des systèmes pour leur dire si cette tentative était meilleure ou pire que la précédente. Au fil du temps, les tentatives s’améliorent. Imaginez maintenant que cela se produise des millions ou des milliards de fois. Vous pouvez voir une explication plus détaillée dans l’une des vidéos de Hendrickson :

MarI/O – Apprentissage automatique pour les jeux vidéo

Avec ChatGPT, c’est exponentiellement plus compliqué. MarI/O n’a pas beaucoup d’options : gauche, droite, haut, bas, A, B, X et Y. La langue anglaise, en revanche, compte des centaines de milliers de mots, un nombre incalculable de façons de les utiliser. arrangez ces mots et un nombre théoriquement infini d’idées. MarI/O est tellement plus simple que ChatGPT – et la technologie est fondamentalement différente – mais si vous comprenez comment fonctionne MarI/O, vous pouvez extrapoler cela pour une compréhension utile de la technologie des chatbots.

Malheureusement, Rupert n’est qu’un petit gars. Il fait de son mieux, mais Rupert va avoir du mal quand il avancera dans le jeu. Le système de MarI/O ne se récompense qu’en fonction de la distance parcourue par Mario à droite de l’écran, mais à certains niveaux du monde de Super Mario, vous devez grimper pour atteindre l’objectif, plutôt que d’aller vers la droite.

« Cependant, je prévois de le modifier afin qu’il puisse mieux grimper sur les structures verticales », a déclaré Rejoignez le PCMasterRace.