Le résultat est une percée pour une technique connue sous le nom d’apprentissage par imitation, dans laquelle les réseaux de neurones sont entraînés à effectuer des tâches en regardant les humains les faire. L’apprentissage par imitation peut être utilisé pour entraîner l’IA à contrôler des bras de robot, à conduire des voitures ou à naviguer sur des pages Web.

Il existe une grande quantité de vidéos en ligne montrant des personnes effectuant différentes tâches. En puisant dans cette ressource, les chercheurs espèrent faire pour l’apprentissage par imitation ce que GPT-3 a fait pour les grands modèles de langage. “Au cours des dernières années, nous avons vu la montée de ce paradigme GPT-3 où nous voyons des capacités incroyables provenir de grands modèles formés sur d’énormes pans d’Internet”, déclare Bowen Baker d’OpenAI, l’une des équipes derrière le nouveau Minecraft. robot. “C’est en grande partie parce que nous modélisons ce que font les humains lorsqu’ils se connectent.”

Le problème avec les approches existantes de l’apprentissage par imitation est que les démonstrations vidéo doivent être étiquetées à chaque étape : faire cette action fait que cela se produit, faire cette action fait que cela se produit, et ainsi de suite. Annoter à la main de cette manière demande beaucoup de travail, et ces ensembles de données ont donc tendance à être petits. Baker et ses collègues voulaient trouver un moyen de transformer les millions de vidéos disponibles en ligne en un nouvel ensemble de données.

L’approche de l’équipe, appelée Video Pre-Training (VPT), ​​contourne le goulot d’étranglement de l’apprentissage par imitation en entraînant un autre réseau de neurones pour étiqueter automatiquement les vidéos. Ils ont d’abord embauché des crowdworkers pour jouer à Minecraft et ont enregistré leurs clics de clavier et de souris à côté de la vidéo de leurs écrans. Cela a donné aux chercheurs 2000 heures de jeu Minecraft annoté, qu’ils ont utilisé pour former un modèle pour faire correspondre les actions au résultat à l’écran. Cliquer sur un bouton de la souris dans une certaine situation oblige le personnage à balancer sa hache, par exemple.

L’étape suivante consistait à utiliser ce modèle pour générer des étiquettes d’action pour 70 000 heures de vidéo non étiquetée prise sur Internet, puis à former le bot Minecraft sur cet ensemble de données plus volumineux.

“La vidéo est une ressource de formation avec beaucoup de potentiel”, déclare Peter Stone, directeur exécutif de Sony AI America, qui a déjà travaillé sur l’apprentissage par imitation.