Formateurs, nous avons remarqué que nous avons enfin la réponse à la manière dont Niantic utilise nos données. Dans un article récent publié sur Blog officiel de l’entreprise NianticNiantic a partagé une description détaillée de ce qu’ils construisent à l’aide de vos données d’analyse PokéStop : un modèle d’IA géospatial massif.
Le modèle n’a pas de nom pour le moment, mais Niantic le qualifie de premier au monde. Grand modèle géospatial (LGM)de la même manière que Chat GPT est un grand modèle linguistique (LLM). Le modèle n’existe pas encore, Niantic a partagé ce billet de blog pour annoncer son intention de former et de construire un tel modèle.
Voici ce que Niantic construit, comment ils utilisent et prévoient d’utiliser nos données, et quel est le but de ce nouveau modèle d’intelligence artificielle.
Qu’est-ce qu’un grand modèle géospatial ?
UN Grand modèle géospatial est le terme utilisé par Niantic pour décrire un modèle d’IA qui aide les ordinateurs à comprendre et à naviguer dans le monde physique. Il s’agit d’un modèle d’IA construit et entraîné à l’aide de grandes quantités de données :
- des milliards d’images du monde qui nous entoure
- des milliards d’heures de lieux scannés dans le monde qui nous entoure
Tous ces points de données sont ancrés à des emplacements physiques réels, ce qui donne au modèle une idée de l’emplacement et, grâce à la vision 3D, une compréhension de ce qu’il regarde. Cela semble un peu effrayant, n’est-ce pas ? Eh bien, ça ne va pas mieux à partir de maintenant.
Un à plusieurs – un amalgame de modèles locaux
Niantic a également partagé que sa vision pour ce modèle est d’être une fusion de nombreux modèles locauxoù certains modèles locaux ont vu la façade d’un bâtiment, tandis que d’autres ont vu l’arrière du bâtiment. Le grand modèle géospatial qu’ils proposent serait capable d’exploiter ces deux modèles locaux et de créer une image 3D complète de ce bâtiment, distillant et créant de nouvelles informations en interpolant les connaissances locales.
Voici ce qu’ils ont partagé :
Imaginez-vous debout derrière une église. Supposons que le modèle local le plus proche n’ait vu que l’entrée principale de cette église et qu’il ne soit donc pas en mesure de vous dire où vous vous trouvez. Le modèle n’a jamais vu l’arrière de ce bâtiment. Mais à l’échelle mondiale, nous avons vu de nombreuses églises, des milliers d’entre elles, toutes capturées par leurs modèles locaux respectifs ailleurs dans le monde. Aucune église n’est identique, mais plusieurs partagent des caractéristiques communes. Un LGM est un moyen d’accéder à ces connaissances distribuées.
Un LGM distille des informations communes dans un modèle mondial à grande échelle qui permet la communication et le partage de données entre les modèles locaux. Un LGM serait capable d’intérioriser le concept d’église et, en outre, la manière dont ces bâtiments sont généralement structurés. Même si, pour un emplacement spécifique, nous avons seulement cartographié l’entrée d’une église, un LGM serait capable de deviner intelligemment à quoi ressemble l’arrière du bâtiment, en se basant sur des milliers d’églises qu’il a vues auparavant.
Les modèles existants de Niantic sont ce que nous décrirons comme modèles locaux, dans le sens où chaque réseau neuronal de petite ou moyenne taille que nous avons formé en tant que joueurs (grâce au scan PokéStop) est un modèle local de petite ou moyenne taille.
Niantic prévoit de les utiliser comme contributions à un grand modèle mondial, « mettre en œuvre une compréhension partagée des emplacements géographiques et comprendre les lieux qui n’ont pas encore été entièrement analysés. »
Le modèle doit penser comme un être humain
Niantic a également expliqué que ce nouveau modèle devrait penser et comprendre l’espace comme un être humain – il devrait reconnaître les rues, comprendre les modèles architecturaux courants, tirer des conclusions en matière de navigation même s’il n’a jamais parcouru une rue particulière.
Dans un exemple très concret, le modèle devrait être capable de naviguer dans une vieille ville européenne, parce qu’il sait comment les rues sont tracées, mais parce qu’il comprend également le contexte culturel de la façon dont les vieilles villes européennes ont été construites, de sorte qu’il puisse tirer des conclusions à partir de que.
C’est un aspect particulièrement intéressant et effrayant de toute cette histoire. On peut comprendre que les modèles de vision 3D comprennent qu’ils regardent la tour Eiffel, mais comprendre toute la géométrie et l’architecture qui l’entoure… semble dangereux.
Ce que Niantic a fait jusqu’à présent
Jusqu’à présent, Niantic a fait de grands progrès vers la création du LGM, mais hélas, ils en sont encore très loin. La principale chose qui les empêche de créer ce modèle est la quantité de données dont ils ont besoin pour l’entraîner.
N’oubliez pas que les scans 3D ne sont pas facilement disponibles sur Internet, ils sont créés par les joueurs de Pokémon GO à l’aide du Scanner un PokéStop fonctionnalité. Contrairement à Chat GPT, qui pourrait utiliser l’intégralité d’Internet comme terrain d’entraînement, LGM a besoin de nos données et de nos apports.
Voici le travail jusqu’à présent, tel que partagé par Niantic :
- Au cours des cinq dernières années, Niantic s’est concentré sur la création de notre système de positionnement visuel (VPS), qui utilise une seule image provenant d’un téléphone pour déterminer sa position et son orientation à l’aide d’une carte 3D créée à partir de personnes scannant des emplacements intéressants dans nos jeux et Scaniverse.
- Avec VPS, les utilisateurs peuvent se positionner dans le monde avec une précision centimétrique. Cela signifie qu’ils peuvent voir le contenu numérique placé dans l’environnement physique avec précision et réalisme. Ce contenu est persistant dans le sens où il reste dans un emplacement après votre départ et peut ensuite être partagé avec d’autres.
- Par exemple, Niantic a récemment commencé à déployer une fonctionnalité expérimentale dans Pokémon GO, appelée Terrains de jeux Pokémonoù l’utilisateur peut placer des Pokémon à un endroit spécifique, et ils y resteront pour que les autres puissent les voir et avec lesquels interagir.
La couverture VPS est construite à partir des analyses des utilisateurs, et aujourd’hui ils ont 10 millions de lieux scannés dans le mondeavec 1 million de ceux traités et utilisables avec leur système VPS. Les cartes de couverture montrent clairement où les joueurs scannent le plus :
En plus de cela, Niantic a formé à ce jour plus de 50 millions de réseaux neuronaux, où plusieurs réseaux peuvent contribuer à un seul emplacement. Cette vidéo montre l’un de ces réseaux de neurones en action :