Tech

L’agent Web « modèle d’action à grande échelle » de Rabbit arrive sur r1 le 1er octobre

Le Rabbit r1 était le gadget incontournable du début de l’année 2024, mais il a rapidement perdu de sa superbe lorsque les promesses de l’entreprise ne se sont pas concrétisées. Le PDG Jesse Lyu admet que « le premier jour, nous avions placé nos attentes trop haut », mais a également déclaré qu’une mise à jour qui arrivera sur les appareils la semaine prochaine permettra enfin au modèle d’action large tant vanté de se libérer sur le Web.

Même si les sceptiques peuvent (à juste titre) considérer cela comme trop peu, trop tard ou un autre changement de cap, l’aspiration de Rabbit à créer un agent indépendant de la plate-forme pour les applications Web et mobiles a toujours une valeur fondamentale, même si elle reste largement théorique.

S’adressant à TechCrunch, Lyu a déclaré que les six derniers mois ont été un tourbillon de livraisons, de corrections de bugs, d’amélioration des temps de réponse et d’ajout de fonctionnalités mineures. Mais malgré 16 mises à jour en direct de la r1, elle reste fondamentalement limitée à l’interaction avec un LLM ou à l’accès à l’un des sept services spécifiques, comme Uber et Spotify.

« C’était la toute première version du LAM, formée à partir d’enregistrements collectés auprès de travailleurs de données, mais elle n’est pas générique – elle se connecte uniquement à ces services », a-t-il déclaré. Qu’il s’agisse ou non de ce qu’ils appellent le LAM est assez théorique à ce stade ; quel que soit le modèle, il n’offrait pas les capacités que Rabbit a détaillées lors de ses débuts.

Crédits image : Lapin

Un agent généraliste basé sur le Web

Mais Rabbit est prêt à sortir la première version générique, c’est-à-dire non spécifique à une application ou une interface, du LAM, que Lyu m’a démontré.

Cette version est un agent Web qui analyse les étapes à suivre pour effectuer n’importe quelle tâche ordinaire, comme acheter des billets pour un concert, enregistrer un site Web ou même jouer à un jeu en ligne. « Notre objectif est très clair : à la fin du mois de septembre, votre r1 fera soudainement beaucoup plus de choses. Il devrait prendre en charge tout ce que vous pouvez faire sur n’importe quel site Web », a déclaré Lyu. (La société a ensuite fourni une date finale pour la mise à jour, le 1er octobre.)

Étant donné une tâche, il la décompose d’abord en étapes, puis commence à les exécuter en analysant ce qu’il voit à l’écran : boutons, champs, images, quelle que soit leur position ou leur apparence. Il interagit ensuite avec l’élément approprié en fonction de ce qu’il a appris en général sur le fonctionnement des sites Web.

Je lui ai demandé (par l’intermédiaire de Lyu, qui l’utilisait à distance) d’enregistrer un nouveau site Web pour un festival de cinéma. En effectuant une action toutes les quelques secondes, il a recherché des registres de domaines sur Google, en a choisi un (un sponsorisé, je crois), a mis festival de cinéma dans la case du domaine et, dans la liste d’options résultante, a choisi « filmfestival2023.com » pour 14 $. Techniquement, je ne lui avais donné aucune contrainte comme « pour 2025 » ou « festival d’horreur » ou quoi que ce soit.

De même, lorsque Lyu lui a demandé de rechercher et d’acheter un r1, il a rapidement trouvé son chemin vers eBay, où des dizaines étaient en vente. Peut-être un bon résultat pour un utilisateur, mais pas pour le fondateur de l’entreprise qui se présentait à la presse ! Il en a ri et a répété la demande en ajoutant qu’il ne devait acheter que sur le site officiel. L’agent a réussi.

Ensuite, il lui a fait jouer le jeu de mots quotidien de Dictionary.com. Il a fallu un peu d’ingénierie rapide (le modèle a trouvé une échappatoire : il pouvait rapidement terminer en appuyant sur « fin de partie ») mais il y est parvenu.

Mais quel navigateur utilise-t-il ? Un nouveau navigateur propre dans le cloud, a déclaré Lyu, mais ils travaillent sur des versions locales, comme une extension Chrome, ce qui signifie que vous pouvez utiliser les sessions existantes et qu’il n’y aurait pas besoin de vous connecter à vos services.

À cette fin, comme les utilisateurs sont naturellement (et à juste titre) réticents à donner à une entreprise un accès complet à leurs identifiants, l’agent n’en est pas équipé. Lyu a suggéré qu’un petit modèle de langage cloisonné avec vos identifiants pourrait être invoqué en privé à l’avenir pour effectuer des connexions. Il semble que la question de savoir comment cela fonctionnera reste ouverte, ce qui est quelque peu prévisible compte tenu de la nouveauté de l’espace.

Un exemple d’analyse d’interface utilisateur dans les applications du site Web Rabbit.
Crédits image : Lapin

Toujours en apprentissage

La démo m’a permis de comprendre deux choses. Tout d’abord, si l’on accorde à l’entreprise et à ses développeurs le bénéfice du doute, il ne s’agit pas d’un canular élaboré (comme certains le croient), il semble bien s’agir d’un agent Web fonctionnel et polyvalent. Et ce serait, si ce n’est une première en soi, certainement le premier à être facilement accessible aux consommateurs.

« Il existe des entreprises spécialisées dans des domaines verticaux, comme Excel ou les documents juridiques, mais je pense que c’est l’un des premiers agents généraux destinés aux consommateurs », a déclaré Lyu. « L’idée est de pouvoir dire tout ce qui peut être réalisé via un site Web. Nous aurons d’abord l’agent générique pour les sites Web, puis pour les applications. »

Deuxièmement, cela a montré que la rapidité d’exécution est toujours indispensable. La façon dont vous formulez une demande peut facilement faire la différence entre le succès et l’échec, et ce n’est probablement pas quelque chose que les consommateurs ordinaires toléreront.

Lyu a prévenu qu’il s’agissait d’une « version de base », en aucun cas définitive, et que même s’il s’agissait d’un agent Web général entièrement fonctionnel, il pouvait encore être amélioré de nombreuses manières. Par exemple, a-t-il déclaré, « le modèle est suffisamment intelligent pour effectuer la planification, mais pas assez pour sauter des étapes ». Il n’« apprendrait » pas qu’un utilisateur préfère ne pas acheter ses appareils électroniques sur eBay, ou qu’il doit faire défiler la page après une recherche pour éviter le mur de résultats sponsorisés.

Les données des utilisateurs ne seront pas collectées pour améliorer le modèle — pour l’instant. Lyu attribue cela au fait qu’il n’existe pratiquement aucune méthode d’évaluation pour un système comme celui-ci, il est donc difficile de dire quantitativement si des améliorations ont été apportées. Un « mode d’apprentissage » est également prévu, ce qui permettra de lui montrer comment effectuer un type de tâche spécifique.

Il est intéressant de noter que l’entreprise travaille également sur un agent de bureau capable d’interagir avec des applications telles que des traitements de texte, des lecteurs de musique et bien sûr des navigateurs. Ce projet n’en est qu’à ses débuts, mais il fonctionne. « Il n’est même pas nécessaire de saisir une destination, il essaie simplement d’utiliser l’ordinateur. Tant qu’il y a une interface, il peut le contrôler. »

Troisièmement, il n’existe toujours pas d’application phare, ou du moins aucune qui soit évidente. L’agent est impressionnant, mais je n’en aurais personnellement que peu d’utilité, étant donné que je suis assis devant un navigateur huit heures par jour. Il existe certainement d’excellentes applications, mais aucune ne m’est venue à l’esprit qui rende l’utilité d’un automate basé sur un navigateur aussi évidente que celle, par exemple, d’un aspirateur robot.

Pourquoi pas une application, encore une fois ?

J’ai soulevé l’objection commune à l’ensemble du modèle économique de Rabbit, essentiellement que « cela pourrait être une application ».

Lyu avait clairement entendu cette critique à de nombreuses reprises, et il était sûr de sa réponse.

« Si vous faites le calcul, cela n’a aucun sens », a-t-il déclaré. « Oui, c’est techniquement réalisable, mais vous allez énerver Apple et Google dès le premier jour. Ils ne permettront jamais que cela soit meilleur que Siri ou Gemini. Tout comme il n’y a aucune chance que les services de renseignement d’Apple contrôlent mieux les produits de Google, ou vice versa. Et ils prennent 30 % des revenus ! Si au début nous avions juste créé une application, nous n’aurions jamais eu cet élan. »

Le lapin r1 en action. Modèle à main : Chris Velazco du Washington Post.
Crédits image : Devin Coldewey / TechCrunch

L’idée fondamentale de Rabbit est qu’il peut y avoir une IA ou un appareil tiers qui peut accéder à tous vos autres services et les exploiter, et ce depuis l’extérieur, comme vous le faites. « Un système d’agent générique multiplateforme », comme l’a appelé Lyu. « Nous contrôlerons chaque interface utilisateur, et le site Web est un bon début. Ensuite, nous passerons à Windows, à MacOS, aux téléphones. »

À ce propos : « Nous n’avons jamais dit que nous ne fabriquerions jamais de téléphone à l’avenir. » N’est-ce pas contraire à leur thèse initiale d’un appareil plus petit et plus simple ? Peut-être, peut-être pas.

En attendant, ils travaillent à commencer à remplir les promesses qu’ils ont faites au début de cette année. Le nouveau modèle devrait être disponible pour tout propriétaire de r1 dans le courant de cette semaine lorsque la mise à jour OTA sera publiée. Les instructions sur la façon de l’invoquer arriveront également à ce moment-là. Lyu a mis en garde les utilisateurs en attente avec sa modestie caractéristique.

« Nous avons fixé les attentes. Ce n’est pas parfait », a-t-il déclaré. « C’est juste le meilleur que l’espèce humaine ait accompli jusqu’à présent. »

Source link