Anthropic lance de nouveaux modèles Claude et une fonctionnalité d’utilisation de l’ordinateur
Anthropique libéré deux nouveaux modèles: Claude 3.5 Haiku et une version améliorée de Claude 3.5 Sonnet. Ils ont également publié une nouvelle fonctionnalité pour Claude 3.5 Sonnet qui permet au modèle de interagir avec l’interface graphique d’un ordinateur de la même manière qu’un utilisateur humain.
Claude 3.5 Haiku est le modèle le plus rapide de l’entreprise ; la nouvelle version surpasse les modèles plus grands tels que le GPT-4o et la génération précédente de Claude 3.5 Sonnet sur le Banc SWE Vérifié référence de codage. Le Claude 3.5 Sonnet amélioré est encore plus performant sur ce point de référence, « supérieur à tous les modèles accessibles au public » selon Anthropic. Le modèle prend également en charge une nouvelle fonctionnalité, l’utilisation de l’ordinateur, qui lui permet d’interagir avec un ordinateur en interprétant les images à l’écran, en déplaçant le pointeur de la souris, en cliquant sur des boutons et en saisissant du texte via un clavier virtuel. Cela permet au modèle d’interagir avec pratiquement n’importe quel programme, pas seulement ceux qui prennent en charge une API. Selon Anthropique,
L’utilisation de l’ordinateur est une approche complètement différente du développement de l’IA. Jusqu’à présent, les développeurs LLM ont conçu des outils adaptés au modèle, produisant des environnements personnalisés dans lesquels les IA utilisent des outils spécialement conçus pour effectuer diverses tâches. Nous pouvons désormais adapter le modèle aux outils : Claude peut s’adapter aux environnements informatiques que nous utilisons tous quotidiennement. Notre objectif est que Claude prenne des logiciels informatiques préexistants et les utilise simplement comme le ferait une personne.
La fonctionnalité d’utilisation informatique repose sur la capacité de Claude à interpréter les images. Anthropic le décrit comme « prendre des captures d’écran et les assembler ». L’une des avancées clés a consisté à entraîner le modèle à compter avec précision les pixels ; de nombreux LLM ont du mal à accomplir des tâches similaires telles que compter le nombre de lettres dans un mot. Sans cette compétence, le modèle serait incapable de déplacer la souris de l’ordinateur au bon endroit.
Claude occupe actuellement la première place du classement Classement de référence OSWorldqui suit la capacité des agents IA à interagir avec les ordinateurs. Alors que les humains obtiennent généralement un score supérieur à 70 % sur ce point de référence, le meilleur score de Claude est de 14,9 %. Cependant, GPT-4, « le deuxième meilleur modèle d’IA dans la même catégorie » selon Anthropic, n’obtient qu’un score de 7,7 %.
Les utilisateurs de Hacker News ont discuté de la fonctionnalité d’utilisation de l’ordinateur, soulignant son possibilité d’automatisation un large éventail de processus commerciaux courants.
C’est en fait une affaire énorme. En tant que personne développant des produits IA SaaS, j’étais d’avis que l’intégration directe avec les API nous permettrait d’atteindre l’essentiel du chemin en termes d’automatisation complète de l’IA… J’ai commencé à réaliser que la quasi-totalité du monde réel fonctionne sur des logiciels qui s’interfacent directement avec les gens, sans API publiques clairement définies dans lesquelles vous pouvez intégrer… Je suis heureux qu’ils l’aient fait, car il s’agit d’un connecteur puissant vers ces types de cas d’utilisation professionnels du monde réel qui sont super compliqués, et donc très utile pour l’automatisation.
Anthropic note que la fonctionnalité « reste toujours lente et souvent sujette aux erreurs ». Alex Albert, responsable des relations Claude de l’entreprise, posté sur X que:
Ce n’est pas encore parfait. Le modèle a parfois du mal avec les actions informatiques de base qui peuvent conduire à des moments amusants. Pendant le tournage de démos, Claude a accidentellement arrêté un enregistrement d’écran de longue durée, provoquant la perte de toutes les images. Plus tard, Claude a fait une pause dans la démonstration de codage et a commencé à parcourir des photos du parc national de Yellowstone.
La fonctionnalité d’utilisation de l’ordinateur est actuellement en version bêta publique. Anthropic a également publié un exemple de code sur GitHub démontrant comment utiliser la fonctionnalité.