Méta récemment annoncé Lama 3.2la dernière version du modèle de langage open source de Meta, qui comprend des modèles de vision, de voix et ouverts personnalisables. Il s’agit de la première version multimodale du modèle, qui permettra aux utilisateurs d’interagir avec des données visuelles, par exemple en identifiant des objets sur des photos ou en éditant des images avec des commandes en langage naturel, entre autres cas d’utilisation.

La nouvelle version comprend des modèles de vision avec 11 milliards et 90 milliards paramètres, ainsi que des modèles légers en texte uniquement avec 1 milliard et 3 milliards de paramètres conçus pour fonctionner efficacement sur les appareils Edge et mobiles. Les modèles Llama 3.2 prennent en charge une longueur de contexte étendue allant jusqu’à 128 000 jetons, ce qui les positionne comme étant à la pointe de leur classe pour des tâches telles que le résumé, le suivi d’instructions et la réécriture de texte.

Fonctionne très bien sur les documents, l’OCR, les graphiques complexes. J’ai demandé au modèle 11B ce qui était drôle dans cette image : il a pu choisir l’humour et même les détails du papier ! – Sanyam Bhoutani

Cette version fait partie de l’engagement continu de Meta en faveur de l’ouverture, offrant à la fois des versions pré-entraînées et optimisées pour les instructions que les développeurs peuvent affiner pour des applications personnalisées à l’aide d’outils tels que mise au flambeau et discussion aux flambeaux. Les modèles sont disponibles en téléchargement immédiat sur des plateformes telles que Hugging Face et le site Web de Meta, et peuvent être déployés sur un large écosystème de plateformes partenaires, y compris les principaux fournisseurs de cloud comme AWS, Google Cloudet Microsoft Azure.

Les modèles de vision, qui sont les premiers de la série Llama à prendre en charge le raisonnement par images, peuvent gérer des tâches complexes telles que la compréhension au niveau du document, le sous-titrage d’images et la mise à la terre visuelle. Le poids léger 1B et 3B les modèles sont particulièrement remarquables pour leur capacité à fonctionner sur des appareils mobiles, offrant des réponses instantanées et une confidentialité améliorée en traitant les données localement. Ces modèles sont également capables d’appeler des outils, ce qui les rend idéaux pour les applications personnalisées sur appareil.

Meta a lancé aujourd’hui la famille de modèles Llama 3.2 et j’aime beaucoup le nouveau petit modèle 3b. Vous pouvez l’exécuter localement sur votre ordinateur portable, c’est rapide et plutôt bon – Guido Appenzeller

Le processus de formation de ces modèles impliquait plusieurs étapes, commençant à partir de modèles de texte Llama 3.1 pré-entraînés et intégrant des adaptateurs d’image et des encodeurs. La post-formation a impliqué plusieurs cycles d’alignement, y compris un réglage fin supervisé et un échantillonnage de rejet, pour garantir que les modèles sont à la fois utiles et sûrs. Meta a également utilisé la génération de données synthétiques pour améliorer la qualité des données de réglage fin.

« C’est un peu comme le Linux de l’IA, et nous voyons des laboratoires fermés réagir en essayant de réduire leurs prix pour rivaliser avec Llama », Mark Zuckerbergle PDG de Meta, a déclaré. Le nouveau modèle ne sera pas disponible dans l’UE pour des raisons juridiques.

Meta a introduit Pile de lama distributions pour simplifier le déploiement de ces modèles dans divers environnements, des configurations à nœud unique aux applications cloud et sur appareil. Cela inclut une interface de ligne de commande, du code client dans plusieurs langues et Docker conteneurs, offrant une expérience cohérente et rationalisée aux développeurs. La pile prend en charge les implémentations locales et basées sur le cloud, ce qui permet de choisir entre l’exécution de modèles localement ou l’utilisation de services cloud. Les développeurs peuvent installer la pile via PyPI et la configurer à l’aide d’une série de commandes interactives, avec prise en charge des environnements Conda et des images Docker.

La sécurité reste une priorité, avec de nouvelles mises à jour de la famille de mesures de protection, notamment Garde de lama 3 pour les capacités de vision et des versions optimisées pour les modèles légers. Ces garanties sont intégrées dans des implémentations de référence et sont disponibles pour la communauté open source.

Les développeurs souhaitant en savoir plus sur Llama 3.2 peuvent trouver plus d’informations sur GitHubtelles que des informations sur les évaluations de modèles et les cartes modèles pour le texte et vision modèles.