Meta MobileLLM fait progresser la conception LLM pour les cas d’utilisation sur appareil
Objectif des méta-chercheurs avec MobileLLM est ambitieux : montrer que, pour les modèles plus petits, la qualité n’est pas un produit direct du nombre de milliards de paramètres dont ils disposent ; c’est plutôt le résultat d’une conception minutieuse de leur architecture. Pour prouver leur point de vue, ils ont associé des architectures profondes et fines à des mécanismes de partage intégré et d’attention aux requêtes groupées pour créer 4 modèles de paramètres 125M, 350M, 600M et 1B capables d’améliorer la précision par rapport aux modèles de pointe précédents.
MobileLLM s’éloigne de la « loi d’échelle » généralement acceptée, attribuée à Kaplan, qui associe l’amélioration des performances à un nombre accru de paramètres.
Une croyance répandue (Kaplan et al., 2020) dans le domaine suggère que les performances des modèles de transformateur sont principalement déterminées par le nombre de paramètres, la taille de l’ensemble de données de formation et le nombre d’itérations de formation. […] Nos résultats expérimentaux, en particulier pour les petits modèles avec une capacité de modèle limitée, révèlent qu’il est plus crucial d’aller plus en profondeur que d’aller plus loin pour améliorer les performances.
Précédemment utilisé pour Meta TinyLlamale partage d’intégration est une technique consistant à réutiliser les mêmes poids dans les couches d’intégration d’entrée et de sortie, ce qui réduit le nombre global de poids et rend le modèle plus petit. Comme l’expliquent les chercheurs de Meta, cette technique est moins efficace pour les modèles plus grands, où les intégrations d’entrées et de sorties ne représentent qu’une partie minime du total des paramètres (par exemple, 3,7 % dans LLaMA-70B). Au contraire, pour un modèle de 125 millions de paramètres, les couches d’intégration représentent plus de 20 % des paramètres.
Sur un modèle à 30 couches et 125 millions de paramètres,
le partage des intégrations d’entrée et de sortie réduit le nombre de paramètres de 16 millions, soit environ 11,8 % du total des paramètres avec une baisse de 0,2 point de la précision moyenne. La baisse marginale de précision peut être facilement restaurée en réaffectant les paramètres enregistrés pour ajouter davantage de couches.
Une autre technique visant à maximiser l’utilisation du poids est partage immédiat du poids par blocoù les poids sont répliqués entre les blocs adjacents. Cela a pour effet de réduire la latence sans augmenter de manière significative la taille du modèle et peut être particulièrement pertinent, affirment les chercheurs, dans les scénarios où le principal facteur déterminant la latence du modèle est le mouvement de la mémoire.
En tirant parti de ces techniques et d’autres, MobileLLM vise à définir une approche de base solide pour concevoir des modèles plus petits optimisés. Les méta-chercheurs ont mené un certain nombre d’expériences pour comparer MobileLLM avec les précédents modèles de paramètres de pointe d’un milliard de dollars sur un certain nombre de tâches, notamment le raisonnement de bon sens, la réponse aux questions et la compréhension en lecture. Par exemple, dans le raisonnement zéro-shot,
Le MobileLLM-LS-125M obtient des résultats comparables, voire supérieurs, à ceux de la plupart des modèles 350M précédents. Dans la catégorie de taille de modèle 350M, MobileLLM surpasse de plus de 4 points les modèles de pointe précédents avec des tailles de modèle comparables ou plus petites.
Des résultats analogues sont valables dans les tâches de réponse aux questions et de compréhension écrite.
Les méta-chercheurs affirment qu’il existe un besoin croissant de modèles de langage volumineux sur les appareils mobiles afin de réduire les coûts et la latence du cloud. Ils soulignent également l’augmentation de la consommation d’énergie et des émissions de dioxyde de carbone des plus grands LLM et plaident en faveur de la nécessité de réduire la taille des LLM pour les rendre plus respectueux de l’environnement. Selon eux, le passage à des modèles intégrés à l’appareil pourrait être la réponse à ces préoccupations tout en améliorant les performances du modèle en réduisant la latence.