Les dernières recherches d’Apple sur l’apprentissage automatique pourraient accélérer la création de modèles pour Apple Intelligence, en proposant une technique permettant de presque tripler le taux de génération de jetons lors de l’utilisation des GPU Nvidia.
L’un des problèmes liés à la création de grands modèles de langage (LLM) pour les outils et les applications offrant des fonctionnalités basées sur l’IA, telles qu’Apple Intelligence, réside dans l’inefficacité de la production des LLM. Les modèles de formation pour l’apprentissage automatique sont un processus lent et gourmand en ressources, qui est souvent contré par l’achat de plus de matériel et par l’augmentation des coûts énergétiques.
Plus tôt en 2024, Apple a publié et open source Recurrent Drafter, connu sous le nom de ReDrafter, une méthode de décodage spéculatif pour améliorer les performances en formation. Il a utilisé un projet de modèle RNN (Recurrent Neural Network) combinant la recherche de faisceaux avec une attention dynamique dans les arbres pour prédire et vérifier les projets de jetons à partir de plusieurs chemins.
Cela a accéléré la génération de jetons LLM jusqu’à 3,5 fois par étape de génération par rapport aux techniques de génération de jetons auto-régressives classiques.
Dans un poste sur le site Machine Learning Research d’Apple, il a expliqué qu’en plus des travaux existants utilisant Apple Silicon, cela ne s’arrêtait pas là. Le nouveau rapport publié mercredi détaille comment l’équipe a appliqué la recherche pour créer ReDrafter afin de le rendre prêt à être utilisé en production avec les GPU Nvidia.
Les GPU Nvidia sont souvent utilisés dans les serveurs utilisés pour la génération LLM, mais le matériel hautes performances a souvent un coût élevé. Il n’est pas rare que les serveurs multi-GPU coûtent plus de 250 000 $ chacun rien que pour le matériel, sans parler de l’infrastructure requise ou des autres coûts de connexion.
Apple a travaillé avec Nvidia pour intégrer ReDrafter dans le cadre d’accélération d’inférence Nvidia TensorRT-LLM. Étant donné que ReDrafter utilisait des opérateurs que d’autres méthodes de décodage spéculatif n’utilisaient pas, Nvidia a dû ajouter des éléments supplémentaires pour que cela fonctionne.
Grâce à son intégration, les développeurs de ML utilisant des GPU Nvidia dans leur travail peuvent désormais utiliser la génération accélérée de jetons de ReDrafter lorsqu’ils utilisent TensorRT-LLM pour la production, et pas seulement ceux qui utilisent Apple Silicon.
Le résultat, après avoir comparé un modèle de production de dizaines de milliards de paramètres sur les GPU Nvidia, a été une augmentation de 2,7 fois de la vitesse des jetons générés par seconde pour un encodage gourmand.
Le résultat est que le processus pourrait être utilisé pour minimiser la latence pour les utilisateurs et réduire la quantité de matériel requis. En bref, les utilisateurs pourraient s’attendre à des résultats plus rapides grâce aux requêtes basées sur le cloud, et les entreprises pourraient offrir plus tout en dépensant moins.
Chez Nvidia Blogue technique sur le sujet, le producteur de cartes graphiques a déclaré que la collaboration a rendu TensorRT-LLM « plus puissant et plus flexible, permettant à la communauté LLM d’innover des modèles plus sophistiqués et de les déployer facilement ».
La publication du rapport fait suite à la confirmation publique par Apple qu’elle enquêtait sur l’utilisation potentielle de la puce Trainium2 d’Amazon pour former des modèles destinés à être utilisés dans les fonctionnalités Apple Intelligence. À l’époque, l’entreprise s’attendait à une amélioration de 50 % de l’efficacité grâce au pré-entraînement utilisant les puces par rapport au matériel existant.