X

Accélération de l’inférence LLM sur les GPU NVIDIA avec ReDrafter

L’accélération de l’inférence LLM est un problème important de recherche en ML, car la génération de jetons auto-régressifs est coûteuse en termes de calcul et relativement lente, et l’amélioration de l’efficacité de l’inférence peut réduire la latence pour les utilisateurs. En plus des efforts continus visant à accélérer l’inférence sur le silicium Apple, nous avons récemment réalisé des progrès significatifs dans l’accélération de l’inférence LLM pour les GPU NVIDIA largement utilisés pour les applications de production dans l’ensemble du secteur.

Plus tôt cette année, nous avons publié et open source Recurrent Drafter (ReDrafter), une nouvelle approche du décodage spéculatif qui atteint des performances de pointe. ReDrafter utilise un projet de modèle RNN et combine la recherche de faisceaux avec une attention dynamique dans les arbres pour accélérer la génération de jetons LLM jusqu’à 3,5 jetons par étape de génération pour les modèles open source, dépassant ainsi les performances des techniques de décodage spéculatif précédentes.

Les jetons par seconde accélèrent

Figure 1 : accélération des jetons par seconde à l’aide de NVIDIA TensorRT-LLM avec ReDrafter vs Auto-régression.

Production de ReDrafter pour accélérer NVIDIA TensorRT-LLM

Ce travail de recherche a démontré des résultats solides, mais son plus grand impact vient de son application en production pour accélérer l’inférence LLM. Pour rendre cette avancée prête pour la production pour les GPU NVIDIA, nous avons collaboré avec NVIDIA pour intégrer ReDrafter dans le NVIDIA TensorRT-LLM cadre d’accélération d’inférence.

Bien que TensorRT-LLM prenne en charge de nombreux LLM open source et la méthode de décodage spéculatif Medusa, les algorithmes de recherche de faisceaux et d’attention aux arbres de ReDrafter s’appuient sur des opérateurs qui n’avaient jamais été utilisés dans les applications précédentes. Pour permettre l’intégration de ReDrafter, NVIDIA a ajouté de nouveaux opérateurs ou exposé ceux existants, ce qui a considérablement amélioré la capacité de TensorRT-LLM à prendre en charge des modèles et des méthodes de décodage sophistiqués. Les développeurs de ML utilisant des GPU NVIDIA peuvent désormais facilement bénéficier de la génération accélérée de jetons de ReDrafter pour leurs applications LLM de production avec TensorRT-LLM.

Related Post

En comparant un modèle de production de dizaines de milliards de paramètres sur les GPU NVIDIA, en utilisant le cadre d’accélération d’inférence NVIDIA TensorRT-LLM avec ReDrafter, nous avons constaté une accélération de 2,7 fois des jetons générés par seconde pour un décodage gourmand. (voir Figure 1). Ces résultats de référence indiquent que cette technologie pourrait réduire considérablement la latence que les utilisateurs peuvent rencontrer, tout en utilisant moins de GPU et en consommant moins d’énergie.

Pour plus de détails, consultez cet article sur le Blog des développeurs NVIDIA.

Conclusion

Les LLM sont de plus en plus utilisés pour alimenter les applications de production, et l’amélioration de l’efficacité de l’inférence peut à la fois avoir un impact sur les coûts de calcul et réduire la latence pour les utilisateurs. Grâce à la nouvelle approche de ReDrafter en matière de décodage spéculatif intégrée au framework NVIDIA TensorRT-LLM, les développeurs peuvent désormais bénéficier d’une génération de jetons plus rapide sur les GPU NVIDIA pour leurs applications LLM de production.

Remerciements

De nombreuses personnes ont contribué à ce projet, notamment : Aonan Zhang, Xuanyu Zhang, Yunfei Cheng, Chong Wang, Yi Wang, Abhishek Udupa, Dhaval Doshi et nos collaborateurs chez NVIDIA.

Categories: Tech