Tech

Voici 3 stratégies de compression LLM critiques pour améliorer les performances de l’IA


Rejoignez nos newsletters quotidiennes et hebdomadaires pour les dernières mises à jour et du contenu exclusif sur la couverture de l’IA de pointe. Apprendre encore plus


Dans le paysage numérique actuel, en évolution rapide, les entreprises qui s’appuient sur l’IA sont confrontées à de nouveaux défis : latence, utilisation de la mémoire et coûts de puissance de calcul pour exécuter un modèle d’IA. À mesure que l’IA progresse rapidement, les modèles qui alimentent ces innovations sont devenus de plus en plus complexes et gourmands en ressources. Bien que ces grands modèles aient atteint des performances remarquables dans diverses tâches, ils s’accompagnent souvent d’importants besoins en termes de calcul et de mémoire.

Pour les applications d’IA en temps réel telles que la détection des menaces, la détection des fraudes, embarquement biométrique dans un avion et bien d’autres, fournir des résultats rapides et précis devient primordial. La véritable motivation des entreprises à accélérer la mise en œuvre de l’IA ne vient pas seulement du simple fait d’économiser sur coûts d’infrastructure et de calculmais également en obtenant une efficacité opérationnelle plus élevée, des temps de réponse plus rapides et des expériences utilisateur fluides, ce qui se traduit par des résultats commerciaux tangibles tels qu’une satisfaction client améliorée et des temps d’attente réduits.

Deux solutions viennent immédiatement à l’esprit pour relever ces défis, mais elles ne sont pas sans inconvénients. Une solution consiste à entraîner des modèles plus petits, en troquant la précision et les performances contre la vitesse. L’autre solution consiste à investir dans du matériel de meilleure qualité, comme les GPU, capables d’exécuter des modèles d’IA complexes et performants avec une faible latence. Cependant, la demande de GPU dépassant largement l’offre, cette solution fera rapidement grimper les coûts. Cela ne résout pas non plus le cas d’utilisation dans lequel le modèle d’IA doit être exécuté sur des appareils de pointe comme les smartphones.

Entrez dans les techniques de compression de modèles : un ensemble de méthodes conçues pour réduire la taille et les exigences de calcul des modèles d’IA tout en conservant leurs performances. Dans cet article, nous explorerons certaines stratégies de compression de modèles qui aideront les développeurs à déployer des modèles d’IA même dans les environnements les plus limités en ressources.

Comment la compression du modèle aide-t-elle

Il existe plusieurs raisons pour lesquelles les modèles d’apprentissage automatique (ML) doivent être compressés. Premièrement, les modèles plus grands offrent souvent une meilleure précision mais nécessitent des ressources informatiques substantielles pour exécuter des prédictions. De nombreux modèles de pointe, tels que les grands modèles de langage (LLM) et les réseaux neuronaux profonds, sont à la fois coûteux en termes de calcul et gourmands en mémoire. Comme ces modèles sont déployés dans des applications en temps réel, telles que des moteurs de recommandation ou des systèmes de détection de menaces, leur besoin de GPU hautes performances ou d’infrastructure cloud fait grimper les coûts.

Deuxièmement, les exigences de latence pour certaines applications augmentent les dépenses. De nombreuses applications d’IA s’appuient sur des prédictions en temps réel ou à faible latence, ce qui nécessite un matériel puissant pour maintenir des temps de réponse faibles. Plus le volume de prédictions est élevé, plus l’exécution continue de ces modèles devient coûteuse.

De plus, le volume considérable de demandes d’inférence dans les services destinés aux consommateurs peut faire monter les coûts en flèche. Par exemple, les solutions déployées dans les aéroports, les banques ou les points de vente impliqueront quotidiennement un grand nombre de requêtes d’inférence, chaque requête consommant des ressources informatiques. Cette charge opérationnelle nécessite une gestion minutieuse de la latence et des coûts pour garantir que la mise à l’échelle de l’IA n’épuise pas les ressources.

Cependant, la compression des modèles n’est pas seulement une question de coûts. Les modèles plus petits consomment moins d’énergie, ce qui se traduit par une durée de vie plus longue de la batterie des appareils mobiles et une consommation électrique réduite dans les centres de données. Cela réduit non seulement les coûts opérationnels, mais aligne également le développement de l’IA sur les objectifs de durabilité environnementale en réduisant les émissions de carbone. En relevant ces défis, les techniques de compression de modèles ouvrent la voie à des solutions d’IA plus pratiques, plus rentables et largement déployables.

Techniques de compression des meilleurs modèles

Les modèles compressés peuvent effectuer des prédictions plus rapidement et plus efficacement, permettant ainsi des applications en temps réel qui améliorent l’expérience des utilisateurs dans divers domaines, depuis des contrôles de sécurité plus rapides dans les aéroports jusqu’à la vérification d’identité en temps réel. Voici quelques techniques couramment utilisées pour compresser les modèles d’IA.

Taille du modèle

Modèle prning est une technique qui réduit la taille d’un réseau neuronal en supprimant les paramètres qui ont peu d’impact sur la sortie du modèle. En éliminant les poids redondants ou insignifiants, la complexité informatique du modèle est réduite, ce qui entraîne des temps d’inférence plus rapides et une utilisation moindre de la mémoire. Le résultat est un modèle plus simple qui fonctionne toujours bien mais nécessite moins de ressources pour fonctionner. Pour les entreprises, l’élagage est particulièrement bénéfique car il peut réduire à la fois le temps et le coût nécessaires à la réalisation de prévisions sans trop sacrifier en termes de précision. Un modèle élagué peut être recyclé pour récupérer toute précision perdue. L’élagage du modèle peut être effectué de manière itérative, jusqu’à ce que les performances, la taille et la vitesse requises du modèle soient atteintes. Des techniques telles que l’élagage itératif aident à réduire efficacement la taille du modèle tout en maintenant les performances.

Quantification du modèle

Quantification est une autre méthode puissante pour optimiser les modèles ML. Cela réduit la précision des nombres utilisés pour représenter les paramètres et les calculs d’un modèle, généralement des nombres à virgule flottante de 32 bits aux nombres entiers de 8 bits. Cela réduit considérablement l’empreinte mémoire du modèle et accélère l’inférence en lui permettant de s’exécuter sur du matériel moins puissant. Les améliorations de mémoire et de vitesse peuvent être aussi importantes que 4x. Dans les environnements où les ressources informatiques sont limitées, comme les appareils de pointe ou les téléphones mobiles, la quantification permet aux entreprises de déployer des modèles plus efficacement. Cela réduit également la consommation d’énergie liée à l’exécution des services d’IA, ce qui se traduit par une baisse des coûts du cloud ou du matériel.

En règle générale, la quantification est effectuée sur un modèle d’IA entraîné et utilise un ensemble de données d’étalonnage pour minimiser la perte de performances. Dans les cas où la perte de performance est encore plus qu’acceptable, des techniques telles que formation prenant en compte la quantification peut aider à maintenir la précision en permettant au modèle de s’adapter à cette compression pendant le processus d’apprentissage lui-même. De plus, la quantification du modèle peut être appliquée après l’élagage du modèle, améliorant ainsi encore la latence tout en maintenant les performances.

Distillation des connaissances

Ce technique implique de former un modèle plus petit (l’élève) pour imiter le comportement d’un modèle plus grand et plus complexe (l’enseignant). Ce processus implique souvent de former le modèle d’étudiant à la fois sur les données de formation originales et sur les résultats logiciels (distributions de probabilité) de l’enseignant. Cela permet de transférer non seulement les décisions finales, mais également le « raisonnement » nuancé du modèle plus large vers le modèle plus petit.

Le modèle d’étudiant apprend à se rapprocher des performances de l’enseignant en se concentrant sur les aspects critiques des données, ce qui donne lieu à un modèle léger qui conserve une grande partie de la précision de l’original mais avec beaucoup moins d’exigences informatiques. Pour les entreprises, la distillation des connaissances permet le déploiement de modèles plus petits et plus rapides qui offrent des résultats similaires à une fraction du coût d’inférence. C’est particulièrement utile dans les applications en temps réel où la vitesse et l’efficacité sont essentielles.

Un modèle étudiant peut être davantage compressé en appliquant des techniques d’élagage et de quantification, ce qui donne un modèle beaucoup plus léger et plus rapide, dont les performances sont similaires à celles d’un modèle complexe plus grand.

Conclusion

Alors que les entreprises cherchent à faire évoluer leurs opérations d’IA, la mise en œuvre de solutions d’IA en temps réel devient une préoccupation majeure. Des techniques telles que l’élagage de modèles, la quantification et la distillation des connaissances apportent des solutions pratiques à ce défi en optimisant les modèles pour des prédictions plus rapides et moins coûteuses sans perte majeure de performances. En adoptant ces stratégies, les entreprises peuvent réduire leur dépendance à l’égard de matériel coûteux, déployer plus largement des modèles dans leurs services et garantir que l’IA reste une partie économiquement viable de leurs opérations. Dans un paysage où l’efficacité opérationnelle peut faire ou défaire la capacité d’une entreprise à innover, l’optimisation de l’inférence ML n’est pas seulement une option, c’est une nécessité.

Chinmay Jog est ingénieur senior en apprentissage automatique chez Pangiam.

DataDecisionMakers

Bienvenue dans la communauté VentureBeat !

DataDecisionMakers est l’endroit où les experts, y compris les techniciens travaillant sur les données, peuvent partager des informations et des innovations liées aux données.

Si vous souhaitez en savoir plus sur des idées de pointe et des informations à jour, sur les meilleures pratiques et sur l’avenir des données et de la technologie des données, rejoignez-nous sur DataDecisionMakers.

Vous pourriez même envisager de rédiger votre propre article !

En savoir plus sur DataDecisionMakers


Source link