Rejoignez nos newsletters quotidiennes et hebdomadaires pour les dernières mises à jour et du contenu exclusif sur la couverture de l’IA de pointe. Apprendre encore plus
La startup chinoise d’IA DeepSeek, connue pour défier les principaux fournisseurs d’IA avec ses technologies open source innovantes, a publié aujourd’hui un nouveau modèle ultra-large : DeepSeek-V3.
Disponible via Visage câlin Selon l’accord de licence de l’entreprise, le nouveau modèle est livré avec les paramètres 671B mais utilise une architecture mixte d’experts pour activer uniquement certains paramètres, afin de gérer des tâches données avec précision et efficacité. Selon les benchmarks partagés par DeepSeek, l’offre est déjà en tête des classements, surpassant les principaux modèles open source, notamment le Llama 3.1-405B de Meta, et correspondant étroitement aux performances des modèles fermés d’Anthropic et d’OpenAI.
Cette version marque un autre développement majeur comblant l’écart entre l’IA fermée et open source. En fin de compte, DeepSeek, qui a commencé comme une émanation du fonds spéculatif quantitatif chinois Gestion du capital de haut volespère que ces développements ouvriront la voie à l’intelligence artificielle générale (AGI), où les modèles auront la capacité de comprendre ou d’apprendre n’importe quelle tâche intellectuelle qu’un être humain peut réaliser.
Qu’apporte DeepSeek-V3 ?
Tout comme son prédécesseur DeepSeek-V2, le nouveau modèle ultra-large utilise la même architecture de base autour de attention latente multi-têtes (MLA) et DeepSeekMoE. Cette approche garantit le maintien d’une formation et d’une inférence efficaces – avec des « experts » spécialisés et partagés (des réseaux de neurones individuels plus petits au sein d’un modèle plus large) activant 37 B de paramètres sur 671B pour chaque jeton.
Bien que l’architecture de base garantisse des performances robustes pour DeepSeek-V3, la société a également lancé deux innovations pour repousser encore plus loin la barre.
La première est une stratégie d’équilibrage de charge auxiliaire sans perte. Cela surveille et ajuste dynamiquement la charge des experts pour les utiliser de manière équilibrée sans compromettre les performances globales du modèle. La seconde est la prédiction multi-jetons (MTP), qui permet au modèle de prédire simultanément plusieurs futurs jetons. Cette innovation améliore non seulement l’efficacité de la formation, mais permet au modèle de fonctionner trois fois plus rapidement, générant 60 jetons par seconde.
« Au cours de la pré-formation, nous avons formé DeepSeek-V3 sur des jetons diversifiés et de haute qualité de 14,8T… Ensuite, nous avons procédé à une extension de la longueur du contexte en deux étapes pour DeepSeek-V3 », a écrit la société dans un communiqué. document technique détaillant le nouveau modèle. « Dans la première étape, la longueur maximale du contexte est étendue à 32 Ko, et dans la deuxième étape, elle est encore étendue à 128 Ko. Suite à cela, nous avons effectué une post-formation, y compris un réglage fin supervisé (SFT) et un apprentissage par renforcement (RL) sur le modèle de base de DeepSeek-V3, pour l’aligner sur les préférences humaines et libérer davantage son potentiel. Au cours de la phase post-formation, nous distillons la capacité de raisonnement de la série de modèles DeepSeekR1, tout en maintenant soigneusement l’équilibre entre la précision du modèle et la durée de génération.
Notamment, pendant la phase de formation, DeepSeek a utilisé plusieurs optimisations matérielles et algorithmiques, notamment le cadre de formation de précision mixte FP8 et l’algorithme DualPipe pour le parallélisme des pipelines, afin de réduire les coûts du processus.
Dans l’ensemble, il prétend avoir terminé l’intégralité de la formation DeepSeek-V3 en environ 2 788 000 heures GPU H800, soit environ 5,57 millions de dollars, en supposant un prix de location de 2 dollars par heure GPU. C’est bien inférieur aux centaines de millions de dollars habituellement dépensés pour la pré-formation de grands modèles de langage.
Llama-3.1, par exemple, aurait été entraîné avec un investissement de plus de 500 millions de dollars.
Le modèle open source le plus puissant actuellement disponible
Malgré la formation économique, DeepSeek-V3 est devenu le modèle open source le plus puissant du marché.
La société a effectué plusieurs tests de référence pour comparer les performances de l’IA et a noté qu’elle surpassait de manière convaincante les principaux modèles ouverts, notamment Llama-3.1-405B et Qwen 2.5-72B. Il surpasse même le GPT-4o à source fermée sur la plupart des benchmarks, à l’exception de SimpleQA et FRAMES, axés sur l’anglais, où le modèle OpenAI était en tête avec des scores de 38,2 et 80,5 (contre 24,9 et 73,3), respectivement.
Notamment, les performances de DeepSeek-V3 se sont particulièrement démarquées sur les benchmarks chinois et centrés sur les mathématiques, obtenant de meilleurs résultats que tous leurs homologues. Au test Math-500, il a obtenu un score de 90,2, le score de Qwen de 80 étant le deuxième meilleur.
Le seul modèle qui a réussi à défier DeepSeek-V3 était le Claude 3.5 Sonnet d’Anthropic, le surpassant avec des scores plus élevés dans MMLU-Pro, IF-Eval, GPQA-Diamond, SWE Verified et Aider-Edit.
Les travaux montrent que l’open source se rapproche des modèles fermés, promettant des performances presque équivalentes dans différentes tâches. Le développement de tels systèmes est extrêmement bénéfique pour l’industrie, car il élimine potentiellement les chances qu’un grand acteur de l’IA dirige le jeu. Il offre également aux entreprises plusieurs options parmi lesquelles choisir et utiliser tout en orchestrant leurs piles.
Actuellement, le code de DeepSeek-V3 est disponible via GitHub sous licence MIT, tandis que le modèle est fourni sous la licence de modèle de l’entreprise. Les entreprises peuvent également tester le nouveau modèle via Discussion en profondeurune plateforme de type ChatGPT, et accédez à l’API à des fins commerciales. DeepSeek fournit l’API au même prix que DeepSeek-V2 jusqu’au 8 février. Après cela, il facturera 0,27 $/million de jetons d’entrée (0,07 $/million de jetons avec accès au cache) et 1,10 $/million de jetons de sortie.