Un laboratoire chinois a créé ce qui semble être l’un des modèles d’IA « ouverts » les plus puissants à ce jour.
Le modèle, Recherche profonde V3a été développé par la société d’IA DeepSeek et a été publié mercredi sous une licence permissive qui permet aux développeurs de le télécharger et de le modifier pour la plupart des applications, y compris commerciales.
DeepSeek V3 peut gérer une gamme de charges de travail et de tâches basées sur du texte, comme le codage, la traduction et la rédaction d’essais et d’e-mails à partir d’une invite descriptive.
Selon les tests de référence internes de DeepSeek, DeepSeek V3 surpasse à la fois les modèles téléchargeables et disponibles « ouvertement » et les modèles d’IA « fermés » accessibles uniquement via une API. Dans un sous-ensemble de concours de codage hébergés sur Codeforces, une plateforme de concours de programmation, DeepSeek surpasse d’autres modèles, notamment le Llama 3.1 405B de Meta, le GPT-4o d’OpenAI et le Qwen 2.5 72B d’Alibaba.
DeepSeek V3 écrase également la concurrence sur Aider Polyglot, un test conçu pour mesurer, entre autres, si un modèle peut réussir à écrire du nouveau code qui s’intègre au code existant.
DeepSeek-V3 !
60 jetons/seconde (3x plus rapide que la V2 !)
Compatibilité API intacte
Modèles et documents entièrement open source
Paramètres du MoE 671B
37B paramètres activés
Formé sur des jetons 14,8T de haute qualitéBattre Llama 3.1 405b sur presque tous les benchmarks https://t.co/OiHu17hBSI pic.twitter.com/jVwJU07dqf
– Joufflu♨️ (@kimmonismus) 26 décembre 2024
DeepSeek affirme que DeepSeek V3 a été formé sur un ensemble de données de 14 800 milliards de jetons. En science des données, les jetons sont utilisés pour représenter des bits de données brutes : 1 million de jetons équivaut à environ 750 000 mots.
Il n’y a pas que l’ensemble de formation qui est énorme. DeepSeek V3 est d’une taille énorme : 685 milliards de paramètres. (Les paramètres sont les variables internes que les modèles utilisent pour faire des prédictions ou des décisions.) Cela représente environ 1,6 fois la taille de Llama 3.1 405B, qui compte 405 milliards de paramètres.
Le nombre de paramètres est souvent (mais pas toujours) en corrélation avec les compétences ; les modèles avec plus de paramètres ont tendance à surpasser les modèles avec moins de paramètres. Mais les grands modèles nécessitent également un matériel plus robuste pour fonctionner. Une version non optimisée de DeepSeek V3 aurait besoin d’une banque de GPU haut de gamme pour répondre aux questions à des vitesses raisonnables.
Même s’il ne s’agit pas du modèle le plus pratique, DeepSeek V3 est une réussite à certains égards. DeepSeek a pu entraîner le modèle à l’aide d’un centre de données de GPU Nvidia H800 en seulement deux mois environ – des GPU que les entreprises chinoises ont récemment testés. limité par le Département américain du Commerce de proxénétisme. La société affirme également qu’elle n’a dépensé que 5,5 millions de dollars pour former DeepSeek V3, soit une fraction du coût de développement de modèles comme le GPT-4 d’OpenAI.
L’inconvénient est que les opinions politiques du modèle sont un peu filtrées. Demandez à DeepSeek V3 à propos de la place Tiananmen, par exemple, et il ne répondra pas.
DeepSeek, étant une société chinoise, est soumise à analyse comparative par le régulateur chinois de l’Internet pour garantir que les réponses de ses modèles « incarnent les valeurs socialistes fondamentales ». Beaucoup Les systèmes d’IA chinois refusent de répondre aux sujets qui pourraient susciter la colère des régulateurs, comme les spéculations sur le Xi Jinping régime.
DeepSeek, qui a récemment dévoilé DeepSeek-R1, une réponse au modèle de « raisonnement » o1 d’OpenAI, est une organisation curieuse. Il est soutenu par High-Flyer Capital Management, un fonds spéculatif quantitatif chinois qui utilise l’IA pour éclairer ses décisions commerciales.
Les modèles de DeepSeek ont forcé des concurrents comme ByteDance, Baidu et Alibaba à réduire les prix d’utilisation de certains de leurs modèles et à en rendre d’autres totalement gratuits.
High-Flyer construit ses propres clusters de serveurs pour la formation des modèles, dont l’un des plus récents aurait possède 10 000 GPU Nvidia A100 et coûte 1 milliard de yens (~ 138 millions de dollars). Fondée par Liang Wenfeng, diplômé en informatique, High-Flyer vise à réaliser une IA « superintelligente » via son organisation DeepSeek.
Dans un entretien plus tôt cette année, Liang a décrit l’open source comme un « acte culturel » et a qualifié l’IA à source fermée comme celle d’OpenAI de fossé « temporaire ». « Même l’approche fermée d’OpenAI n’a pas empêché les autres de rattraper leur retard », a-t-il noté.
En effet.
TechCrunch propose une newsletter axée sur l’IA ! Inscrivez-vous ici pour le recevoir dans votre boîte de réception tous les mercredis.