Le modèle de raisonnement d’IA DeepSeek-R1-Lite-Preview bat OpenAI o1
Rejoignez nos newsletters quotidiennes et hebdomadaires pour les dernières mises à jour et du contenu exclusif sur la couverture de l’IA de pointe. Apprendre encore plus
Recherche profondeune émanation IA du hedge fund quantitatif chinois Gestion du capital de haut vol axé sur la publication de technologies open source hautes performances, a dévoilé R1-Lite-Preview, son dernier modèle de langage étendu (LLM) axé sur le raisonnement, disponible pour l’instant exclusivement via Discussion en profondeurson chatbot IA basé sur le Web.
Connue pour ses contributions innovantes à l’écosystème de l’IA open source, la nouvelle version de DeepSeek vise à apporter au public des capacités de raisonnement de haut niveau tout en maintenant son engagement en faveur d’une IA accessible et transparente.
Et le R1-Lite-Preview, bien qu’il ne soit disponible que via l’application de chat pour l’instant, fait déjà tourner les têtes en offrant des performances proches et, dans certains cas, dépassant le tant vanté modèle o1-preview d’OpenAI.
Comme ce modèle publié en septembre 2024, DeepSeek-R1-Lite-Preview présente un raisonnement en « chaîne de pensée », montrant à l’utilisateur les différentes chaînes ou trains de « pensée » qu’il suit pour répondre à ses requêtes et entrées, documentant le processus en expliquant ce qu’il fait et pourquoi.
Bien que certaines chaînes/chaînes de pensées puissent sembler absurdes ou même erronées aux humains, DeepSeek-R1-Lite-Preview semble dans l’ensemble être étonnamment précis, répondant même à des questions « pièges » qui ont fait trébucher d’autres, plus anciennes, mais puissantes. Des modèles d’IA tels que GPT-4o et la famille Anthropic de Claude, y compris « combien de lettres R y a-t-il dans le mot Strawberry ? » et « qu’est-ce qui est le plus grand, 9,11 ou 9,9 ? » Voir les captures d’écran ci-dessous de mes tests de ces invites sur DeepSeek Chat :
Une nouvelle approche du raisonnement de l’IA
DeepSeek-R1-Lite-Preview est conçu pour exceller dans les tâches nécessitant une inférence logique, un raisonnement mathématique et une résolution de problèmes en temps réel.
Selon DeepSeek, le modèle dépasse les performances de niveau OpenAI o1-preview sur des références établies telles que l’AIME (American Invitational Mathematics Examination) et MATH.
Ses capacités de raisonnement sont renforcées par son processus de réflexion transparent, permettant aux utilisateurs de suivre étape par étape le modèle qui aborde des défis complexes.
DeepSeek a également publié des données de mise à l’échelle, démontrant des améliorations constantes de la précision lorsque le modèle dispose de plus de temps ou de « jetons de réflexion » pour résoudre les problèmes. Les graphiques de performance mettent en évidence sa capacité à obtenir des scores plus élevés sur des critères tels que l’AIME à mesure que la profondeur de la réflexion augmente.
Benchmarks et applications du monde réel
DeepSeek-R1-Lite-Preview a réalisé des performances compétitives sur des benchmarks clés.
Les résultats publiés par la société mettent en évidence sa capacité à gérer un large éventail de tâches, depuis les mathématiques complexes jusqu’aux scénarios basés sur la logique, obtenant des scores de performance qui rivalisent avec les modèles de premier plan dans des tests de raisonnement tels que GPQA et Codeforces.
La transparence de son raisonnement le distingue encore davantage. Les utilisateurs peuvent observer les étapes logiques du modèle en temps réel, ajoutant ainsi un élément de responsabilité et de confiance qui manque à de nombreux systèmes d’IA propriétaires.
Cependant, DeepSeek n’a pas encore publié le code complet pour une analyse ou une analyse comparative indépendante par un tiers, et n’a pas encore rendu DeepSeek-R1-Lite-Preview disponible via une API qui permettrait le même type de tests indépendants.
De plus, la société n’a pas encore publié d’article de blog ni de document technique expliquant comment DeepSeek-R1-Lite-Preview a été formé ou architecturé, laissant de nombreux points d’interrogation sur ses origines sous-jacentes.
Plans d’accessibilité et open source
L’aperçu R1-Lite est désormais accessible via DeepSeek Chat à l’adresse chat.deepseek.com. Bien que gratuit pour un usage public, le mode avancé « Deep Think » du modèle a une limite quotidienne de 50 messages, offrant ainsi aux utilisateurs de nombreuses opportunités de découvrir ses capacités.
Pour l’avenir, DeepSeek prévoit de publier des versions open source de ses modèles de la série R1 et des API associées, selon les publications de l’entreprise sur X.
Cette décision s’aligne sur l’histoire de l’entreprise en matière de soutien à la communauté de l’IA open source.
Sa version précédente, DeepSeek-V2.5, a été saluée pour sa combinaison de traitement linguistique général et de capacités de codage avancées, ce qui en fait l’un des modèles d’IA open source les plus puissants à l’époque.
Bâtir sur un héritage
DeepSeek poursuit sa tradition de repousser les limites de l’IA open source. Des modèles antérieurs tels que DeepSeek-V2.5 et DeepSeek Coder ont démontré des capacités impressionnantes dans les tâches de langage et de codage, avec des références le plaçant comme leader dans le domaine.
La sortie de R1-Lite-Preview ajoute une nouvelle dimension, axée sur le raisonnement transparent et l’évolutivité.
Alors que les entreprises et les chercheurs explorent les applications de l’IA à forte intensité de raisonnement, l’engagement de DeepSeek en faveur de l’ouverture garantit que ses modèles restent une ressource vitale pour le développement et l’innovation.
En combinant hautes performances, opérations transparentes et accessibilité open source, DeepSeek ne fait pas seulement progresser l’IA, mais remodèle également la façon dont elle est partagée et utilisée.
Le R1-Lite-Preview est désormais disponible pour des tests publics. Des modèles et des API open source devraient suivre, renforçant ainsi la position de DeepSeek en tant que leader des technologies d’IA avancées et accessibles.