Alibaba lance un challenger « ouvert » au modèle de raisonnement o1 d’OpenAI

Un nouveau modèle d’IA dit « de raisonnement », QwQ-32B-Preview, est arrivé sur les lieux. C’est l’un des rares à rivaliser avec l’o1 d’OpenAI, et c’est le premier disponible en téléchargement sous une licence permissive.

Développé par l’équipe Qwen d’Alibaba, QwQ-32B-Preview contient 32,5 milliards de paramètres et peut prendre en compte des invites d’une longueur d’environ 32 000 mots ; il fonctionne mieux sur certains benchmarks que o1-preview et o1-mini, les deux modèles de raisonnement qu’OpenAI a publiés jusqu’à présent. (Les paramètres correspondent à peu près aux compétences de résolution de problèmes d’un modèle, et les modèles avec plus de paramètres fonctionnent généralement mieux que ceux avec moins de paramètres. OpenAI ne divulgue pas le nombre de paramètres de ses modèles.)

Selon les tests d’Alibaba, QwQ-32B-Preview bat les modèles o1 d’OpenAI aux tests AIME et MATH. AIME utilise d’autres modèles d’IA pour évaluer les performances d’un modèle, tandis que MATH est un ensemble de problèmes de mots.

QwQ-32B-Preview peut résoudre des énigmes logiques et répondre à des questions mathématiques raisonnablement difficiles, grâce à ses capacités de « raisonnement ». Mais ce n’est pas parfait. Alibaba note dans un article de blog que le modèle pourrait changer de langue de manière inattendue, rester coincé dans des boucles et sous-performer sur des tâches qui nécessitent un « raisonnement de bon sens ».

Crédits images :Alibaba

Contrairement à la plupart des IA, QwQ-32B-Preview et d’autres modèles de raisonnement vérifient eux-mêmes efficacement les faits. Cela les aide à éviter certains des pièges qui font normalement échouer les modèles, l’inconvénient étant qu’ils mettent souvent plus de temps à trouver des solutions. Semblable à o1, QwQ-32B-Preview raisonne à travers des tâches, planifie à l’avance et effectue une série d’actions qui aident le modèle à trouver des réponses.

QwQ-32B-Preview, qui peut être exécuté et téléchargé à partir de la plateforme de développement d’IA Hugging Face, semble être similaire au modèle de raisonnement DeepSeek récemment publié dans la mesure où il aborde légèrement certains sujets politiques. Alibaba et DeepSeek, en tant que sociétés chinoises, sont soumises à analyse comparative par le régulateur chinois de l’Internet pour garantir que les réponses de leurs modèles « incarnent les valeurs socialistes fondamentales ». Beaucoup Les systèmes d’IA chinois refusent de répondre aux sujets qui pourraient susciter la colère des régulateurs, comme les spéculations sur le Xi Jinping régime.

Crédits images :Alibaba

À la question « Taïwan fait-elle partie de la Chine ? », QwQ-32B-Preview a répondu que c’était le cas (et « inaliénable » également) – une perspective en décalage avec la plupart des pays du monde, mais conforme à celle du parti au pouvoir en Chine. Invites à propos de Place Tiananmenquant à lui, a donné lieu à une non-réponse.

Crédits images :Alibaba

QwQ-32B-Preview est « ouvertement » disponible sous une licence Apache 2.0, ce qui signifie qu’il peut être utilisé pour des applications commerciales. Mais seuls certains composants du modèle ont été publiés, ce qui rend impossible la réplication de QwQ-32B-Preview ou l’obtention d’un aperçu du fonctionnement interne du système. L’« ouverture » des modèles d’IA n’est pas une question réglée, mais il existe un continuum général allant du plus fermé (accès API uniquement) au plus ouvert (modèle, pondérations, données divulguées) et celui-ci se situe quelque part au milieu.

L’attention accrue portée aux modèles de raisonnement survient alors que la viabilité des « lois d’échelle », des théories de longue date selon lesquelles l’apport de plus de données et de puissance de calcul à un modèle augmenterait continuellement ses capacités, est soumise à un examen minutieux. UN rafale des articles de presse suggèrent que les modèles des principaux laboratoires d’IA, notamment OpenAI, Google et Anthropic, ne s’améliorent pas aussi considérablement qu’avant.

Cela a conduit à une ruée vers de nouvelles approches, architectures et techniques de développement d’IA, dont l’une est le calcul au moment des tests. Également connu sous le nom de calcul d’inférence, le calcul au moment du test donne essentiellement aux modèles un temps de traitement supplémentaire pour effectuer les tâches et sous-tend des modèles comme o1 et QwQ-32B-Preview. .

Outre OpenAI, de grands laboratoires et des entreprises chinoises parient que le calcul au moment des tests est l’avenir. Selon un récent rapport de The Information, Google a a élargi une équipe interne axée sur les modèles de raisonnement à environ 200 personnes et a ajouté une puissance de calcul substantielle à l’effort.

Deux sociétés abandonnent Conor McGregor après que le jury se soit prononcé contre lui dans une affaire de viol | Conor McGregor »

« Quelle quantité d’eau devrions-nous boire par jour ?

Categories: Tech

Sumner Ferland: