DeepSeek révolutionne l’IA avec son modèle R1 allégé performant
La société chinoise DeepSeek fait à nouveau parler d’elle dans le monde de l’intelligence artificielle en dévoilant une version allégée de son modèle de raisonnement avancé R1. Cette nouvelle version, nommée DeepSeek-R1-0528-Qwen3-8B, se distingue par ses performances remarquables sur certains tests mathématiques tout en étant beaucoup moins gourmande en ressources informatiques.
Un modèle distillé efficace et accessible
Les modèles « distillés » comme DeepSeek-R1-0528-Qwen3-8B sont des versions plus compactes et optimisées de modèles de grande taille. Bien qu’ils soient généralement moins puissants que leurs homologues complets, ils offrent un excellent compromis entre capacité et consommation de ressources. DeepSeek-R1-0528-Qwen3-8B a été développé à partir du modèle Qwen3-8B d’Alibaba, reconnu pour ses capacités hybrides de raisonnement.
Un des avantages majeurs de cette version distillée est sa capacité à fonctionner sur une simple GPU disposant de 40 à 80 Go de RAM, comme la Nvidia H100, alors que la version complète de R1 nécessite plusieurs dizaines de GPU très puissantes. Cette caractéristique facilite grandement l’accès au modèle pour la recherche académique et le développement industriel à petite échelle.
Des performances qui rivalisent avec les géants de l’IA
Sur le plan des performances, DeepSeek-R1-0528-Qwen3-8B s’est illustré lors de l’AIME 2025, un test mathématique exigeant, surpassant notamment le modèle Gemini 2.5 Flash de Google. Il s’approche également des résultats obtenus par Phi 4 reasoning plus, la dernière évolution du modèle de Microsoft, sur le test HMMT.
Ces résultats sont impressionnants étant donné la taille réduite du modèle, et attestent de la qualité de l’entraînement réalisé par DeepSeek. La méthode employée consiste à utiliser les textes produits par la version complète de R1 pour affiner le modèle Qwen3-8B, optimisant ainsi ses capacités de raisonnement.
Un accès libre et commercial sans contraintes
DeepSeek met à disposition DeepSeek-R1-0528-Qwen3-8B sous une licence MIT permissive. Cette licence permet une utilisation commerciale sans restriction, ouvrant le champ à de nombreuses applications industrielles. Plusieurs plateformes, dont LM Studio, proposent déjà ce modèle via une API, facilitant son intégration dans divers projets technologiques.
Ce lancement témoigne d’un mouvement vers des IA puissantes mais accessibles, encouragent la recherche et l’innovation dans des environnements moins exigeants en matériel, tout en maintenant des standards élevés de performance.
👉 Source ici