Deepseek v3 : Un LLM open source à 607 milliards de paramètres surpassant GPT-4 à moindre coût ?

2025-01-02
Deepseek v3 : Un LLM open source à 607 milliards de paramètres surpassant GPT-4 à moindre coût ?

Deepseek a dévoilé son modèle phare, le v3, un modèle Mixture-of-Experts avec 607 milliards de paramètres et 37 milliards de paramètres actifs. Les benchmarks montrent qu'il est compétitif, voire supérieur, à GPT-4o d'OpenAI et à Claude 3.5 Sonnet, ce qui en fait le meilleur modèle open source actuel, surpassant Llama 3.1 403b, Qwen et Mistral. Remarquablement, Deepseek v3 a atteint ces performances pour seulement environ 6 millions de dollars, en utilisant une ingénierie de pointe : architecture MoE, entraînement en précision mixte FP8 et un framework HAI-LLM personnalisé. Il excelle dans le raisonnement et les mathématiques, surpassant même GPT-4 et Claude 3.5 Sonnet, bien qu'il soit légèrement en retrait en matière d'écriture et de codage. Son rapport performance-prix exceptionnel en fait une option attrayante pour les développeurs créant des applications d'IA grand public.