OpenAI publie gpt-oss : des LLMs puissants et open-weight exécutables localement

2025-08-10
OpenAI publie gpt-oss : des LLMs puissants et open-weight exécutables localement

OpenAI a publié cette semaine ses nouveaux grands modèles de langage (LLM) à poids ouverts : gpt-oss-120b et gpt-oss-20b, ses premiers modèles à poids ouverts depuis GPT-2 en 2019. Étonnamment, grâce à des optimisations intelligentes, ils peuvent fonctionner localement. Cet article examine en détail l’architecture du modèle gpt-oss, en la comparant à des modèles tels que GPT-2 et Qwen3. Il souligne des choix architecturaux uniques, tels que Mixture-of-Experts (MoE), Grouped Query Attention (GQA) et l’attention à fenêtre glissante. Bien que les benchmarks montrent que gpt-oss offre des performances comparables à celles des modèles propriétaires dans certains domaines, sa capacité d’exécution locale et sa nature open-source en font un atout précieux pour la recherche et les applications.

Lire plus

Évolution de l'architecture des LLMs en 2025 : Plongeons au cœur de DeepSeek, OLMo, Gemma, Mistral et Qwen

2025-07-20
Évolution de l'architecture des LLMs en 2025 : Plongeons au cœur de DeepSeek, OLMo, Gemma, Mistral et Qwen

Cet article passe en revue les avancées architecturales des grands modèles de langage (LLMs) en 2025, en se concentrant sur les modèles open-source tels que DeepSeek, OLMo, Gemma, Mistral et Qwen. DeepSeek V3/R1 améliore l'efficacité computationnelle grâce à l'Attention Latente Multi-Têtes (MLA) et au Mixture-of-Experts (MoE). OLMo 2 met l'accent sur le placement de RMSNorm, utilisant Post-Norm et QK-Norm. Gemma 3 utilise l'attention à fenêtre glissante pour réduire les besoins en mémoire. Mistral Small 3.1 équilibre performance et vitesse. Qwen 3 propose des variantes denses et MoE pour plus de flexibilité. SmolLM3 se distingue par sa taille de 3 milliards de paramètres et NoPE (No Positional Embeddings). Enfin, Kimi 2 impressionne par son échelle de billions de paramètres et l'optimiseur Muon. Ces modèles présentent des innovations dans les mécanismes d'attention, la normalisation, le MoE et les optimiseurs, démontrant la diversité et l'évolution continue des architectures de LLM.

Lire plus

Quatre approches pour construire des modèles de raisonnement pour les LLM

2025-02-06
Quatre approches pour construire des modèles de raisonnement pour les LLM

Cet article explore quatre approches principales pour améliorer les grands modèles de langage (LLM) avec des capacités de raisonnement : l’extension du temps d’inférence, l’apprentissage par renforcement pur, l’ajustement fin supervisé plus l’apprentissage par renforcement et la distillation de modèles. Le développement de DeepSeek R1 est utilisé comme étude de cas, montrant comment ces méthodes peuvent construire des modèles de raisonnement puissants et comment même les chercheurs disposant de budgets limités peuvent obtenir des résultats impressionnants grâce à la distillation. L’article compare également DeepSeek R1 au o1 d’OpenAI et discute des stratégies pour construire des modèles de raisonnement économiques.

Lire plus