SmolLM3:小巧、多语言、长上下文推理模型

2025-07-09
SmolLM3:小巧、多语言、长上下文推理模型

SmolLM3是一个仅30亿参数的开源多语言大模型,在效率和性能上取得了显著平衡。它在多个基准测试中超越了Llama-3.2-3B和Qwen2.5-3B,甚至与更大的40亿参数模型竞争。该模型支持6种语言,上下文长度可达128k,并具有独特的双模式推理能力(think/no_think)。研究人员不仅发布了模型本身,还公开了完整的训练蓝图,包括架构细节、数据混合策略和训练方法,这对于希望构建或理解此规模模型的人来说是一笔宝贵的财富。

AI