SmolLM3: 소형, 다국어, 장문맥 추론 모델

2025-07-09
SmolLM3: 소형, 다국어, 장문맥 추론 모델

SmolLM3은 효율성과 성능 간의 균형을 놀랍도록 잘 맞춘 30억 매개변수의 완전히 오픈 소스 다국어 대규모 언어 모델입니다. 다양한 벤치마크에서 Llama-3.2-3B 및 Qwen2.5-3B를 능가하며, 더 큰 40억 매개변수 모델과도 경쟁력을 갖추고 있습니다. 6개 언어를 지원하며 최대 128k 토큰의 컨텍스트 길이를 자랑하며, 고유한 이중 모드 추론 기능(think/no_think)을 갖추고 있습니다. 모델 자체뿐만 아니라 아키텍처 세부 정보, 데이터 믹싱 방법, 학습 방법을 포함한 완벽한 엔지니어링 설계도가 공개되어 이 규모의 모델을 구축하거나 연구하는 데 귀중한 자료가 됩니다.