Webtagr - 기술 뉴스 다이제스트

OpenAI, 로컬 실행 가능한 강력한 오픈 가중치 LLM인 gpt-oss 출시

2025-08-10

OpenAI는 이번 주 2019년 GPT-2 이후 처음으로 오픈 가중치 모델인 gpt-oss-120b와 gpt-oss-20b를 출시했습니다. 놀랍게도, 정교한 최적화 덕분에 로컬에서 실행할 수 있습니다. 이 기사에서는 gpt-oss 모델의 아키텍처를 자세히 살펴보고 GPT-2 및 Qwen3과 같은 모델과 비교합니다. Mixture-of-Experts(MoE), Grouped Query Attention(GQA), 슬라이딩 윈도우 어텐션과 같은 고유한 아키텍처 선택을 강조합니다. 벤치마크에서 gpt-oss는 일부 영역에서 독점 모델과 동등한 성능을 보여주지만, 로컬 실행 가능성과 오픈소스 특성으로 인해 연구 및 애플리케이션에 귀중한 자산이 됩니다.

(magazine.sebastianraschka.com)

AI 오픈 가중치

2025년 대규모 언어 모델 아키텍처의 발전: DeepSeek, OLMo, Gemma, Mistral, Qwen 심층 분석

2025-07-20

본 논문은 2025년 대규모 언어 모델(LLM)의 아키텍처 발전을 검토하고, DeepSeek, OLMo, Gemma, Mistral, Qwen 등 오픈소스 모델에 중점을 둡니다. DeepSeek V3/R1은 다중 헤드 잠재적 어텐션(MLA)과 전문가 혼합(MoE)을 사용하여 계산 효율성을 향상시킵니다. OLMo 2는 RMSNorm 배치에 중점을 두고 Post-Norm과 QK-Norm을 사용합니다. Gemma 3은 슬라이딩 윈도우 어텐션을 사용하여 메모리 요구 사항을 줄입니다. Mistral Small 3.1은 성능과 속도의 균형을 이룹니다. Qwen 3은 유연성을 위해 밀집 모델과 MoE의 두 가지 변형을 제공합니다. SmolLM3는 30억 매개변수 크기와 NoPE(위치 임베딩 없음)로 두드러집니다. 마지막으로, Kimi 2는 1조 매개변수 규모와 Muon 최적화기를 사용하여 인상적입니다. 이러한 모델들은 어텐션 메커니즘, 정규화, MoE, 최적화기에서 혁신을 보여주며, LLM 아키텍처의 다양성과 지속적인 발전을 보여줍니다.

(magazine.sebastianraschka.com)

AI 아키텍처 혁신

LLM 추론 모델 구축을 위한 네 가지 접근 방식

2025-02-06

본 기사에서는 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위한 네 가지 주요 접근 방식을 살펴봅니다. 추론 시간 확장, 순수 강화 학습, 지도 학습 미세 조정 및 강화 학습 결합, 그리고 모델 증류입니다. DeepSeek R1의 개발을 사례 연구로 사용하여 이러한 방법들이 어떻게 강력한 추론 모델을 구축할 수 있는지, 그리고 예산이 제한된 연구자들도 증류를 통해 뛰어난 결과를 얻을 수 있는지 보여줍니다. 또한 DeepSeek R1과 OpenAI의 o1을 비교하고 비용 효율적인 추론 모델을 구축하기 위한 전략에 대해 논의합니다.

(magazine.sebastianraschka.com)

AI