Baseten, GPT-OSS-120B에서 SOTA 성능 달성: 시간과의 경쟁

2025-08-07

OpenAI의 새로운 오픈소스 LLM 출시 파트너로서 Baseten은 GPT-OSS-120B 출시 당일 최고 성능을 달성하기 위해 노력했습니다. 유연한 추론 스택을 활용하여 TensorRT-LLM, vLLM, SGLang에서 테스트를 진행하고 Hopper 및 Blackwell GPU 아키텍처를 지원했습니다. 주요 최적화에는 KV 캐시 인식 라우팅 및 Eagle을 사용한 추측 디코딩이 포함되었습니다. 지연 시간을 우선시하여 텐서 병렬 처리를 선택하고 TensorRT-LLM의 MoE 백엔드를 사용했습니다. 팀은 호환성 문제를 신속하게 해결하고 모델 구성을 지속적으로 개선하여 오픈소스 커뮤니티에 기여했습니다. 향후 개선에는 더 빠른 추론을 위한 추측 디코딩이 포함될 것입니다.

(www.baseten.co)

개발 추론 최적화

거대한 제국을 작은 나라로 축소하는 방법: 18세기 자멸을 위한 안내서

나만의 비밀 저장소: dotfiles 공개를 망설이는 이유