SepLLM: 의미 없는 토큰 압축을 통한 LLM 추론 가속화

2025-03-06
SepLLM: 의미 없는 토큰 압축을 통한 LLM 추론 가속화

대규모 언어 모델(LLM)은 방대한 계산 요구 사항으로 인해 상당한 어려움에 직면합니다. 연구원들은 특정 의미 없는 특수 토큰이 어텐션 점수에 불균형적으로 크게 기여한다는 사실을 발견했습니다. 이를 바탕으로, 이들은 SepLLM이라는 프레임워크를 제안했습니다. 이 프레임워크는 이러한 토큰 사이의 세그먼트를 압축하고 중복 토큰을 제거하여 추론을 가속화합니다. 실험 결과, SepLLM은 Llama-3-8B를 사용하여 GSM8K-CoT 벤치마크에서 KV 캐시를 50% 이상 줄였으며, 성능 저하는 무시할 수준이었습니다. 스트리밍 설정에서는 SepLLM이 최대 400만 토큰 이상의 언어 모델링을 효과적으로 처리합니다.