SepLLM: 의미 없는 토큰 압축을 통한 LLM 추론 가속화
2025-03-06
대규모 언어 모델(LLM)은 방대한 계산 요구 사항으로 인해 상당한 어려움에 직면합니다. 연구원들은 특정 의미 없는 특수 토큰이 어텐션 점수에 불균형적으로 크게 기여한다는 사실을 발견했습니다. 이를 바탕으로, 이들은 SepLLM이라는 프레임워크를 제안했습니다. 이 프레임워크는 이러한 토큰 사이의 세그먼트를 압축하고 중복 토큰을 제거하여 추론을 가속화합니다. 실험 결과, SepLLM은 Llama-3-8B를 사용하여 GSM8K-CoT 벤치마크에서 KV 캐시를 50% 이상 줄였으며, 성능 저하는 무시할 수준이었습니다. 스트리밍 설정에서는 SepLLM이 최대 400만 토큰 이상의 언어 모델링을 효과적으로 처리합니다.
더 보기