LLM이 긴 대화에서 치명적으로 실패하는 이유: 어텐션 싱크와 StreamingLLM

2025-08-09

연구원들은 대규모 언어 모델(LLM)이 긴 대화에서 치명적으로 실패하는 이유를 발견했습니다. 메모리를 절약하기 위해 이전 토큰을 제거하면 모델이 완전히 터무니없는 출력을 생성하기 때문입니다. 모델이 처음 몇 개의 토큰에 엄청난 어텐션을 집중시켜 "어텐션 싱크"로 사용한다는 것을 발견했습니다. 이것은 softmax 함수가 가중치의 합이 1이어야 하기 때문에 사용되지 않은 어텐션을 저장하는 곳입니다. 그들의 해결책인 StreamingLLM은 처음 4개의 토큰을 영구적으로 유지하면서 나머지 모든 것에 대해 창을 슬라이드하는 간단한 방법으로 수천 개가 아니라 400만 개 이상의 토큰을 안정적으로 처리할 수 있습니다. 이 메커니즘은 현재 HuggingFace, NVIDIA TensorRT-LLM 및 OpenAI의 최신 모델에 통합되어 있습니다. OpenAI의 오픈소스 모델도 유사한 어텐션 싱크 메커니즘을 사용하여 이 연구의 실질적인 영향을 보여줍니다.

AI