LLM이 긴 대화에서 치명적으로 실패하는 이유: 어텐션 싱크와 StreamingLLM

2025-08-09

연구원들은 대규모 언어 모델(LLM)이 긴 대화에서 치명적으로 실패하는 이유를 발견했습니다. 메모리를 절약하기 위해 이전 토큰을 제거하면 모델이 완전히 터무니없는 출력을 생성하기 때문입니다. 모델이 처음 몇 개의 토큰에 엄청난 어텐션을 집중시켜 "어텐션 싱크"로 사용한다는 것을 발견했습니다. 이것은 softmax 함수가 가중치의 합이 1이어야 하기 때문에 사용되지 않은 어텐션을 저장하는 곳입니다. 그들의 해결책인 StreamingLLM은 처음 4개의 토큰을 영구적으로 유지하면서 나머지 모든 것에 대해 창을 슬라이드하는 간단한 방법으로 수천 개가 아니라 400만 개 이상의 토큰을 안정적으로 처리할 수 있습니다. 이 메커니즘은 현재 HuggingFace, NVIDIA TensorRT-LLM 및 OpenAI의 최신 모델에 통합되어 있습니다. OpenAI의 오픈소스 모델도 유사한 어텐션 싱크 메커니즘을 사용하여 이 연구의 실질적인 영향을 보여줍니다.

더 보기
AI

SVDQuant: NVFP4를 사용한 Blackwell GPU에서 3배 속도 향상

2025-02-22

MIT 연구원들이 SVDQuant를 개발했습니다. 이는 저랭크 브랜치를 활용하여 이상치를 흡수하는 새로운 4비트 양자화 패러다임으로, NVIDIA Blackwell GPU 아키텍처에서 괄목할 만한 성능 향상을 달성합니다. NVFP4 형식을 사용하여 SVDQuant는 INT4보다 더 나은 이미지 품질을 제공하며, BF16에 비해 3배 빠른 속도를 제공합니다. 메모리 사용량은 3.5배 감소합니다. 이 연구 결과는 오픈소스로 공개되었으며, 인터랙티브 데모도 제공됩니다.

더 보기