LLM의 우아한 실패: 긴 컨텍스트에서의 성능은 간단한 작업에서도 저하됨
2025-07-15

본 연구는 대규모 언어 모델(LLM)이 긴 컨텍스트 작업에서 균일하게 우수한 성능을 발휘한다는 일반적인 가정에 도전합니다. '건초더미 속 바늘 찾기' 벤치마크를 확장하고 의미적 매칭과 방해 요소와 같은 변수를 도입하여 연구원들은 단순화된 조건에서도 입력 길이가 증가함에 따라 모델 성능이 저하됨을 발견했습니다. 이는 대화형 질의응답과 반복되는 단어 복제 작업에서 확인되었으며, LLM의 긴 컨텍스트 기능의 한계를 보여주고 실제 응용 프로그램에서의 잠재적 과제를 시사합니다.
AI
긴 컨텍스트