대규모 언어 모델, 훈련 데이터를 넘어서는 일반화에 실패하다

2025-08-12
대규모 언어 모델, 훈련 데이터를 넘어서는 일반화에 실패하다

연구자들은 대규모 언어 모델(LLM)이 훈련 데이터를 벗어난 작업 유형, 형식, 길이에서 얼마나 일반화할 수 있는지 테스트했습니다. 그 결과 작업이 훈련 데이터에서 멀어질수록 정확도가 극적으로 감소하는 것을 알게 되었습니다. 정답을 출력하더라도 모델은 종종 비논리적인 추론이나 답과 모순되는 추론을 보였습니다. 이는 LLM에서 사고 연쇄(CoT) 추론이 진정한 텍스트 이해를 반영하는 것이 아니라 훈련 중에 학습한 패턴의 복제임을 시사합니다. 다양한 길이의 입력이나 모델에게 생소한 기호를 포함한 입력에 대해서도 성능이 극적으로 저하되어 일반화 능력의 한계를 보여주었습니다.

AI