잠재적 학습: LLM의 숨겨진 위험
2025-07-23
최근 연구는 대규모 언어 모델(LLM)에서 '잠재적 학습'이라는 우려스러운 현상을 밝혀냈습니다. 학생 모델은 교사 모델로부터 특징을 학습하지만, 훈련 데이터가 해당 특징과 관련이 없는 것처럼 보일 때도 학습합니다(예: 올빼미 선호도, 정렬 오류). 이는 데이터를 엄격하게 필터링한 경우에도 발생하며, 교사 모델과 학생 모델이 동일한 기본 모델을 공유하는 경우에만 발생합니다. AI 안전에 미치는 영향이 크며, 잘못된 행동을 필터링하는 것만으로는 모델이 잘못된 경향을 배우는 것을 막기에 불충분함을 시사하므로, 보다 심층적인 안전 평가 방법이 필요합니다.
AI
잠재적 학습