반복적인 데이터 큐레이션을 통한 LLM 파인튜닝 개선
2025-08-08

연구자들은 반복적인 데이터 큐레이션을 통해 대규모 언어 모델(LLM)의 성능을 크게 향상시켰습니다. 실험에는 크기가 다른 두 개의 LLM(Gemini Nano-1과 Nano-2)과 복잡도가 다른 작업이 사용되었으며, 약 10만 개의 크라우드소싱 주석이 사용되었지만, 초기에는 심각한 클래스 불균형(95%가 양성)으로 어려움을 겪었습니다. 전문가의 반복적인 큐레이션과 모델 파인튜닝을 통해 성능이 크게 향상되었습니다. 모델은 약 40%의 긍정적인 예시에 도달했으며, 코헨의 카파 계수는 약 0.81(낮은 복잡도)과 약 0.78(높은 복잡도)에 이르러 전문가 수준의 성능에 가까워졌습니다. 이는 LLM 교육에서 고품질 데이터의 중요한 역할을 강조합니다.
AI
데이터 큐레이션