AI 스케일링 법칙: 사전 훈련을 넘어 새로운 패러다임 등장
2024-12-12
이 글은 AI 스케일링 법칙의 진화를 탐구하며, 그것이 사전 훈련을 넘어선다는 점을 주장합니다. OpenAI의 o1 모델은 추론 모델의 유용성과 잠재력을 보여주며, 스케일링을 위한 새로운 미개척 영역을 열었습니다. 이 글에서는 합성 데이터, 근접 정책 최적화(PPO), 강화 학습 등의 기법이 모델 성능 향상에 어떻게 기여하는지 자세히 설명합니다. Anthropic의 Claude 3.5 Opus와 OpenAI의 Orion은 실패가 아니라 스케일링 전략의 변화였음을 명확히 합니다. 저자들은 스케일링이 단순히 데이터와 매개변수 증가를 넘어, 추론 시간 계산, 더욱 어려운 평가, 훈련 및 추론 아키텍처의 혁신을 포함한다고 강조합니다.