5분 만에 MacBook Pro로 최강 모델 훈련하기: 도전
2025-08-14
저자는 MacBook Pro에서 단 5분 만에 가능한 가장 강력한 언어 모델을 훈련하는 데 도전했습니다. 실험 결과, 약 180만 파라미터의 GPT 스타일 Transformer 모델이 완성되었고, 약 2천만 TinyStories 토큰으로 훈련되어 약 9.6의 perplexity를 달성했습니다. 최적화는 초당 토큰 수를 극대화하는 데 중점을 두었으며, MPS를 사용하고 기울기 누적을 피했습니다. 데이터셋 선택은 매우 중요했으며, TinyStories의 간결하고 일관된 언어가 탁월했습니다. Transformer는 LSTM 및 확산 모델보다 성능이 뛰어났습니다. 5분 훈련 창에서 최적의 모델 크기는 약 200만 파라미터였으며, 이는 Chinchilla 스케일링 법칙과 일치합니다.
AI