5分でMacBook Proで最強モデルを訓練する:挑戦

2025-08-14

著者は、MacBook Proでわずか5分間で可能な限り最強の言語モデルを訓練するという挑戦を行いました。実験の結果、約180万パラメーターのGPTスタイルのTransformerモデルが完成し、約2000万TinyStoriesトークンで訓練され、約9.6のperplexityを達成しました。最適化は、1秒あたりのトークン数を最大化することに重点が置かれ、MPSが使用され、勾配累積は避けられました。データセットの選択は非常に重要であり、TinyStoriesの簡潔で一貫性のある言語が優れていました。TransformerはLSTMや拡散モデルよりも優れた性能を示しました。5分間のトレーニングウィンドウにおける最適なモデルサイズは約200万パラメーターであり、これはChinchillaスケーリング則と一致しています。

AI