5分でMacBook Proで最強モデルを訓練する：挑戦

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

2025-08-14

著者は、MacBook Proでわずか5分間で可能な限り最強の言語モデルを訓練するという挑戦を行いました。実験の結果、約180万パラメーターのGPTスタイルのTransformerモデルが完成し、約2000万TinyStoriesトークンで訓練され、約9.6のperplexityを達成しました。最適化は、1秒あたりのトークン数を最大化することに重点が置かれ、MPSが使用され、勾配累積は避けられました。データセットの選択は非常に重要であり、TinyStoriesの簡潔で一貫性のある言語が優れていました。TransformerはLSTMや拡散モデルよりも優れた性能を示しました。5分間のトレーニングウィンドウにおける最適なモデルサイズは約200万パラメーターであり、これはChinchillaスケーリング則と一致しています。