TorchFT:極端な故障率下での耐障害性LLMトレーニング
2025-06-27
研究者らは、TorchFTとTorchTitanを用いて、極端な合成故障率を持つ現実環境でモデルをトレーニングし、耐障害性トレーニングの信頼性と正確性を証明しました。1200回の故障とチェックポイントなしでも、トレーニング損失は安定していました。TorchFTは、グローバルな灯台サーバーとレプリカグループごとのマネージャーを使用してリアルタイム調整を行い、耐障害性HSDPやLocalSGD/DiLoCoなどの様々な耐障害性アルゴリズムを実装しています。実験結果は、極めて高い故障率下でもTorchFTがモデルを効果的にトレーニングできることを示しており、様々な故障シナリオへの強靭性を示しています。
続きを読む
AI
耐障害性トレーニング