Webtagr - テクノロジーニュースダイジェスト

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

TorchFT：極端な故障率下での耐障害性LLMトレーニング

2025-06-27

研究者らは、TorchFTとTorchTitanを用いて、極端な合成故障率を持つ現実環境でモデルをトレーニングし、耐障害性トレーニングの信頼性と正確性を証明しました。1200回の故障とチェックポイントなしでも、トレーニング損失は安定していました。TorchFTは、グローバルな灯台サーバーとレプリカグループごとのマネージャーを使用してリアルタイム調整を行い、耐障害性HSDPやLocalSGD/DiLoCoなどの様々な耐障害性アルゴリズムを実装しています。実験結果は、極めて高い故障率下でもTorchFTがモデルを効果的にトレーニングできることを示しており、様々な故障シナリオへの強靭性を示しています。

(pytorch.org)

AI 耐障害性トレーニング