TorchFT: Treinamento de LLM Tolerante a Falhas com Taxas de Falha Extremas
Pesquisadores usaram TorchFT e TorchTitan para treinar um modelo em um ambiente real com taxas de falha sintéticas extremas para provar a confiabilidade e a correção do treinamento tolerante a falhas. Mesmo com 1200 falhas e sem checkpoints, a perda de treinamento permaneceu estável. O TorchFT usa um servidor Lighthouse global e gerentes por grupo de réplicas para coordenação em tempo real e implementa vários algoritmos tolerantes a falhas, como HSDP tolerante a falhas e LocalSGD/DiLoCo. Os resultados experimentais demonstram que, mesmo sob taxas de falha extremamente altas, o TorchFT treina o modelo de forma eficaz, mostrando sua robustez no tratamento de vários cenários de falha.