TorchFT: Entrenamiento de LLM tolerante a fallos con tasas de fallos extremas

2025-06-27

Los investigadores utilizaron TorchFT y TorchTitan para entrenar un modelo en un entorno real con tasas de fallos sintéticas extremas para demostrar la fiabilidad y la corrección del entrenamiento tolerante a fallos. Incluso con 1200 fallos y sin puntos de control, la pérdida de entrenamiento se mantuvo estable. TorchFT utiliza un servidor Lighthouse global y administradores por grupo de réplicas para la coordinación en tiempo real e implementa varios algoritmos tolerantes a fallos, como HSDP tolerante a fallos y LocalSGD/DiLoCo. Los resultados experimentales demuestran que, incluso con tasas de fallos extremadamente altas, TorchFT entrena el modelo de forma eficaz, mostrando su robustez en el manejo de varios escenarios de fallos.