TorchFT: Entrenamiento de LLM tolerante a fallos con tasas de fallos extremas

2025-06-27

Los investigadores utilizaron TorchFT y TorchTitan para entrenar un modelo en un entorno real con tasas de fallos sintéticas extremas para demostrar la fiabilidad y la corrección del entrenamiento tolerante a fallos. Incluso con 1200 fallos y sin puntos de control, la pérdida de entrenamiento se mantuvo estable. TorchFT utiliza un servidor Lighthouse global y administradores por grupo de réplicas para la coordinación en tiempo real e implementa varios algoritmos tolerantes a fallos, como HSDP tolerante a fallos y LocalSGD/DiLoCo. Los resultados experimentales demuestran que, incluso con tasas de fallos extremadamente altas, TorchFT entrena el modelo de forma eficaz, mostrando su robustez en el manejo de varios escenarios de fallos.

Leer más