Webtagr - Resumen de noticias de tecnología

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

TorchFT: Entrenamiento de LLM tolerante a fallos con tasas de fallos extremas

2025-06-27

Los investigadores utilizaron TorchFT y TorchTitan para entrenar un modelo en un entorno real con tasas de fallos sintéticas extremas para demostrar la fiabilidad y la corrección del entrenamiento tolerante a fallos. Incluso con 1200 fallos y sin puntos de control, la pérdida de entrenamiento se mantuvo estable. TorchFT utiliza un servidor Lighthouse global y administradores por grupo de réplicas para la coordinación en tiempo real e implementa varios algoritmos tolerantes a fallos, como HSDP tolerante a fallos y LocalSGD/DiLoCo. Los resultados experimentales demuestran que, incluso con tasas de fallos extremadamente altas, TorchFT entrena el modelo de forma eficaz, mostrando su robustez en el manejo de varios escenarios de fallos.

(pytorch.org)

IA entrenamiento tolerante a fallos