TorchFT: 극한의 장애율 하에서의 내결함성 LLM 학습
2025-06-27
연구원들은 TorchFT와 TorchTitan을 사용하여 극한의 합성 장애율을 가진 실제 환경에서 모델을 학습시켜 내결함성 학습의 신뢰성과 정확성을 증명했습니다. 1200번의 장애와 체크포인트 없이도 학습 손실은 안정적이었습니다. TorchFT는 글로벌 등대 서버와 복제 그룹별 관리자를 사용하여 실시간 조정을 수행하고 내결함성 HSDP 및 LocalSGD/DiLoCo와 같은 다양한 내결함성 알고리즘을 구현합니다. 실험 결과는 매우 높은 장애율 하에서도 TorchFT가 모델을 효과적으로 학습시킬 수 있음을 보여주며, 다양한 장애 시나리오에 대한 강력함을 보여줍니다.
더 보기
AI
내결함성 학습