TorchFT: تدريب نماذج اللغات الكبيرة المقاوم للأعطال بمعدلات أعطال عالية
2025-06-27
استخدم الباحثون TorchFT وTorchTitan لتدريب نموذج في بيئة حقيقية بمعدلات أعطال اصطناعية عالية جدًا لإثبات موثوقية وصحة التدريب المقاوم للأعطال. حتى مع وجود 1200 عطل وبدون نقاط تفتيش، ظلت خسارة التدريب مستقرة. يستخدم TorchFT خادم منارة عالميًا ومديرين لكل مجموعة نسخ متماثلة للتنسيق في الوقت الفعلي، ويوفر العديد من خوارزميات مقاومة الأعطال مثل HSDP المقاوم للأعطال وLocalSGD/DiLoCo. تُظهر نتائج التجارب أنه حتى مع معدلات الأعطال المرتفعة للغاية، فإن TorchFT يدرب النموذج بكفاءة، مما يبرز قوته في التعامل مع سيناريوهات الأعطال المختلفة.
الذكاء الاصطناعي
التدريب المقاوم للأعطال