بناء نموذج لغة كبير من الصفر: غوص عميق في تقنية دروب أوت

2025-03-20
بناء نموذج لغة كبير من الصفر: غوص عميق في تقنية دروب أوت

تسجل هذه المشاركة رحلة الكاتب خلال فصل دروب أوت في كتاب سيباستيان راشكا "بناء نموذج لغة كبير من الصفر". دروب أوت تقنية تنظيمية تمنع فرط التجهيز عن طريق تجاهل بعض الخلايا العصبية أو الأوزان بشكل عشوائي أثناء التدريب، مما ينشر المعرفة على نطاق أوسع في النموذج. يفصل الكاتب طريقة تنفيذ دروب أوت، ويستكشف الفروق الدقيقة في تطبيقها في نماذج اللغات الكبيرة، مثل تطبيق دروب أوت على أوزان الانتباه أو متجهات القيم، وإعادة موازنة المصفوفة الناتجة. تتطرق المشاركة أيضًا إلى خيارات معدل دروب أوت العملية، وتحديات التعامل مع مُوَحِّدات من الرتبة الأعلى لمعالجة الدُفعات، مما يُمهد الطريق لمزيد من التعلم.

التطوير دروب أوت