تدريب أقوى نموذج على جهاز MacBook Pro في 5 دقائق: تحدٍّ
2025-08-14
تحدّى الكاتب نفسه بتدريب أقوى نموذج لغوي ممكن على جهاز MacBook Pro في خمس دقائق فقط. وقد أسفرت التجارب عن محوّل Transformer على غرار GPT يتألف من حوالي 1.8 مليون معلمة، تم تدريبه على حوالي 20 مليون رمز من TinyStories، محققًا معدل ارتباك حوالي 9.6. ركزت عمليات التحسين على زيادة عدد الرموز في الثانية، مع تفضيل MPS وتجنب تراكم التدرجات. كان اختيار مجموعة البيانات أمرًا بالغ الأهمية، حيث برزت لغة TinyStories البسيطة والمتماسكة كخيار متفوق. تتفوّق نماذج Transformer على نماذج LSTMs ونماذج الانتشار. اتضح أن الحجم الأمثل للنموذج لفترة تدريب مدتها خمس دقائق هو حوالي مليوني معلمة، وهو ما يتوافق مع قوانين قياس Chinchilla.
الذكاء الاصطناعي