لحظة GPT-3 لتعلم التعزيز: صعود تدريب النسخ

العلامات الشائعة：

الافتراضية أمان DNS التحقق الرسمي تحليل قابلية الوصول أخطاء المترجم تضارب الماكرو امتدادات الويب إطار عمل تطوير كومودور 64 بياسيك 2.0 جميع العلامات

2025-07-13

تتوقع هذه المقالة لحظة GPT-3 قادمة لتعلم التعزيز (RL) ، والتي تتضمن تدريبًا واسع النطاق عبر آلاف البيئات المتنوعة لتحقيق قدرات قوية قليلة اللقطات وغير مرتبطة بالمهام. يتطلب هذا مقياسًا وتنوعًا غير مسبوقين في بيئات التدريب ، والتي قد تعادل عشرات الآلاف من سنوات "وقت المهمة الموجهة للنموذج". يقترح المؤلفون نموذجًا جديدًا ، "تدريب النسخ" ، حيث تقوم أنظمة الذكاء الاصطناعي بنسخ منتجات البرامج أو الميزات الموجودة لإنشاء مهام تدريب واسعة النطاق وقابلة للتقييم تلقائيًا. على الرغم من وجود تحديات ، فإن هذا النهج يوفر مسارًا واضحًا لتوسيع نطاق RL ، مما قد يسمح لأنظمة الذكاء الاصطناعي بإكمال مشاريع البرامج الكاملة بشكل مستقل.

الذكاء الاصطناعي تدريب النسخ