لحظة GPT-3 لتعلم التعزيز: صعود تدريب النسخ
2025-07-13

تتوقع هذه المقالة لحظة GPT-3 قادمة لتعلم التعزيز (RL) ، والتي تتضمن تدريبًا واسع النطاق عبر آلاف البيئات المتنوعة لتحقيق قدرات قوية قليلة اللقطات وغير مرتبطة بالمهام. يتطلب هذا مقياسًا وتنوعًا غير مسبوقين في بيئات التدريب ، والتي قد تعادل عشرات الآلاف من سنوات "وقت المهمة الموجهة للنموذج". يقترح المؤلفون نموذجًا جديدًا ، "تدريب النسخ" ، حيث تقوم أنظمة الذكاء الاصطناعي بنسخ منتجات البرامج أو الميزات الموجودة لإنشاء مهام تدريب واسعة النطاق وقابلة للتقييم تلقائيًا. على الرغم من وجود تحديات ، فإن هذا النهج يوفر مسارًا واضحًا لتوسيع نطاق RL ، مما قد يسمح لأنظمة الذكاء الاصطناعي بإكمال مشاريع البرامج الكاملة بشكل مستقل.
الذكاء الاصطناعي
تدريب النسخ