تحدي قابلية التوسع في التعلم المعزز: هل يمكن لخوارزمية Q-learning التعامل مع الآفاق الطويلة؟
2025-06-15
في السنوات الأخيرة، حققت العديد من أهداف تعلم الآلة قابلية للتوسع، مثل توقع الرمز التالي، ونشر الضوضاء، والتعلم التبايني. ومع ذلك، فإن التعلم المعزز (RL)، ولا سيما RL خارج السياسة القائم على Q-learning، يواجه تحديات في التوسع في المشكلات المعقدة طويلة الأفق. تدعي هذه المقالة أن خوارزميات Q-learning الحالية تكافح مع المشكلات التي تتطلب أكثر من 100 خطوة قرار دلالية بسبب تراكم التحيزات في أهداف التنبؤ. تُظهر التجارب أنه حتى مع وجود بيانات وفيرة ومتغيرات مُتحكمة، فإن خوارزميات RL خارج السياسة القياسية لا تستطيع حل المهام المعقدة. ومع ذلك، فإن تقليل الأفق يحسن قابلية التوسع بشكل كبير، مما يشير إلى الحاجة إلى خوارزميات أفضل تعالج مشكلة الأفق مباشرةً، بدلاً من الاعتماد فقط على زيادة البيانات وقوة الحوسبة.
الذكاء الاصطناعي
قابلية التوسع