RT-2: نقل معرفة الويب إلى التحكم في الروبوتات من خلال نماذج الرؤية واللغة والعمل

2025-01-01

طور باحثون في جوجل ديب مايند نموذج RT-2، وهو نموذج يستخدم بيانات الرؤية واللغة على نطاق الإنترنت للتحكم في الروبوتات. من خلال تمثيل إجراءات الروبوت كرموز نصية، وإعادة ضبط نماذج الرؤية واللغة المتطورة مع بيانات مسار الروبوت ومهام الرؤية واللغة على نطاق الإنترنت، حقق RT-2 تعميمًا ملحوظًا. فهو يفهم الأوامر المعقدة، ويجري استنتاجًا دلاليًا متعدد المراحل، ويستخدم حتى أدوات مرتجلة، مثل استخدام صخرة ك مطرقة. تُظهر هذه الأبحاث الإمكانات الهائلة لدمج قدرات نماذج اللغة الكبيرة مع التحكم في الروبوتات، مما يُشكل قفزة كبيرة إلى الأمام في مجال الروبوتات.

الذكاء الاصطناعي نموذج الرؤية واللغة