بناء نماذج أولية للخرائط الداخلية باستخدام نماذج اللغة والرؤية: من الصور إلى المواقع
2025-07-07
في عطلة نهاية أسبوع، قام الكاتب ببناء نموذج أولي لنظام تحديد المواقع الداخلي باستخدام صورة واحدة فقط ونماذج متقدمة للغة والرؤية (VLMs). من خلال تدوين خريطة مركز تسوق، وتحديد المتاجر المرئية في الصورة، واستخدام قدرات التعرف على الصور في VLM، نجح النظام في مطابقة موقع الصورة مع الخريطة. على الرغم من وجود بعض الغموض، إلا أن النتائج دقيقة بشكل مدهش، مما يظهر إمكانات VLMs في تحديد المواقع الداخلية. هذا يفتح آفاقًا مثيرة للتطبيقات المستقبلية للواقع المعزز (AR) والروبوتات، مع تسليط الضوء أيضًا على المخاوف البيئية المحتملة.