VGGT: إعادة بناء مشهد ثلاثي الأبعاد بسرعة البرق

2025-03-25
VGGT: إعادة بناء مشهد ثلاثي الأبعاد بسرعة البرق

يقدم Facebook Research نموذج VGGT (Visual Geometry Grounded Transformer) ، وهي شبكة عصبية تغذية أمامية قادرة على استنتاج جميع سمات المشهد ثلاثية الأبعاد الرئيسية - المعلمات الكاميرا الجوهرية والخارجية ، وخرائط النقاط ، وخرائط العمق ، وتتبع النقاط ثلاثية الأبعاد - من عرض واحد أو عدد قليل أو مئات العروض في ثوانٍ معدودة. هذا النموذج سهل الاستخدام ، والذي يستفيد من قوة المحولات ، يوفر أداة عرض ثلاثية الأبعاد تفاعلية. بشكل مدهش ، يُظهر VGGT قدرات رائعة لإعادة البناء من عرض واحد ، محققًا نتائج تنافسية مقارنةً بالطرق أحادية العين المتطورة ، على الرغم من أنه لم يتم تدريبه بشكل صريح لهذه المهمة.

الذكاء الاصطناعي محول