VGGT : Reconstruction de scène 3D en quelques secondes

2025-03-25
VGGT : Reconstruction de scène 3D en quelques secondes

Facebook Research présente VGGT (Visual Geometry Grounded Transformer), un réseau neuronal feed-forward capable d'inférer tous les attributs 3D clés d'une scène — paramètres intrinsèques et extrinsèques de la caméra, cartes de points, cartes de profondeur et suivi de points 3D — à partir d'une, quelques ou centaines de vues en quelques secondes. Ce modèle convivial, tirant parti de la puissance des transformateurs, offre un outil de visualisation 3D interactif. Étonnamment, VGGT montre des capacités impressionnantes de reconstruction à partir d'une seule vue, obtenant des résultats compétitifs par rapport aux méthodes monoculaires de pointe, bien qu'il n'ait jamais été explicitement entraîné pour cette tâche.

IA