VGGT: Reconstrucción de Escena 3D en Segundos
Facebook Research presenta VGGT (Visual Geometry Grounded Transformer), una red neuronal de alimentación directa capaz de inferir todos los atributos 3D clave de una escena —parámetros intrínsecos y extrínsecos de la cámara, mapas de puntos, mapas de profundidad y seguimiento de puntos 3D— a partir de una, unas pocas o cientos de vistas en cuestión de segundos. Este modelo fácil de usar, que aprovecha el poder de los transformadores, ofrece una herramienta de visualización 3D interactiva. Sorprendentemente, VGGT muestra capacidades impresionantes de reconstrucción de vista única, logrando resultados competitivos en comparación con los métodos monoculares de vanguardia, a pesar de no haber sido entrenado explícitamente para esta tarea.