VGGT: Reconstrução de Cena 3D em Segundos
2025-03-25
O Facebook Research apresenta o VGGT (Visual Geometry Grounded Transformer), uma rede neural feed-forward que consegue inferir todos os atributos 3D-chave de uma cena — parâmetros intrínsecos e extrínsecos da câmera, mapas de pontos, mapas de profundidade e rastreamento de pontos 3D — de uma, poucas ou centenas de vistas em meros segundos. Este modelo fácil de usar, que utiliza o poder dos Transformadores, oferece uma ferramenta de visualização 3D interativa. Surpreendentemente, o VGGT demonstra capacidades impressionantes de reconstrução de visão única, obtendo resultados competitivos em comparação com métodos monoculares de última geração, apesar de não ter sido explicitamente treinado para esta tarefa.
IA