VGGT: 초고속 3D 장면 재구성

2025-03-25

페이스북 리서치는 VGGT(Visual Geometry Grounded Transformer)를 발표했습니다. 이는 장면의 주요 3D 속성(카메라의 외적 및 내적 매개변수, 점 맵, 깊이 맵, 3D 점 추적)을 1개, 몇 개 또는 수백 개의 뷰에서 단 몇 초 만에 직접 추론할 수 있는 피드포워드 뉴럴 네트워크입니다. 사용자 친화적인 이 모델은 Transformer의 강력한 기능을 활용하며, 대화형 3D 시각화 도구를 제공합니다. 놀랍게도 VGGT는 이 작업을 위해 명시적으로 훈련되지 않았음에도 불구하고, 최첨단 단안 방법과 비교하여 경쟁력 있는 결과를 달성하는 인상적인 단안 재구성 성능을 보여줍니다.

(github.com)

Polypane: 한 곳에서 웹사이트 구축, 디버깅, 테스트

AI 낙관주의의 허상: 케이시 뉴턴과 케빈 루스 비판