VGGT:画像からの超高速3Dシーン再構成
2025-03-25
Facebook Researchは、VGGT(Visual Geometry Grounded Transformer)を発表しました。これは、シーンの主要な3D属性(カメラの外部パラメータと内部パラメータ、点群、深度マップ、3D点軌跡)を、1枚、数枚、または数百枚のビューから数秒で直接推論できるフィードフォワードニューラルネットワークです。この使いやすいモデルは、Transformerの威力を利用しており、インタラクティブな3D視覚化ツールを提供します。驚くべきことに、VGGTは、このタスクのために明示的にトレーニングされていないにもかかわらず、最先端の単眼手法と比較して競争力のある結果を達成する、印象的な単眼再構成能力を示しています。
AI