VGGT: Blitzschnelle 3D-Szenerie-Rekonstruktion

2025-03-25
VGGT: Blitzschnelle 3D-Szenerie-Rekonstruktion

Facebook Research stellt VGGT (Visual Geometry Grounded Transformer) vor, ein Feed-Forward-neuronales Netzwerk, das alle wichtigen 3D-Attribute einer Szene – extrinsische und intrinsische Kameraparameter, Punktkarten, Tiefenkarten und 3D-Punktverläufe – in Sekundenschnelle aus einer, wenigen oder hunderten von Ansichten ableitet. Dieses benutzerfreundliche Modell nutzt die Leistungsfähigkeit von Transformatoren und bietet ein interaktives 3D-Visualisierungstool. Überraschenderweise zeigt VGGT beeindruckende Fähigkeiten bei der Rekonstruktion aus Einzelansichten und erzielt wettbewerbsfähige Ergebnisse im Vergleich zu modernsten monokularen Methoden, obwohl es nie explizit für diese Aufgabe trainiert wurde.

KI