Effiziente Fusion von 2D-Modalitäten in spärliche Voxel für die 3D-Rekonstruktion
Diese Forschung präsentiert eine effiziente Methode zur 3D-Rekonstruktion durch Fusion von Daten verschiedener 2D-Modalitäten (gerenderte Tiefe, Ergebnisse der semantischen Segmentierung und CLIP-Merkmale) in vortrainierte spärliche Voxel. Die Methode verwendet einen klassischen volumentmetrischen Fusionsansatz, wobei 2D-Ansichten gewichtet und gemittelt werden, um ein 3D-spärliches Voxelfeld zu erzeugen, das Tiefen-, semantische und sprachliche Informationen enthält. Beispiele werden gezeigt, die gerenderte Tiefe für den Netzrekonstruktion über SDF, Segformer für die semantische Segmentierung und RADIOv2.5 und LangSplat für die Extraktion visueller und sprachlicher Merkmale verwenden. Links zu Jupyter Notebooks werden zur Reproduzierbarkeit bereitgestellt.