Fusión Eficiente de Modalidades 2D en Vóxeles Esparsos para Reconstrucción 3D
Esta investigación presenta un método eficiente de reconstrucción 3D fusionando datos de varias modalidades 2D (profundidad renderizada, resultados de segmentación semántica y características CLIP) en vóxeles dispersos preentrenados. El método utiliza un enfoque clásico de fusión volumétrica, ponderando y promediando las vistas 2D para generar un campo de vóxeles dispersos 3D que contiene información de profundidad, semántica e idioma. Se muestran ejemplos utilizando la profundidad renderizada para la reconstrucción de mallas mediante SDF, Segformer para la segmentación semántica y RADIOv2.5 y LangSplat para la extracción de características visuales y de lenguaje. Se proporcionan enlaces a Jupyter Notebook para la reproducibilidad.
Leer más