Fusion efficace de modalités 2D dans des voxels clairsemés pour la reconstruction 3D
Cette recherche présente une méthode efficace de reconstruction 3D en fusionnant des données de diverses modalités 2D (profondeur rendue, résultats de segmentation sémantique et caractéristiques CLIP) dans des voxels clairsemés pré-entraînés. La méthode utilise une approche classique de fusion volumique, en pondérant et en moyennant les vues 2D pour générer un champ de voxels clairsemés 3D contenant des informations de profondeur, sémantiques et linguistiques. Des exemples sont montrés en utilisant la profondeur rendue pour la reconstruction de maillage via SDF, Segformer pour la segmentation sémantique et RADIOv2.5 et LangSplat pour l'extraction de caractéristiques visuelles et linguistiques. Des liens vers des Jupyter Notebook sont fournis pour la reproductibilité.