Prototype de Cartes Intérieures avec VLMs : Des Photos aux Positions

2025-07-07

En un week-end, l'auteur a créé un prototype de système de localisation intérieure en utilisant une seule photo et des modèles de vision-langage (VLMs) de pointe. En annotant un plan d'un centre commercial, en identifiant les magasins visibles sur la photo et en tirant parti des capacités de reconnaissance d'images du VLM, le système a réussi à faire correspondre l'emplacement de la photo au plan. Malgré une certaine ambiguïté, les résultats sont étonnamment précis, montrant le potentiel des VLMs pour la localisation intérieure. Cela ouvre des perspectives intéressantes pour les futures applications de réalité augmentée (RA) et la robotique, tout en soulignant les préoccupations environnementales potentielles.