Prototipado de Mapas Interiores con VLMs: De Fotos a Posiciones

2025-07-07

En un fin de semana, el autor prototipó un sistema de localización interior usando una sola foto y modelos avanzados de visión-lenguaje (VLMs). Al anotar un mapa de un centro comercial, identificar tiendas visibles en la foto y aprovechar la capacidad de reconocimiento de imágenes del VLM, el sistema logró hacer coincidir la ubicación de la foto con el mapa. A pesar de cierta ambigüedad, los resultados son sorprendentemente precisos, mostrando el potencial de los VLMs para la localización interior. Esto abre interesantes vías para futuras aplicaciones de realidad aumentada (AR) y robótica, al tiempo que destaca posibles preocupaciones ambientales.