Modelos de Visión-Lenguaje: Confianza Ciega, Errores Peligrosos
Los modelos de visión-lenguaje (VLMs) de última generación alcanzan una precisión del 100% en imágenes estándar (por ejemplo, contar las rayas de un logotipo de Adidas). Sin embargo, un nuevo estudio revela su fracaso catastrófico en imágenes sutilmente alteradas: la precisión se desploma hasta aproximadamente el 17%. En lugar de un análisis visual, los VLMs se basan en el conocimiento memorizado, mostrando un fuerte sesgo de confirmación. Esta falla representa riesgos significativos en aplicaciones de alto riesgo, como la imagen médica y los vehículos autónomos. La investigación destaca la necesidad urgente de modelos y métodos de evaluación más robustos que prioricen el razonamiento visual genuino en lugar de la coincidencia de patrones.
Leer más