Modèles Vision-Langage : Confiance Aveugle, Erreurs Dangereuses

2025-06-03

Les modèles vision-langage (VLMs) de pointe affichent une précision de 100 % sur les images standard (par exemple, compter les bandes d'un logo Adidas). Cependant, une nouvelle étude révèle leur échec catastrophique sur des images subtilement modifiées – la précision chute à environ 17 %. Au lieu d'une analyse visuelle, les VLMs s'appuient sur des connaissances mémorisées, montrant un biais de confirmation important. Ce défaut pose des risques importants dans les applications à enjeux élevés comme l'imagerie médicale et les véhicules autonomes. La recherche souligne le besoin urgent de modèles et de méthodes d'évaluation plus robustes qui privilégient un véritable raisonnement visuel plutôt que la reconnaissance de formes.