Bild-Sprach-Modelle: Blinde Zuversicht, Gefährliche Fehler

2025-06-03

Moderne Bild-Sprach-Modelle (VLMs) erreichen eine Genauigkeit von 100 % bei Standardbildern (z. B. Zählen der Streifen auf einem Adidas-Logo). Eine neue Studie zeigt jedoch ihr katastrophales Versagen bei subtil veränderten Bildern – die Genauigkeit sinkt auf ca. 17 %. Anstatt visueller Analyse verlassen sich VLMs auf auswendig gelerntes Wissen und zeigen eine starke Bestätigungs-Verzerrung. Dieser Mangel stellt erhebliche Risiken in hochsensiblen Anwendungen wie medizinischer Bildgebung und autonomen Fahrzeugen dar. Die Forschung unterstreicht die dringende Notwendigkeit robusterer Modelle und Bewertungsmethoden, die echtes visuelles Denken über Mustererkennung priorisieren.