Bild-Sprach-Modelle: Blinde Zuversicht, Gefährliche Fehler

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

Bild-Sprach-Modelle: Blinde Zuversicht, Gefährliche Fehler

2025-06-03

Moderne Bild-Sprach-Modelle (VLMs) erreichen eine Genauigkeit von 100 % bei Standardbildern (z. B. Zählen der Streifen auf einem Adidas-Logo). Eine neue Studie zeigt jedoch ihr katastrophales Versagen bei subtil veränderten Bildern – die Genauigkeit sinkt auf ca. 17 %. Anstatt visueller Analyse verlassen sich VLMs auf auswendig gelerntes Wissen und zeigen eine starke Bestätigungs-Verzerrung. Dieser Mangel stellt erhebliche Risiken in hochsensiblen Anwendungen wie medizinischer Bildgebung und autonomen Fahrzeugen dar. Die Forschung unterstreicht die dringende Notwendigkeit robusterer Modelle und Bewertungsmethoden, die echtes visuelles Denken über Mustererkennung priorisieren.

(vlmsarebiased.github.io)

KI Bild-Sprach-Modelle

T-Mobile expandiert Glasfaser-Internet auf über 500.000 Haushalte

Apples Passwortüberwachungsservice: 40% Performance-Steigerung mit Swift