視覚言語モデル:盲信と危険な誤り

2025-06-03

最先端の視覚言語モデル(VLM)は、標準的な画像(例:アディダスロゴのストライプの数え上げ)において100%の精度を誇ります。しかし、新たな研究は、わずかに変更された画像に対する壊滅的な失敗を明らかにしました。精度は約17%に低下します。視覚分析ではなく、VLMは記憶された知識に依存し、強い確認バイアスを示しています。この欠陥は、医療画像や自動運転車などのハイリスクアプリケーションにおいて大きなリスクをもたらします。この研究は、パターンマッチングよりも真の視覚推論を優先する、より堅牢なモデルと評価方法の緊急の必要性を強調しています。

続きを読む
AI