Webtagr - テクノロジーニュースダイジェスト

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

視覚言語モデル：盲信と危険な誤り

2025-06-03

最先端の視覚言語モデル（VLM）は、標準的な画像（例：アディダスロゴのストライプの数え上げ）において100％の精度を誇ります。しかし、新たな研究は、わずかに変更された画像に対する壊滅的な失敗を明らかにしました。精度は約17％に低下します。視覚分析ではなく、VLMは記憶された知識に依存し、強い確認バイアスを示しています。この欠陥は、医療画像や自動運転車などのハイリスクアプリケーションにおいて大きなリスクをもたらします。この研究は、パターンマッチングよりも真の視覚推論を優先する、より堅牢なモデルと評価方法の緊急の必要性を強調しています。

(vlmsarebiased.github.io)