시각 언어 모델: 맹신과 위험한 오류

2025-06-03

최첨단 시각 언어 모델(VLM)은 표준 이미지(예: 아디다스 로고의 줄무늬 개수 세기)에서 100%의 정확도를 자랑합니다. 그러나 새로운 연구는 미묘하게 변경된 이미지에 대한 치명적인 실패를 보여줍니다. 정확도는 약 17%로 떨어집니다. 시각 분석 대신 VLM은 기억된 지식에 의존하며 강한 확인 편향을 나타냅니다. 이러한 결함은 의료 이미징과 자율 주행 자동차와 같은 고위험 응용 프로그램에서 큰 위험을 초래합니다. 이 연구는 패턴 매칭보다 진정한 시각적 추론을 우선시하는 더욱 강력한 모델과 평가 방법의 시급한 필요성을 강조합니다.

(vlmsarebiased.github.io)

T-Mobile, 광섬유 인터넷 서비스 50만 가구 이상으로 확장

Apple의 암호 모니터링 서비스: Swift를 통한 40% 성능 향상