阿里巴巴发布视觉推理模型QvQ:让AI拥有“慧眼”
2024-12-25

阿里巴巴近日发布了全新视觉推理模型QvQ-72B-Preview,该模型基于Apache 2.0许可证开源,旨在增强AI的视觉推理能力。QvQ是其推理扩展模型QwQ的视觉升级版本,能够处理图像并结合提示进行复杂的推理。博主Simon Willison对其进行了测试,发现QvQ在图像计数和物体识别方面表现出色,例如准确计数图片中的鹈鹕数量,但在更复杂的推理任务上仍存在不足。QvQ目前可在Hugging Face Spaces上体验,未来有望在本地运行,并支持更多平台。