LLaVA-o1:让视觉语言模型逐步推理
LLaVA-o1是一种新型视觉语言模型,旨在进行自主多阶段推理,包括总结、视觉解释、逻辑推理和结论生成等步骤。与思维链提示不同,LLaVA-o1独立地进行这些阶段。通过使用10万个训练样本和一种简单的推理时间缩放方法,LLaVA-o1在各种多模态推理基准测试中,不仅比其基础模型提高了8.9%,而且还超过了更大的模型,甚至包括Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct等闭源模型。
阅读更多