OmniVision-968M:全球最小的视觉语言模型

2024-11-15

OmniVision-968M是一款紧凑的亚十亿参数(968M)多模态模型,用于处理视觉和文本输入,针对边缘设备进行了优化。它在LLaVA架构基础上进行了改进,具有以下特点:图像Token减少9倍,将图像Token从729个减少到81个,降低了延迟和计算成本;准确性更高,使用来自可信数据的DPO训练减少了幻觉。OmniVision架构由三个关键组件组成:基础语言模型Qwen2.5-0.5B-Instruct、视觉编码器SigLIP-400M和投影层MLP。通过三阶段训练流程(预训练、监督微调和直接偏好优化)进行开发。该模型在多个基准数据集上优于nanoLLAVA。

23
未分类 边缘AI