Webtagr - 科技资讯摘要

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

OmniVision-968M：全球最小的视觉语言模型

2024-11-15

OmniVision-968M是一款紧凑的亚十亿参数（968M）多模态模型，用于处理视觉和文本输入，针对边缘设备进行了优化。它在LLaVA架构基础上进行了改进，具有以下特点：图像Token减少9倍，将图像Token从729个减少到81个，降低了延迟和计算成本；准确性更高，使用来自可信数据的DPO训练减少了幻觉。OmniVision架构由三个关键组件组成：基础语言模型Qwen2.5-0.5B-Instruct、视觉编码器SigLIP-400M和投影层MLP。通过三阶段训练流程（预训练、监督微调和直接偏好优化）进行开发。该模型在多个基准数据集上优于nanoLLAVA。

(nexa.ai)

未分类边缘AI