DeepSeek-VL2:混合专家视觉语言模型

2025-01-01

DeepSeek-VL2是一个先进的大型混合专家(MoE)视觉语言模型系列,它在各种多模态理解任务(如视觉问答、光学字符识别和文档/表格/图表理解)上取得了显著改进。该系列包含三个版本:DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2,分别具有10亿、28亿和45亿激活参数。DeepSeek-VL2在性能上与现有开源模型相当或更好,同时使用了类似或更少的激活参数。该项目已开源,并提供了模型下载、快速入门指南和演示示例。