DeepSeek-VL2:高度なマルチモーダル理解のための混合専門家ビジョン言語モデル

2025-01-01

DeepSeek-VL2は、その前身であるDeepSeek-VLを大幅に改良した、高度な大規模混合専門家(MoE)ビジョン言語モデルシリーズです。視覚的な質問応答、光学文字認識、ドキュメント/表/グラフの理解など、さまざまなタスクで優れた能力を発揮します。このシリーズは、DeepSeek-VL2-Tiny、DeepSeek-VL2-Small、DeepSeek-VL2の3つのバリアントで構成され、それぞれ10億、28億、45億のアクティブパラメータを持っています。DeepSeek-VL2は、既存のオープンソースの密なモデルやMoEベースのモデルと比較して、類似またはより少ないアクティブパラメータで、競争力のある、または最先端の性能を達成します。このプロジェクトはオープンソース化されており、モデルのダウンロード、クイックスタートガイド、デモ例を提供しています。