DeepSeek-VL2: 고급 다중 모드 이해를 위한 전문가 혼합 비전 언어 모델

2025-01-01

DeepSeek-VL2는 이전 버전인 DeepSeek-VL을 크게 개선한 고급 대규모 전문가 혼합(MoE) 비전 언어 모델 시리즈입니다. 시각적 질문 응답, 광학 문자 인식, 문서/표/차트 이해 등 다양한 작업에서 뛰어난 성능을 보입니다. 이 시리즈는 DeepSeek-VL2-Tiny, DeepSeek-VL2-Small, DeepSeek-VL2의 세 가지 변형으로 구성되며 각각 10억, 28억, 45억 개의 활성화 매개변수를 갖습니다. DeepSeek-VL2는 기존의 오픈소스 밀집 모델이나 MoE 기반 모델과 비교하여 유사하거나 더 적은 활성화 매개변수로 경쟁력 있거나 최첨단 성능을 달성합니다. 이 프로젝트는 오픈소스로 제공되며 모델 다운로드, 빠른 시작 안내 및 데모 예제를 제공합니다.