DeepSeek-VL2: Mixture-of-Experts-Vision-Sprachmodelle für verbessertes multimodales Verständnis

2025-01-01

DeepSeek-VL2 ist eine fortschrittliche Reihe großer Mixture-of-Experts (MoE) Vision-Sprachmodelle, die ihren Vorgänger deutlich verbessert. Es zeichnet sich in verschiedenen Aufgaben aus, darunter visuelle Fragenbeantwortung, optische Zeichenerkennung und das Verständnis von Dokumenten/Tabellen/Diagrammen. Die Reihe umfasst drei Varianten: DeepSeek-VL2-Tiny, DeepSeek-VL2-Small und DeepSeek-VL2 mit jeweils 1,0 Mrd., 2,8 Mrd. und 4,5 Mrd. aktivierten Parametern. DeepSeek-VL2 erreicht eine wettbewerbsfähige oder sogar state-of-the-art Leistung mit ähnlichen oder weniger aktivierten Parametern im Vergleich zu bestehenden Open-Source-Modellen. Das Projekt ist Open Source und bietet Modelldownloads, Schnellstartanleitungen und Demobeispiele.