DeepSeek-VL2: Mixture-of-Experts-Vision-Sprachmodelle für verbessertes multimodales Verständnis

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

DeepSeek-VL2: Mixture-of-Experts-Vision-Sprachmodelle für verbessertes multimodales Verständnis

2025-01-01

DeepSeek-VL2 ist eine fortschrittliche Reihe großer Mixture-of-Experts (MoE) Vision-Sprachmodelle, die ihren Vorgänger deutlich verbessert. Es zeichnet sich in verschiedenen Aufgaben aus, darunter visuelle Fragenbeantwortung, optische Zeichenerkennung und das Verständnis von Dokumenten/Tabellen/Diagrammen. Die Reihe umfasst drei Varianten: DeepSeek-VL2-Tiny, DeepSeek-VL2-Small und DeepSeek-VL2 mit jeweils 1,0 Mrd., 2,8 Mrd. und 4,5 Mrd. aktivierten Parametern. DeepSeek-VL2 erreicht eine wettbewerbsfähige oder sogar state-of-the-art Leistung mit ähnlichen oder weniger aktivierten Parametern im Vergleich zu bestehenden Open-Source-Modellen. Das Projekt ist Open Source und bietet Modelldownloads, Schnellstartanleitungen und Demobeispiele.

(github.com)

KI Vision-Sprachmodell Multimodales Verständnis

Warum ich neue Laptops gegen einen ThinkPad von 2006 eingetauscht habe

Software-Design ist Wissensaufbau: Eine Fallstudie