Qwen2.5-VL-32B: Ein 32 Milliarden Parameter großes visuelles Sprachmodell, das besser auf menschliche Präferenzen abgestimmt ist

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

Qwen2.5-VL-32B: Ein 32 Milliarden Parameter großes visuelles Sprachmodell, das besser auf menschliche Präferenzen abgestimmt ist

2025-03-24

Nach dem großen Erfolg der Qwen2.5-VL-Modellreihe haben wir das neue, 32 Milliarden Parameter umfassende visuelle Sprachmodell Qwen2.5-VL-32B-Instruct als Open Source veröffentlicht. Dieses Modell zeigt signifikante Verbesserungen im mathematischen Denken, im feingranularen Bildverständnis und in der Ausrichtung auf menschliche Präferenzen. Benchmarks zeigen seine Überlegenheit gegenüber vergleichbaren Modellen in multimodalen Aufgaben (wie MMMU, MMMU-Pro und MathVista), wobei es sogar das größere 72 Milliarden Parameter umfassende Qwen2-VL-72B-Instruct übertrifft. Es erreicht auch Spitzenergebnisse bei reinen Textfähigkeiten in seiner Größenordnung.

(qwenlm.github.io)

KI visuelles Sprachmodell

Peano-Axiome: Ein eleganter Ansatz zur Definition natürlicher Zahlen

Pentagon streicht 280 Millionen Dollar teures KI-Projekt und priorisiert „tödliche“ KI