Qwen2.5-VL-32B: Ein 32 Milliarden Parameter großes visuelles Sprachmodell, das besser auf menschliche Präferenzen abgestimmt ist
2025-03-24
Nach dem großen Erfolg der Qwen2.5-VL-Modellreihe haben wir das neue, 32 Milliarden Parameter umfassende visuelle Sprachmodell Qwen2.5-VL-32B-Instruct als Open Source veröffentlicht. Dieses Modell zeigt signifikante Verbesserungen im mathematischen Denken, im feingranularen Bildverständnis und in der Ausrichtung auf menschliche Präferenzen. Benchmarks zeigen seine Überlegenheit gegenüber vergleichbaren Modellen in multimodalen Aufgaben (wie MMMU, MMMU-Pro und MathVista), wobei es sogar das größere 72 Milliarden Parameter umfassende Qwen2-VL-72B-Instruct übertrifft. Es erreicht auch Spitzenergebnisse bei reinen Textfähigkeiten in seiner Größenordnung.