Qwen2.5-VL-32B:人間の好みにより適応した320億パラメーターの視覚言語モデル

2025-03-24
Qwen2.5-VL-32B:人間の好みにより適応した320億パラメーターの視覚言語モデル

Qwen2.5-VLシリーズモデルの好評を受け、新たに320億パラメーターの視覚言語モデルQwen2.5-VL-32B-Instructをオープンソースで公開しました。このモデルは、数学的推論、精緻な画像理解、人間の好みへの適合性において大幅な改善が見られます。ベンチマークテストでは、MMMU、MMMU-Pro、MathVistaなどのマルチモーダルタスクにおいて同規模のモデルを凌駕し、720億パラメーターのQwen2-VL-72B-Instructをも上回っています。テキスト理解能力においても、同規模のモデルでトップレベルの性能を達成しています。

AI