Qwen-Image:200億パラメーターの画像基盤モデルが登場

2025-08-05
Qwen-Image:200億パラメーターの画像基盤モデルが登場

アリババDAMOアカデミーが、200億パラメーターの画像基盤モデル「Qwen-Image」を発表しました。このモデルは、複雑なテキストレンダリングと高精度な画像編集において大幅な進歩を遂げています。英語や中国語など複数の言語で高忠実度のテキストレンダリングをサポートし、編集時の意味と視覚的なリアリズムを維持します。複数の公開ベンチマークで既存モデルを凌駕し、画像生成と編集における強力な能力を示しました。デモでは、複雑な中国語の書体やレイアウトを持つ画像の生成、詳細なPPTスライドの作成、さらにはバイリンガルのテキストレンダリングなど、その強力なテキスト処理能力と画像生成能力が示されています。

続きを読む
AI

アリババ、4800億パラメーターのコードモデルQwen3-Coderをオープンソース化

2025-07-23
アリババ、4800億パラメーターのコードモデルQwen3-Coderをオープンソース化

アリババは、4800億パラメーターを持つ強力なコードモデルQwen3-Coderを発表しました。これは、高度なコーディングタスクにおいて最先端の結果を達成しています。256Kトークン(最大1Mトークンまで拡張可能)のネイティブコンテキスト長をサポートし、コーディングとインテリジェントタスクに優れています。モデルに加えて、シームレスな統合を目的としたコマンドラインツールQwen Codeもオープンソース化されました。大規模強化学習の広範な使用により、コード実行の成功率と複雑な問題解決能力が大幅に向上しました。

続きを読む

Qwen VLo:画像を理解し、創造する統合型マルチモーダルモデル

2025-06-28
Qwen VLo:画像を理解し、創造する統合型マルチモーダルモデル

アリババDAMOアカデミーは、画像の内容を理解するだけでなく、その理解に基づいて高品質な画像を生成する新しいマルチモーダルモデル、Qwen VLoを発表しました。漸進的な生成方法を採用し、左から右へ、上から下へと段階的に画像を構築することで、最終結果の一貫性と調和性を確保しています。Qwen VLoは多言語の指示をサポートし、画像編集やスタイル転送などの複雑なタスクを処理し、生成した画像の内容を理解することもできます。現在プレビュー段階ですが、その強力なマルチモーダル機能は、画像生成におけるAIの可能性を示しています。

続きを読む
AI

Qwen3:切り替え可能な思考モードを持つ多言語大規模言語モデル

2025-04-28
Qwen3:切り替え可能な思考モードを持つ多言語大規模言語モデル

アリババDAMOアカデミーは、最新の巨大言語モデルQwen3を発表しました。様々なサイズのモデルとオープンソースの重みを用意しています。Qwen3は、タスクの複雑さに応じて推論の深さと速度を制御できる「思考モード」と「非思考モード」を備えています。119の言語と方言をサポートしています。コーディングとエージェント機能も強化されており、様々なデプロイメントと開発ツールを提供しています。

続きを読む
AI

QVQ-Max:視覚と知性を兼ね備えたAIモデル

2025-04-06
QVQ-Max:視覚と知性を兼ね備えたAIモデル

QVQ-Maxは、画像や動画を「理解する」だけでなく、その情報を分析・推論して様々な問題を解決できる、新しい視覚推論モデルです。数学の問題から日常的な質問、プログラミングコードから芸術作品の作成まで、QVQ-Maxは印象的な能力を示しています。詳細な観察、深い推論、そして柔軟な応用を特徴とし、仕事、学習、日常生活など様々な場面で役立ちます。今後の開発では、認識精度の向上、複数ステップのタスク処理能力の強化、インタラクション方法の拡大に重点を置き、真に実用的な視覚エージェントを目指します。

続きを読む
AI

Qwen2.5-VL-32B:人間の好みにより適応した320億パラメーターの視覚言語モデル

2025-03-24
Qwen2.5-VL-32B:人間の好みにより適応した320億パラメーターの視覚言語モデル

Qwen2.5-VLシリーズモデルの好評を受け、新たに320億パラメーターの視覚言語モデルQwen2.5-VL-32B-Instructをオープンソースで公開しました。このモデルは、数学的推論、精緻な画像理解、人間の好みへの適合性において大幅な改善が見られます。ベンチマークテストでは、MMMU、MMMU-Pro、MathVistaなどのマルチモーダルタスクにおいて同規模のモデルを凌駕し、720億パラメーターのQwen2-VL-72B-Instructをも上回っています。テキスト理解能力においても、同規模のモデルでトップレベルの性能を達成しています。

続きを読む
AI

QwQ-32B:LLMにおける推論能力向上のための強化学習のスケーリング

2025-03-05
QwQ-32B:LLMにおける推論能力向上のための強化学習のスケーリング

研究者らは、大規模言語モデル(LLM)における強化学習(RL)のスケーリングにおいてブレークスルーを達成しました。320億パラメータのQwQ-32Bモデルは、6710億パラメータ(活性化パラメータ370億)のDeepSeek-R1と匹敵する性能を示し、堅牢な基礎モデルへのRL適用効果の高さを示しています。Apache 2.0ライセンスの下、Hugging FaceとModelScopeでオープンソース化されたQwQ-32Bは、数学的推論、コーディング、一般的な問題解決において優れた性能を発揮します。今後の研究は、長期的な推論を実現するためのRLとエージェントの統合に焦点を当て、人工汎用知能(AGI)への道を切り開きます。

続きを読む
AI

アリババ、大規模MoE言語モデルQwen2.5-Maxを発表

2025-01-28
アリババ、大規模MoE言語モデルQwen2.5-Maxを発表

アリババは、20兆トークン以上で事前学習され、教師ありファインチューニングと人間のフィードバックからの強化学習によってさらに洗練された、大規模なMixture-of-Experts (MoE)モデルであるQwen2.5-Maxを発表しました。MMLU-Pro、LiveCodeBench、LiveBench、Arena-Hardなどのベンチマークで、Qwen2.5-MaxはDeepSeek V3などの他のモデルを上回ることが示されています。このモデルは、Qwen ChatとアリババクラウドAPIを通じてアクセスできます。このリリースは、大規模言語モデルのスケーリングにおける重要な進歩を表しており、将来のモデルインテリジェンスの向上への道を拓きます。

続きを読む

Qwen2.5-1M:最大100万トークンのコンテキスト長に対応するオープンソースLLM

2025-01-26
Qwen2.5-1M:最大100万トークンのコンテキスト長に対応するオープンソースLLM

Qwenチームは、最大100万トークンのコンテキスト長をサポートするオープンソースの大規模言語モデルQwen2.5-1Mをリリースしました。7Bパラメータと14Bパラメータの2つのバージョンがあり、長文コンテキストタスクにおいて、従来の128Kバージョンを大幅に上回り、一部のタスクではGPT-4o-miniをも凌駕する性能を示しています。効率的なデプロイメントのために、vLLMベースの推論フレームワークもオープンソース化されており、スパースアテンション機構により推論速度が3~7倍向上しています。Qwen2.5-1Mのトレーニングは段階的なアプローチを採用し、デュアルチャンクアテンション(DCA)とスパースアテンション技術を組み込むことで、長いコンテキストの処理を効果的に行っています。

続きを読む
AI