Qwen-Image: Ein 20-Milliarden-Parameter-Bildgrundmodell wird veröffentlicht

2025-08-05
Qwen-Image: Ein 20-Milliarden-Parameter-Bildgrundmodell wird veröffentlicht

Alibaba DAMO Academy hat Qwen-Image veröffentlicht, ein 20 Milliarden Parameter umfassendes Bildgrundmodell, das erhebliche Fortschritte beim Rendern komplexer Texte und bei der präzisen Bildbearbeitung erzielt. Es bietet eine hochgenaue Textwiedergabe in mehreren Sprachen (einschließlich Englisch und Chinesisch) und bewahrt dabei die semantische Bedeutung und den visuellen Realismus bei Bearbeitungsvorgängen. Qwen-Image übertrifft bestehende Modelle in verschiedenen Benchmarks für die Bildgenerierung und -bearbeitung. Demonstrationen zeigten seine Fähigkeiten: Bilder mit komplexer chinesischer Typografie und Layouts zu generieren, detaillierte PPT-Folien zu erstellen und sogar zweisprachiges Textrendering zu handhaben, was seine robusten Fähigkeiten in der Textverarbeitung und Bildgenerierung unterstreicht.

Mehr lesen

Alibaba veröffentlicht Qwen3-Coder: Ein 480B-Parameter-Codemodell

2025-07-23
Alibaba veröffentlicht Qwen3-Coder: Ein 480B-Parameter-Codemodell

Alibaba hat Qwen3-Coder veröffentlicht, ein leistungsstarkes Codemodell mit 480 Milliarden Parametern, das in intelligenten Codierungsaufgaben Spitzenergebnisse erzielt. Es unterstützt eine native Kontextlänge von 256.000 Tokens (erweiterbar auf 1 Million) und zeichnet sich in Codierungs- und intelligenten Aufgaben aus. Zusätzlich zum Modell wurde Qwen Code veröffentlicht, ein Befehlszeilen-Tool für eine nahtlose Integration. Die umfassende Verwendung von Reinforcement Learning in großem Maßstab hat die Erfolgsraten bei der Codeausführung und die Fähigkeiten zur Lösung komplexer Probleme erheblich verbessert.

Mehr lesen

Qwen VLo: Ein einheitliches multimodales Modell, das Bilder versteht und erstellt

2025-06-28
Qwen VLo: Ein einheitliches multimodales Modell, das Bilder versteht und erstellt

Alibaba DAMO Academy stellt Qwen VLo vor, ein neues multimodales Modell, das nicht nur den Inhalt von Bildern versteht, sondern auch auf dieser Grundlage hochwertige Bilder generiert. Es verwendet eine progressive Generierungsmethode, die Bilder schrittweise von links nach rechts und von oben nach unten erstellt und so ein kohärentes und harmonisches Endergebnis gewährleistet. Qwen VLo unterstützt mehrsprachige Anweisungen, bewältigt komplexe Aufgaben wie Bildbearbeitung und Stilübertragung und kann sogar den Inhalt seiner selbst generierten Bilder verstehen. Obwohl es sich derzeit in der Vorschauphase befindet, zeigen seine leistungsstarken multimodalen Fähigkeiten das immense Potenzial von KI in der Bilderzeugung.

Mehr lesen

Qwen3: Ein mehrsprachiges LLM mit umschaltbaren Denkmodi

2025-04-28
Qwen3: Ein mehrsprachiges LLM mit umschaltbaren Denkmodi

Alibaba DAMO Academy hat Qwen3 veröffentlicht, sein neuestes großes Sprachmodell, das verschiedene Modellgrößen mit Open-Source-Gewichten anbietet. Qwen3 bietet umschaltbare "Denkmodi" und "Nicht-Denkmodi", die es Benutzern ermöglichen, die Tiefe des Denkens und die Geschwindigkeit je nach Komplexität der Aufgabe zu steuern. Es unterstützt 119 Sprachen und Dialekte. Verbesserte Codierungs- und Agentenfunktionen sind ebenfalls enthalten, zusammen mit verschiedenen Tools für die Bereitstellung und Entwicklung.

Mehr lesen
KI

QVQ-Max: Ein KI-Modell mit Sehvermögen und Intellekt

2025-04-06
QVQ-Max: Ein KI-Modell mit Sehvermögen und Intellekt

QVQ-Max ist ein neuartiges visuelles Vernunftmodell, das nicht nur Bilder und Videos „versteht“, sondern diese Informationen auch analysiert und mit ihnen argumentiert, um verschiedene Probleme zu lösen. Von mathematischen Problemen bis hin zu alltäglichen Fragen, von Programmcode bis hin zur künstlerischen Gestaltung zeigt QVQ-Max beeindruckende Fähigkeiten. Es zeichnet sich durch detaillierte Beobachtung, tiefes Denken und flexible Anwendung in verschiedenen Szenarien aus, z. B. Unterstützung bei der Arbeit, beim Lernen und im täglichen Leben. Die zukünftige Entwicklung wird sich auf die Verbesserung der Erkennungsgenauigkeit, die Verbesserung der Bearbeitung mehrstufiger Aufgaben und die Erweiterung der Interaktionsmethoden konzentrieren, um ein wirklich praktikables visuelles Agent zu werden.

Mehr lesen

Qwen2.5-VL-32B: Ein 32 Milliarden Parameter großes visuelles Sprachmodell, das besser auf menschliche Präferenzen abgestimmt ist

2025-03-24
Qwen2.5-VL-32B: Ein 32 Milliarden Parameter großes visuelles Sprachmodell, das besser auf menschliche Präferenzen abgestimmt ist

Nach dem großen Erfolg der Qwen2.5-VL-Modellreihe haben wir das neue, 32 Milliarden Parameter umfassende visuelle Sprachmodell Qwen2.5-VL-32B-Instruct als Open Source veröffentlicht. Dieses Modell zeigt signifikante Verbesserungen im mathematischen Denken, im feingranularen Bildverständnis und in der Ausrichtung auf menschliche Präferenzen. Benchmarks zeigen seine Überlegenheit gegenüber vergleichbaren Modellen in multimodalen Aufgaben (wie MMMU, MMMU-Pro und MathVista), wobei es sogar das größere 72 Milliarden Parameter umfassende Qwen2-VL-72B-Instruct übertrifft. Es erreicht auch Spitzenergebnisse bei reinen Textfähigkeiten in seiner Größenordnung.

Mehr lesen

QwQ-32B: Skalierung von Reinforcement Learning zur Verbesserung des Schlussfolgerns in LLMs

2025-03-05
QwQ-32B: Skalierung von Reinforcement Learning zur Verbesserung des Schlussfolgerns in LLMs

Forscher haben einen Durchbruch bei der Skalierung von Reinforcement Learning (RL) für große Sprachmodelle (LLMs) erzielt. Ihr 32 Milliarden Parameter umfassendes Modell QwQ-32B zeigt eine vergleichbare Leistung wie das 671 Milliarden Parameter umfassende DeepSeek-R1 (mit 37 Milliarden aktivierten Parametern), was die Effektivität von RL bei robusten Basismodellen unterstreicht. QwQ-32B, Open Source auf Hugging Face und ModelScope unter der Apache 2.0 Lizenz, zeichnet sich durch mathematisches Schlussfolgern, Codierung und allgemeine Problemlösung aus. Zukünftige Arbeiten konzentrieren sich auf die Integration von Agenten mit RL für langfristiges Schlussfolgern und erweitern die Grenzen in Richtung Künstliche Allgemeine Intelligenz (AGI).

Mehr lesen
KI

Alibaba präsentiert Qwen2.5-Max: Ein großes MoE-Sprachmodell

2025-01-28
Alibaba präsentiert Qwen2.5-Max: Ein großes MoE-Sprachmodell

Alibaba hat Qwen2.5-Max vorgestellt, ein großes Mixture-of-Experts (MoE)-Sprachmodell, das mit über 20 Billionen Token vortrainiert und mit überwachtem Feintuning und Reinforcement Learning aus menschlichem Feedback verfeinert wurde. Benchmarks wie MMLU-Pro, LiveCodeBench, LiveBench und Arena-Hard zeigen, dass Qwen2.5-Max Modelle wie DeepSeek V3 übertrifft. Das Modell ist über Qwen Chat und eine Alibaba Cloud API zugänglich. Diese Veröffentlichung stellt einen bedeutenden Fortschritt bei der Skalierung großer Sprachmodelle dar und ebnet den Weg für zukünftige Verbesserungen der Modellintelligenz.

Mehr lesen

Qwen2.5-1M: Open-Source LLMs mit Kontextlänge bis zu 1 Million Token

2025-01-26
Qwen2.5-1M: Open-Source LLMs mit Kontextlänge bis zu 1 Million Token

Das Qwen-Team hat Qwen2.5-1M veröffentlicht, Open-Source Large Language Models, die bis zu einer Million Token Kontextlänge unterstützen, in 7B und 14B Parameterversionen. Diese Modelle übertreffen ihre 128K-Pendants bei Langkontext-Aufgaben deutlich und überragen in einigen Fällen sogar GPT-4o-mini. Ein Open-Source-Inferenz-Framework basierend auf vLLM, das Sparse Attention für eine 3x bis 7x schnellere Inferenz nutzt, wird ebenfalls zur effizienten Bereitstellung bereitgestellt. Das Training von Qwen2.5-1M verwendete einen progressiven Ansatz, der Dual Chunk Attention (DCA) und Sparse Attention-Techniken zur effektiven Verarbeitung langer Kontexte integriert.

Mehr lesen