Qwen-Image : Lancement d'un modèle de base d'image de 20 milliards de paramètres

2025-08-05
Qwen-Image : Lancement d'un modèle de base d'image de 20 milliards de paramètres

Alibaba DAMO Academy a lancé Qwen-Image, un modèle de base d'image de 20 milliards de paramètres qui réalise des progrès significatifs dans le rendu de texte complexe et l'édition précise d'images. Il offre un rendu de texte haute fidélité dans plusieurs langues (y compris l'anglais et le chinois), préservant la signification sémantique et le réalisme visuel lors des opérations d'édition. Qwen-Image surpasse les modèles existants sur plusieurs benchmarks de génération et d'édition d'images. Des démonstrations ont mis en évidence ses capacités : générer des images avec une typographie et des mises en page chinoises complexes, créer des diapositives PPT détaillées et même gérer le rendu de texte bilingue, soulignant ses solides capacités de traitement de texte et de génération d'images.

Lire plus

Alibaba publie Qwen3-Coder : un modèle de code de 480 milliards de paramètres

2025-07-23
Alibaba publie Qwen3-Coder : un modèle de code de 480 milliards de paramètres

Alibaba a publié Qwen3-Coder, un puissant modèle de code de 480 milliards de paramètres, obtenant des résultats de pointe dans les tâches de codage intelligentes. Prenant en charge une longueur de contexte native de 256 000 jetons (extensible à 1 million), Qwen3-Coder excelle dans les tâches de codage et les tâches intelligentes. En plus du modèle, ils ont publié Qwen Code, un outil en ligne de commande conçu pour une intégration transparente. L’utilisation intensive de l’apprentissage par renforcement à grande échelle a considérablement amélioré les taux de réussite d’exécution du code et les capacités de résolution de problèmes complexes.

Lire plus

Qwen VLo : Un modèle multimodal unifié qui comprend et crée des images

2025-06-28
Qwen VLo : Un modèle multimodal unifié qui comprend et crée des images

Alibaba DAMO Academy présente Qwen VLo, un nouveau modèle multimodal qui non seulement comprend le contenu des images, mais génère également des images de haute qualité basées sur cette compréhension. Utilisant une méthode de génération progressive, il construit les images graduellement de gauche à droite et de haut en bas, assurant un résultat final cohérent et harmonieux. Qwen VLo prend en charge les instructions multilingues, gère des tâches complexes telles que l'édition d'images et le transfert de style, et peut même comprendre le contenu de ses propres images générées. Bien qu'il soit actuellement en version préliminaire, ses puissantes capacités multimodales montrent l'immense potentiel de l'IA dans la génération d'images.

Lire plus

Qwen3 : Un LLM multilingue avec des modes de pensée commutables

2025-04-28
Qwen3 : Un LLM multilingue avec des modes de pensée commutables

Alibaba DAMO Academy a publié Qwen3, son dernier grand modèle de langage, offrant plusieurs tailles de modèles avec des poids open source. Qwen3 propose des modes « pensée » et « non pensée » commutables, permettant aux utilisateurs de contrôler la profondeur du raisonnement et la vitesse en fonction de la complexité de la tâche. Il prend en charge 119 langues et dialectes. Des capacités améliorées de codage et d'agents sont également incluses, ainsi que divers outils de déploiement et de développement.

Lire plus
IA

QVQ-Max : un modèle d'IA doté à la fois de vision et d'intelligence

2025-04-06
QVQ-Max : un modèle d'IA doté à la fois de vision et d'intelligence

QVQ-Max est un nouveau modèle de raisonnement visuel qui non seulement « comprend » les images et les vidéos, mais analyse et raisonne également à partir de ces informations pour résoudre divers problèmes. Des problèmes de mathématiques aux questions quotidiennes, du code de programmation à la création artistique, QVQ-Max fait preuve de capacités impressionnantes. Il excelle dans l'observation détaillée, le raisonnement approfondi et l'application flexible dans divers scénarios, tels que l'assistance au travail, l'apprentissage et la vie quotidienne. Le développement futur se concentrera sur l'amélioration de la précision de la reconnaissance, l'amélioration de la gestion des tâches à plusieurs étapes et l'élargissement des méthodes d'interaction pour devenir un véritable agent visuel pratique.

Lire plus

Qwen2.5-VL-32B : Un modèle de langage visuel de 32 milliards de paramètres plus aligné sur les préférences humaines

2025-03-24
Qwen2.5-VL-32B : Un modèle de langage visuel de 32 milliards de paramètres plus aligné sur les préférences humaines

Suite au grand succès de la série de modèles Qwen2.5-VL, nous avons lancé le nouveau modèle de langage visuel de 32 milliards de paramètres, Qwen2.5-VL-32B-Instruct, en open source. Ce modèle présente des améliorations significatives en matière de raisonnement mathématique, de compréhension d'images granulaires et d'alignement sur les préférences humaines. Les benchmarks montrent sa supériorité sur les modèles comparables dans les tâches multimodales (telles que MMMU, MMMU-Pro et MathVista), surpassant même le modèle Qwen2-VL-72B-Instruct, de 72 milliards de paramètres. Il atteint également des performances de pointe dans les capacités de texte pur à son échelle.

Lire plus

QwQ-32B : Mise à l'échelle de l'apprentissage par renforcement pour améliorer le raisonnement dans les LLM

2025-03-05
QwQ-32B : Mise à l'échelle de l'apprentissage par renforcement pour améliorer le raisonnement dans les LLM

Des chercheurs ont réalisé une percée dans la mise à l'échelle de l'apprentissage par renforcement (RL) pour les grands modèles de langage (LLM). Leur modèle QwQ-32B, avec 32 milliards de paramètres, affiche des performances comparables à celles du modèle DeepSeek-R1 à 671 milliards de paramètres (avec 37 milliards activés), soulignant l'efficacité du RL appliqué à des modèles de base robustes. QwQ-32B, open source sur Hugging Face et ModelScope sous licence Apache 2.0, excelle dans le raisonnement mathématique, le codage et la résolution de problèmes généraux. Les travaux futurs se concentreront sur l'intégration d'agents avec le RL pour le raisonnement à long terme, repoussant les limites vers l'intelligence artificielle générale (AGI).

Lire plus
IA

Alibaba dévoile Qwen2.5-Max : un modèle linguistique MoE à grande échelle

2025-01-28
Alibaba dévoile Qwen2.5-Max : un modèle linguistique MoE à grande échelle

Alibaba a dévoilé Qwen2.5-Max, un modèle linguistique Mixture-of-Experts (MoE) à grande échelle, pré-entraîné sur plus de 20 000 milliards de jetons et affiné avec un apprentissage supervisé et un apprentissage par renforcement à partir de retours humains. Des benchmarks comme MMLU-Pro, LiveCodeBench, LiveBench et Arena-Hard montrent que Qwen2.5-Max surpasse des modèles tels que DeepSeek V3. Le modèle est accessible via Qwen Chat et une API Alibaba Cloud. Cette publication représente une avancée significative dans la mise à l'échelle des grands modèles linguistiques et ouvre la voie à de futures améliorations de l'intelligence du modèle.

Lire plus

Qwen2.5-1M : Des modèles de langage de grande taille open source avec une longueur de contexte jusqu’à 1 million de jetons

2025-01-26
Qwen2.5-1M : Des modèles de langage de grande taille open source avec une longueur de contexte jusqu’à 1 million de jetons

L’équipe Qwen a publié Qwen2.5-1M, des modèles de langage de grande taille open source prenant en charge jusqu’à un million de jetons de longueur de contexte, dans les versions 7B et 14B de paramètres. Ces modèles surpassent de manière significative leurs homologues 128K dans les tâches à long contexte, dépassant même GPT-4o-mini dans certains cas. Un framework d’inférence open source basé sur vLLM, utilisant l’attention clairsemée pour une accélération de 3x à 7x, est également fourni pour un déploiement efficace. L’entraînement de Qwen2.5-1M a employé une approche progressive, intégrant l’attention à double bloc (DCA) et des techniques d’attention clairsemée pour gérer efficacement les longs contextes.

Lire plus
IA