Qwen-Image: Lanzamiento de un Modelo de Fundación de Imagen de 20 000 millones de Parámetros

2025-08-05
Qwen-Image: Lanzamiento de un Modelo de Fundación de Imagen de 20 000 millones de Parámetros

Alibaba DAMO Academy lanzó Qwen-Image, un modelo de fundación de imagen de 20 000 millones de parámetros que avanza significativamente en la representación de texto complejo y la edición precisa de imágenes. Cuenta con representación de texto de alta fidelidad en varios idiomas (incluido inglés y chino), preservando el significado semántico y el realismo visual durante las ediciones. Qwen-Image supera a los modelos existentes en varios puntos de referencia para la generación y edición de imágenes. Las demostraciones mostraron sus capacidades: generar imágenes con tipografía y diseños chinos intrincados, crear diapositivas de PPT detalladas e incluso manejar la representación de texto bilingüe, destacando sus sólidas capacidades de procesamiento de texto y generación de imágenes.

Leer más

Alibaba lanza Qwen3-Coder: un modelo de código de 480B parámetros

2025-07-23
Alibaba lanza Qwen3-Coder: un modelo de código de 480B parámetros

Alibaba ha lanzado Qwen3-Coder, un potente modelo de código con 480 billones de parámetros que alcanza resultados de vanguardia en tareas de codificación inteligente. Soporta una longitud de contexto nativa de 256K tokens (expandible a 1M), y destaca en tareas de codificación y tareas inteligentes. Junto con el modelo, se ha lanzado Qwen Code, una herramienta de línea de comandos para una integración perfecta. El uso extensivo del aprendizaje por refuerzo a gran escala ha mejorado significativamente las tasas de éxito de ejecución de código y la capacidad de resolución de problemas complejos.

Leer más
IA

Qwen VLo: Un Modelo Multimodal Unificado que Entiende y Crea Imágenes

2025-06-28
Qwen VLo: Un Modelo Multimodal Unificado que Entiende y Crea Imágenes

Alibaba DAMO Academy presenta Qwen VLo, un nuevo modelo multimodal que no solo entiende el contenido de las imágenes, sino que también genera imágenes de alta calidad basadas en esa comprensión. Empleando un método de generación progresivo, construye imágenes gradualmente de izquierda a derecha y de arriba a abajo, asegurando un resultado final coherente y armonioso. Qwen VLo admite instrucciones multilingües, maneja tareas complejas como edición de imágenes y transferencia de estilo, e incluso puede comprender el contenido de sus propias imágenes generadas. Si bien actualmente se encuentra en versión preliminar, sus poderosas capacidades multimodales muestran el inmenso potencial de la IA en la generación de imágenes.

Leer más
IA

Qwen3: Un LLM Multilingüe con Modos de Pensamiento Conmutables

2025-04-28
Qwen3: Un LLM Multilingüe con Modos de Pensamiento Conmutables

Alibaba DAMO Academy lanzó Qwen3, su último modelo de lenguaje grande, ofreciendo varios tamaños de modelo con pesos de código abierto. Qwen3 presenta modos de "pensamiento" y "no pensamiento" conmutables, permitiendo a los usuarios controlar la profundidad del razonamiento y la velocidad según la complejidad de la tarea. Admite 119 idiomas y dialectos. También se incluyen capacidades mejoradas de codificación y agentes, junto con diversas herramientas de implementación y desarrollo.

Leer más
IA

QVQ-Max: Un Modelo de IA con Visión e Inteligencia

2025-04-06
QVQ-Max: Un Modelo de IA con Visión e Inteligencia

QVQ-Max es un nuevo modelo de razonamiento visual que no solo 'entiende' imágenes y videos, sino que también analiza y razona con esta información para resolver varios problemas. Desde problemas de matemáticas hasta preguntas cotidianas, desde código de programación hasta creación artística, QVQ-Max demuestra capacidades impresionantes. Destaca en la observación detallada, el razonamiento profundo y la aplicación flexible en varios escenarios, como ayudar en el trabajo, el aprendizaje y la vida diaria. El desarrollo futuro se centrará en mejorar la precisión del reconocimiento, mejorar el manejo de tareas de varios pasos y expandir los métodos de interacción para convertirse en un agente visual verdaderamente práctico.

Leer más

Qwen2.5-VL-32B: Modelo de lenguaje visual de 32 mil millones de parámetros más alineado con las preferencias humanas

2025-03-24
Qwen2.5-VL-32B: Modelo de lenguaje visual de 32 mil millones de parámetros más alineado con las preferencias humanas

Tras el gran éxito de la serie de modelos Qwen2.5-VL, hemos lanzado el nuevo modelo de lenguaje visual de 32 mil millones de parámetros, Qwen2.5-VL-32B-Instruct, de código abierto. Este modelo presenta mejoras significativas en el razonamiento matemático, la comprensión de imágenes de grano fino y la alineación con las preferencias humanas. Las pruebas de referencia muestran su superioridad sobre modelos comparables en tareas multimodales (como MMMU, MMMU-Pro y MathVista), incluso superando al modelo Qwen2-VL-72B-Instruct, de 72 mil millones de parámetros. También alcanza un rendimiento de primera categoría en capacidades de texto puro a su escala.

Leer más

QwQ-32B: Escalando RL para mejorar el razonamiento en LLM

2025-03-05
QwQ-32B: Escalando RL para mejorar el razonamiento en LLM

Los investigadores han logrado un avance en el escalado del aprendizaje por refuerzo (RL) para modelos de lenguaje grandes (LLM). Su modelo QwQ-32B, con 32 mil millones de parámetros, demuestra un rendimiento comparable al DeepSeek-R1 de 671 mil millones de parámetros (con 37 mil millones activados), destacando la eficacia del RL aplicado a modelos base robustos. QwQ-32B, de código abierto en Hugging Face y ModelScope bajo la licencia Apache 2.0, destaca en el razonamiento matemático, la codificación y la resolución de problemas generales. El trabajo futuro se centrará en la integración de agentes con RL para el razonamiento a largo plazo, ampliando los límites hacia la Inteligencia Artificial General (AGI).

Leer más
IA

Alibaba presenta Qwen2.5-Max: Un modelo de lenguaje MoE a gran escala

2025-01-28
Alibaba presenta Qwen2.5-Max: Un modelo de lenguaje MoE a gran escala

Alibaba ha presentado Qwen2.5-Max, un modelo de lenguaje Mixture-of-Experts (MoE) a gran escala, preentrenado con más de 20 billones de tokens y refinado con ajuste fino supervisado y aprendizaje por refuerzo a partir de retroalimentación humana. Benchmarks como MMLU-Pro, LiveCodeBench, LiveBench y Arena-Hard muestran que Qwen2.5-Max supera a modelos como DeepSeek V3. El modelo está accesible a través de Qwen Chat y una API de Alibaba Cloud. Este lanzamiento representa un avance significativo en el escalado de modelos de lenguaje grandes y allana el camino para futuras mejoras en la inteligencia del modelo.

Leer más
IA

Qwen2.5-1M: Modelos de lenguaje grandes de código abierto con longitud de contexto de 1 millón de tokens

2025-01-26
Qwen2.5-1M: Modelos de lenguaje grandes de código abierto con longitud de contexto de 1 millón de tokens

El equipo de Qwen lanzó Qwen2.5-1M, modelos de lenguaje grandes de código abierto que admiten hasta un millón de tokens de longitud de contexto, en versiones de 7B y 14B parámetros. Estos modelos superan significativamente a sus contrapartes de 128K en tareas de contexto largo, incluso superando a GPT-4o-mini en algunos casos. También se proporciona un framework de inferencia de código abierto basado en vLLM, que utiliza atención dispersa para un aumento de velocidad de 3x a 7x, para una implementación eficiente. El entrenamiento de Qwen2.5-1M empleó un enfoque progresivo, incorporando la Atención de Bloque Dual (DCA) y técnicas de atención dispersa para manejar eficazmente contextos largos.

Leer más
IA