Qwen2.5-1M: Modelos de lenguaje grandes de código abierto con longitud de contexto de 1 millón de tokens

2025-01-26
Qwen2.5-1M: Modelos de lenguaje grandes de código abierto con longitud de contexto de 1 millón de tokens

El equipo de Qwen lanzó Qwen2.5-1M, modelos de lenguaje grandes de código abierto que admiten hasta un millón de tokens de longitud de contexto, en versiones de 7B y 14B parámetros. Estos modelos superan significativamente a sus contrapartes de 128K en tareas de contexto largo, incluso superando a GPT-4o-mini en algunos casos. También se proporciona un framework de inferencia de código abierto basado en vLLM, que utiliza atención dispersa para un aumento de velocidad de 3x a 7x, para una implementación eficiente. El entrenamiento de Qwen2.5-1M empleó un enfoque progresivo, incorporando la Atención de Bloque Dual (DCA) y técnicas de atención dispersa para manejar eficazmente contextos largos.

IA