Qwen2.5-1M: Modelos de lenguaje grandes de código abierto con longitud de contexto de 1 millón de tokens

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

2025-01-26

El equipo de Qwen lanzó Qwen2.5-1M, modelos de lenguaje grandes de código abierto que admiten hasta un millón de tokens de longitud de contexto, en versiones de 7B y 14B parámetros. Estos modelos superan significativamente a sus contrapartes de 128K en tareas de contexto largo, incluso superando a GPT-4o-mini en algunos casos. También se proporciona un framework de inferencia de código abierto basado en vLLM, que utiliza atención dispersa para un aumento de velocidad de 3x a 7x, para una implementación eficiente. El entrenamiento de Qwen2.5-1M empleó un enfoque progresivo, incorporando la Atención de Bloque Dual (DCA) y técnicas de atención dispersa para manejar eficazmente contextos largos.