Qwen 2.5 de Alibaba: LLM con contexto de 1 millón de tokens
Alibaba lanzó una actualización importante de su modelo de lenguaje grande de código abierto, Qwen 2.5, con una ventana de contexto asombrosa de 1 millón de tokens. Esto se logra mediante una nueva técnica llamada Dual Chunk Attention. Dos modelos están disponibles en Hugging Face: versiones de 7B y 14B de parámetros, ambas requieren una VRAM significativa: al menos 120 GB para el modelo de 7B y 320 GB para el de 14B. Si bien se pueden usar para tareas más cortas, Alibaba recomienda usar su framework vLLM personalizado. Están surgiendo versiones cuantizadas GGUF, que ofrecen tamaños más pequeños, pero podrían existir problemas de compatibilidad con longitudes de contexto completas. Un bloguero intentó ejecutar la versión GGUF en una Mac usando Ollama, encontrando algunos desafíos y prometiendo una actualización futura.