Qwen 2.5 da Alibaba: LLM com contexto de 1 milhão de tokens

2025-01-26

A Alibaba lançou uma atualização significativa para seu modelo de linguagem grande de código aberto, o Qwen 2.5, com uma janela de contexto impressionante de 1 milhão de tokens! Isso é alcançado por meio de uma nova técnica chamada Dual Chunk Attention. Dois modelos estão disponíveis no Hugging Face: versões de 7B e 14B de parâmetros, ambas exigindo VRAM significativa – pelo menos 120 GB para o modelo de 7B e 320 GB para o modelo de 14B. Embora possam ser usados para tarefas mais curtas, a Alibaba recomenda o uso de sua estrutura vLLM personalizada. Versões quantizadas GGUF estão surgindo, oferecendo tamanhos menores, mas podem existir problemas de compatibilidade com comprimentos de contexto completos. Um blogueiro tentou executar a versão GGUF em um Mac usando Ollama, encontrando alguns desafios e prometendo uma atualização futura.