Qwen 2.5 da Alibaba: LLM com contexto de 1 milhão de tokens

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

2025-01-26

A Alibaba lançou uma atualização significativa para seu modelo de linguagem grande de código aberto, o Qwen 2.5, com uma janela de contexto impressionante de 1 milhão de tokens! Isso é alcançado por meio de uma nova técnica chamada Dual Chunk Attention. Dois modelos estão disponíveis no Hugging Face: versões de 7B e 14B de parâmetros, ambas exigindo VRAM significativa – pelo menos 120 GB para o modelo de 7B e 320 GB para o modelo de 14B. Embora possam ser usados para tarefas mais curtas, a Alibaba recomenda o uso de sua estrutura vLLM personalizada. Versões quantizadas GGUF estão surgindo, oferecendo tamanhos menores, mas podem existir problemas de compatibilidade com comprimentos de contexto completos. Um blogueiro tentou executar a versão GGUF em um Mac usando Ollama, encontrando alguns desafios e prometendo uma atualização futura.