阿里巴巴开源Qwen 2.5:百万token上下文长度的LLM
2025-01-26
阿里巴巴发布了其开源大语言模型Qwen 2.5的重大更新,上下文长度提升至惊人的100万token!这得益于名为“Dual Chunk Attention”的新技术。目前已在Hugging Face上发布了7B和14B参数的两个版本,但运行它们需要大量的VRAM:7B版本至少需要120GB,14B版本则需要至少320GB。虽然可以使用较短的任务,但阿里巴巴推荐使用他们定制的vLLM框架。此外,已经出现了GGUF量化版本,体积更小,但在处理完整上下文长度时可能存在兼容性问题。博主尝试使用Ollama在Mac上运行GGUF版本,但遇到了一些问题,后续将更新运行结果。