Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

阿里巴巴开源Qwen 2.5：百万token上下文长度的LLM

2025-01-26

阿里巴巴发布了其开源大语言模型Qwen 2.5的重大更新，上下文长度提升至惊人的100万token！这得益于名为“Dual Chunk Attention”的新技术。目前已在Hugging Face上发布了7B和14B参数的两个版本，但运行它们需要大量的VRAM：7B版本至少需要120GB，14B版本则需要至少320GB。虽然可以使用较短的任务，但阿里巴巴推荐使用他们定制的vLLM框架。此外，已经出现了GGUF量化版本，体积更小，但在处理完整上下文长度时可能存在兼容性问题。博主尝试使用Ollama在Mac上运行GGUF版本，但遇到了一些问题，后续将更新运行结果。

(simonwillison.net)

AI Qwen 2.5 百万token上下文