Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

oLLM：在消费级显卡上运行超大上下文LLM

2025-09-23

oLLM是一个轻量级的Python库，允许在配备8GB VRAM的消费级GPU（例如200美元的Nvidia 3060 Ti）上运行具有10万上下文的大型语言模型（LLM），例如gpt-oss-20B和qwen3-next-80B。它通过将层权重和KV缓存卸载到SSD，并使用FlashAttention-2和分块MLP等技术来实现这一目标，无需量化。oLLM支持多种LLM模型，并提供了易于使用的API，方便用户进行大规模文本处理任务，例如分析合同、总结医疗文献和处理大型日志文件。

(github.com)

开发低资源