oLLM:在消费级显卡上运行超大上下文LLM

2025-09-23
oLLM:在消费级显卡上运行超大上下文LLM

oLLM是一个轻量级的Python库,允许在配备8GB VRAM的消费级GPU(例如200美元的Nvidia 3060 Ti)上运行具有10万上下文的大型语言模型(LLM),例如gpt-oss-20B和qwen3-next-80B。它通过将层权重和KV缓存卸载到SSD,并使用FlashAttention-2和分块MLP等技术来实现这一目标,无需量化。oLLM支持多种LLM模型,并提供了易于使用的API,方便用户进行大规模文本处理任务,例如分析合同、总结医疗文献和处理大型日志文件。

开发 低资源