Ollama Turbo:让大型语言模型飞速运行
Ollama Turbo 是一种利用数据中心级硬件运行大型开放模型的新方法。许多新模型体积庞大,难以在常用GPU上运行,或者运行速度极慢。Ollama Turbo 提供了一种快速运行这些模型的方法,同时兼容 Ollama 的 App、CLI 和 API。目前预览版提供 gpt-oss-20b 和 gpt-oss-120b 模型。Turbo 模式支持 Ollama 的 CLI、API 和 JavaScript/Python 库,且不记录或保留任何 Turbo 模式下的查询数据。所有硬件都位于美国境内,并设有每小时和每日使用限制,未来将推出按使用量计费。
阅读更多