oLLM:コンシューマーGPUで巨大コンテキストLLMを実行

2025-09-23
oLLM:コンシューマーGPUで巨大コンテキストLLMを実行

oLLMは、8GB VRAM搭載のコンシューマーGPU(例:200ドルのNvidia 3060 Ti)で、gpt-oss-20Bやqwen3-next-80Bなどの巨大コンテキストLLMの推論を可能にする軽量Pythonライブラリです。最大10万コンテキストを処理します。量子化なしで、レイヤーの重みとKVキャッシュをSSDにオフロードし、FlashAttention-2やチャンク化されたMLPなどの技術を用いることで実現しています。様々なLLMをサポートし、契約の分析、医療文献の要約、巨大ログファイルの処理など、大規模なテキスト処理タスクのための使いやすいAPIを提供します。