Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

oLLM：コンシューマーGPUで巨大コンテキストLLMを実行

2025-09-23

oLLMは、8GB VRAM搭載のコンシューマーGPU（例：200ドルのNvidia 3060 Ti）で、gpt-oss-20Bやqwen3-next-80Bなどの巨大コンテキストLLMの推論を可能にする軽量Pythonライブラリです。最大10万コンテキストを処理します。量子化なしで、レイヤーの重みとKVキャッシュをSSDにオフロードし、FlashAttention-2やチャンク化されたMLPなどの技術を用いることで実現しています。様々なLLMをサポートし、契約の分析、医療文献の要約、巨大ログファイルの処理など、大規模なテキスト処理タスクのための使いやすいAPIを提供します。

(github.com)

開発低リソース