oLLM: Executando LLMs de Contexto Extenso em GPUs de Consumidor

2025-09-23
oLLM: Executando LLMs de Contexto Extenso em GPUs de Consumidor

oLLM é uma biblioteca Python leve que permite a inferência de LLMs de contexto extenso, como gpt-oss-20B e qwen3-next-80B, em GPUs de consumidor com 8 GB de VRAM (por exemplo, uma Nvidia 3060 Ti de US$ 200), manipulando até 100.000 contextos. Isso é alcançado sem quantização, descarregando pesos de camada e cache KV para SSD e empregando técnicas como FlashAttention-2 e MLPs segmentadas. Suporta vários modelos de LLM e oferece uma API fácil de usar para tarefas de processamento de texto em larga escala, como análise de contratos, resumo de literatura médica e processamento de arquivos de log massivos.