oLLM : Exécution de LLMs à grand contexte sur des GPU grand public

2025-09-23
oLLM : Exécution de LLMs à grand contexte sur des GPU grand public

oLLM est une bibliothèque Python légère permettant l'inférence de LLMs à grand contexte tels que gpt-oss-20B et qwen3-next-80B sur des GPU grand public avec 8 Go de VRAM (par exemple, une Nvidia 3060 Ti à 200 $), gérant jusqu'à 100 000 contextes. Ceci est réalisé sans quantification, en déchargeant les poids des couches et le cache KV sur un SSD et en utilisant des techniques telles que FlashAttention-2 et des MLP segmentées. Prenant en charge divers LLMs, oLLM offre une API conviviale pour les tâches de traitement de texte à grande échelle, telles que l'analyse de contrats, la synthèse de littérature médicale et le traitement de fichiers journaux volumineux.