Ollama Turbo : Exécution ultra-rapide des LLMs open source

2025-08-06
Ollama Turbo : Exécution ultra-rapide des LLMs open source

Ollama Turbo est une nouvelle façon d'exécuter de grands modèles de langage open source en utilisant du matériel de niveau centre de données. De nombreux nouveaux modèles sont trop volumineux pour les GPU largement disponibles ou s'exécutent trop lentement. Ollama Turbo offre une solution pour une exécution rapide, compatible avec l'application, la CLI et l'API d'Ollama. Actuellement en préversion, il prend en charge les modèles gpt-oss-20b et gpt-oss-120b. Il fonctionne avec la CLI, l'API et les bibliothèques JavaScript/Python d'Ollama. Ollama n'enregistre ni ne conserve aucune requête effectuée en mode Turbo. Tout le matériel est situé aux États-Unis. Des limites d'utilisation (horaires et quotidiennes) sont en place pour gérer la capacité, avec une tarification à l'utilisation prochainement disponible.

IA