Ollama Turbo: Blitzschnelle Ausführung von Open-Source-LLMs
Ollama Turbo ist eine neue Methode, um große Open-Source-Sprachmodelle mit Rechenzentrum-Hardware auszuführen. Viele neue Modelle sind zu groß für gängige GPUs oder laufen zu langsam. Ollama Turbo bietet eine Lösung für schnelle Ausführung, kompatibel mit Ollamas App, CLI und API. Derzeit in der Vorschau verfügbar, unterstützt es die Modelle gpt-oss-20b und gpt-oss-120b. Es funktioniert mit Ollamas CLI, API und JavaScript/Python-Bibliotheken. Wichtig ist, dass Ollama keine Anfragen im Turbo-Modus protokolliert oder speichert. Die gesamte Hardware befindet sich in den USA. Es gibt Nutzungsbeschränkungen (stündlich und täglich), um Kapazitätsprobleme zu vermeiden, wobei eine nutzungsbasierte Preisgestaltung in Kürze verfügbar sein wird.
Mehr lesen