Ollama Turbo: Ejecutando LLMs de código abierto a máxima velocidad
Ollama Turbo es una nueva forma de ejecutar grandes modelos de lenguaje de código abierto utilizando hardware de nivel de centro de datos. Muchos modelos nuevos son demasiado grandes para las GPU ampliamente disponibles o se ejecutan demasiado lentamente. Ollama Turbo ofrece una manera de ejecutar estos modelos rápidamente, siendo compatible con la aplicación, CLI y API de Ollama. Actualmente en versión preliminar, admite los modelos gpt-oss-20b y gpt-oss-120b. Funciona con la CLI, API y bibliotecas JavaScript/Python de Ollama. Ollama no registra ni retiene ninguna consulta realizada en el modo Turbo. Todo el hardware se encuentra en EE. UU. Hay límites de uso (horarios y diarios) para evitar problemas de capacidad, con precios basados en el uso próximamente.