Ollama Turbo: Executando LLMs de código aberto em velocidade máxima

O Ollama Turbo é uma nova maneira de executar grandes modelos de linguagem de código aberto usando hardware de nível de data center. Muitos modelos novos são grandes demais para GPUs amplamente disponíveis ou rodam muito lentamente. O Ollama Turbo oferece uma maneira de executar esses modelos rapidamente, sendo compatível com o aplicativo, CLI e API do Ollama. Atualmente em versão prévia, ele oferece suporte aos modelos gpt-oss-20b e gpt-oss-120b. Funciona com a CLI, API e bibliotecas JavaScript/Python do Ollama. O Ollama não registra nem retém nenhuma consulta feita no modo Turbo. Todo o hardware está localizado nos EUA. Existem limites de uso (horários e diários) para evitar problemas de capacidade, com preços baseados no uso em breve.