Ollama Turbo: Executando LLMs de código aberto em velocidade máxima

2025-08-06
Ollama Turbo: Executando LLMs de código aberto em velocidade máxima

O Ollama Turbo é uma nova maneira de executar grandes modelos de linguagem de código aberto usando hardware de nível de data center. Muitos modelos novos são grandes demais para GPUs amplamente disponíveis ou rodam muito lentamente. O Ollama Turbo oferece uma maneira de executar esses modelos rapidamente, sendo compatível com o aplicativo, CLI e API do Ollama. Atualmente em versão prévia, ele oferece suporte aos modelos gpt-oss-20b e gpt-oss-120b. Funciona com a CLI, API e bibliotecas JavaScript/Python do Ollama. O Ollama não registra nem retém nenhuma consulta feita no modo Turbo. Todo o hardware está localizado nos EUA. Existem limites de uso (horários e diários) para evitar problemas de capacidade, com preços baseados no uso em breve.

Leia mais
IA

Ollama Lança Aplicativo de Desktop para Interação Mais Fácil com LLMs

2025-07-31
Ollama Lança Aplicativo de Desktop para Interação Mais Fácil com LLMs

O Ollama lançou um novo aplicativo de desktop para macOS e Windows, oferecendo uma maneira mais simplificada de interagir com modelos de linguagem grandes. O aplicativo suporta o recurso de arrastar e soltar arquivos (texto ou PDFs), facilitando o processamento de documentos. Os usuários também podem aumentar o comprimento do contexto nas configurações para arquivos maiores (requer mais memória). O suporte multimodais permite o envio de imagens para modelos compatíveis, como o Gemma 3 do Google DeepMind, e arquivos de código podem ser processados para compreensão. Uma versão de interface de linha de comando também está disponível.

Leia mais
Desenvolvimento

Novo mecanismo multimodais do Ollama: inferência local para modelos de visão

2025-05-16
Novo mecanismo multimodais do Ollama: inferência local para modelos de visão

O Ollama lançou um novo mecanismo que suporta inferência local para modelos multimodais, começando com modelos de visão como Llama 4 Scout e Gemma 3. Abordando as limitações da biblioteca ggml para modelos multimodais, o mecanismo melhora a modularidade do modelo, a precisão e a gestão de memória para inferência fiável e eficiente com imagens grandes e arquiteturas complexas (incluindo modelos Mixture-of-Experts). Este foco na precisão e fiabilidade estabelece a base para o suporte futuro de fala, geração de imagens e contextos mais longos.

Leia mais

Gemma do Google: Uma Família de Modelos Multimodais Leves

2025-03-12
Gemma do Google: Uma Família de Modelos Multimodais Leves

O Google revelou Gemma, uma família leve de modelos multimodais construídos com tecnologia Gemini. Os modelos Gemma 3 processam texto e imagens, possuem uma janela de contexto de 128K e suportam mais de 140 idiomas. Disponíveis em tamanhos de parâmetros de 1B, 4B, 12B e 27B, eles se destacam em tarefas como resposta a perguntas, resumo e raciocínio, enquanto seu design compacto permite a implantação em dispositivos com recursos limitados. Os resultados de referência demonstram um desempenho forte em várias tarefas, particularmente em capacidades multilíngues e multimodais.

Leia mais

Microsoft lança Phi-4: Modelo de linguagem aberto de 14 bilhões de parâmetros

2025-01-12
Microsoft lança Phi-4: Modelo de linguagem aberto de 14 bilhões de parâmetros

A Microsoft revelou o Phi-4, um novo modelo de linguagem aberto com 14 bilhões de parâmetros. Construído usando uma combinação de dados sintéticos, sites de domínio público filtrados e livros acadêmicos e conjuntos de dados de perguntas e respostas, o Phi-4 possui um rigoroso processo de aprimoramento e alinhamento, garantindo o seguimento preciso de instruções e medidas de segurança robustas. Com um comprimento de contexto de 16k tokens, ele foi projetado para sistemas e aplicativos de IA de uso geral (principalmente em inglês) que precisam de ambientes com restrições de memória/computação, baixa latência e fortes capacidades de raciocínio e lógica. A Microsoft enfatiza que os desenvolvedores devem considerar as limitações dos modelos de linguagem e mitigar a precisão, segurança e justiça, especialmente em cenários de alto risco.

Leia mais
IA