Ollama Turbo: Ejecutando LLMs de código abierto a máxima velocidad

2025-08-06
Ollama Turbo: Ejecutando LLMs de código abierto a máxima velocidad

Ollama Turbo es una nueva forma de ejecutar grandes modelos de lenguaje de código abierto utilizando hardware de nivel de centro de datos. Muchos modelos nuevos son demasiado grandes para las GPU ampliamente disponibles o se ejecutan demasiado lentamente. Ollama Turbo ofrece una manera de ejecutar estos modelos rápidamente, siendo compatible con la aplicación, CLI y API de Ollama. Actualmente en versión preliminar, admite los modelos gpt-oss-20b y gpt-oss-120b. Funciona con la CLI, API y bibliotecas JavaScript/Python de Ollama. Ollama no registra ni retiene ninguna consulta realizada en el modo Turbo. Todo el hardware se encuentra en EE. UU. Hay límites de uso (horarios y diarios) para evitar problemas de capacidad, con precios basados en el uso próximamente.

Leer más
IA

Ollama lanza aplicación de escritorio para una interacción más fácil con LLM

2025-07-31
Ollama lanza aplicación de escritorio para una interacción más fácil con LLM

Ollama ha lanzado una nueva aplicación de escritorio para macOS y Windows, ofreciendo una forma más eficiente de interactuar con modelos de lenguaje grandes. La aplicación admite la función de arrastrar y soltar archivos (texto o PDF), lo que facilita el procesamiento de documentos. Los usuarios también pueden aumentar la longitud del contexto en la configuración para archivos más grandes (requiere más memoria). El soporte multimodal permite enviar imágenes a modelos compatibles como Gemma 3 de Google DeepMind, y los archivos de código se pueden procesar para su comprensión. También está disponible una versión de interfaz de línea de comandos.

Leer más
Desarrollo

Nuevo motor multimodales de Ollama: inferencia local para modelos de visión

2025-05-16
Nuevo motor multimodales de Ollama: inferencia local para modelos de visión

Ollama ha lanzado un nuevo motor que admite la inferencia local para modelos multimodales, comenzando con modelos de visión como Llama 4 Scout y Gemma 3. Abordando las limitaciones de la biblioteca ggml para modelos multimodales, el motor mejora la modularidad del modelo, la precisión y la administración de memoria para una inferencia confiable y eficiente con imágenes grandes y arquitecturas complejas (incluidos los modelos Mixture-of-Experts). Este enfoque en la precisión y confiabilidad sienta las bases para el soporte futuro del habla, la generación de imágenes y contextos más largos.

Leer más

Gemma de Google: Una Familia de Modelos Multimodales Ligeros

2025-03-12
Gemma de Google: Una Familia de Modelos Multimodales Ligeros

Google presentó Gemma, una familia ligera de modelos multimodales basados en la tecnología Gemini. Los modelos Gemma 3 procesan texto e imágenes, cuentan con una ventana de contexto de 128K y admiten más de 140 idiomas. Disponibles en tamaños de parámetros de 1B, 4B, 12B y 27B, destacan en tareas como respuesta a preguntas, resumen y razonamiento, mientras que su diseño compacto permite su implementación en dispositivos con recursos limitados. Los resultados de evaluación muestran un rendimiento sólido en diversas tareas, particularmente en capacidades multilingües y multimodales.

Leer más

DeepSeek-R1: Una familia de modelos de razonamiento a la altura de OpenAI-o1

2025-01-21
DeepSeek-R1: Una familia de modelos de razonamiento a la altura de OpenAI-o1

DeepSeek ha lanzado su primera generación de modelos de razonamiento, DeepSeek-R1, con un rendimiento comparable al de OpenAI-o1. La serie incluye modelos que van desde 1,5B hasta 70B de parámetros, fácilmente ejecutables a través de Ollama. DeepSeek-R1 destaca en tareas de matemáticas, código y razonamiento, presentándose como un competidor significativo en el panorama de la IA.

Leer más

Microsoft lanza Phi-4: Un modelo de lenguaje abierto de 14 mil millones de parámetros

2025-01-12
Microsoft lanza Phi-4: Un modelo de lenguaje abierto de 14 mil millones de parámetros

Microsoft ha presentado Phi-4, un nuevo modelo de lenguaje abierto con 14 mil millones de parámetros. Construido con una combinación de datos sintéticos, sitios web de dominio público filtrados y libros académicos y conjuntos de datos de preguntas y respuestas, Phi-4 cuenta con un riguroso proceso de mejora y alineación que garantiza el seguimiento preciso de instrucciones y sólidas medidas de seguridad. Con una longitud de contexto de 16k tokens, está diseñado para sistemas y aplicaciones de IA de propósito general (principalmente en inglés) que requieren entornos con restricciones de memoria/computación, baja latencia y sólidas capacidades de razonamiento y lógica. Microsoft enfatiza que los desarrolladores deben considerar las limitaciones de los modelos de lenguaje y mitigar la precisión, la seguridad y la equidad, especialmente en escenarios de alto riesgo.

Leer más
IA