Implementando el Modelo DeepSeek R1 de 671B Parámetros Localmente

2025-01-31

Esta publicación detalla la experiencia de implementar el modelo de lenguaje grande DeepSeek R1 de 671B parámetros localmente usando Ollama. El autor experimentó con dos versiones cuantizadas: 1.73 bits y 4 bits, requiriendo al menos 200 GB y 500 GB de memoria, respectivamente. En una estación de trabajo con cuatro RTX 4090 y 384 GB de RAM DDR5, los resultados de las pruebas mostraron que la versión de 1.73 bits tiene una velocidad de generación ligeramente más rápida, pero la versión de 4 bits resultó más estable y menos propensa a generar contenido inapropiado. El autor recomienda usar el modelo para tareas más ligeras, evitando la generación de texto largo, lo que ralentiza significativamente la velocidad. La implementación incluyó la descarga de los archivos del modelo, la instalación de Ollama, la creación de un archivo de modelo y la ejecución del modelo; puede ser necesario ajustar los parámetros de la GPU y la ventana de contexto para evitar errores de memoria insuficiente.