Implantando o Modelo DeepSeek R1 de 671B Parâmetros Localmente

2025-01-31

Este artigo descreve a experiência de implantar o modelo de linguagem grande DeepSeek R1 de 671B parâmetros localmente usando o Ollama. O autor experimentou duas versões quantizadas: 1,73 bits e 4 bits, exigindo pelo menos 200 GB e 500 GB de memória, respectivamente. Em uma estação de trabalho com quatro RTX 4090 e 384 GB de RAM DDR5, os resultados dos testes mostraram que a versão de 1,73 bits tem velocidade de geração ligeiramente mais rápida, mas a versão de 4 bits se mostrou mais estável e menos propensa a gerar conteúdo inadequado. O autor recomenda o uso do modelo para tarefas mais leves, evitando a geração de texto longo, o que diminui significativamente a velocidade. A implantação envolveu o download dos arquivos do modelo, a instalação do Ollama, a criação de um arquivo de modelo e a execução do modelo; pode ser necessário ajustar os parâmetros da GPU e da janela de contexto para evitar erros de memória insuficiente.

Desenvolvimento Implantação de Modelo