Déploiement local du modèle DeepSeek R1 671B paramètres

2025-01-31

Cet article décrit l'expérience de déploiement du grand modèle de langage DeepSeek R1 de 671B paramètres en local à l'aide d'Ollama. L'auteur a expérimenté deux versions quantifiées : 1,73 bit et 4 bits, nécessitant respectivement au moins 200 Go et 500 Go de mémoire. Sur une station de travail équipée de quatre RTX 4090 et de 384 Go de RAM DDR5, les résultats des tests ont montré que la version 1,73 bit offrait une vitesse de génération légèrement plus rapide, mais la version 4 bits s'est avérée plus stable et moins susceptible de générer du contenu inapproprié. L'auteur recommande d'utiliser le modèle pour des tâches plus légères, en évitant la génération de longs textes qui ralentissent considérablement la vitesse. Le déploiement a impliqué le téléchargement des fichiers du modèle, l'installation d'Ollama, la création d'un fichier de modèle et l'exécution du modèle ; il peut être nécessaire d'ajuster les paramètres du GPU et de la fenêtre de contexte pour éviter les erreurs de mémoire insuffisante.

Développement Déploiement de Modèle