Lokaler Einsatz des DeepSeek R1 Modells mit 671B Parametern

2025-01-31

Dieser Beitrag beschreibt die Erfahrung beim lokalen Einsatz des DeepSeek R1 Large Language Models mit 671 Milliarden Parametern mithilfe von Ollama. Der Autor testete zwei quantisierte Versionen: 1,73-Bit und 4-Bit, die mindestens 200 GB bzw. 500 GB Arbeitsspeicher benötigen. Auf einem Arbeitsplatzrechner mit vier RTX 4090 und 384 GB DDR5-RAM zeigten die Testergebnisse, dass die 1,73-Bit-Version eine etwas schnellere Generierungsgeschwindigkeit aufweist, die 4-Bit-Version jedoch stabiler ist und weniger wahrscheinlich unangemessenen Inhalt erzeugt. Der Autor empfiehlt, das Modell für leichtere Aufgaben zu verwenden und die Generierung langer Texte zu vermeiden, da dies die Geschwindigkeit erheblich verlangsamt. Die Bereitstellung umfasste das Herunterladen der Modelldateien, die Installation von Ollama, das Erstellen einer Modelldatei und die Ausführung des Modells. Es kann erforderlich sein, die GPU- und Kontextfensterparameter anzupassen, um Speicherüberläufe zu vermeiden.

Entwicklung Modellbereitstellung