Nvidia GPUs auf einem Bare-Metal Kubernetes-Cluster mit NixOS: Ein Abenteuer im Kaninchenbau
Um sein Machine-Learning-Framework MAZE zu skalieren, versuchte der Autor, die Unterstützung von Nvidia GPUs auf seinem Kubernetes-Cluster, bestehend aus drei Mini-PCs und einem ausgemusterten Workstation, zu aktivieren. Dies erwies sich als weitaus schwieriger als erwartet, mit Hürden wie der Konfiguration des Nvidia-Geräte-Plugins, der Bewältigung der Komplexität einer NixOS-Umgebung und der Bereitstellung von PKI-Zertifikaten. Schließlich gelang es ihm, und er teilt seine Erfahrungen mit der Bereitstellung eines Kubernetes-Clusters unter Verwendung von NixOS, Ansible und Sops, zusammen mit einem Deep Dive in CRI, CDI, nvidia-container-toolkit und mehr. Er entwickelte auch nix-playground, ein Tool zur Vereinfachung des Patchens und Bauens von Open-Source-Projekten, und nutzte Grok 3 zum Debugging. Unterwegs stieß er auf weitere Herausforderungen wie PyCharm-Probleme mit WSL NixOS und die Konfiguration von Kubernetes RuntimeClass. Das gesamte Abenteuer, ähnlich wie Alice im Wunderland, unterstreicht die beeindruckende Ausführungskraft und die Problemlösungskompetenzen des Autors.