GPU Nvidia sur un cluster Kubernetes Bare-Metal avec NixOS : Une aventure au pays des merveilles

2025-03-02

Pour mettre à l'échelle son framework d'apprentissage automatique, MAZE, l'auteur a tenté d'activer le support GPU Nvidia sur son cluster Kubernetes, composé de trois mini-PC et d'une ancienne station de travail. Cela s'est avéré beaucoup plus difficile que prévu, avec des obstacles tels que la configuration du plugin de périphérique Nvidia, la navigation dans les complexités d'un environnement NixOS et le déploiement de certificats PKI. Il a finalement réussi, partageant ses expériences de déploiement d'un cluster Kubernetes utilisant NixOS, Ansible et Sops, ainsi qu'une plongée profonde dans CRI, CDI, nvidia-container-toolkit, et plus encore. Il a également développé nix-playground, un outil pour simplifier la correction et la construction de projets open source, et a utilisé Grok 3 pour le débogage. En cours de route, il a rencontré d'autres défis tels que des problèmes PyCharm avec WSL NixOS et la configuration de Kubernetes RuntimeClass. Toute l'aventure, similaire aux Aventures d'Alice au pays des merveilles, met en évidence l'impressionnante puissance d'exécution et les compétences de résolution de problèmes de l'auteur.

Développement