GPUs Nvidia en un clúster Kubernetes Bare-Metal con NixOS: Una aventura en la madriguera del conejo

2025-03-02

Para escalar su framework de aprendizaje automático, MAZE, el autor intentó habilitar el soporte de GPU Nvidia en su clúster Kubernetes, compuesto por tres mini-PC y una estación de trabajo retirada. Esto resultó mucho más desafiante de lo esperado, con obstáculos como configurar el plugin de dispositivo Nvidia, navegar las complejidades de un entorno NixOS e implementar certificados PKI. Finalmente lo logró, compartiendo sus experiencias implementando un clúster Kubernetes usando NixOS, Ansible y Sops, junto con una inmersión profunda en CRI, CDI, nvidia-container-toolkit y más. También desarrolló nix-playground, una herramienta para simplificar la corrección y la construcción de proyectos de código abierto, y utilizó Grok 3 para la depuración. En el camino, encontró otros desafíos como problemas de PyCharm con WSL NixOS y la configuración de Kubernetes RuntimeClass. Toda la aventura, similar a las Aventuras de Alicia en el País de las Maravillas, destaca el impresionante poder de ejecución y las habilidades de resolución de problemas del autor.

Desarrollo