GPUs Nvidia en un clúster Kubernetes Bare-Metal con NixOS: Una aventura en la madriguera del conejo
Para escalar su framework de aprendizaje automático, MAZE, el autor intentó habilitar el soporte de GPU Nvidia en su clúster Kubernetes, compuesto por tres mini-PC y una estación de trabajo retirada. Esto resultó mucho más desafiante de lo esperado, con obstáculos como configurar el plugin de dispositivo Nvidia, navegar las complejidades de un entorno NixOS e implementar certificados PKI. Finalmente lo logró, compartiendo sus experiencias implementando un clúster Kubernetes usando NixOS, Ansible y Sops, junto con una inmersión profunda en CRI, CDI, nvidia-container-toolkit y más. También desarrolló nix-playground, una herramienta para simplificar la corrección y la construcción de proyectos de código abierto, y utilizó Grok 3 para la depuración. En el camino, encontró otros desafíos como problemas de PyCharm con WSL NixOS y la configuración de Kubernetes RuntimeClass. Toda la aventura, similar a las Aventuras de Alicia en el País de las Maravillas, destaca el impresionante poder de ejecución y las habilidades de resolución de problemas del autor.