GPUs Nvidia em um Cluster Kubernetes Bare-Metal com NixOS: Uma Aventura na Toca do Coelho
Para escalar sua estrutura de aprendizado de máquina, MAZE, o autor tentou habilitar o suporte de GPU Nvidia em seu cluster Kubernetes, composto por três mini-PCs e uma estação de trabalho aposentada. Isso se mostrou muito mais desafiador do que o esperado, envolvendo obstáculos como configurar o plugin de dispositivo Nvidia, navegar pelas complexidades de um ambiente NixOS e implantar certificados PKI. Ele finalmente conseguiu, compartilhando suas experiências na implantação de um cluster Kubernetes usando NixOS, Ansible e Sops, juntamente com um mergulho profundo em CRI, CDI, nvidia-container-toolkit e muito mais. Ele também desenvolveu o nix-playground, uma ferramenta para simplificar a correção e a construção de projetos de código aberto, e utilizou o Grok 3 para depuração. Ao longo do caminho, ele encontrou outros desafios, como problemas do PyCharm com WSL NixOS e configuração do Kubernetes RuntimeClass. Toda a jornada, semelhante às Aventuras de Alice no País das Maravilhas, destaca o impressionante poder de execução e as habilidades de resolução de problemas do autor.