Redes de Back-end de IA: Além do Balanceamento de Carga ECMP Tradicional
2025-04-22
O balanceamento de carga ECMP tradicional baseado em fluxo tem dificuldades com os enormes fluxos gerados pela comunicação GPU-GPU em redes de back-end de IA baseadas em RoCEv2. Este artigo apresenta duas alternativas: balanceamento de carga baseado em flowlet com roteamento adaptativo, que redireciona dinamicamente o tráfego para caminhos menos congestionados, e balanceamento de carga baseado em pacotes com pulverização de pacotes, que distribui pacotes individuais em vários caminhos, mas requer a operação RDMA Write Only para operação confiável. Os switches Cisco Nexus agora oferecem suporte à configuração de balanceamento de carga dinâmico (DLB), permitindo o balanceamento de carga baseado em flowlet e por pacote.