Redes de Back-end de IA: Más Allá del Equilibrio de Carga ECMP Tradicional

2025-04-22
Redes de Back-end de IA: Más Allá del Equilibrio de Carga ECMP Tradicional

El equilibrio de carga ECMP tradicional basado en flujo tiene dificultades con los enormes flujos generados por la comunicación GPU-GPU en redes de back-end de IA basadas en RoCEv2. Este artículo presenta dos alternativas: equilibrio de carga basado en flowlet con enrutamiento adaptativo, que redirige dinámicamente el tráfico a rutas menos congestionadas, y equilibrio de carga basado en paquetes con dispersión de paquetes, que distribuye paquetes individuales en varias rutas, pero requiere la operación RDMA Write Only para una operación confiable. Los switches Cisco Nexus ahora admiten la configuración de equilibrio de carga dinámico (DLB), permitiendo el equilibrio de carga basado en flowlet y por paquete.