Revolutionierung von KI-Backend-Netzwerken: Über traditionelle ECMP-Lastverteilung hinaus

2025-04-22
Revolutionierung von KI-Backend-Netzwerken: Über traditionelle ECMP-Lastverteilung hinaus

Die traditionelle flussbasierte ECMP-Lastverteilung hat Probleme mit den massiven Elephant Flows, die durch die GPU-zu-GPU-Kommunikation in RoCEv2-basierten KI-Backend-Netzwerken erzeugt werden. Dieser Artikel stellt zwei Alternativen vor: flussbasierte Lastverteilung mit adaptivem Routing, das den Datenverkehr dynamisch auf weniger überlastete Pfade umleitet, und paketbasierte Lastverteilung mit Packet Spraying, das einzelne Pakete über mehrere Pfade verteilt, aber die RDMA Write Only-Operation für einen zuverlässigen Betrieb erfordert. Cisco Nexus-Switches unterstützen jetzt die Konfiguration der dynamischen Lastverteilung (DLB), die sowohl flussbasierte als auch paketbasierte Lastverteilung ermöglicht.