Conquistando una red de 3200 Gbps: Un viaje con RDMA, EFA y libfabric
2025-01-03
En Perplexity AI, el autor aprovechó RDMA, EFA y libfabric en instancias AWS p5 (con 8 GPU NVIDIA H100 interconectadas a través de NVSwitch) para lograr una utilización casi perfecta (97%) del ancho de banda de la red de 3200 Gbps. Este artículo detalla el proceso, compartiendo información valiosa y técnicas de optimización (multithreading, fijación de núcleos de CPU, particionamiento de estado, etc.) para la programación de redes de alto rendimiento. Destaca las ventajas de los modelos de comunicación asincrónica sobre los métodos de comunicación colectiva.
Desarrollo
Redes de Alto Rendimiento