Maîtriser un réseau 3200 Gbps : un voyage avec RDMA, EFA et libfabric

2025-01-03

Chez Perplexity AI, l'auteur a utilisé RDMA, EFA et libfabric sur des instances AWS p5 (avec 8 GPU NVIDIA H100 interconnectées via NVSwitch) pour atteindre une utilisation presque parfaite (97 %) de la bande passante du réseau 3200 Gbps. Cet article détaille le processus, partageant des informations précieuses et des techniques d'optimisation (multithreading, épinglage de cœur CPU, partage d'état, etc.) pour la programmation réseau haute performance. Il souligne les avantages des modèles de communication asynchrones par rapport aux méthodes de communication collective.

Développement Réseau haute performance