3200Gbps 네트워크 정복기: RDMA, EFA, libfabric과 함께하는 여정
2025-01-03
Perplexity AI에서 저자는 AWS p5 인스턴스(NVSwitch로 상호 연결된 8개의 NVIDIA H100 GPU 탑재)에서 RDMA, EFA, libfabric을 활용하여 3200Gbps 네트워크 대역폭을 거의 완벽하게(97%) 사용하는 데 성공했습니다. 본 문서는 그 과정을 자세히 설명하고 고성능 네트워크 프로그래밍을 위한 귀중한 통찰과 최적화 기술(멀티스레딩, CPU 코어 고정, 상태 샤딩 등)을 공유합니다. 비동기 통신 모델의 장점을 강조하고 기존의 집단 통신 방법과 비교합니다.
개발
고성능 네트워크