3200Gbps 네트워크 정복기: RDMA, EFA, libfabric과 함께하는 여정

2025-01-03

Perplexity AI에서 저자는 AWS p5 인스턴스(NVSwitch로 상호 연결된 8개의 NVIDIA H100 GPU 탑재)에서 RDMA, EFA, libfabric을 활용하여 3200Gbps 네트워크 대역폭을 거의 완벽하게(97%) 사용하는 데 성공했습니다. 본 문서는 그 과정을 자세히 설명하고 고성능 네트워크 프로그래밍을 위한 귀중한 통찰과 최적화 기술(멀티스레딩, CPU 코어 고정, 상태 샤딩 등)을 공유합니다. 비동기 통신 모델의 장점을 강조하고 기존의 집단 통신 방법과 비교합니다.

더 보기