3200Gbpsネットワークの攻略:RDMA、EFA、libfabricによる冒険
2025-01-03
Perplexity AIにおいて、著者はAWS p5インスタンス(NVSwitchで相互接続された8つのNVIDIA H100 GPUを搭載)でRDMA、EFA、libfabricを活用し、3200Gbpsネットワーク帯域幅のほぼ完璧な利用率(97%)を実現しました。この記事ではその過程を詳細に説明し、高性能ネットワークプログラミングのための貴重な知見と最適化技術(マルチスレッド、CPUコア固定、状態シャーディングなど)を共有しています。非同期通信モデルの利点を強調し、従来の集団通信方法との比較も行っています。
開発
高性能ネットワーク