Elastic Cloud Serverless: Azure AKS에서의 불안정한 처리량과 패킷 손실
2025-06-10

Elastic의 SRE 팀은 Azure Kubernetes Service(AKS)에서 실행되는 Elastic Cloud Serverless에서 불안정한 처리량과 패킷 손실을 관찰했습니다. 조사 결과, 근본 원인은 SR-IOV 인터페이스의 RX 링 버퍼 오버플로우와 커널 입력 큐 포화 상태인 것으로 밝혀졌습니다. RX 버퍼 크기를 늘리고 netdev 백로그를 조정함으로써 네트워크 안정성이 크게 향상되었습니다. 고성능 하드웨어라도 운영 체제 수준의 네트워크 매개변수 조정이 최적의 성능을 위해 필수적입니다.
개발