Elastic Cloud Serverless: Instabiler Durchsatz und Paketverlust auf Azure AKS

2025-06-10
Elastic Cloud Serverless: Instabiler Durchsatz und Paketverlust auf Azure AKS

Das SRE-Team (Site Reliability Engineering) von Elastic beobachtete einen instabilen Durchsatz und Paketverlust bei Elastic Cloud Serverless, das auf Azure Kubernetes Service (AKS) läuft. Die Untersuchung ergab, dass die Hauptursachen Überläufe des RX-Ringpuffers und die Sättigung der Kernel-Eingangswartewarteschlange an SR-IOV-Schnittstellen waren. Um dies zu beheben, haben wir die RX-Puffergrößen erhöht und das Netdev-Backlog angepasst, was die Netzwerkstabilität deutlich verbessert hat. Selbst bei Hochleistungs-Hardware ist die Feinabstimmung von Netzwerkparametern auf Betriebssystemebene für optimale Leistung unerlässlich.

Entwicklung