Elastic Cloud Serverless: Atraso e Perda de Pacotes Instáveis no Azure AKS
2025-06-10

A equipe de Engenharia de Confiabilidade do Site (SRE) da Elastic observou uma taxa de transferência instável e perda de pacotes no Elastic Cloud Serverless em execução no Azure Kubernetes Service (AKS). A investigação revelou que os fatores principais que contribuem para isso são estouros do buffer de anel RX e saturação da fila de entrada do kernel em interfaces SR-IOV. Para solucionar esse problema, aumentamos os tamanhos dos buffers RX e ajustamos o backlog do netdev, o que melhorou significativamente a estabilidade da rede. Mesmo com hardware de alto desempenho, o ajuste dos parâmetros de rede em nível de sistema operacional é crucial para o desempenho ideal.
Desenvolvimento