Stripe investiga pico inesperado de erros de DNS: Uma investigação de rede complexa
O Stripe experimentou recentemente um pico inesperado de erros de DNS. Esta publicação detalha como eles usaram ferramentas como Unbound, tcpdump e iptables para rastrear a causa raiz. A investigação revelou que um trabalho do Hadoop que analisava logs de rede estava realizando inúmeras consultas de DNS reversas (registros PTR), levando à amplificação de tráfego devido a tentativas excedendo os limites do resolvedor VPC da AWS. O Stripe resolveu o problema ajustando as configurações de encaminhamento do Unbound para distribuir a carga entre hosts individuais do Hadoop. O caso destaca a importância do monitoramento robusto, solução de problemas multifacetada e estratégias para lidar com picos de tráfego em sistemas de alta disponibilidade.