Stripe investiga un pico inesperado de errores de DNS: Una investigación de red compleja

2024-12-12

Stripe experimentó recientemente un pico inesperado de errores de DNS. Esta publicación detalla cómo utilizaron herramientas como Unbound, tcpdump e iptables para rastrear la causa raíz. La investigación reveló que un trabajo de Hadoop que analizaba registros de red estaba realizando numerosas consultas de DNS inversas (registros PTR), lo que provocó una amplificación del tráfico debido a reintentos que excedían los límites del resolvedor VPC de AWS. Stripe resolvió el problema ajustando las configuraciones de reenvío de Unbound para distribuir la carga entre hosts individuales de Hadoop. El caso destaca la importancia de la monitorización robusta, la resolución de problemas multifacética y las estrategias para gestionar los picos de tráfico en sistemas de alta disponibilidad.