Stripe untersucht unerwarteten DNS-Fehleranstieg: Eine komplexe Netzwerkuntersuchung
Stripe erlebte kürzlich einen unerwarteten Anstieg von DNS-Fehlern. Dieser Beitrag beschreibt detailliert, wie sie Tools wie Unbound, tcpdump und iptables nutzten, um die Ursache zu ermitteln. Die Untersuchung ergab, dass ein Hadoop-Job, der Netzwerkprotokolle analysierte, zahlreiche umgekehrte DNS-Auflösungen (PTR-Records) durchführte, was zu einer Traffic-Amplifikation durch Wiederholungsversuche führte, die die Grenzen des AWS VPC-Resolvers überschritten. Stripe löste das Problem, indem es die Unbound-Forwarding-Konfigurationen anpasste, um die Last auf einzelne Hadoop-Hosts zu verteilen. Der Fall unterstreicht die Bedeutung einer robusten Überwachung, vielschichtigen Fehlerbehebung und Strategien zum Umgang mit Traffic-Spitzen in hochverfügbaren Systemen.
Mehr lesen