Stripe enquête sur un pic inattendu d'erreurs DNS : Une enquête sur un réseau complexe
Stripe a récemment subi un pic inattendu d'erreurs DNS. Cet article détaille comment ils ont utilisé des outils tels qu'Unbound, tcpdump et iptables pour identifier la cause racine. L'enquête a révélé qu'un travail Hadoop analysant les journaux réseau effectuait de nombreuses recherches DNS inversées (enregistrements PTR), entraînant une amplification du trafic due à des nouvelles tentatives dépassant les limites du résolveur VPC d'AWS. Stripe a résolu le problème en ajustant les configurations de transfert d'Unbound pour répartir la charge entre les hôtes Hadoop individuels. Ce cas souligne l'importance d'une surveillance robuste, d'un dépannage multiforme et de stratégies pour gérer les pics de trafic dans les systèmes à haute disponibilité.