我们如何构建自愈系统来抵御 Netflix 的一个可怕的并发错误
2024-11-13
Netflix 的工程师们在周五下午发现了一个并发错误,该错误导致 CPU 使用率逐渐升高,每两分钟就有一个 CPU 停止工作。由于回滚操作复杂且无法立即修复,团队采用了临时解决方案:将集群规模固定在最大值,并每 15 分钟随机终止几个实例,以便它们可以被健康的新实例替换。这种“自愈”机制虽然不理想,但有效地控制了 CPU 损失,使团队能够度过周末,直到周一客户端团队部署了最终修复方案。