Prometheus 主机指标拯救了我们

2024-07-21

作者讲述了他们服务器在内核升级后,由于AppArmor被禁用导致Slab内存泄漏,最终导致服务器崩溃。多亏了Prometheus和Grafana的监控和历史数据,他们快速定位问题根源,并通过恢复AppArmor配置解决了问题。这次事件证明了指标系统的重要性,尤其是在故障诊断和快速恢复方面。