定义 事件: 服务的计划外中断或服务质量的降低。 目的 故障管理实践确保将计划外的服务不可用或降级的时间减至最少,从而减少对用户的负面影响。有两个主要因素可以实现这一点:早期的故障检测和快速恢复正常的运维。 实践范围 发现和登记故障 诊断和调查故障 将受影响的服务和配置项还原到约定的质量 管理故障记录 在故障的全生命周期中与利益相关者进行沟通 在故障解决之后,发起服务改进和故障管理实践优化 实践成功因素 尽早发现故障——自动发现和报告故障 快速有效地解决故障 持续改进故障管理方法 上监控系统尽早发现故障