什么是故障管理

Viewed 35

明显中断工作,不修复后果会严重或极其严重的

1 Answers

image.png

定义

事件: 服务的计划外中断或服务质量的降低。

目的

故障管理实践确保将计划外的服务不可用或降级的时间减至最少,从而减少对用户的负面影响。有两个主要因素可以实现这一点:早期的故障检测和快速恢复正常的运维。

实践范围

  • 发现和登记故障
  • 诊断和调查故障
  • 将受影响的服务和配置项还原到约定的质量
  • 管理故障记录
  • 在故障的全生命周期中与利益相关者进行沟通
  • 在故障解决之后,发起服务改进和故障管理实践优化

实践成功因素

  • 尽早发现故障——自动发现和报告故障
  • 快速有效地解决故障
  • 持续改进故障管理方法

上监控系统尽早发现故障