上次更新日期: June 15, 2020
本指南将帮助您了解什么是重大事件,并通过使用定义良好、计划周全的重大事件管理流程,为组织应对重大事件做好准备。
重大事件管理:概述
这是一个星期一的上午,您的服务台一切正常。突然,您收到一个警报工单,告知您一项关键服务停止运行了,接下来的 15 分钟内,您收到了报告同一问题的大量工单。这可能是您的网站停止运行了、您的销售点软件停止工作了,甚至是影响更大的其他问题,如股票市场下跌或飞机停飞。当您的业务受到 IT 问题的严重影响,导致收入和/或声誉的损失时,您将面临重大事件。
您对重大事件的反应方式对于能否将事件影响降至最低以及迅速恢复服务有着直接的影响。俗话说,时间就是金钱,在这种场合中,这句话再正确不过了。如果您的组织已制定重大事件管理 (MIM) 流程,您将能够顺序响应并解决重大事件。如果贵司没有此类流程,那么,现在是时候起草应急预案了(也称为重大事件响应流程)。
重大事件的风险远胜从前,根据信息技术情报咨询的 研究 ,98%的组织在停机一小时内损失至少 10 万美元。如此一来,制定可有效且高效处理重大事件的 MIM 流程显得更为重要。
每个组织都想要消除重大事件,但事实是,重大事件是不可能完全阻止的,您唯一能做的,就是做好应对准备。
在本指南中,我们将了解如何制定有效的 MIM 流程、影响组织 MIM 的常见错误以及改善 MIM 流程的最佳实践。
但是首先,怎样的事件才称得上重大事件?
什么是重大事件?
重大事件是指影响巨大的紧急问题,通常会影响整个组织或组织的重要部分。重大事件几乎总是导致组织的服务不可用,从而导致组织的业务受到冲击,最终影响其财务状况。重大事件可能以两种方式来影响组织的服务:
- 阻止客户访问组织的服务。2019 年 7 月的 Cloudflare 中断是客户受重大事件影响的一个示例。这次重大故障影响了近一半的互联网,使数百万互联网用户无法访问各种服务。
- 破坏员工按时完成工作的能力,导致业务中断。2019 年 11 月 IndiGo 中断影响了该航空公司的登机流程,导致了长时间的延误,并影响了数千名乘客。
准备充分的服务台可评估重大事件,并提供解决方案或临时方案,以减少和控制重大事件的影响。
重大事件的四个阶段
重大事件可分为四个阶段,即:
重大事件管理流程
MIM 流程对于组织来说是必不可少的,因为它可以帮助组织最大程度地减少重大事件对业务的影响。MIM 流程主要包含以下步骤:
1. 确定
1. 确定
宣告重大事件:
第一步是确定可能存在的重大事件。组织需要建立多种方法来识别威胁,这一点十分重要。重大事件可以由技术人员在遇到异常工单时进行标记,或者可以通过网络监视工具之类的解决方案检测到,这些解决方案可以自动标记网络问题并创建工单以提醒服务台。组织还可以为服务台人员设立专门的热线,以报告疑似重大事件。
通知相关方:
一旦确定了重大事件,就需要将其传达给所有主要相关方。主要需要将重大事件通知到四类人群:
- 技术团队:务必要立即通知技术团队,以便他们开始确定修复问题的行动方案。
- 管理层:让 CIO 等高层管理人员了解重大事件有助于问责。组织还应让管理层时刻了解为解决重大事件所采取的全部步骤。
- 主要相关方:还需要将重大事件通知部门负责人和服务级别的业务管理人员,并定期告知最新进展。
- 用户:用户需要了解哪些服务会因重大事件而变得不可用。
2. 控制
2. 控制
组件重大事件团队:
重大事件团队(简称为 MIT)由技术人员、服务级别的管理负责人和其他主要相关方组成;有时,需要聘请高度熟练的外部人员来处理重大事件。MIT 成员团结一致,努力寻找重大事件的解决方法,并使运营恢复正常。
设置会议桥:
会议桥通常称为电话会议,可帮助进行有效的故障排除和集中沟通。这是 MIT 成员之间清晰、快速的沟通渠道。
准备专门的作战室:
拥有专门的作战室可让 MIT 所有成员聚集在一起,商讨如何解决事件。这增加了协作力度,帮助 MIT 更快地提出解决方案。
创建问题工单以识别潜在问题:
可以创建问题工单以发现并了解重大事件的根本原因。解决重大事件的引发原因,帮助防止将来发生类似的重大事件。
3. 解决方案
3. 解决方案
将解决方案作为变更来实施:
将重大事件的解决方案当做变更来实施是一种不错的方式,这样可以确保正确记录和实施解决方案。将解决方案作为变更来实施,可以最大程度地降低糟糕的解决方案破坏其他服务的风险。
4. 维护
4. 维护
实施后执行审查:
务必要在一段时间内审查事件,以确保事件得到真正解决。如果根本问题得不到解决,则可能导致下一场重大事件。
制作清晰文档:
记录解决重大事件的整个过程可帮助组织为将来的类似事件做准备。正确记录过去发生的事件,组织可以在遇到其他类似的重大事件时立即实施经过实践检验的解决方案,从而减少其影响。
衡量指标:
评估服务台的效能有助于评估服务台和 MIM 流程的有效性。要衡量的一些重要指标包括平均确认时间 (MTTA)、平均解决时间 (MTTR)、重大事件总数以及重大事件的平均停机时间。
勾选所有框以获得有效的重大事件管理流程
ITIL 重大事件管理流程图
重大事件管理角色和职责
重大事件需要专门的人员来处理和解决。MIM 角色包括:
服务台技术人员:
服务台技术人员是抵御重大事件的第一道防线。他们分析事件工单并将其上报给事件经理。服务台技术人员也会参与解决方案的实施。
重大事件经理:
重大事件经理是重大事件的负责人。他们的职责包括宣布该事件为重大事件,并确保遵循 MIM 流程尽早解决该事件。他们充当有关重大事件的任何信息的主要联系点,并管理 MIT。
MIT:
MIT 是一个专业团队,负责分析重大事件并制定应对威胁的行动计划。MIT 最好由服务台技术人员、服务级别管理人员、技术人员、其他相关方和外部顾问(如果情况需要)组成。
技术人员:
负责维护基础结构和运营的专业人员,包括系统管理员、网络管理员和信息安全人员,这些人员组成了组织的技术人员。技术人员可以帮助解决重大事件,并且主要负责实施重大事件的解决方案。
变更经理:
变更经理是为实施重大事件的解决方案而创建的变更的负责人。变更经理拥有变更单的全部所有权并对此负责。
问题经理:
如果为响应重大事件而创建了问题,则问题管理者将拥有问题单。问题经理尝试确定事件的根本原因,并确保不再发生此类事件,或者确保组织至少为下一次事件发生做好准备。
外部顾问或第三方供应商:
在某些情况下,重大事件可能需要高度专业的人员来帮助理解和解决。重大事件经理确定所需人员并将其添加到 MIT 中,以帮助减少重大事件的影响。
RACI 矩阵
RACI 矩阵定义了流程中各个相关方的责任。下表定义了整个 MIM 流程中主要事件相关方的角色和职责。
流程/角色 | 服务台技术人员 | 重大事件经理 | MIT | 技术人员 | 变更经理 | 问题经理 | 外部顾问 |
---|---|---|---|---|---|---|---|
确定 | |||||||
宣告重大事件 | C | A | R | C | I | I | I |
通知相关方 | C | A | R | I | I | I | I |
控制 | |||||||
组建 MIT | I | R/A | C | C | I | C | I |
设置会议桥 | I | A | R | C | I | C | I |
准备专门的作战室 | I | A | R | I | I | C | I |
创建问题工单以识别潜在问题 | I | A | R | C | I | I | I |
解决方案 | |||||||
将解决方案作 为变更来实施 | I | I | I | R | A | C | C |
维护 | |||||||
实施后执行审查 | I | C | I | R | A | C | I |
制作清晰文档 | C | A | R | C | C | C | C |
衡量指标 | I | A | R | I | I | I | C |
* R - 负责, A - 问责, C - 咨询, I - 知情
5 重大事件管理中的常见错误
以下是可能阻碍 MIM 流程的 5 个常见错误:
-
手动传达和上报:
到目前为止,MIM 面临的最大挑战是传达。如果发生重大事件,则需要告知各个相关方该事件的状态、严重性以及已采取了哪些解决问题的措施。手动传达所有消息是一项艰巨的任务,并且可能导致通信不一致,这只会使情况变得更糟。通过使流程自动化,可以在整个工单生命周期中通知主要相关方,且重大事件经理可以将他们的全部精力集中在解决问题上。
-
报告重大事件的渠道无效:
每个服务台每天都会收到数十张甚至数百张工单,从笔记本电脑问题到服务请求,包罗万象。而在这数额巨大的工单中,可能会存在一些潜在的重大事件。不设置单独的渠道报告重大事件会延迟重大事件的识别。
-
重复工作:
如果不能以有组织的方式委派任务,则可能导致 MIT 内部重复工作。所以务必要妥善分配任务,并让 MIT 知道每个成员的任务。
-
记录不当:
缺少适当的文档资料将会使 MIT 在每次发生类似的重大事件时都不得不重新经历整个流程,从而导致在解决重大事件时出现延迟,并导致不必要的停机时间。
-
无法分析根本原因:
与事件管理类似,MIM 在范围上可能是短视的,因为它的主要重点是解决问题并在尽可能短的时间内启动和运行服务。如果不与问题管理相结合来找出根本问题,那么重大事件的根本原因将继续存在,使组织在将来也容易受到重大事件的影响。
5 重大事件管理最佳实践
以下是实施 MIM 流程的最佳方法。
-
启用多个渠道报告重大事件:
在处理重大事件时,时间至关重要。对于组织而言,一旦发现重大事件,就必须对其进行确认和分类,这一点十分重要。为用户提供多种报告事件的方式将使整个过程更快、更容易实现。您可以通过电子邮件或 Web 门户启用工单创建,甚至可以设置专用热线报告疑似重大事件。设置网络监视软件来检测异常可以帮助您主动处理重大事件。
-
自动化服务台流程:
速度和效率在控制重大事件的影响方面起着至关重要的作用,自动实行各种服务台流程可以使技术人员从通知相关方等重复任务中解放出来,从而帮助提高速度和效率。自动化通知系统并设置重大事件工作流程,可自动化服务台流程以缩短解决时间,让 MIM 流程更为顺畅。
-
争取及时、相关的沟通:
务必让组织的管理层和重要的相关方了解每个重大事件的实时进展。让管理层时刻了解最新资讯将有助于获得解决重大事件所需的必要批准和权限。及时沟通可确保所有重大事件人员都处于同一层面,并可以进行顺畅、有效的协作;它还可以使最终用户了解任何可能的停机时间情况,以便他们可以为此做好准备。
-
创建清晰文档:
清晰的文档可帮助重大事件经理记录为解决重大事件所进行的所有工作、其影响、受影响的服务以及有关重大事件的其他关键信息。该文档对于向管理层展示制定 MIM 流程的好处(包括其 ROI)非常重要。清晰的文档也将有助于将来解决类似的重大事件。
-
利用与 ITOM 软件的深度集成:
与 ITOM 软件的强大集成让 IT 部门可以主动处理重大事件。被动的重大事件识别需要在涌进大量工单时才能意识到正在发生重大事件。而另一方面,利用 ITOM 集成的主动式 MIM 流程具有用于监视网络和服务的系统,可以自动标记可能是潜在重大事件的异常。
了解如何建立自己的最佳实践重大事件管理流程
重大事件管理指标和 KPI
关于 MIM,以下是一些重要指标和要追踪的 KPI。
KPI | 公式 | 评论 |
---|---|---|
平均解决时间 (MTTR) | 从报告重大事件到解决重大事件的平均时间。 | 这表明贵司的服务台可以多快解决重大事件。较短的 MTTR 表示贵司的 MIT 有效且高效。 |
平均确认时间 (MTTA) | 响应重大事件的平均时间。 | 较短的 MTTA 表示贵司的服务台能够快速响应重大事件。 |
故障平均时间间隔 (MTBF) | 两次故障之间的平均时间间隔。这是通过总的正常运行时间除以总故障数计算得来。 | 这代表贵司 IT 基础设施的性能。较高的 MTBF 表示贵司 IT 基础设施运行良好。 |
平均检测时间 (MTTD) | 检测重大事件或异常所需的平均时间。 | 这用于衡量发现重大事件的速度。较短的 MTTD 表示服务台能够快速检测重大事件。 |
重大事件的增加百分比或减少百分比 | 与第一个月相比,接下来几个月问题增加的百分比。 | 这可以帮助您确定重大事件的发生趋势。 |
重大事件情境
务必要牢记,并非所有高优先级事件都是重大事件。由于 MIM 流程涉及大量资源投入(如建立单独的 MIT),因此仔细分类重大事件非常重要。
来源: https://blog.cloudflare.com/details-of-the-cloudflare-outage-on-july-2-2019/
2019 年 Cloudflare 中断是定义重大事件的一个很好示例。在这个示例中,更新 Web 应用流程防火墙 (WAF) 托管规则的标准操作流程将专用于服务 HTTP/HTTPS 流量的 CPU 的使用率提高到了几乎 Cloudflare 网络中所有服务器的 100%。随后的中断导致 Cloudflare 的流量减少了 80%,并影响了全球数百万的互联网用户。
影响:大
中断导致 Cloudflare 客户(以及客户的客户)在访问任何 Cloudflare 域时看到 502 错误页面。502 错误是由仍具有 CPU 内核但无法访问服务于 HTTP/HTTPS 流量的进程的前端 Cloudflare Web 服务器而产生的。据估计,在出现故障的 27 分钟内,至少有一半的互联网无法访问。
紧急性:高
所有 Cloudflare 网站均无法访问,导致数千个组织和数百万用户的服务中断。中断也影响了 Cloudflare 的内部运营,阻止了 Cloudflare 员工访问公司的变更管理工具和内部控制面板等各种服务。必须处理中断才能恢复正常的服务运营。
事件从检测到解决的时间线:
WAF 托管规则在 13:42 实施;三分钟后,Cloudflare 的网络运营工具开始标记流量下降,Cloudflare 服务的许多其他端到端测试开始失败,最终用户收到各种 502 错误,且 Cloudflare 从其全球各城市的据点收到许多 CPU 耗尽的报告。
现场可靠性工程团队、伦敦工程团队和其他相关团队被召集在一起进行故障排除并提出解决方案。14:00,WAF 被确定为事件原因。14:07,实施了全球 WAF 终止措施,以使流量水平恢复正常。
14:52,Cloudflare 了解了中断的原因并已解决,WAF 在全球重新启用,事件完满解决。
术语
变更:
添加、修改或删除可能对服务产生直接或间接影响的任何内容。
变更管理:
以最少的中断和冲突完成变更的过程。
升级:
根据功能或层次需求转移工单所有权的行为。
活动:
对服务或资产的管理具有重要意义的事件。
故障:
服务或资产无法按照约定的 SLA 起作用的情况。
层次升级:
垂直将所有权转让给更高级别的服务台技术人员或相关机构的行为。
影响:
对事件严重性的一种衡量。
事件:
IT 服务的计划外中断或 IT 服务质量的降低。配置项发生故障,即使尚未影响服务,也被视为事件(例如,镜像集中的一个磁盘发生故障)。
事件管理:
管理所有事件的生命周期以尽快恢复正常服务运营并最大程度降低业务影响的过程。
事件优先级:
为事件分配优先级并定义什么是重大事件。
重大事件:
具有高影响力和高紧急性的事件,需要一个与事件管理分离的流程来进行处理。
重大事件经理:
负责 MIT 和 MIM 流程实施的人员。
平均确认时间 (MTTA):
用于衡量服务台确认事件的速度。
平均检测时间 (MTTD):
用于衡量检测服务或配置项的潜在威胁的速度。
故障平均时间间隔 (MTBF):
用于衡量服务或资产发生故障的频率。
平均修复/解决/响应/恢复时间 (MTTR):
用于衡量出现故障后恢复服务的速度。
正常服务运营:
遵循服务水平协议 (SLA) 的服务运营。
问题:
一个或多个事件的原因或潜在原因。
RACI 矩阵:
它定义了跨职能或部门项目和流程中的角色和职责。
服务台:
服务提供商与组织用户之间的沟通点。
服务台经理:
负责监督服务台日常活动并对其绩效负责的人。
服务水平目标 (SLO):
它定义了服务提供商的目标,且是衡量其绩效的一种方式。
SLA:
服务提供商和客户之间关于预期服务水平和预期交付时间的协议。
紧急性:
用于衡量需要解决事件的速度。
探索 ITSM 真正为您的业务运营提供动力的各种方式。
现在,您已经了解了什么是重大事件以及如何设置 MIM 流程,那么实施可靠的事件管理流程以使组织的服务台能够处理正常事件和重大事件也很重要。下载我们的事件管理手册的免费副本和其他 ITSM 资源。
-
事件管理手册
-
智慧的书,智能的 ITSM
-
ITIL 英雄手册