关闭
当前位置:首页 - 新手知识 - 正文

信息中心 保障应急预案

胖啊胖 2018-06-15 119°c

第1章. 总则

1.1    预案编制目的

本预案旨在建立健全XX信息中心的应急处理工作机制,指导平时以及节假日期间主机保障工作的开展,最大限度降低服务器突发事件导致的损失与影响,提高XX信息中心支撑室在突发故障的应急处理能力和水平,全面保障XX信息中心所有业务的安全稳定运行

1.2    应急处置原则

安全应急处理工作坚持“统一领导、分工负责、及时预警、协作配合、快速处理、确保恢复”的原则。

1.3    编制依据

《中华人民共和国XX条例》 

1.4    保障资产范围

本预案用于重点指导XX信息中心三个中心机房服务器突发事件的应急响应与处置工作。

第2章. 日常运维保障流程

2.1    日常服务流程

为有效保证合同交付质量,提高客户满意度。明确问题处理流程,以及详细的过程管理,使客户及相关客户合作公司人员能够快速有效的获取项目管理服务成员的支持,项目组成员能够及时响应客户要求,有效提高合同交付质量和客户满意度。

n  一般问题/故障处理流程:日常维护工作中受理客户邮件、电话和工单电子流等方式的问题/故障,采用首问负责制,问题受理人员在受理问题的同时要了解客户的真实需求,并制定相应的处理方案,及时向客户反馈问题的处理进展和效果,问题处理操作完成后,并以纸质报告及邮件形式签署《故障处理报告》,发送问题反馈人、业务负责人、维护项目组负责人,问题闭环。

n  紧急服务处理流程:在发生紧急问题/故障请求时,项目经理鉴权受理后负责紧急协调技术支持工程师到现场支持,协调公司后台专家工程师参与问题的分析和诊断。确保技术支持工程师负责方案现场实施,如有必要申请后台专家工程师现场处理。技术支持工程师故障恢复后值守并在问题解决后填写《故障处理报告》,并以纸质报告及邮件形式签署《故障处理报告》,发送问题反馈人、业务负责人、维护项目组负责人,问题闭环。

n  巡检服务流程:巡检是系统预防性维护的主要方式之一,根据交付计划,对维护合同范围内的设备进行全面检测,确认设备运行状态,检查系统错误记录,排除潜在隐患,以确保业务系统能正常稳定的运行。

a.  周巡检:制定周巡检方案做为例行工作,定期上报周巡检报告,针对巡检发现的遗留问题制定解决方案和实施。

b.  节假日巡检:重要节假日之前对所负责的设备进行现场巡检以及遗留问题解决方案制定和实施,包括机房环境在内检查,并整理上报巡检报告。

2.2    故障服务流程

n  为有效保证合同交付质量,提高客户满意度。项目组成员能够根据具体的问题处理流程能及时响应且规范化处理,并通过流程找到具体的技术求助方式和方法。

n  一般问题/故障处理流程:明确工程师从问题受理到问题闭环各个环节详细的处理步骤,详细列举合同中所有不同厂商设备的处理方式和过程。确保问题处理过程中能够最快最有效的寻求到最合适的资源,并满足客户的满意度。

n  紧急/严重故障处理流程:确保项目组第一时间,以最快的速度集中有效资源进行问题处理,并根据情况启动相应的客户关怀支持。

a.  故障通报:驻场工程师受理问题中判断为紧急/严重故障通报到项目负责人,项目负责人接到来自驻场工程师/客户的紧急/严重故障报障后,项目负责人了解故障的严重程度向办事处相关主管通报并负责紧急协调技术工程师到现场和800专家工程师远程支持。由办事处跟据故障的严重程度决定是否做进一步通报及启动相关的客户安抚流程。

b.  故障恢复处理:技术工程师到现场进行故障诊断,与800专家工程师共同制定恢复方案;根据实施方案进行现场问题处理,根据故障的级别定时报告故障处理进展;故障处理完成后对设备进行健康检察,要求联通业务随同人员对业务运行进行检察确认。

c.  故障恢复后值守:故障恢复后,现场工程师观察设备运行状态并与联通业务随同人员确定值守事宜。

n  备件管理服务流程:根据维保管理服务合同进行备件储备,技术工程师进行故障处理时发现有硬件故障,向库房管理员申请,库房管理员负责备件的出库和派送,问题处理完成后将坏件返回库房。库房管理员更新库存信息并定期对库房进行盘点,向公司申请备件补库以确保备件的安全库存。

第3章. 组织体系和职责

3.1    应急组织职责

XX信息中心支撑室已成立主机故障应急工作小组,负责领导、组织、协调突发事件等各方面工作。

3.1.1   主机故障应急工作小组

主机故障应急工作小组(以下简称:应急小组)是主机应急工作的领导与决策机构,负责组织与指挥主机突发事件的处置工作。

主要成员:

组长:

组员:

主要职责:

1)        负责领导与决策主机突发事件的处置工作;

2)        负责向上级管理机构沟通与汇报突发事件的处置情况;

3)        审核特别重大主机业务突发事件处置;

4)        协调重要资源,协助主机应急工作小组完成事件的应急处置;

5)        组织与指挥主机突发事件的处置工作;

6)        确定主机突发事件分级; 

第4章. 应急响应

4.1    应急响应流程图

应急响应快速处置成功的关键是根据预设流程进行有条不紊的对已经发生的突发事件进行解决,以保证最大限度地减少突发事件造成的损害,降低应急处置中的风险:

 

4.2    发现与报告阶段

为保证主机正常运行,服务器建立监控措施和日志查看制度,采用必要的技术手段,确保及时发现主机突发事件。

任何人在检测到主机突发事件或监控告警时,均应向主机应急工作小组人员报告。应急工作小组人员应立即开展现场检查与评估,根据事件影响的范围,向工作小组和上级部门的相关人员进行通报。

4.3    事件分析阶段

主机应急工作小组人员分析与评估事件的性质、影响范围;如果判断不是突发事件,则预案结束;如果判断是重大故障事件,主机应急工作小组人员根据应急预案制定相应处置方案,并向上级部门进行汇报。

4.4    事件恢复阶段

在执行恢复方案之前,应对关键业务信息执行备份和状态检查。执行恢复方案,并记录恢复过程,检查恢复效果,如果恢复不成功需要收集信息重新制定业务恢复方案。

4.5    事件根除阶段

业务恢复正常之后需要对事件进行根因分析,需要对业务系统进一步进行检查;

根据发现的问题与漏洞制定事件根除方案。

4.6    事件总结阶段

对业务影响、范围、损失进行总结,对应急措施的有效性进行评估,对事件中根因进行分析,编写网络突发事件处置总结报告。

主机应急工作小组应该根据事件发生的原理组织各厂商、周边网络和业务系统管理人员对类似主机设备隐患进行自查自检,必要时可采取紧急抑制手段避免同类主机突发事件的发生.


本文来源:奈斯ECS服务器

本文地址:https://www.niceecs.com/post/48.html

加入我们:微信公众号:搜索“漫步白月光” QQ群:一群---948840449

版权声明:本文采用[BY-NC-SA]协议进行授权,如无特别说明,转载请注明本文地址!

请你留言

必填

选填

选填

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。


  用户登录