《软件系统应急预案及快速恢复方案.doc》由会员分享,可在线阅读,更多相关《软件系统应急预案及快速恢复方案.doc(19页珍藏版)》请在三一办公上搜索。
1、XXX公司XXX运维实施项目综合服务应急预案及快速恢复方案目录1.概述31.1 编写目的31.2适用范围31.3 系统介绍32.应急措施42.1 网络故障42.2 网关故障62.3 IVR服务器故障72.4 CTI服务器故障72.5 软话机控件单点故障82.6 软话机控件多台故障82.7 软话机控件无法正常接听92.8 软话机控件无法签入/签出102.9 话机声音不稳定112.10 IP话机声音太小112.11 语音播报异常122.12 无法登录信息XXX系统132.13 话务量暴增142.14 无法设置呼叫转移152.15 故障等级以及响应时间154.1调查与评估174.2 改进措施173.
2、宣传、培训和演练175.1宣传185.2 培训185.3 演练1819一、概述(一)编写目的本文档为XXX系统应急预案及快速恢复方案,具体包括各可能发生的系统故障情况下,座席人员及现场管理人员应如何应对。本方案的编写目的是为XXX系统运行维护提供指导,以保证系统运行中问题及时得到处理,故障及时得到恢复,不中断对客户的语音服务。(二)适用范围1XXX系统现场运维人员2XXX系统客服中心座席3XXX系统客服中心班组长二、系统介绍(一)系统介绍XXX系统采用统一号码XXX集中模式接入,XXX接入设备通过E1中继线路与网省公司行政交换机相连,采用PRI信令。客户拨打信息运维XXX,先通过PSTN电话交
3、换网接入公司行政交换机,再由语音网关透传到XXX系统;电力系统内部行政分机拨打信息运维特服号码,通过语音网关转接到XXX系统。CTI服务器:提供坐席、分机号、路由策略、数据报表;录音服务器/报表服务器:实现录音;/报表生成;IVR自助服务器/TTS服务器:自助语音播报,提供人性话的服务/文本转语音服务器,将文字转化为语音的服务器;SIPServer服务器:XXX系统的核心服务器,所有的IP话机注册到SIPServer服务器。(二)应急措施1.网络故障根据网络故障产生原因,大致分为以下几种情况。第一种,座席位置网络综合布线端口单点故障。情况描述该情况发生时,一般为综合布线端口损坏,分布比较散和随
4、机。备注影响范围一般情况下,只影响个别座席的通话或营销系统的使用。应对措施通知负责综合布线维保的单位进行维修;受影响座席更换到端口可用的座位,继续工作。第二种,楼层交换机故障。情况描述当楼层交换机发生设备故障,引起宕机;电源中断,造成交换机无法正常提供网络交换。备注影响范围一般影响为接入该楼层交换机的综合布线端口,按目前欣能规划,每台交换机上端口数不大于24,因此单台楼层交换机故障的影响范围可控制在20人左右。应对措施如同一楼层的单台交换机故障,则受影响座席可适当调整到其他可用的工作台;如同一楼层多台交换机故障,则受影响座席可调整到其他两个楼层的可用工作台。第三种,核心交换机故障。情况描述(1
5、)机房电源全部断电,包括UPS电源也用完情况下。(2)机房光纤由于其他施工被损坏情况下。备注影响范围该情况,将影响所有座席。包括营销业务系统和IP话机的使用都将中断。应对措施需启动电信运营商紧急切换方案,将号码切换到普通模拟电话上,保证客户电话能呼入客服中心。座席采用手动记录工单方式,修复后再补录。第四种,业务交换机故障。情况描述设备故障造成业务相关机器全部宕机。备注影响范围影响所有座席使用腾龙业务系统,但软话机控件及IP话机仍可用。应对措施此时,电话平台的IVR、排队都正常,因此客户电话可正常接入座席并通话。座席切换到使用紧急软话机控件系统,签入软话机控件后,可正常接听、拨打电话。2.网关故
6、障情况描述单台网关设备由于控制主板、电源等原因造成宕机现象。备注影响范围电话平台中继数量减少一半,客户从XXX的电话接不进来。应对措施现场运维技术人员去机房恢复网关设备运行或将其中继线接入备用网关。3.IVR服务器故障情况描述IVR服务器设备由于设备硬件等原因造成全部宕机现象。备注影响范围影响全部客户,客户呼入系统后,听不到欢迎语,无法进行自助语音查询,但排队和路由分配正常。座席通话不受影响,但话务量可能会增加。原因是原本可通过自助查询方式获得电费、政策等信息,此情况下需转人工后,由座席告知。应对措施通知现场运维技术人员恢复IVR服务器运行。4.CTI服务器故障情况描述CTI服务器由于设备硬件
7、等原因造成宕机现象。备注影响范围影响全部客户,客户呼入系统后,听不到欢迎语,无法进行自助语音查询,也无法进行排队和路由分配正常。座席签入不进去软话机控件或软话机控件状态不正常。应对措施需启动电信运营商紧急切换方案,将号码切换到模拟直线上,保证客户电话能呼入客服中心。座席采用手动记录工单方式,修复后再补录。5.软话机控件单点故障情况描述单台PC电脑上的软话机控件无法正常工作。备注影响范围单个、特定座席。应对措施通知现场运维技术人员进行处理。6.软话机控件多台故障情况描述多台PC的软话机控件无法正常工作。备注影响范围影响多名座席。座席点击按钮无法正常接听、拨打、转接等操作。应对措施座席切换到紧急营
8、销业务系统,签入软话机控件后,可正常接听、拨打电话。通知现场运维技术人员恢复软话机控件运行。7.软话机控件无法正常接听情况描述软话机控件无法正常接听备注影响范围单个座席电话振铃后无法正常接听。应对措施(1)该情况发生时,需检查网络是否存在丢包、中断等情况。(2)对于新加座席,应检查技能设置是否正确。(3)抓取软话机控件日志,发送给现场维护人员,分析日志。(4)选择“签出”,如能正常,则退出营销业务系统,关闭所有IE页面。(5)如不正常,则选择直接关闭IE页面方式,强制退出软话机控件和营销业务系统。(6)重新打开营销业务系统,签入软话机控件。8.软话机控件无法签入/签出情况描述软话机控件无法签入
9、/签出备注影响范围影响座席操作。座席点击按钮无法正常签入/签出。应对措施应对措施(1)该情况发生时,需检查网络是否存在丢包、中断等情况。(2)网线是否被拔出。(3)抓取软话机控件日志,发送给现场维护人员,分析日志。(4)选择直接关闭IE页面方式,强制退出软话机控件和营销业务系统。(5)重新打开营销业务系统,签入软话机控件。(6)如不能正常签入软话机控件,则说明CTI服务发生问题,马上向现场维护人员报告故障。(7)如大面积座席无法签入/签出,且CTI服务短时间(5分钟内)无法恢复,马上按照“设备故障”章节中“CTI服务器故障”处理。通知运营商启动紧急切换到普通电话线路。9.话机声音不稳定情况描述
10、座席话机声音不稳定备注影响范围影响单个或多个座席与客户的正常电话沟通。应对措施(1)该情况发生时,需检查网络是否存在丢包、中断等情况。(2)网线是否被拔出。(3)如是网络问题,一般会多个话机发生该问题,通知网络管理员即能解决。(4)如只是单台话机发生该问题,可替换一部新IP话机。10.IP话机声音太小情况描述IP话机声音太小备注影响范围影响单个或多个座席与客户的正常电话沟通。应对措施(1)话机上的音量调节是否合适(2)该情况发生时,需检查网络是否存在丢包、中断等情况。应对措施:(3)如只是单台话机发生该问题,可调整话机音量设置,或替换一部新IP话机。(4)如是网络问题,一般会多个话机发生该问题
11、,可通知北明现场维护人员解决。11.语音播报异常情况描述用户拨打热线号码听不到欢迎语备注影响范围影响所有用户使用。无法拨打信息XXX号码。应对措施(1)语音播报无法播报或者播报不正常时客服组负责人应立即排查网关与交换机之间的链路是否正常,若链路异常则通知通信组立即排查。(2)若网关正常则由客服组负责人排查坐席与SIP服务器之间的网络是否通畅。若网络出现问题则通知网络组立即排查。(3)若服务器之间的网络没有问题客服组负责人需登录CIM服务器,通过Start Solution Control Interface软件查看程序是否异常。重启URSStatServer、ReportStatServer服
12、务看能否恢复正常。(4)通知检修组排查应用服务器以及数据库是否正常。(5)若上述情况都无法恢复则通知厂家运维人员进行进一步处理。XXX运维人员:XXX;(6)查看所有SIP、CIM、GVP、数据库之间的网络是否通畅,服务器之间互相PING,以及主要查看其他服务器和SIP服务器的5060端口,数据库是1521端口。(7)通过日志查询URSStatServer、ReportStatServer和SipServer之间的链接是否断开。12.无法登录信息XXX系统情况描述无法登录信息XXX系统备注影响范围影响所有座席。应对措施(1)所有坐席无法登陆呼叫系统,客服组负责人应立即排查坐席与SIP服务器之间
13、的网络是否通畅。若网络出现问题则通知网络组立即排查。(2)网络没有问题则从两方面排查,一是通知检修组查看应用服务器是否正常。二是客服组负责人查看CTI服务器上的服务是否正常运行,不正常则重启服务。联系厂家需求技术支持。XXX运维人员:XXX。13.话务量暴增情况描述话务量暴增,部分用户拨打提示座席繁忙中。备注影响范围由于话务量暴增,以及系统资源有限,导致部分用户拨打后提示座席繁忙中请稍后再拨。影响范围:部分用户。应对措施(1)信息运行XXX出现话务量暴增的情况后由客服组负责人上报应急领导小组,由领导小组启动应急预案。(2)客服组负责人将“投诉与建议”组人员加入公共组坐席。(3)“投诉与建议”组
14、人员加入后仍不能满足要求则向领导小组提交申请,将门户系统、邮件系统等人员设置为公共组坐席,直接受理用户来电。(4)呼入量正常后向领导小组申请解除运维人员调配。14.无法设置呼叫转移情况描述无法设置呼叫转移备注影响范围由于无法设置呼叫转移,个别座席可能需要现场值班。对客户体验无影响。应对措施(1)客服坐席发现无法设置呼叫转移时应立即上报客服组负责人。(2)客服组负责人应立即汇报应急领导小组,并针对无法电话值班的情况申请安排临时值班人员。(3)客服组负责人应立即联系厂家运维排查无法设置呼叫转移的原因并尽快恢复。XXX运维人员:XXX。XXX。(4)服务恢复后取消现场值班,设置好电话值班即可。15.
15、故障等级以及响应时间本公司提供的整体维护服务标:级别服务时间响应时限到场时限恢复方案提交时限故障恢复时限故障定位和解决方案提交时限分析报告提交时限按解决方案提交补丁程序时限一级7*2410分钟2小时1小时2小时24小时48小时3天二级2小时1小时2小时24小时48小时3天三级1小时0.5小时1小时12小时24小时24小时四级1小时0.5小时1小时12小时24小时24小时l 除具体事项双方另有约定以外,在双方未达成一致的情况下,故障级别划分标准为:l 一级:属于普通问题;其具体现象为:设备系统技术功能、安装或配置等事前测试和准备,或其他显然不影响业务的预约服务。l 二级:属于较严重问题;其具体现
16、象为:设备系统能继续运行且性能不受影响,但出现报错,存在较大安全隐患。l 三级:属于严重问题;其具体现象为:设备系统部分部件或功能失效、性能下降但不影响正常业务运作。l 四级:属于紧急问题;其具体现象为:设备系统故障导致系统停止运行、数据丢失。(三)调查与评估1) 信息信息XXX突发事件应急处理结束后,自行组织对事件产生的原因进行调查,对产生的影响进行评估,对责任进行认定,提出整改措施。(四)改进措施1) 信息信息XXX突发事件应急处理结束后,相关小组应组织研究事件发生的原因和特点、分析事件发展过程,总结应急处理过程中的经验和教训,进行应急处置知识积累,进一步补充、完善和修订相关应急预案。2)
17、 信息系统突发事件应急处理结束后,相关小组应结合运行过程中的异常和事件,综合分析呼叫系统中存在的关键点和薄弱点,提出该类事件的整改措施,制定整改实施方案并予以落实。三、 宣传、培训和演练(一)宣传1.信息XXX应加强应急工作的宣传和教育,提高相关人员对应急预案重要性的认识,加强各部门和各小组之间的协调与配合。(二)培训1信息XXX在应急预案编制完成和修订后,要组织对应急预案涉及的组织、指挥、操作人员进行培训,通过培训使有关人员熟练掌握应急处理的程序和应急处理技能。2.涉及预案的应急小组人员应结合本岗位安全职责和应急预案的要求,管理人员应熟练掌握本单位应急预案中有关报警、接警、处警和组织、指挥应急响应的程序等内容,技术应急预案操作人员应熟悉各个操作步骤和操作命令。业务应急预案受理人员应熟悉各个业务系统的使用指导。(三)演练1.应急预案在制定、修订后,信息XXX要组织相应的演练,在安全保电和重大事件日前均应开展相关的演练。每年应至少组织一次联合演习。2.信息XXX要通过演练验证应急预案的合理性,及时修订和完善。3.信息XXX在做应急演练前要做好相关准备工作,合理安排、精细组织,确保演练工作的安全。4.要明确演练目的和要求,记录演练过程,对演练结果进行评估和总结。5.信息XXX应根据呼叫系统的关键点和薄弱点,根据系统和设备的重要程度有针对性地开展演练,演练应突出重点和关键。
链接地址:https://www.31ppt.com/p-7331519.html