中国移动BOSS系统建设的研究.doc
中国移动BOSS系统容灾备份中心建设的研究中 讯 邮 电 咨 询 设 计 院(原信息产业部邮电设计院)2003.10目 次一. 说明11. 综述11.1. 编制依据21.2. 本文件的主要结论21.3. 本文件的主要内容31.4. 全国中心现状31.5. 省中心现状42. BOSS系统容灾备份的必要性和可行性52.1. BOSS系统建设的必要性分析52.2. BOSS容灾备份系统建设的可行性分析73. 中国移动灾备系统的建设模型73.1. 灾备系统建设模型73.2. BOSS系统-容灾备份系统架构83.3. 网络拓扑94. 灾备系统的分阶段发展目标104.1. BOSS灾备系统的近期发展目标104.2. BOSS灾备系统的中远期发展目标105. 灾备系统的发展策略116. BOSS容灾备份系统的总体实施原则136.1. BOSS容灾备份系统的组成136.2. BOSS系统灾难种类分析(风险分析)136.3. 容灾备份的方式146.4. 灾备中心的功能范围156.4.1. BOSS各业务容灾需求的分析156.4.2. 灾备中心的功能范围196.5. 灾备中心的地点选择196.6. 灾备中心的系统规模估算206.6.1. 灾备中心存储能力估算206.6.2. 主中心和灾备中心间的传输带宽估算216.7. 容灾备份系统的设置模式217. 中国移动通信灾备系统设置数量的探讨238. 初步投资估算258.1. 投资估算的依据258.2. 中国移动用户数258.3. 投资估算范围268.4. 关键业务应用级数据级容灾投资估算288.4.1. 各省分别设置灾备中心投资估算288.4.2. 投资估算说明298.4.3. 投资估算结果338.5. 全应用(同级)容灾投资估算338.6. 升级容灾的投资估算348.7. 各种情况的投资估算汇总34二. 附件351. 附件一:中国移动BOSS系统的体系结构351.1. BOSS系统的等级结构351.2. BOSS系统的三层体系362. 附件二:国内外计算机系统容灾情况概述402.1. 国外一些统计情况402.2. 国内外计算机系统容灾情况概述403. 附件三:风险和业务影响分析423.1. 美国计算机灾难原因统计423.2. 灾难种类分析(风险分析)423.3. 业务影响分析434. 附件四:容灾备份的方式、规模分析454.1. 容灾备份的方式454.1.1. 数据级容灾454.1.2. 应用级容灾464.1.3. 业务级容灾474.2. 备份系统的运行状态484.3. 容灾备份的规模495. 附件五:容灾备份的实现技术分类515.1. 主要的容灾技术手段515.1.1. 应用嵌入方式525.1.2. 数据库方式535.1.3. 文件系统方式545.1.4. 服务器卷方式555.1.5. 智能存储系统方式565.2. 技术手段评述576. 附件六:BOSS系统主中心的功能586.1. 计费模块的功能586.2. 结算模块的功能586.3. 帐务模块的功能586.4. 业务管理模块的功能596.5. 客户服务模块的功能606.6. BOSS系统管理功能617. 附件七:关于灾备中心的地点选择637.1. 容灾备份的距离637.2. 灾备中心地点的选择658. 附件八:灾备中心的系统能力估算678.1. 灾备中心的存储能力估算678.2. 主中心和灾备中心间的传输带宽估算679. 附件九:灾备系统的网络组织699.1. 局域网组织699.2. 灾备系统对外的连接699.2.1. 灾备中心与原生产中心之间699.2.2. 灾备中心与全国中心之间709.2.3. 灾备中心到各营业网点之间709.2.4. 灾备中心与中国移动通信网元之间709.2.5. 灾备中心与客服呼叫中心之间719.2.6. 灾备中心与公司内其它计算机系统之间719.2.7. 灾备中心与非中国移动的计算机系统之间7210. 附件十:灾备系统的安全性要求7410.1. 数据传输安全7410.2. 与外网之间的网络隔断7410.3. 访问控制7510.4. Web安全7510.5. 用户与权限管理7510.6. 操作系统漏洞的管理7610.7. 安全技术手段7611. 附件十一:项目管理组织方面的建议7711.1. 组织结构7711.1.1. 日常维护阶段7711.1.2. 灾难恢复阶段7711.1.3. 容灾负责人7811.1.4. 容灾协调人7911.1.5. 灾难恢复组7911.1.6. 设施恢复组8011.1.7. 行政管理组8011.1.8. 系统恢复组8011.1.9. 通讯恢复组8111.1.10. 用户联络组8111.1.11. 数据控制组8111.1.12. 应用恢复组8111.2. 管理流程8211.3. 灾备中心与生产中心之间的切换8211.3.1. 切换范围8211.3.2. 切换方式8311.3.3. 切换流程8311.3.4. 切换顺序8411.3.5. 回切8511.4. 关于灾备系统的应用软件开发商8512. 附件十二:灾备中心机房环境要求8812.1. 机房环境条件8812.2. 接地要求89一. 说明1. 综述本文件是关于中国移动通信各省BOSS系统(业务运营支撑系统)容灾备份中心建设的研究,旨在为中国移动BOSS容灾备份系统的建设提出总体技术建议或建设性意见。从广义上讲,任何提高系统可用性的努力,都可称之为容灾。本地容灾,例如目前各省BOSS系统常用的主机集群(CLUSTER),当某台主机出现故障,不能正常工作时,与其集群的主机可以替代该主机,继续进行正常工作;再如网络端口/传输路由的冗余,主用端口/路由不能使用时,备用端口/路由将取代之等。这些本地容灾措施在原来BOSS系统建设时已经考虑。本文件讲到的容灾,都是指远程容灾。所谓远程容灾,即灾备中心和现有的主中心(生产中心)不在同一个局址内。中国移动BOSS灾备系统的建设,是在现有省级BOSS系统的基础上,通过设置不同局址或异地的灾备系统,实现对主系统在数据级或应用级的备份,从而增强业务支撑系统对风险的抵御能力,尽量保证BOSS系统的数据不丢失或面向用户的服务不中断,提升中国移动的服务质量和服务水平。由于全国中心清算系统的灾备系统已在深圳实现,这里不再讨论全国中心的容灾问题,本文件主要探讨中国移动各省灾备系统的建设。为了叙述的方便,这里首先对容灾方面的两个重要术语进行定义。生产中心:也称主中心或主系统,是指正常情况下,处理BOSS系统正常生产任务的中心。灾备中心:也称备中心、容灾系统或灾备系统,是指具备对生产中心容灾功能的备用系统。在应用级容灾的情况下,当生产中心和灾备中心切换完成后,原灾备中心变为生产中心,原生产中心变为灾备中心。1.1. 编制依据(1)中国移动通信集团公司关于BOSS系统容灾备份研究的委托。(2)中国移动BOSS系统容灾备份业务规范,中国移动通信集团公司,二三年四月。(3)中国移动BOSS系统容灾备份技术规范,中国移动通信集团公司,二三年四月。(4)中国移动通信集团公司中国移动业务运营支撑系统业务规范(1.0版)(二OO一年四月)。(5)中国移动通信集团公司中国移动业务运营支撑系统(BOSS)系统技术规范(V 1.0版)(二OO一年四月)。(6)中国移动通信集团公司提供的相关资料。(7)现场察勘调研的相关资料。1.2. 本文件的主要结论经过本文件的研究认为,中国移动设置容灾备份系统是必要的。通过本文件的分析,建议中国移动各省的容灾系统宜采用循序渐进、注重投资效益等发展策略,近期内主要宜采用关键应用级数据级容灾的方式比较合适。灾备中心的设置数量问题:可以采用每个省分别设置灾备中心的模式,也可以对某些省采用多对一的容灾设置模式,即类似大区的方式建设灾备中心。如果采用多对一的模式,可以节省部分投资,但在目前中国移动集团公司、省公司两级法人的体制下,管理协调上可能会比较复杂。除了试点的9个省份,其它22个省级BOSS系统如都分别采用关键业务应用级数据级容灾方式,总投资约21.54亿元(按满足2005年考虑),如果再加上试点省份目前的实际估算投资,则全国容灾系统的投资为:5.04+21.54=26.58(亿元)。1.3. 本文件的主要内容本文件主要内容有:(1)中国移动BOSS系统的现状分析。(2)BOSS容灾备份系统的必要性和可行性。(3)BOSS容灾备份系统的分阶段发展目标。(4)BOSS容灾备份系统的发展策略。(5)BOSS容灾备份系统的总体实施原则,包括容灾种类、容灾备份的方式、灾备中心的功能范围探讨、灾备中心的地点选择原则,以及中国移动各省容灾备份中心数量设置的探讨等。(7)初步投资估算。(8)本文件相关的附件。1.4. 全国中心现状全国中心设置在中国移动通信集团公司的博瑞琪大厦内,到目前为止全国中心主要进行了如下的建设项目:1.全国移动电话计费结算中心三期工程的建设,实现了对GSM的国际、国内漫游结算等功能;2. CMNet骨干网一期工程的认证计费中心,在北京集中设置了全网认证计费系统,完成Internet拨号上网、WAP业务、VoIP、VPDN的认证计费,提供:50万注册上网用户、457万主叫认证上网用户(含WAP)、1075万Internet卡及VoIP卡用户的认证计费需求;3.全国中心国际出入口局计费结算工程,实现了全国中心对北京、上海、广州三个国际出入口局的计费结算处理;4.全国中心智能网计费结算系统工程,实现了全国中心对移动智能网业务的计费结算;5.全国中心四期工程,可以实现全国中心对移动互联网、GPRS、WAP的国内、国际结算和SP短信的计费结算功能。6.全国清算中心容灾备份工程,在深圳设置了深圳清算中心(简称深圳中心),作为北京全国清算中心(简称北京中心)的灾备系统。目前已实现了北京中心和深圳中心之间话音业务国内、国际漫游清算的应用级容灾备份功能。7.于2002年12月开始的一级业务运营支撑系统(一级BOSS)工程,在集团公司设置帐务枢纽和客服枢纽,可以基本实现中国移动BOSS系统全网的信息共享,初步建成“全程全网”的电信服务网络,向用户提供跨省异地业务受理、异地缴费、异地扣帐、移动用户小额支付、全国性大客户/集团的客户服务等功能,带动支撑系统和相关经营管理系统提升服务。目前中国移动正在着手一级BOSS二期工程的建设,实现对以上相关系统的扩充。并且正在进行一级经营分析系统的建设。1.5. 省中心现状至2002年底,各省的BOSS系统集中化改造工程已基本完成。BOSS集中化改造工程实施后,各省均有一套集中化的BOSS系统省中心。计费、帐务、客服、结算等数据均集中存放在一个省中心内。目前,各省正在进行升级经营分析系统的建设,少量省份正在进行BOSS容灾系统、B-BOSS系统、BOSS网管、客户管理系统等的试点工程建设。2. BOSS系统容灾备份的必要性和可行性2.1. 容灾系统建设的必要性分析根据目前中国移动BOSS系统的现状,建立BOSS系统的容灾备份系统已成为必需。主要表现在以下几个方面:(1).随着BOSS系统集中化的实施,各省所有的计费数据、帐务数据、客户数据等将全部都以省为单位集中在了省中心一个地点,容灾备份成为提高系统业务连续性的必要手段。目前中国移动各省已完成了BOSS系统的集中化改造工程。BOSS系统的集中化改造符合中国移动业务发展的需要,也符合业务运营支撑系统的发展趋势,通过集中化工程的实施,可以降低维护成本,使BOSS系统具有快速地实现资费套餐、快速地适应个性化计费和灵活的营销手段、方便地实现异地业务受理等优点。然而,在BOSS系统的集中化改造项目完成后,中国移动各省所有的计费数据、帐务数据、客户数据等已全部都以省为单位集中在了省中心一个地点。且各省BOSS系统的规模都相当大,很多省份移动用户数都超过700万(2005年之内),如此大的用户规模,对省中心是一个沉重的负担。我们设想,如果一个MSC出现瘫痪,影响的用户数最多几十万,而BOSS系统出现瘫痪,影响的用户数可能是几百万甚至上千万。特别是一旦BOSS中心出现灾难性事件,如火灾或人为因素等导致系统瘫痪等,由于缺乏容灾手段,将造成不可挽回的损失,不但所有数据可能会丢失,BOSS系统面向用户的服务将被迫中断,造成全省范围内不能合账、开户、缴费等,不但可能造成话费等数据的丢失,更严重的是,将严重影响中国移动的用户服务质量。因此从提高可靠性安全性考虑,应该考虑在异地建设另一个灾备中心,当某个省中心发生灾难长时间不能运转时,如果设置有应用级的灾备中心,则灾备中心可以接管其不能进行的计费、帐务、营业等任务,保证向用户的服务不中断;如果设置有数据级的灾备中心,也可起到保证数据不丢失或少丢失的作用。(2).建设BOSS容灾备份系统,有利于BOSS系统的平滑升级。中国移动的业务发展很快,为了保证业务量的发展和新业务的开展,BOSS系统常常需要进行软件升级甚至系统扩容,这经常是需要计划性停机的。如果扩容升级工作与生产系统在同一个场地进行,工程实施过程中可能出现的一些意外情况就会影响生产系统的稳定运行。另外,扩容升级完成后,还需要一段并行运行或测试时间,并行运行的最好办法就是把原来的软件保留在另一个随时可再运行的中心内。如果容灾备份系统是异地备份系统,而且可以独立地承担业务运行,这样就给扩容升级工程的实施带来了很大的便利条件。(3).建设BOSS容灾备份系统,可以减轻主中心的负担。目前,BOSS系统需要的统计分析功能很多,而且不断需要为经营分析系统、查询系统等提供数据源。这些任务常常在忙时会影响省中心的业务处理。有些省不得不另外设置一套较大的系统,将话单等数据拷贝到专门的统计分析或查询系统内,然后再进行统计、查询或经营分析抽取工作。如果有了灾备中心,可以将这些功能放在灾备中心完成,从而减轻BOSS主中心的负担,不影响BOSS系统的实时性等处理。如果将来条件具备,还可以使灾备中心与生产中心之间形成负荷分担方式。(4).建设完善的BOSS容灾备份系统,也是中国移动参与残酷的市场竞争的需要。目前移动通信业务是我国竞争最激烈的通信业务,中国移动作为中国最大的移动通信业务经营者,其业务运营支撑系统也应该是中国最可靠的、最稳定、最先进的,这样才能提高中国移动BOSS系统的业务连续性,从而树立中国移动的信誉,确立中国移动在移动通信市场上的主导地位,为“争创世界一流通信企业”战略目标奠定基础。2.2. BOSS容灾备份系统建设的可行性分析(1)中国移动丰富的IT系统建设经验和雄厚的人才资源,使容灾系统建设的保证通过近几年来业务运营支撑系统、经营分析系统、网管系统、MIS系统、OA系统的建设和使用,通过市场的激烈竞争、通过不断的学习和实践,中国移动各省相关的管理和维护人员已积累了较多的计算机系统方面的建设、维护、管理和开发经验,也培养了一批IT技术方面的骨干力量,在计算机系统方面,具备了较高的工程实施、项目管理和维护水平,这为新的容灾备份系统的建设提供了保障。(2)相关厂商技术的成熟为容灾系统的建设提供了条件就计算机系统容灾技术的发展情况来说,目前相关软硬件厂商,如EMC、SUN、HP、IBM等厂家已推出了相应的容灾备份产品,国内外众多的软件开发商、集成商也在进行这方面的研究,并且也推出了较多的解决方案。这为我们建设灾备系统提供了条件。(3)国内外容灾系统的案例为中国移动提供了借鉴目前在国内外的金融、保险、电信等行业也已经有一些容灾备份系统正在运营或正在建设,这也为中国移动容灾备份系统的建设提供了一些经验和教训,使我们后面的建设少走弯路。(4)容灾试点的建设为中国移动提供了宝贵的财富目前,江苏、辽宁、云南、吉林等省正在进行BOSS容灾系统试点的建设,通过这些试点,在BOSS容灾的技术、管理、流程等方面将积累不少的经验和教训,这也为下一步中国移动容灾系统的建设提供示范或指导。因此,中国移动建设容灾备份系统的条件已经基本具备。3. 中国移动灾备系统的建设模型3.1. 灾备系统建设模型按照中国移动的业务连续性技术规范,灾备系统属于业务连续性系统的范畴,所以灾备系统的建设应遵循业务连续性技术规范的要求。中国移动业务连续性系统的建设,必须按照需求分析、方案设计、方案实施、测试/演习/维护的科学流程进行。如下图。图3.1业务运营支撑网业务连续性系统建设模型人员、流程和技术是保证业务连续性系统成功实施、有效运行的三个重要方面: Ø 技术,是手段、是载体;Ø 流程,是技术的补充和完善。包括恢复、测试、演习和维护等;Ø 人员,是技术和流程的制定者和执行者。人员、流程和技术通过管理机制有效结合。管理机制包括计划、映射、驱动、调控等手段。 3.2. BOSS系统-容灾备份系统架构中国移动BOSS灾备系统的体系架构应按照BOSS系统建设的体系进行划分,即集团公司全国BOSS灾备系统和省公司BOSS灾备系统或区域级灾备系统,采用两层的结构体系,如下图所示:集团公司BOSS系统广域网省级BOSS灾备系统省级BOSS系统区域级BOSS灾备系统第二级第一级集团公司BOSS灾备系统图3.2 BOSS灾备系统两级结构示意图第一级:集团公司全国BOSS灾备系统,负责中国移动集团公司的BOSS系统的容灾建设;第二级:省公司BOSS灾备系统或区域级的BOSS灾备系统,根据中国移动BOSS灾备系统的规范要求,负责本省市/自治区的BOSS系统运行状况,或按业务量大小、自然环境等具体情况,几个省份一起实施区域级/BOSS灾备系统,构架区域级的灾备中心。3.3. 网络拓扑其中省公司业务连续性系统网络拓扑结构如下图 3.3所示:注:图中的DWDM只是主中心和灾备中心之间传输手段的示例图3.3 省公司业务连续性系统网络拓扑结构4. 灾备系统的分阶段发展目标4.1. BOSS灾备系统的近期发展目标中国移动BOSS灾备系统的近期发展目标如下: Ø 在与原有BOSS机房不同的局址设置灾备系统,原则上实现现有BOSS系统(BOSS 1.5及以前)的关键业务应用级数据级容灾,对无法抗拒的严重灾难,提供系统恢复机制,将灾难引发的业务损失降低到可接受的程度。对有条件的省份可以考虑全业务的应用级容灾。Ø 减少计划性停机对系统服务的影响。Ø 将异地中心接管业务的时间控制在可以接受的范围内。Ø 尽量实现异地中心的软硬件设备和数据的复用。4.2. BOSS灾备系统的中远期发展目标Ø 进一步完善BOSS灾备系统,逐步增加BOSS其它业务功能和新业务模块的容灾。Ø 实现新版BOSS的灾备备份功能。Ø 实现灾难的事后处理向预防性控制的转变。Ø 建立和完善容灾系统的管理机制和管理流程,使容灾系统成为一套具有良好风险抵御能力的IT支撑系统。Ø 最终实现BOSS系统的业务级容灾。5. 灾备系统的发展策略为了顺利实现BOSS容灾系统的发展目标,在BOSS容灾系统的建设和完善过程中,应遵循以下发展策略:(1)设定明确、可实现的目标,循序渐进。灾备系统是一个十分复杂的系统,也是一个需要不断随BOSS系统发展的系统,一蹴而就是困难的。为保证在一定的投资规模和实施周期内完成灾备系统的建设,容灾项目的业务恢复目标和范围必须是可实现的和明确的,这样既可节省建设投资,又可以缩短建设周期。(2)注重投资效益,尽量发挥容灾系统的生产职能,提高系统资源利用率,有效地降低投资成本。容灾系统的发展,应和BOSS系统一样,在节约投资、节约成本的原则下进行。应充分发挥所购买设备的能力,同时采用流程优化等措施,降低容灾系统的运营成本。容灾系统内的数据尽量能够充分利用,例如用于统计报表、用于经营分析系统数据的抽取、统计报表等,从而减轻生产中心的压力,提高容灾系统的资源利用率。(3)不能因为容灾系统的建设而放松对生产中心的安全可靠性要求。容灾切换是一个十分复杂的过程,风险也比较大,即使容灾系统建成后,也尽量减少切换次数,除了不得不切换或规定的切换演习等情况。如果生产中心有故障,也尽可能的采用本地恢复的方法,所以生产中心的安全可靠性仍然是必须坚持的原则。(4)平滑过渡策略,包括保持现有服务的延续性和系统的平滑升级。保证业务系统的连续性和稳定性也是需要注意的一个原则。为了配合容灾系统的部署,现有BOSS系统的改动、升级是不可避免的。然而,灾备系统的部署应当尽量保持已开展业务的延续性,尽量不牺牲原有BOSS系统的平稳性。(5)结合中国移动IT支撑系统资源整合的原则,坚持“统一的传送承载平台、统一的系统安全机制、统一的系统管理机制”。容灾系统的广域网应遵循企业的统一规划、统一调配和统一管理。容灾系统的安全应进行体系化的整体设计和实施,应和整个业务支撑系统统一部署,统一安排。采取相对集中的管理模式,通过集团对各省公司提供规范的应用系统和应用体系的管理及标准化和规范化的支持和服务,形成统一的系统管理机制。(6)加强系统集成商/软件开发商的有效管理,建立新型的合作伙伴关系或战略联盟,保证系统的持续发展。随着BOSS和容灾系统的发展,企业和用户对BOSS系统的要求越来越高。将来的系统对集成商/软件开发商的要求也会越来越高。要保持业务支撑系统的健康发展,集团公司必须加强对这些厂商的有效管理或合作,使中国移动和集成商/开发商共同进步,以确保中国移动业务支撑系统在业界的领先地位。6. BOSS容灾备份系统的总体实施原则6.1. BOSS容灾备份系统的组成和现有的BOSS系统一样,BOSS容灾备份系统是基于计算机网络及相关应用技术、用以提高中国移动业务运营支撑系统可用性的综合系统。省公司BOSS系统的容灾备份系统由灾备中心系统和与灾备中心相联的广域网接入组成。如果从工程建设的角度来看,BOSS容灾备份系统主要包括五个部分: 网络互联设备(包括局域网和广域网设备) 主机/服务器设备 存储备份设备(包括磁盘阵列、磁带库等) 应用平台(数据库等) 应用软件系统,包括用于容灾的应用软件和BOSS业务的应用系统(如果建设应用级灾备系统)6.2. BOSS系统灾难种类分析(风险分析)BOSS系统可能面临多种风险和可能的灾难因素,从类型上可以大致分为自然灾害和人为因素;从发生的概率看可以分为比较可能、可能、基本不可能等,本文件把BOSS系统可能遇到的风险或灾难分为1(比较可能)、2(可能)和3(基本不可能)三种级别,具体分析如下表:灾难分类表表6.1 风险级别序号123备注1建筑物结构性破坏、水管爆裂、火灾等环境紧急事件(污染等)战争2人为破坏/过失(对公司不满的员工,外部黑客,计算机病毒等)城市事件(动乱、罢工等)3升级、检修等计划性宕机社会性恐慌4设备、软件瘫痪地震5基础设施故障(电源、空调故障)气候灾难(台风、洪水等)6恐怖主义以上列出的灾难因素分析仅作一般性参考,根据中国移动各省的具体情况(地理,人文,社会环境等),有待进一步针对性地细化。中国移动容灾备份系统的近期目标以可以抵御上表中风险级别为1的灾难为原则。6.3. 容灾备份的方式如果根据灾备中心的方式来分类,则灾备系统的基本设置方式可分为三种: 数据级容灾 应用级容灾 业务级容灾数据级容灾技术是异地容灾的最低级形式。在灾难发生时,不能保证业务的连续性,但可以保证数据不丢失(如果技术得当)。应用级容灾可以实现关键业务模块或全部业务模块的异地业务连续性。应用级容灾一般不改变原有的业务处理逻辑,基本上是原有系统的一个COPY。在系统未发生切换前,不提供业务功能的支持。业务级容灾为保证业务连续将改变不同的业务实现逻辑和实现路径。在系统未发生切换前,仍可以提供与生产系统不排斥的部分业务功能。按照近期容灾系统的建设原则,各省容灾系统的在近期内应以关键业务应用级数据级容灾考虑。即对关键业务如营帐、计费等系统应设置应用级容灾,非关键业务暂以数据级容灾考虑。详见容灾备份中心的功能范围分析一节。另外,是否就某项业务或功能设置容灾,还要考虑容灾条件是否具备,例如对于银行联网系统,应该也属于关键的业务,但局限于银行方面是否愿意配合等原因,目前可以暂时不考虑其容灾。按备份系统的准备程度或运行状态,可将其分为冷备份、温备份和热备份三大类。6.4. 灾备中心的功能范围如果设置BOSS系统的应用级灾备系统,其业务功能应该是原来BOSS系统的部分或全部。按照BOSS(1.0)系统的相关规范,BOSS系统可分为7个模块:数据采集、计费、结算、帐务、客服、业务管理及系统管理。如果再加上统计分析模块,应该有8个模块。6.4.1. BOSS各业务容灾需求的分析业务需求分析(BRA)的目的是,通过对相关业务部门的要求进行收集、整理,分析业务中断影响的严重程度,并据此确定解决问题的优先级,按照问题的轻重缓急来指导业务连续性策略和方案的设计和实施。各种业务或数据的关键程度及业务连续性的要求可以由如下几方面来确定:Ø 业务运行的特点Ø 系统故障对业务的影响程度Ø 数据的重要性Ø 数据的实时性要求Ø 数据量的大小Ø 可容忍的灾难恢复时间:可用恢复时间目标(RTO)来衡量Ø 可容忍的灾难恢复程度:可用恢复点目标(RPO)来衡量恢复时间目标(RTO):一个业务部门在由于业务所依赖的IT支持系统发生故障而造成业务中断后,必须在多长时间内予以恢复。对一个确定的RTO的支持程度可以用来衡量业务连续性的相关技术。恢复点目标 (RPO):确定信息(例如电子数据和/或纸质数据)必须在设定的RTO内恢复到哪个时间点的信息,以确保业务职能顺利运作。通常对RPO的支持水平用于衡量和数据恢复有关的业务连续性技术。参考容灾系统的相关规范,我们将BOSS系统各种业务或数据的容灾需求从如下几方面来分析确定:Ø 系统故障对业务的影响程度Ø 数据的重要性Ø 容灾恢复级别6.4.1.1. 业务影响根据系统受到各种灾难风险威胁后,可能出现的对BOSS各种业务系统的影响进行科学的分析,可以反映出灾难性中断对不同业务的影响程度。根据容灾相关规范,将业务影响级别从低到高定为5个等级,其中1级为最高级别:A) 可以忽略(5级)B) 一般性影响(4级)C) 影响(3级)D) 较严重影响(2级)E) 严重影响(1级)考虑到容灾系统的建设的循序渐近原则,建议各省对于业务影响级别1级和2级的业务系统考虑纳入容灾的范围,对于3到5级的业务系统基本应考虑本地恢复为主。6.4.1.2. 数据的重要程度某数据的重要程度反映了该项数据对BOSS系统的重要性。这里将数据的重要性从低到高定为5个等级,其中1级为最高级别:A) 可以忽略(5级)B) 一般性数据(4级)C) 较重要的数据(3级)D) 重要数据(2级)E) 最重要的数据(1级)近期内,建议各省将数据重要程度为1级和2级的业务系统纳入容灾的范围。6.4.1.3. 容灾恢复级别根据不同业务的重要程度,我们采用对容灾系统恢复时间的要求来衡量容灾级别。从低到高分为5个容灾恢复级别,其中1级为最高级别:A) 可恢复,但无时间要求(5级)B) 1天恢复(4级)C) 8小时内恢复(3级)D) 4小时内恢复(2级)E) 30分钟内恢复(1级)各省的具体需求可能会有差异,我们在这里就一些典型省份的典型业务进行分析,如下表。BOSS各业务功能容灾需求汇总表 6.2业务功能业务种类业务影响程度数据重要程度容灾恢复级别备注计费处理采集2级2级2级数据传输2级2级2级预处理2级2级2级批价2级2级2级高额处理2级2级2级结算处理漫游结算2级2级2级网间结算4级2级4级帐务处理帐务数据采集2级2级2级固定费用计算2级2级2级帐务优惠2级2级2级帐单合成2级2级2级信用数据接口2级2级2级销帐数据接口2级2级2级帐务处理监控2级2级2级帐务管理销帐管理2级2级2级欠费管理2级2级2级帐单管理2级2级2级帐务核算2级2级2级帐务结算2级2级2级收入核算2级2级2级客服业务业务受理1级1级1级网上营业厅2级2级2级银行联网2级2级2级缴费卡、联机指令2级2级2级查询服务2级2级2级客户交费1级1级1级推介咨询2级2级2级申告投诉2级2级2级客户建议2级2级2级终端维修2级2级2级信息发布2级2级2级预约服务2级2级2级业务管理资源管理3级3级3级资费管理2级2级2级信用控制2级2级2级客户管理3级3级3级大客户管理3级3级3级代销商管理4级3级4级统计分析计费统计3级3级4级结算统计3级3级4级营业统计2级2级3级帐务统计2级2级4级监控统计3级3级4级其它统计3级3级4级系统管理组织人员管理4级4级5级系统监控4级4级5级操作日志管理4级4级5级系统备份4级4级5级升级管理3级3级5级6.4.2. 灾备中心的功能范围对于要设置应用级容灾的省份,从上表可以看出,在上述BOSS系统的各个模块功能中:(1)营业受理,客户(营业厅)缴费模块,属于容灾恢复级别为1的业务,且业务连续性要求最高。如果要设置关键应用级容灾中心,首要考虑的应该是这些业务,即其应用软件功能在灾备中心应该设置。(2)计费、帐务,客服中的查询、投诉、网上营业厅、银行联网接口、缴费卡系统等,业务管理、报表系统等上表中恢复级别为2的业务,对业务对业务连续性的要求次之,可以短时期内中断,但这些业务的对于BOSS系统来说十分重要,例如计费,是营帐等系统的基础,所以这些业务也应设置应用级容灾。但考虑到银行联网系统可能牵扯到和各大银行之间的协调和配合,在系统建设时再根据实际情况考虑。(3)网间结算功能,对业务连续性的要求不高,本期工程可以暂不考虑应用级容灾的容灾。以后,根据业务的发展的情况再酌情考虑。但是,虽然这些业务的业务连续性要求不高,这些数据却是重要的数据,应考虑其数据级容灾。 BOSS系统作为关键任务系统,其数据不应该丢失。虽然不是天天都需要结算,但如果发生火灾之类的毁坏硬件设备(包括盘阵和磁带库)介质的灾难,结算数据就几乎无法恢复。所以这些数据的数据级容灾可以将灾备系统提高到一个抵御建筑物毁坏的容灾级别。(4)至于系统管理模块,其数据的重要性和业务连续性的要求均不高。所以建议目前暂不考虑其容灾问题。况且,BOSS网管系统将来还要建设,那时会考虑主中心和灾备中心的统一监控和管理。综合以上分析,本文件建议将数据重要程度为3级以上的数据均设置容灾,其中,对容灾恢复级别为3级以上的业务应设置应用级容灾。6.5. 灾备中心的地点选择确定生产中心与异地中心之间的距离和地点是灾备系统建设方案选择的一个重要部分。从目前其它行业已实施的灾备中心系统,和业界能提供的产品和技术来看,目前的容灾距离有两种:几十公里以内,主要是同城市范围的容灾距离。几百上千公里距离,主要是不同城市间的远程备份。这两种情况的比较请见附件七。这里不再赘述。总之,在同城市内建立灾备中心,一般可以直接利用市内光纤、城域网等传输手段实现,不需要经过长途电路来传输容灾数据,减轻了项目实施的难度。同时,在同城市内建灾备中心,对省中心的管理协调、人员组织、技术支持等也带来方便,减少企业运营的费用。但是,对于自然灾难事件的发生,如地震,同城灾备中心不能起到容灾作用。根据中国移动BOSS系统容灾备份技术规范的要求,异地中心的选择应遵循如下原则:(1)应符合数据中心的需求,主要包括:符合数据中心机房的环境要求、本地伺服电力设备和配线基础设施满足要求、网络出口完备、技术支持可用等。(2)回避潜在危险,主要避免如邻近污染源、邻近电磁干扰源、生产中心位于同一性质的地域(如,同为相同功能的区域-政治中心、金融中心、商业中心等)等因素。6.6. 灾备中心的系统规模估算6.6.1. 灾备中心存储能力估算不管设置应用级或数据级容灾备份系统,备份中心的数据存储量差异不大。根据附件中的估算,如果满足到2005年,在同级克隆或升级克隆的情况下,每100万用户所需要的联机存储空间约4TB6TB(包括相关新业务所需要的空间)。这是一个较大的数据量,如果想减少投资,我们可以将联机存储数量减少,例如把联机存储61个月,改为31个月,这样可减少约40%的联机存储量,每100万用户需要的联机存储容量可减少为2.43.6TB。6.6.2. 主中心和灾备中心间的传输带宽估算根据附件中的相关估算,一般情况下,如果为1个300万用户的BOSS容灾,需要一主一备2条41Mb/s的容灾传输带宽。这个带宽需求目前对中国移动各省都不是难题。6.7. 容灾备份系统的设置模式依据生产中心与异地灾备中心之间的