成果上报申请书BOSS系统高可用性能力提升项目.doc
《成果上报申请书BOSS系统高可用性能力提升项目.doc》由会员分享,可在线阅读,更多相关《成果上报申请书BOSS系统高可用性能力提升项目.doc(27页珍藏版)》请在三一办公上搜索。
1、附件1:成果上报申请书成果名称BOSS系统高可用性能力提升成果申报单位成果承担部门/分公司项目负责人姓名成果专业类别*支撑网成果研究类别*现有业务优化省内评审结果*通过关键词索引(35个)业务支撑网;BOSS;电信级 文章摘要(200字左右):在市场竞争激烈、以客户为导向的今天,业务的发展、市场的开拓和客户满意度的提升等方面对业务支撑系统提出了更高的要求。对中国移动广西公司来说,提升系统的可靠性和可用性,构建电信级的业务支撑网系统,已成为增强企业核心竞争力、提升客户满意度的重要手段。BOSS系统做为业务支撑网的核心系统,系统庞大、架构复杂,自BOSS1.5上线以来,系统就一直受到稳定性差,故障
2、频发且故障引发业务中断时间长的困扰。本项目将以科学的方法和手段深入分析目前系统症状,找出对策,以7X24小时不间断可用服务电信级BOSS系统为目标,通过对系统逐步实施改造、优化,逐渐提高BOSS系统的可靠性和可用性,探讨如何持续渐进的建设电信级的业务支撑系统的思路。 省内试运行效果(300字以上):从2007年4月份开始实施,截止到9月底取得的效果:1、系统平台层面l 营业系统:提升营业数据库、中间件的处理能力,解决营业数据库RAC在节点主机宕机时不能正常互为接管问题。l 客服系统:完成了网络优化改造和客服数据库单点故障改造。l 帐务系统:提升帐务应用、数据库的处理能力,完成帐务数据库单点故障
3、改造。l 计费系统:完成扩容提升计费系统的处理能力。l CBOSS:完成BES配置集群、建立CBOSS应急系统。l PRM/CHANNEL:完成从营业中间件分离出来,消除单点故障隐患。l 结算系统:完成主机迁移提升系统处理能力,消除单点故障隐患。l 即开即通:配置了双机,负载均衡,完成了全区BOSS到HLR的备用路由的开通,通过路由切换脚本完成主备路由切换,主路由实现冗余,整个系统完成了消除单点故障的改造。l 二卡合一:配置了双机,负载均衡,消除消除单点故障。2、维护管理层面l 完善并演练了各子系统的应急预案,其中做为核心系统的营业系统的中间件在数据库后台之间的应急方案切换速度由原来的2个 多
4、小时缩短到30分钟左右。l BOSS网管本地化需求已完成部分功能,监控手段、维护流程得到进一步完善。3、系统实施改造后,不管是故障次数、故障影响业务时长均比上半年有了明显下降。 文章主体(3000字以上,可附在表格后):根据成果研究类别,主体内容的要求有差异,具体要求见表格后的“填写说明”。文章主体:一、项目简介(一)项目背景在市场竞争激烈、以客户为导向的今天,业务的发展、市场的开拓和客户满意度的提升等方面对业务支撑系统提出了更高的要求。对中国移动广西公司来说,提升系统的可靠性和可用性,构建电信级的业务支撑网系统,已成为增强企业核心竞争力、提升客户满意度的重要手段。BOSS系统做为业务支撑网的
5、核心系统,系统庞大、架构复杂,自BOSS1.5上线以来,系统就一直受到稳定性差,故障频发且故障引发业务中断时间长的困扰。本项目将以科学的方法和手段深入分析目前系统症状,找出对策,以7X24小时不间断可用服务电信级BOSS系统为目标,通过对系统逐步实施改造、优化,逐渐提高BOSS系统的可靠性和可用性,探讨如何持续渐进的建设电信级的业务支撑系统的思路。 (二)项目实施过程1、首先提出了电信级BOSS系统的定义参照对电信级网络的定义,提出了电信级水平的BOSS系统的定义:电信级BOSS系统可认为与电信级网络相对应,是以可运营为核心,提供7X24小时不间断可用服务的业务支撑系统。应具备以下特性:l 高
6、可用性(Availability):可以提供长时间不中断的、可用的服务;l 高可管理性(Serviceability):基于标准技术,可进行远程的故障管理、性能管理、配置管理、安全管理;l 高可扩展性(Scalability):支持平滑单点容量上的扩展性和多点地域上的扩展性;l 高安全性(Security):具有较高的安全特性。2、总体思路在对电信级BOSS系统逐步认识和探讨的基础上,提出建立相关科学的评估方法和模型,通过对BOSS系统现状分析、改造、完善等阶段逐步向电信级水平的BOSS系统演进,进而提高BOSS系统的高可用性。进而并把相关的方法、经验用于指导日后BOSS系统的滚动建设。3、实
7、施过程简介(1)2007年4-5月,提出电信级BOSS系统定义,探讨、建立相关科学的评估方法和模型,据此对BOSS系统现状分析,从系统平台、应用系统、开发测试、日常维护管理等多个维度对目前的BOSS系统进行普查、分析,找出关键问题、缺陷所在。(2)2007年6-9月,根据分析出的问题、缺陷,结合现实条件,对已具备条件的,立即着手制定方案实施优化改造;对还未具体条件的,制定策略方案后续实施,完成第一阶段系统平台层面的实施改造。l 通过BOSS2.0工程、客服系统网络扩容改造工程、统一开通应急、CBOSS应急、二卡合一应急等维护项目来重点完善原系统的设计缺陷,解决性能瓶颈、单点故障问题,提高故障反
8、映和处理速度;l 通过BOSS测试系统扩容改造工程,为BOSS应用软件的在软件生命周期的各个阶段开展提供基本的质量保证。加强了各工程的压力测试和异常测试。l 通过演练来不断完善各子系统系统应急预案,熟悉应急流程,积累应急经验。l 加强监控手段,完善维护流程。l 建立了定期系统分析、维护机制以及定期与集成商沟通交流机制。l 完成了中间件在应用级的动态均衡优化测试,为下一步实施奠定基础。(3)2007年1011月,实施应用层面的优化改造,实现BOSS系统应用的动态均衡负载,真正实现应用的高可用性。(三)项目创新性1、首次提出了电信级水平的BOSS系统的概念和定义。2、提出了评估电信级BOSS系统高
9、可用性的科学方法。3、提出了建设高可用性BOSS系统的思路,用于指导对现有系统的改造和日后BOSS系统的滚动建设。4、提出了中间件在应用层面的真正做到动态均衡优化的解决方案。(四)项目实施效果从2007年4月份开始实施,截止到9月底取得的效果:1、系统平台层面l 营业系统:提升营业数据库、中间件的处理能力,解决营业数据库RAC在节点主机宕机时不能正常互为接管问题。l 客服系统:完成了网络优化改造和客服数据库单点故障改造。l 帐务系统:提升帐务应用、数据库的处理能力,完成帐务数据库单点故障改造。l 计费系统:完成扩容提升计费系统的处理能力。l CBOSS:完成BES配置集群、建立CBOSS应急系
10、统。l PRM/CHANNEL:完成从营业中间件分离出来,消除单点故障隐患。l 结算系统:完成主机迁移提升系统处理能力,消除单点故障隐患。l 即开即通:配置了双机,负载均衡,完成了全区BOSS到HLR的备用路由的开通,通过路由切换脚本完成主备路由切换,主路由实现冗余,整个系统完成了消除单点故障的改造。l 二卡合一:配置了双机,负载均衡,消除消除单点故障。2、维护管理层面l 完善并演练了各子系统的应急预案,其中做为核心系统的营业系统的中间件在数据库后台之间的应急方案切换速度由原来的2个 多小时缩短到30分钟左右。l BOSS网管本地化需求已完成部分功能,监控手段、维护流程得到进一步完善。3、系统
11、实施改造后,不管是故障次数、故障影响业务时长均比上半年有了明显下降。二、项目详细内容1、立项背景 在市场竞争激烈、以客户为导向的今天,业务的发展、市场的开拓和客户满意度的提升等方面对业务支撑系统提出了更高的要求。对中国移动广西公司来说,提升系统的可靠性和可用性,构建电信级的业务支撑网系统,已成为增强企业核心竞争力、提升客户满意度的重要手段。BOSS系统做为业务支撑网的核心系统,系统庞大、架构复杂,自BOSS1.5上线以来,系统就一直受到稳定性差,故障频发且故障引发业务中断时间长的困扰。下图为2007年上半年故障和投诉情况统计:可以看到:l BOSS系统稳定性差、故障频发且影响业务时间长。l 上
12、半年BOSS系统的故障主要集中在营业系统、二卡合一、CBOSS等关键系统上。l 上半年,BOSS系统出现不稳定以及不同程度的退服情况,造成批量投诉情况发生的次数以及人数均有较大幅度的上升。本项目将以科学的方法和手段深入分析目前系统症状,找出对策,以7X24小时不间断可用服务电信级BOSS系统为目标,通过对系统逐步实施改造、优化,逐渐提高BOSS系统的可靠性和可用性,探讨如何持续渐进的建设电信级的业务支撑系统的思路。 2、详细技术内容项目目标:提升BOSS系统的高可靠性和高可用性;探索如何持续渐进地向电信级水平的BOSS系统演进。项目实施思路:1、按业务关键程度进行梳理,从系统平台、应用系统、开
13、发测试、日常维护管理等多个维度对目前的BOSS系统进行普查、分析,找出关键问题所在。2、根据分析出的问题、缺陷,结合现实条件,对已具备条件的,立即着手制定方案实施优化改造;对还未具体条件的,制定策略方案后续实施。3、第一阶段主要针对系统平台层面进行优化改造,重点解决解决性能瓶颈、单点故障问题;制定应急措施,完善应急预案。一、理论研究提出了电信级水平的BOSS系统的概念和定义及对电信级BOSS系统高可用性的评估方法和模型。(一)电信级BOSS系统参照对电信级网络的定义,电信级BOSS系统可认为与电信级网络相对应,是以可运营为核心,提供7X24小时不间断可用服务的业务支撑系统。应具备以下特性:l
14、高可用性(Availability):可以提供长时间不中断的、可用的服务;l 高可管理性(Serviceability):基于标准技术,可进行远程的故障管理、性能管理、配置管理、安全管理;l 高可扩展性(Scalability):支持平滑单点容量上的扩展性和多点地域上的扩展性;l 高安全性(Security):具有较高的安全特性。1、可用性可用性是一个统计概念,具体计算方法是:系统可用性(Availability)= MTBF/(MTBF+MTTR)其中:MTBF指平均无故障时间,MTTR指平均故障修复时间。高可用性对于业务支撑系统非常重要。具体体现为可长时间不间断的提供服务。设备的高可用性是
15、设备软硬件架构和功能模块可用性的综合,主要影响对象包括:(1)硬件(2)操作系统(3)中间件(4)数据库(5)应用软件。系统的高可用性是通过高可用性组网技术实现。2、可管理性可管理性对于运营商网络至关重要。电信级网络应当提供符合中国移动标准接口和标准协议的远程故障管理、性能管理、配置管理、安全管理等功能。电信级网络中的网元设备应支持开放标准管理接口连接集中网络管理系统。3、可扩展性设备应支持设计规格范围内的线性扩展能力。在规格扩展范围内,系统性能不足时,可在纵向通过增加硬件模块、软件模块扩展系统的处理能力,也可在横向通过集群、47层交换等方式增加系统的可扩展性。4、安全性系统安全性包括网络安全
16、、主机安全、操作系统安全、数据库安全、应用安全等等,电信级BOSS系统应从组网和设备两个层次对安全性进行要求,以保证电信级电信级BOSS系统和设备在管理面、控制面和数据面的安全,并符合萨班斯法案的要求。(二)、电信级BOSS系统可用性评估评估方法重点用于对业务支撑系统进行电信级评估,作为优化系统结构、提高系统可用性的基础。采用分层的方法对系统进行解析、评估,针对每一层次分别进行分析和要求,再将低层次拼装为高层次系统。支撑业务系统可按业务提供粒度划分为3个层次,如图2-1所示:业务整体方案层:指整个BOSS系统在全区范围内的部署方案,包括各子系统节点间的逻辑路由策略、异地容灾保护等。业务系统层:
17、指能够独立完成某项业务的本地站点,以及业务系统内部完成某类业务流程中一个独立功能环节的软硬件综合体,如:营业系统、客服系统等。物理设备层:业务系统内部每一个有独立物理封装的设备、设备群及在设备上安装的系统平台软件,如:主机、防火墙、双机集群、ORACLE RAC等。图2-1 系统层次结构图在电信级BOSS系统特征中,最重要的特征是可用性。系统的整体可用性体现在系统从微观到宏观的多个层面,保证电信级BOSS系统需要对系统中各个层面进行全面评估。采用自底向上的研究方法,分物理设备层、业务系统层和业务整体解决方案层三个层面,在各层定义不同粒度的可用性指标,分别进行建模,进而在此基础上进行可用性综合评
18、估。物理设备层:从物理设备故障概率的角度分析可用性。业务系统层:用随机Petri网重点分析典型的逻辑系统:集群系统、双机备份等,分别进行建模并进行定量分析。对于给定拓扑的业务系统,可通过业务流程和物理设备层、业务逻辑设备层的模型求解,定量的对业务系统进行可用性分析,得到整个系统的平均无故障时间,评估响应时延等指标。业务整体方案层:主要涉及业务在各子系统节点间的逻辑路由策略、异地容灾保护等。1、可用性评估方法(1)业务整体方案层可用性系统的可靠性计算很大程度上取决于系统故障定义。系统故障定义不同,算法也不同。比如,系统中某些单元故障将导致整个系统瘫痪,而某些单元故障只会导致系统部分功能丧失。根据
19、Bellcore SR-TSY-001171以及TL9000中的相关定义,系统级故障基本可以分为两大类:TSD(Total System Downtime)和PSD(Partial System Downtime)。计算系统的可靠性/可用性指标主要是计算各个Di(第i个单元的年中断时间Downtime)。首先需要进行一个简单的故障模式影响分析,以确定系统各组成单元中,哪些会引起系统TSD,哪些会引起PSD。然后主要的任务就是计算这些单元的Di。根据上面提供的故障定义,明确对BOSS系统可用性指标的定义。将整个系统的各种故障分别列出,然后根据故障的影响分别计算出单个故障的Di。参照通信设备业界网
20、上运行数据统计方法标准TL9000,对于BOSS系统的可靠性指标,采用如下的统计方法:其中:整个系统的年中断时间;第i个节点的年中断时间;第i个节点故障所影响容量;整个系统的总容量;n系统中设备的台数。(2)业务系统层可用性由业务逻辑设备组成高可用性的业务系统,主要是减少业务逻辑间的耦合性,增加冗余业务流程来实现,使得某个业务逻辑设备的单点故障不影响其它业务逻辑的功能,业务网逻辑设备的切换不影响其它业务逻辑。在业务系统的设计中,应充分考虑增加串行业务流程的冗余度的同时,降低业务逻辑间的耦合性,以保证整个业务系统的高可用性。图2-2见图2-2所示,在业务流程中,至少存在一条冗余业务链路,当主业务
21、流程出现故障时(如A1B1C1),业务能自动切换到备用业务流程:A2B2C2,并且要求此切换对客户是透明的。存在双机切换的设备应该避免直接串联,而通过中间的非双机切换设备来进行故障隔离或交叉连接来实现故障隔离,减少业务网逻辑设备间的耦合,任何业务部件的故障切换,都不会引起其它业务逻辑的切换。而主业务流程中任何一个业务逻辑的故障,使其它业务流程也进行切换,从而整个业务流程从主业务流程切换到备业务流程,若每业务流程主备切换成功率为90,则整个业务流程切换成功率为:0.9*0.9*0.9=0.729,业务可靠性大大降低。(3)物理设备层可用性各层面可用性最终体现到物理设备可用性指标的获取,物理设备可
22、用性评估是电信级BOSS系统可用性研究的基础。设备层分为硬件和软件两部分,软硬件可用性在特性上具有很大差别:l 物理退化。软件不存在物理退化现象,硬件失效则主要由于物理退化所致。这就决定了软件正确性与软件可靠性密切相关,一个正确的软件任何时刻均可靠。然而一个正确的硬件元器件或系统则可能在某个时刻失效;l 复杂性。软件内部逻辑高度复杂,而硬件设备间的内部逻辑较为简单,这就在很大程度上决定了设计错误是导致软件失效的主要原因,而导致硬件失效的可能性则相对很小。l 唯一性。软件是唯一的,软件拷贝不改变软件本身,而任何两个硬件不可能绝对相同,概率方法更适合应用于硬件可靠性预测。由于上述种种原因,软件可靠
23、性比硬件可靠性更难保证。综合考虑软件失效和硬件失效,则系统可用度计算公式为:设备的可用性度量包括可用性评估和可用性预测。可用性评估指收集整理系统测试和系统运行期间得到的失效数据,并进行统计推理,断定系统当前的可用性。它是对从过去到当前点所得到的可用性的度量。其主要目的是评价当前可用性,并确定一个可用性模型是否为回溯的正确依据。可用性预测指利用可知的任何软件度量与规程确定未来软件的可用性。单一厂家提供的设备通常提供整个设备的可用度,可以以该数据作为可用性预测的依据,并在系统上线运行后对其故障情况进行统计,并根据统计数据进行可用性评估;对于软硬件由不同厂家提供的设备,则需要分别对其可用性进行预测和
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 成果 上报 申请书 BOSS 系统 可用性 能力 提升 项目
链接地址:https://www.31ppt.com/p-2395397.html