业务平台集中监控平台介绍电信.ppt
业务平台集中监控系统介绍,天讯瑞达通信技术有限公司徐高平2008年10月,公司简介,天迅瑞达由原广东天讯和广州瑞达于2008年4月合并成立,隶属中通服;注册资金1亿元,年业务收入超5亿元;总部设在广州,在全国范围内设有六大区域中心和3个分公司;员工约1100名,其中软件开发工程师超过500人。,销售,开发,设计,服务,BOSS,公司定位,运营支撑系统(OSS)领域规范,中国电信本地网集中告警需求规范2004年、2005年大客户业务质量实时监视系统规范2005年CTG-MTAI 多业务告警适配层规范2006年陕西电信本地网集中告警规范2007年中国电信OSS研究2.02007年中国电信业务平台集中监控系统规范2008年中国电信CTG-MBOSS服务开通、施工调度部分、综合网络激活部分规范2008年,系统介绍目录,业务平台集中监控系统,运营支撑系统(OSS)的发展趋势,分散管理:1、各业务平台对自身实现简单的系统管理功能2、管理功能手段参差不齐,集中管理:1、集中实现对所有业务平台的统一管理2、对所有业务平台提供相同的管理功能手段,独立管理:1、主要针对基础硬件、基础软件的状态进行简单查询2、对业务应用功能停留在单点测试的水平上3、无法掌握业务平台的完整状态,综合管理:1、关注应用软件、业务功能的状态巡检2、提供对业务流程的完整拨测功能3、从局部到整体对业务平台的状态进行监控,分级管理:1、系统分本地网、省级等级别建设2、对于跨本地网业务平台缺乏全省集中的管控手段,统一管理:1、建立全省集中的业务平台监控系统2、通过分权分域的方式向本地网用户提供服务,业务平台分类,彩铃平台短信平台智能网平台,商务领航平台号码百事通平台互联星空平台IPTV平台全球眼平台IDC平台,会议电视外包呼叫中心CDN平台新视通平台支付平台,软交换和预付费业务平台声讯平台移动ISMP平台,业务平台分类参考,传统增值业务平台,转型业务平台,主要业务平台列表,C网业务平台,C网短信平台C网互通平台在信网关平台,在信业务平台语音增值平台炫铃平台,业务平台维护手段现状,维护手段特点:仍然主要依靠厂家网管。业务平台数量较多的省份已建支撑系统的比例较大现有支撑手段的平台范围有限,监控对象不全,没有IT网络设备的监控等CDMA网络业务平台管理系统建设不完善、无法快速适应未来新建系统的管理,现状问题分析,场景展现,维护人员小李工作的一天8:00 提早上班,先检查昨天出过故障的A系统是否工作正常8:30 接到电话,B系统无法登录9:00 确认B系统的根目录空间满,导致系统运行不正常,删除日志文件并重启进程后恢复9:50 发现C系统和A系统无法互连,无法确定故障位置,打电话让C系统原厂商进行支撑10:30 C系统的厂商确认自身系统没问题,但A系统的厂商认为自身系统也无问题,各自重启接口进程后恢复。13:00 C系统和A系统的互连故障再次出现,再让两个原厂商进行调试14:00 发现故障原因是A系统的接口机负载过重,导致进程锁死15:30 进一步发现负载过重的原因是C系统对A系统的访问方式有BUG,访问结束后未能释放资源,结论,小李郁闷的一天疲于奔命头痛医头、脚痛医脚,无法确定故障的实际位置无法掌握业务系统的整体情况缺乏系统优化的依据,目录,业务平台集中监控系统,数据模型框架,业务,业务功能,基础设施,基础软件,应用软件,平台通用对象,配置数据,性能数据,告警数据,智能网平台,短信平台,彩铃平台,商企平台,全球眼平台,IPTV平台,号百平台,中国电信业务平台集中监控系统规范总体规范分册,数据模型框架针对C网业务的扩展,业务,业务功能,基础设施,基础软件,应用软件,平台通用对象,配置数据,性能数据,告警数据,移动短信平台,移动互通平台,在信网关平台,在信SP平台,语音增值平台,炫铃平台,数据的管理范围,基础设施,硬件,物理CPU,物理内存,硬盘,板卡,物理端口,服务器设备,专用服务器,服务器,操作系统,CPU,内存,存储卷,文件系统,网络连接,日志,软件,进程,群集软件,存储设备,磁阵,磁带机,磁带库,基础软件,数据库,共享内存,表空间,数据文件,后台进程,服务进程,日志文件,Web中间件,Web应用程序,数据库连接池,线程池,JVM,交易中间件,服务,应用软件,应用软件,运行进程,进程池,接口,应用数据文件,业务,业务功能,业务 业务流程,核心概念模型,业务:泛指面向社会提供的服务以及相关的社会活动。本业务是客户可以直接可见的,它和产品有密切的关系。,业务功能:是指客户非可见的或者客户不能直接购买的,与业务开展紧密相关的功能。业务功能体现了对于客户和业务的差异性功能。,业务平台:支撑业务运营,为业务运营提供相应的资源支持,包含软硬件的综合应用系统。,应用软件:指业务平台本身提供的软件实体(模块),它包含应用软件运行所需的进程、进程池、接口和重要的应用数据文件等。,基础软件:基础软件指的是业务平台的应用软件运行所必须的基础类软件。,基础设施:业务平台正常运作所必须的硬件设备,它可能包含部分与硬件结合紧密的软件实体。,目录,业务平台集中监控系统,功能视图,安全管理,测试管理,性能管理,故障管理,拓扑管理,统计分析,配置管理,系统管理,操作维护,应用功能介绍,故障管理,性能管理,资源管理,作业计划,快速故障定位_列表,快速故障定位_告警详情,快速故障定位_告警详情,快速故障定位_拓扑,快速故障定位_图层,快速故障定位_面版图,快速故障定位_ATM终端,快速故障定位_ATM终端,告警自动处理规则,处理经验检索(支持知识库搜索),对知识库进行搜索,检索故障处理、性能预警应急预案等知识,获取知识对知识库更新反馈,告警关联分析,应用功能介绍,故障管理,性能管理,资源管理,作业计划,性能采集配置_任务,性能采集配置_门限,性能实时监视,性能实时监视,性能分析,健康度评估,关注业务应用的状态基于历史数据建立业务状态模型健康度评估基于当前状态与业务状态模型的比较对业务状态模型进行修正真正反映业务平台的整体健康状态,获取关键点的状态信息,与日常平均值、历史峰值和设计容量值进行比较,评估业务平台的健康度,应用功能介绍,故障管理,性能管理,资源管理,作业计划,资源配置管理,子对象自动发现,应用功能介绍,故障管理,性能管理,资源管理,作业计划,作业计划定期巡检,巡检内容不仅仅限于基础硬件、基础软件层的数据采集巡检关注业务功能点通过一系列巡检结果,给出业务、业务功能的状态分析提供巡检结果的分析报表提供巡检的预警管理实现主动发现故障的目标,设定作业计划制定对关键点进行巡检,自动对关键点进行状态、性能数据采集,对巡检结果进行分析主动发现故障,定期巡检效果,人工巡检:1、每天需要人工抽检数百台机器,成本高,工作量大,不能全部机器进行巡检,难以实际完成作业计划2、每天需要登录服务器人工统计业务指标,定期巡检:1、系统可实时或准实时地对所有的机器进行监控,成本低,准确性高,可巡检所有机器。2、系统每天自动统计相关的业务指标,并对业务指标模型进行修正,局部范围:1、主要针对基础硬件、基础软件的状态进行简单查询2、对业务应用功能停留在单点测试的水平上3、无法掌握业务平台的完整状态,整体范围:1、关注应用软件、业务功能的状态巡检2、提供对业务流程的完整拨测功能3、从局部到整体对业务平台的状态进行监控,故障人工响应:1、故障预警手段薄弱,通常巡检或者出现故障时才发现,且存在遗漏的可能2、需要人工进行故障处理,处理较为缓慢。,故障自动分析:1、系统提供性能趋势分析等手段,在不错过任何故障的同时,还能够发现潜在故障2、系统提供自动化的故障恢复手段,提供故障处理时间。,巡检任务配置,巡检结果统计,目录,业务平台集中监控系统,软件技术架构,采集管理,适配平台,数据处理,请求处理,展示与交互平台,配置管理集成,客户端应用,WEB 应用,综合告警,大客户网管,业务平台集中监控,告警,性能,服务,资源,数据查询,数据操作,设备操作,目标寻址,数据处理与操作平台,A,C,B,D,E,其他应用系统,F,G,其他应用系统,H,展示层,分析层,采集层,网络技术架构,系统目标,标准化、精确化、灵活性强,业务平台集中监控,覆盖整体,故障定位,实时监控,适应发展,面向业务,集中管理,场景再现,小李愉快的一天8:30 准时上班8:40 查看业务平台的整体状态,发现B系统根目录空间预警,清理日志文件后,故障清除9:30 发现A系统接口机负载持续上升,电话要求原厂商进行检查9:50 A系统厂商发现是因为C系统访问接口的方式存在BUG,造成故障10:00 将C系统的接口进程暂停,并要求原厂商对其进行处理。12:00 中饭前开启系统整体巡检并生成报告13:00 设定故障短信通知规则,去参加会议,结论,小李愉快的一天从容不迫迅速掌握故障位置和影响范围实现对业务系统整体的监视和管理量化的系统优化决策支持,目录,业务平台集中监控系统,技术服务体系,案例分布,江苏电信云南电信贵州电信湖北电信宁夏电信甘肃电信浙江电信江西电信陕西电信,优势总结,符合标准,技术开发能力,接口适配能力,固网业务,制定规范,项目管理能力,应用扩展能力,移动业务,电信级软件,实际案例经验,自主知识产权,金融业,规范、产品、经验、服务,问题与讨论,天讯瑞达与运营商一起成长,