浙江移动——MISC OMC 维护经验介绍.ppt
MISC OMC(SOMP)维护经验交流,浙江移动通信公司,SOMP一期建设介绍,目 录,MISC OMC(SOMP)建设背景,目前,全国共建设完成了27套 MISC系统,作为数据业务管理平台,其重要性日益显著。MISC系统设备量多,结构复杂,不利于维护。因此如何提高和加强MISC系统的维护管理已成为当前需要迫切解决的问题。为此集团公司选择在浙江进行了MISC OMC-SOMP的开发试点工作。MISC OMC功能分两期实现,一期主要实现基本的告警监控和数据维护功能,开发工作从3月5日开始,历时2个半月终于在5月17日正式部署上线。,SOMP一期建设介绍,目 录,SOMP一期功能介绍,主要功能模块包括系统监控:拓扑视图、树型视图、实时告警、历史告警、告警规则设置性能管理:实时性能显示、历史性能查询、MISC性能指标统计报表:业务质量报表、系统运行报表、系统告警报表配置管理:MISC部署信息、MISC产品信息、MISC配置、WAP配制IP网络监测:WAP 业务跟踪、MISC业务跟踪权限管理个人资料管理,其中“系统监控”是使用最频繁,也是最实用的工具。它能在最短的时间内让维护人员了解系统的健康状况。,系统监控拓扑管理,拓扑管理截图,系统监控树型视图,告警的刷新、编辑,拓扑视图和树形视图的不同使用,拓扑视图和树形视图是系统监控的不同呈现方式,拓扑视图能展示系统的整体网络结构,能直观的反应告警或故障在网络中所处的位置,即使监控人员不是很了解系统的组成,也能迅速的判断告警或故障的位置,及时通知设备维护人员。但是由于空间的限制,拓扑视图所提供的信息是有限的,因此对于熟悉系统架构的维护人员,树形视图更为适合。因为树形视图能提供更全面的设备信息,不仅包括CPU、内存、磁盘空间,更包括了对部署在主机上的重要进程的监控(如包月话单进程、BOSS同步进程),数据库表空间、连接数等。,树形视图中对“应用监控”的使用,在树形视图中,有一项是“应用监控”。其原理是使用模拟消息从内网对业务或设备进行测试,比如对www portal、wap portal、sso登陆进行业务测试(比如从内网模拟用户访问WAP的首页地址:http:/10.203.25.1:18001的 消息包,测试反应结果),对MISC WebService 接口监控、MISC Socket 接口监控等,从测试响应结果和时长,从而判断业务是否正常。维护人员可以根据本省的实际需求来设置需要测试的接口和业务。模拟包的发送频率是可设置的(一般为5分钟)。对应用的监控能比较直观的反映业务使用是否正常(特别是WAP这类用户比较不敏感的业务),使维护人员能在用户投诉之前发现解决问题)。,通过“树形视图”对监控项的配置,对监控项和告警阀值的设置可以通过“树形视图”来实现。维护人员可以根据网络的实际情况,有选择地添加相应的设备或监测项,同时也能对告警的门限进行设置,方便了对网络系统的监测和管理。除了对系统常规的CPU、内存、磁盘的监控项外,设置对系统重要进程的监控,能让维护人员及时了解系统应用是否正常,比如在主机上的listener、outcom、monthfeereq、monthfeeresp等重要进程,特别是和DCS刷新相关的单点进程(如果部署在一台kernel上DCS服务端单点进程出现出现问题,就会导致整个系统的阻塞),系统监控告警管理,在“树形监控”中所列出的各台设备的告警将汇总到告警管理界面中呈现(这些告警同时也被送到IP网管)。通过“告警管理”中的实时告警查看当前需要处理的告警。维护人员可以通过“历史告警”对发生过的告警进行分类查询(按告警等级、告警设备类型等),通过历史告警的查询能让维护人员了解哪一类告警是频繁发生的,需要引起维护人员重视的,从而采取相应的解决措施。(如在历史告警中查询发现某台kernel的opt目录出现告警的频率很高,在分析后发现是系统日志没有被及时送到report主机,修改定时任务后,使告警频率明显减少。),告警管理截图,性能管理介绍,性能管理截图,性能管理介绍,MISC性能指标:和MISC实时性能是两个不同的概念,MISC性能指标反映的是MISC系统重要接口的业务性能指标,主要是鉴权/批加接口、服务定购接口、定购同步接口等重要接口的消息量和成功率,这些消息量的统计是通过计数器的方式实现的,反映的是当前系统的运行指标情况,统计的粒度从5分钟到1小时,可以设置。该指标是监控系统业务是否正常的重要手段,因为系统在设备硬件正常的情况下,也可能会由于软件运用的不正常引起业务流量或成功率异常,这些能通过性能指标及时得到反映。,统计报表(业务报表),业务报表包括鉴权成功率情况,鉴权失败的原因分布,维护人员通过对“非用户/SP原因引起的失败”进行分析,能及发现系统中存在的问题,比如9001错误、9005错误偏多,说明系统内部可能存在“阻塞”的情况,需要对系统进行优化。业务报表还包括了定购同步、定购/取消成功率、包月话单成功率等统计指标。业务报表能让维护人员对系统的整体业务量、业务分布情况、业务运行质量等全局情况有所了解。,统计报表截图,统计报表(系统报表),系统报表能帮助维护人员了解系统中不同类型消息的流量,系统忙时业务情况(24小时业务量分布),从而更好的核算承载消息的设备是否满足需求。维护人员可以灵活的选择某类网元的来进行统计,比如选择BOSS到DSMP发送/接收消息的总量、成功量、成功率。也可以选择某一类消息如鉴权/批价消息、定购同步消息、从而对各类消息进行细分,有针对性的对不同接口的不同消息进行优化,从而实现精细化维护。,统计报表(告警报表),告警统计能分日、周、月对不同类型的告警进行分类统计,使维护人员能对系统发生告警的频率、告警的类型、告警的设备等做出详细的统计,为日常维护重点提供参考。,配置管理,配置管理,通过MISC配置信息、部署信息维护人员能查询到目前系统中的主机的信息,包括主机的IP、内存、硬盘、存储空间、CPU等信息,以及业务程序的配置信息,比如分布在业务程序分布在哪些主机上,是负载均衡/主备还是单机等,包括承载这些程序的主机名称、主机IP地址、软件属性、运行状态。另外还包括了中间件的部署信息。这些产品信息使维护人员能随时了解设备情况,同时也减轻了报表上报时的统计的工作量。,配置管理截图,配置管理,配置管理中主要包括系统参数配置、局数据配置、数据库连接串配置等,由于大部分系统参数在系统建设初就是确定的,因此使用并不多。使用比较频繁的是局数据配置,特别是号段数据和网元数据,其中号段数据可以通过一定格式的文本文件导入、导出及查询功能,简化了维护工作。当新增短信网关、彩信中心时,则通过外部网元维护表、外部网元鉴权表进行数据的添加,同时还需要在startoutcomm.sh中增加对该网元发起连接的outcomm配置,并重启才能生效(目前这一步还没有在配置管理界面中实现,需要在主机上进行修改)。,配置管理(辅助工具),辅助工具包括:用户信息、定购关系查询DCS刷新管理反向定购管理外部网元流量控制业务点播超时设置业务跟踪工具 特别是用户信息、定购关系查询、业务跟踪在处理用户投诉上是十分实用的。(不过这里的业务跟踪接口仅限于鉴权/批价接口,且为实时跟着接口,不能对历史记录查询,如果要对历史消息查询,可以使用IP监测工具),用户信息查询页面(查询用户状态),用户信息查询页面(查询用户定购关系),DCS刷新页面,能对指定的主机和指定的数据表进行加载,当某个业务或某个用户数据在数据库中存在,而在系统DCS内存中不存在的时候可以对单个表进行刷新,更新DCS中的信息。,IP监测系统,IP监测目前包括WAP和短信跟踪两部分,是通过IP网络层镜像端口抓包的方式记录所有的交互消息,从而实行跟踪功能。WAP业务跟踪包括对首页访问、非首页访问、服务鉴权、服务定购等,维护人员能根据用户投诉的内容选择需要跟踪的消息。查询的结果能提供应答结果、访问时延、SP代码、业务代码等信息,便于维护人员处理WAP投诉和故障定位提供了便捷的手段。短信业务跟踪包括鉴权批价、服务定购、定购关系同步等。IP监测系统和辅助工具中的业务跟踪的最大区别是它能记录历史消息,同时能提供更全面的消息。,目 录,SOMP一期建设介绍,MISC OMC维护经验总结,MISC OMC一期由于开发时间短,很多功能(比如对系统队列积压数的监控、对外接口的监控等)都需要在二期实现。但是通过合理的利用目前已有的功能,已经能覆盖MISC的基础维护,确保系统的安全稳定运行。MISC是一套庞大的、功能复杂的系统,浙江公司希望和其它兄弟省共同交流探讨维护心得和维护经验,共同将MISC的维护工作做好。,感谢大家!,