基于Big Cloud的经分系统应用试验与落地.ppt
《基于Big Cloud的经分系统应用试验与落地.ppt》由会员分享,可在线阅读,更多相关《基于Big Cloud的经分系统应用试验与落地.ppt(48页珍藏版)》请在三一办公上搜索。
1、中国移动集团重点/联合研发项目结题汇报报告,项目名称:基于Big Cloud的经分系统应用试验与落地项目编号:,一.开题计划完成情况,目 录,二、主要研究成果(整合后),三、2011年工作展望,1.1 项目研究背景及意义,传统UNIX小型机+数据库的架构也可提供一定的扩展性,但软件和硬件在并行度大的时候都会出现效率上的衰减。分库的方案被越来越多采用,给数据共享、互通、运维带来一定复杂度,经分属于资源密集型系统,对存储和计算资源的需求量很大,目前约有62%的投入用于硬件投资挤压了原本应用于应用开发、咨询部分的费用,市场经营、企业管理和一线支持都越来越离不开经分及时性的保障。目前数据备份、恢复、容
2、灾等值得进一步探讨,1.2 项目研究目标,项目目标及意义,充分利用云计算“低硬件成本,高综合利用率,可扩展性强,高可靠性”的特点,优化经分现有技术架构和管理模式,为经营分析系统的IT基础平台构建提供理论及技术的支撑探索PAAS/SAAS等模式,研究在设备虚拟化管理、集成化开发平台和在线软件使用等方面的应用,为一经、南方基地等建设及试点项目提供基础,云计算技术带来的优势,集中部署,提供共享服务集中部署服务,运维简便;给多省公司提供服务提供及共享服务能力,低成本、高性能基于廉价的工业PC、虚拟化层及开源平台形成;具备海量数据存储、处理、分析能力,高扩展性随着节点数量增多,对数据处理的性能提升可达线
3、性,利旧能力强,扩容投入低,自主研发自主研发基于BigCloud平台,提供S/PAAS支持,平台及应用均可定制,支持第三方集成,获取层,应用层,数据层,访问层,结构化数据转换ETL,数据挖掘,云存储,网页分类,互联网信息收集,应用搜索,云数据库,前端展现,应用服务,数据封装,云备份,经分系统架构,数据集市,数据仓库,本项目探索的应用领域,经分云规划,1.3 项目研究内容,引入云计算扩展经分数据处理平台,逐步承担数据集市、数据仓库的ETL操作,减少数据库内转换,引入云计算扩展经分数据存储方法,替代低端磁盘阵列和磁带库等设备,承担近线、离线数据存取,经营分析系统引入云存储技术的研究及实现,引入云计
4、算丰富数据挖掘应用,基于云计算平台的数据挖掘工具优化及应用评估,河北公司基于云计算的经分ETL数据处理研究及实验,河南公司经分系统中云计算技术的拓展研究和应用,湖北公司基于云计算的数据挖掘应用,业支部/研究院云计算应用试验与落地业支部委托,研究院负责Big Cloud产品研发;探索云计算在经分系统中各领域应用,基于云计算平台的经营分析系统ETL数据处理研究(第二阶段),探讨基于云计算的数据挖掘工具支持经分挖掘主题的能力,1,2,3,4,5,6,7,BC-ONEST,BC-ETL,应用试点主要探讨云计算产品和现网系统对接、集成、改造的方案,产品研发,应用试点与落地,BC-PDM,已向技术部申请项
5、目调整,将子课题云数据库中SQL实现机制研究删除,1.3 项目研究内容-产品研发,BC-ETL,BC-PDM,基于环的可横向扩展的数据冗余调度策略多种访问接口,如SOAP/REST、FTP、HTTP、原生对象访问接口、标准文件系统接口支持,ETL新增:中文半字清洗;去极值、因子分析等数据探索新增:单变量分析、多变量分析等对SQL脚本的支持,算法新增:属性选择、回归树、CART决策树、CHAID决策树、社会关系网络算法支持PMML标准,产品研发,BC-oNest,1.3 项目研究内容-应用试点与落地,湖北公司,河南公司,河北公司,基于BC-PDM的云挖掘经营分析应用研究;基于BC-PDM研究可移
6、植的用户特征挖掘分析及应用方法和营销流程支持;基于BC-PDM研究网络信令分析实时性和时效性内容及其对实时营销的支撑。,云计算基础平台实验研究,包括经分系统的云存储、分布式数据库等实验评估;数据集市的云化探索。,探讨数据集市及ETL特征,基于云计算实现数据集市的ETL操作,并进行试验对比评估;探讨BC-ETL对数据集市及数据ETL的支撑能力,进行实验对比评估;研究BC-ETL系统与现有加载工具、数据仓库的集成与交互。,1.4 研究总体框架,经分系统应用试验,河北公司经分ETL数据处理研究及实验湖北公司基于云计算的挖掘主题应用主题河南公司经分云存储及数据集市的云化,数据挖掘工具库:挖掘应用的算法
7、工具 数据处理工具库:ETL数据处理工具对象存储系统:云存储工具MapReduce:MapReduce并行程序框架HyperDFS:海量数据的分布式文件系统CloudMaster:云计算平台系统管理,系统管理 CloudMaster,海量数据分布式文件系统HyperDFS,河南公司云存储试点,数据处理工具库BC-ETL,并行程序设计和开发环境MapReduce,湖北公司数据挖掘试验,河北公司ETL试验,“大云”平台层,河南公司云存储试验,数据挖掘工具库BC-PDM,对象存储系统BC-ONEST,1.6 项目研究实施情况,2010年5月,2010年7月,2010年9月,2010年12月,2010
8、年11月,基于Big Cloud的经分系统应用试验与落地,需求调研、培训,评审、结题,应用试验总结、结题,BigCloud平台研发应用平台部署,明确现网需求,应用平台部署应用系统开发,应用试验应用试验评估,应用试验支撑,项目准备阶段,项目实施阶段,后期相关工作,业支/研究院,河北,湖北,河南,该课题,在河北公司、湖北公司和河南公司的共同努力下,按计划完成了课题中包含的研究内容,输出的研究成果也达到了该联合项目“开题报告”中的具体要求和目标。,1.7 项目总体成果输出,应用系统及实验评估,技术报告及文档,基于云计算的经分系统ETL工具的可行性分析及技术方案(河北、业支/研究院)基于云计算的经分系
9、统数据挖掘应用主题技术方案(湖北、业支/研究院)经分系统云存储备份系统技术方案(河南、业支/研究院)其他文档:测试用例、测试报告、使用说明等(河北、湖北、河南、业支/研究院),经分系统并行ETL工具库应用实验(河北、业支/研究院)数据挖掘应用主题实验(湖北、业支/研究院)云存储备份系统应用试验(河南、业支/研究院),原型系统,基于Big Cloud的并行数据处理工具BC-ETL(研究院)基于Big Cloud的并行数据挖掘工具BC-PDM(研究院)基于Big Cloud的云存储系统BC-ONest(研究院),专利,数据处理方法、装置及系统(业支/研究院、河北、湖北)一种基于云计算的数据挖掘方法
10、、系统及装置(业支/研究院),一.开题计划完成情况,目 录,二、主要研究成果(整合后),产品研发成果,应用试点与落地成果,三、2011年工作展望,2.1.1 BC-ETL研发研发成果,BC-ETL,BC-ETL研发成果,结合省公司应用试验支撑需求,完成了ETL新增及优化功能的开发,包括:空行断行清洗、最大最小标准化、基于字段的集合差、去极值、最优离散化、groupby max,min支持多字段、基于字段的去重、join操作的维表支持大于1MB数据、因子分析等,新增数据探索模块,实现了集中趋势特征值(合计、计数、均值、众数、中位数、百分位数、四分位数),离散趋势特征值(最大值、最小值、全距、方差
11、、标准差),分布趋势特征值(峰度、偏度)单个统计特征值(单个频数、单个百分比),单变量相关性分析等功能的并行化,为推进经分现网落地目标,通过集成Hive分布式数据库,提供了类SQL脚本的使用支持;每个ETL操作支持CWM标准的技术元数据输出,文档:专利1项、技术文档5份,2.1.2 BC-PDM研发成果,BC-ETL,BC-PDM研发成果,并行属性选择算法新增1个:PFeatureSelect,社会关系网络并行化算法新增15个:图的基本特征(入度和出度、betweenness、Closeness、pagerank、聚类系数、最短路径、betweenness、网络密度、网络直径、平均最短路径、平
12、均度数/平均权重/平均聚类系数),社区发现(网络中极大团求解算法、极大团的合并算法、社团之间连接关系求解算法、重叠社区向非重叠社区转化算法、生成网络的社团层次结构算法)、网络图的布局算法,并行决策树算法新增2个:PCART决策树、PCHAID决策树,输出文档:专利1项、技术文档16份、软件源代码,挖掘模型输出支持PMML标准:决策树、神经网络、朴素贝叶斯等,2.1.3 BC-ONest研发成果,技术特征:支持多种访问模式:基于WEB Service模式;基于对象访问API模式;在其上构建的BC-NAS可提供文件访问模式;高可扩展性:基于环形空间的重叠网存放元数据;支持节点在线扩容与移出,根据业
13、务变化动态增加存储节点;高可靠性:默认情况下元数据和数据均有三份副本,支持用户根据需求自定义副本数。高性能:在OSD内,将多个对象块顺序写入单个大文件尾部。,一.开题计划完成情况,目 录,二、主要研究成果(整合后),产品研发成果,应用试点与落地成果,三、2011年工作展望,2.2.1 河北公司ETL试点概况,本项目选择现网应用“用户信息日汇总表”进行测试。该应用每日汇总用户(包含历史用户)信息,具备以下特点:运算复杂度高:对用户表、客户表、用户功能表、用户积分表、渠道表、品牌表、集团客户表等进行多表关联;对通话量、用户数、通话费用等多字段进行统计。该汇总表是数据仓库模型的中间汇总层,是对底层数
14、据的整合,后续60%的应用都基于该表进行。用户汇总信息表包含三类信息:用户背景信息(资料)、用户行为信息(通话)、用户消费信息(费用)。数据量大:该表每日约1.2亿条记录,每日数据量约40GB;运行时间长:运行时间平均每日约5小时左右。,业务目标介绍,目标:探索并验证经分系统ETL数据处理移植到云平台上的可行性,降低现网数据处理和数据存储的压力方法:本地评估,由河北公司经分运维人员利用研究院提供的云平台和BC-ETL工具,实现本省的业务目标,抽取:根据接口数据大小决定由云平台还是ETL服务器抽取处理:云平台承担海量级接口数据(如话单类和日志类接口)的库外、库内处理;ETL服务器承担轻量级接口数
15、据库外处理加载:BC-ETL处理后的结果数据不直接加载给数据仓库,而是输出给ETL服务器,由其统一加载入库部分复杂度高、运行时间长的库内数据处理操作可以移置到BC-ETL,将需要处理的数据从数据仓库输出到BC-ETL,云平台在经分架构中的位置:在经分接口机和ETL加载服务器之间,使用云平台,2.2.1 河北公司ETL试点经分ETL云化解决方案,BC-ETL,BC系统配置(研究院部署),2.2.1 河北公司ETL试点平台环境部署,业务目标:用户信息日汇总模块一、用户语音话单基础汇总:对当日GSM话单、VPMN话单进行基础汇总、合并,包括用户通话、费用等信息。模块二、当天用户日信息:获取在网和离网
16、用户的相关信息,由用户表、品牌表和渠道表进行关联。模块三、集团客户信息汇总:关联大客户表和集团客户表。模块四、用户信息日汇总:利用模块一、二、三的结果和由数据仓库导出的彩铃信息汇总表、客户表进行关联汇总。,2.2.1 河北公司ETL试点测试方案(1),模块一,模块二,模块三,模块四,本部分功能:对语音话单、vpmn话单进行汇总,汇总用户通话类型、呼叫类型、漫游类型、归属地、通话时长、计费时长、本地费、漫游费、长途费、信息费、呼叫次数等信息。,本部分功能:获取用户的相关信息,由用户表、品牌表、渠道表进行关联,主要汇总信息包括:用户标识、电话号码、品牌标识、产品标识、客户标识、地域标识、网络类型、
17、用户状态、当前积分、渠道标识、渠道类型、开户时间等。,casewhen,casewhen,计算生成列,计算生成列,groupby,select,groupby,select,合并,where,码表JOIN,case when,JOIN,计算生成列,select,字段类型转换,模块一,模块二,话单基础汇总表,GSM话单,VPMN话单,品牌,渠道,用户表,当天用户信息表,2.2.1 河北公司ETL试点测试方案(2),当天用户信息表,模块三,模块四,where,Inner join,计算生成列,select,Left join,left join,Left join,Left join,Case w
18、hen,缺值处理,数据类型检查,Group by,select,本部分功能:本部分通过对当天用户信息表、客户表、集团客户信息、语音话单汇总信息、彩铃用户进行关联,生成用户日汇总信息。,本部分功能:获取集团客户汇总信息,主要属性包括:用户标志,集团客户标志,集团客户名称,集团客户编号,集团客户类型,客户经理,用户类型,成员角色。,用户信息日汇总表,彩铃信息汇总表,集团客户信息汇总表,话单基础汇总表,客户表,集团客户信息汇总,集团客户用户表,集团客户信息表,2.2.1 河北公司ETL试点测试方案(3),2.2.1 河北公司ETL试点测试结果分析(1),对平台的功能正确性及数据准确性两方面进行验证:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于Big Cloud的经分系统应用试验与落地 基于 Big Cloud 分系统 应用 试验 落地
链接地址:https://www.31ppt.com/p-2337133.html