辽宁移动大数据平台建设方案v11.ppt
《辽宁移动大数据平台建设方案v11.ppt》由会员分享,可在线阅读,更多相关《辽宁移动大数据平台建设方案v11.ppt(59页珍藏版)》请在三一办公上搜索。
1、辽宁移动大数据平台方案-交流稿北京天云融创软件技术有限公司2/3/2023,天云简介,天云公司致力于云计算产品研发、云系统构建、云系统解决方案、大数据解决方案的提供。天云公司专注云计算领域,引入国内外的云计算的顶尖人才。总部设在北京云基地,在中国(包括香港、台湾)16个省市设有分支机构,在北京,西安以及美国硅谷拥有自己的研发中心,共有核心研发人员:255名,首席云专家:5名。云基地担任云计算事业的先锋角色:云计算知识产权创新联盟理事单位院士专家工作站科技企业孵化器博士后工作站天云公司客户主要集中于运营商、政府、能源、制造业等行业天云公司运营团队:由具有国际化背景和本地化经验的优秀人才构成,核心
2、成员均为从美国硅谷回国创业人员,曾分别服务于各大国际知名电信和网络运营商及跨国IT企业。,公司大事记,2010年4月,天云联合趋势科技,在中国移动通信研究院,成功搭建中国移动IaaS PoC平台第一期,实现与大云虚拟化平台对接,为中国移动IaaS业务的商业化运营奠定了基础2010年9月,天云携手趋势、友友天宇,与国网信息通信有限公司一起,创立了中国电力行业第一个“云计算仿真实验室”,共同为智能电网大规模数据处理进行预研和验证,这也是中国第一个产业云;2010年9月,中国科学院与云基地天云公司签署在云计算和移动互联网领域战略合作;2010年12月,天云公司与台湾电信龙头中华电信签署合作备忘录(M
3、OU),双方将致力于两岸云计算服务,云计算解决方案及ICT(信息技术与通信技术)智能产品解决方案展开全面合作。2011年12月,天云公司成功的完成了上海浦东软件园“汇智在线,IT服务云”项目,正式向园区企业提供云计算服务。2012年02月,天云公司中标首信电子商务云项目,以建设北京市级电子政务云平台互联网云,面向电子政务应用系统提供IAAS、PAAS、SAAS各级服务,以推动北京市电子政务向更高层次跃进。2012年05月,天云公司荣获中国通信行业云计算优秀解决方案奖、中国绿色IT服务与外包创新贡献奖。2012年-2013年,天云公司中标北京电视台、黑龙江移动业支云(二期、三期)、广东移动VDC
4、云二期建设、上海移动大数据共享平台、中国联通沃云、浙江移动存储管理平台等一系列云平台、大数据项目。2013年11月,天云软件荣获“2013年最佳云计算平台解决方案奖”,CEO张福波博士荣获“2013年中国行业信息化领军人物奖”,天云案例运营商行业云应用落地案例,黑龙江移动私有云项目黑龙江移动支撑云项目,中国联通沃云-中国联通一级公众服务云项目中国联通云计算战略咨询项目中国电信中小企业云项目北京移动云应用技术服务项目,中国移动南方基地云网管咨询项目中国移动南方基地经分Hadoop云项目广东移动VDC一期云平台项目广东移动VDC二期云平台项目广东移动SaaS咨询项目,山东电信云平台项目,上海移动数
5、据平台项目,浙江移动统一存储云平台管理项目,重庆移动GPRS话单查询项目,行业案例涉及:深圳国家动漫基地云平台项目中国光大银行历史数据查询项目北京电视台云平台项目上海浦东软件园项目北京市电子政务云平台项目,目录,资源池规划与落地点探讨,大数据平台顶层架构设计,附件:案例介绍,移动运营商面临的挑战,环境变化,能力提升,支撑业务规模发展和创新突破架构优化,支撑企业集中化与一体化、专业化的运营与服务数据共享,支撑企业科学决策和精确管理,新的要求,移动互联网迅速发展,企业电子商务化,云计算、大数据等新技术兴起,跨行业产业链变革,业务目标,存量经营流量经营集客经营终端销售,管理目标,质量&服务管理优化,
6、企业深化转型,三大战略:移动互联网战略,四网协同战略,全业务战略,新业务发展国际业务铁通协同,数据应用面临的挑战,准实时批处理应用,非实时批处理应用,每次请求处理的数据规模,每次请求的处理时长,OLTP在线事务处理应用,OLAP在线分析应用,表示各类系统的技术难点,低,高,高,技术难点:每次处理数据规模增大;要求处理完成时间却缩短!,批处理,交互式,大数据应用分析,应用可能性,电信,政府(公共事业),交通,金融,医疗,教育,能源(电力/石油),纵轴契合度:表示该用户的IT应用特点与大数据特性的契合程度;横轴应用可能性:表示该用户出于主客观因素在短期内投资大数据的可能性;注:该位置为分析师访谈的
7、综合印象,为定性分析,图中位置不代表具体数值,High,Mid,Low,Low,Mid,High,优先关注行业用户,应用特点与大数据技术有较高的契合度,在主客观条件上也有较高的应用可能性。,值得关注行业用户应有特点与大数据的契合度及应用可能性综合较高,适当关注行业用户两个维度暂时都不具备优势,可适当给予关注,互联网(电子商务),契合度,流通,零售,制造,第三代业务支撑系统将向什么方向发展?,IT支撑能力持续提升,实现BOSS系统集中化改造,构建业务支撑网,支撑“服务与业务领先”战略,形成标准化客户运营和产品运营分离的支撑体系,支撑从“移动通信专家”到“移动信息”专家的转型,借助先进的技术,采用
8、基于云计算的新架构等,构建更加高效、开放、灵活的适应移动互联网发展的业务支撑体系,完成一体化运营支撑模式的转变,支撑企业的全业务战略、四网协同战略、移动互联网战略,2007,2017,1998,2012,BOSS,NGBOSS,3rd BOSS,主要特征,省级集中,横向整合、纵向解耦、网状网络,?,目录,资源池规划与落地点探讨,大数据平台顶层架构设计,附件:案例介绍,项目技术需求,建设规模:一期规模考虑数据总容量3.2P,其中热数据2P,冷数据1.2P集成内容:数据项目选择HADOOP+MPP+RDBMS的模式软件开发与技术要求:需要针对具体数据种类格式等进行相应的软件开发,以实现数据统一导入
9、,对外统一接口,统一查询及开发服务,数据管理,资源分配和系统操作维护支撑等功能实现目标:四网协同、A+Abis、经分wapETL等已有Hadoop架构系统,及经营分析、详单查询、信令类分析系统、网管话单查询、位置类等多个系统利用统一的H+M+R大数据资源池,实现数据的统一管理及高效利用系统架构:采用X86架构,考虑H+M+R 除oracle考虑小机等环境外,H+M考虑规模配置可调,充分满足各种数据存储及分析需求双中心规划:按照公司规划,数据中心要实现浑南、沈北双中心的规划结构,在两个中心分别部署设备和系统,实现重要系统双活,保障生产安全,稳定运行,大数据平台也要考虑在两个中心的分别部署其他:数
10、据管理、工作界面划分、系统管理、维护接口等,目录,资源池规划与落地点探讨,附件:案例介绍,大数据平台顶层架构设计,传统的数据仓库的架构,数据源,抽取、转换、加载,业务数据集市,企业数据仓库,ETL,元数据,前端分析展现工具,查询工具、应用,OLTP,传统数据仓库在大数据时代面临的挑战:成本居高不下,以Scale Up为主数据量,以GBTB为主扩展能力拥有成本处理数据的能力数据共享能力,天云新一代数据平台定义,企业数据平台是指建立在数据仓库与数据仓库之上的决策分析应用,应包括数据源、数据ETL、ODS数据库、数据仓库、数据集市、商务智能应用、数据管理等功能。数据平台应该具备常见数据的处理与管理能
11、力,具备对结构化、半结构化、非结构化等数据的处理能力,同时支持RDB、MPP、NoSQL,同时具备数据的通用管理能力,以数据为中心进行平台建设。数据平台数据平台在接口层要丰富又简单,可以提供各种应用所需接口,最大程度匹配已有接口,对应用改动需求力求最低。,数据平台数据管理能力至少应包含:1.元数据管理,2.数据质量管理,3.数据安全管理,4.数据可视化管理,5.数据生命周期管理。数据平台必须针对数据提供完整方案,同时兼顾应用接口、其他平台接入,系统管理、系统调度等功能。任何一种单一技术都难以适应数据平台数据采集、存储、处理和对外服务的需求,多种技术并存才是发展趋势。,大数据平台建设的功能层次需
12、求,数据集中:结构化/非结构化数据的统一存储,“存得下”节约存储成本,“存得起”分布式存储架构,提高灵活性与可扩展性,数据整合:消除异构数据源的混杂性 采用云计算架构,提升处理速度与能力,数据共享:消除“数据孤岛”,实现系统间的数据交换与共享,数据服务:数据即服务,多类标准化的服务接口更易使用,顶层架构平台逻辑架构,数据源,数据处理域,半结构/非结构化数据,流式数据,结构化数据,运行数据库(Oracle),数据存储域,基础数据服务,数据聚合服务,数据处理服务,数据查询服务,事件通知服务,分析挖掘数据库(MPP),分布式文件系统,分布式计算框架,非关系数据库NoSQL,统一ETL管理,传统技术E
13、TL,HadoopETL,流式计算ETL,数据分发同步处理,话单,业务类,信令类,网管类,数据集市A,数据集市B,数据集市C,平台管理,接口管理,调度管理,监控管理,安全管理,4A认证,安全服务调用,隐私管理,审计追踪,生命周期管理,入库存储,数据清理,数据管理域,系统管理域,大数据平台建设的最终目标,ESB,APP1,创新应用,应用层数据库,个性化应用,APP2,应用层数据库,个性化应用,APP3,应用层数据库,个性化应用,个性化应用,OpenAPI,完善数据平台功能,实现数据平台服务DAAS和BI展现及分析挖掘服务P所有信运基础服务和网运基础服务基于数据平台服务实现引入第三方基于基于Ope
14、nAPI的创新服务开发模式,优化管理新应用开发和上线运营,信运基础服务,网运基础服务,关系数据库,分布式计算,数据管理平台,扩展/集成/管理/调度/维护/自动化 数据流/分布存储/数据保护/管理视图,数据平台引入大数据的意义与原则,随着半结构化、非结构化数据、互联网数据等新型数据源的引入以及分析需求对分析深度和广度的增加,以移动运营商行业为例,越来越需要大数据。主要包括如下:1、数据规模方面:GPRS流量话单的条数和数据量已经超过了语音详单,而位置信令、Gn信令、客服语音、互联网外部数据等规模更大,且还处在不断增长的趋势。2、数据类型方面:逐步从OLTP系统中获得的结构化数据,过渡到结构化数据
15、和互联网网页、上网日志等非结构化数据和半结构化数据共存。3、对数据的使用方面:不仅有批量的数据加工和前台界面的访问,临时统计、数据挖掘等访问需求也逐步增多。对历史明细数据的访问增多。对数据访问的及时性增强。随着数据平台越来越具备大数据平台的特征,利用传统的单一数据仓库技术就难以满足高效低成本的需求,需要引入相应的大数据技术。新技术的引入不能影响原有的使用感知,需要按照分阶段逐步引入的方式。可以参考如下的几个引入原则:1、先增量后存量。现有的数据处理系统引入大数据处理技术,面临着模型改造、流程改造等一系列的问题,可以首先在新上线应用引入大数据处理技术。2、先边缘后核心。对于原有功能的迁移,可以先
16、迁移非关键的应用。这些应用不涉及到关键生产任务,可以忍受数据处理延迟和故障修复时间较高等可能出现的风险。3、先简单后复杂。数据处理逻辑较简单的应用也可以首先尝试引入大数据处理技术,降低实施的复杂度,积累运维经验。通过在大数据处理技术的规划、实施及运维过程中积累经验及教训,不断提升和完善大数据技术的应用水平,逐步拓展大数据技术应用领域。,大数据在数据平台的应用场景,大数据技术可以应用在以下场景(包括但不限于):1、原数据仓库底层结构化数据处理(ETL或ELT)。底层结构化数据处理计算任务重但复杂性不高,不涉及多表关联,适合引入大数据技术实现高效低成本。例如:对运营商的清单(语音详单、GPRS清单
17、、WLAN清单等)的清洗、转换、汇总等。2、半结构和非结构数据处理与分析。例如对上网日志、网络信令、客服语音等数据的处理和分析,这些数据难以利用传统数据仓库技术进行处理和分析。3、数据集市。地数据集市应用较为独立,且对可靠性的要求并不是十分严格,适合作为引入大数据技术形成资源池,以移动运营商为例,可实现各地市、各部门数据集市的云化、池化和虚拟化,最终实现资源动态调配,达到高效低成本。4、数据仓库数据分级存储。对低价值的细节数据以及长周期的历史数据(冷数据)访问频率较低,也能容忍相对较长的响应时间,可以存储在成本更低的平台上。5、数据挖掘。某些数据挖掘设计长周期的数据,计算时间很长(数天),占用
18、很多数据仓库资源。还有一些数据挖掘算法超出了关系代数计算范畴,需要抽取数据到独立的计算平台(例如SAS统计分析系统)中进行计算。这些数据挖掘任务可以迁移到大数据平台之上进行计算。例如交往圈的计算,因其仅涉及单一数据,但数据量非常大,且需要多次迭代计算。6、对外查询。数据平台不仅仅是数据处理,也需要将数据处理的结果对外提供查询,而这些查询一部分是海量的OLAP性质的查询,另外还有一部分OLTP性质的查询,即数量众多但每次查询量较少的。比如数据平台前端库、与生产系统互动的数据库以及提供流量详单查询的数据库。这些查询任务不能很好地运行在OLAP类数据库之上,可以迁移到大数据平台上。针对这些应用场景,
19、可以看到,主要需要引入的是Hadoop和MPP技术,然后逐步考虑NoSQL、流计算和内存计算等技术的引入。,Hadoop技术与MPP技术的比较,Hadoop 在处理非结构数据和半结构数据上具备优势,尤其适合海量数据批处理等应用需求。当然随着Hadoop技术的成熟,基于Hadoop的即席查询技术也逐渐崭露头角。比如仿照Dremel的开源项目Apache Drill以及Cloudera Impala。MPP适合替代现有关系数据结构下的大数据处理,具有较高的效率,但其在大规模集群(超过100个节点)下的可用性还有待试点证实。MPP数据库场景下经常需要扫描大量的数据,所以对磁盘存储系统的I/O性能要求
20、非常高,在测试和日常运行中,I/O多大情况下是瓶颈,这点与Hadoop平台可以明显区分开来。,目录,资源池规划与落地点探讨,附件:案例介绍,大数据平台顶层架构设计,大数据平台分层描述-数据采集、ETL层,半结构化数据与海量半结构化数据,非结构化数据与流式数据,结构化数据,常规ETL处理,实时或准实时ETL处理,采集层,处理层,传统技术ETL,流式计算ETL,海量数据ETL处理,Hadoop ETL,ETL可视化管理,统一ETL调度,数据采集根据需要进行数据采集,采集的数据包括结构化数据、半结构化数据、海量半结构化数据、非结构化数据以及流式数据数据处理根据数据结构特征分类,可分为结构化和半结构化
21、数据以及非结构化数据。结构化数据主要采用传统ETL,半结构化以及非结构化数据主要采用Hadoop ETL;根据数据量级分类,分为海量数据和常规量级数据。海量数据主要包括话单、信令数据,采用Hadoop ETL处理;根据采用技术分类,分为常规技术ETL、Hadoop ETL和流式计算ETL。Hadoop主要处理海量数据和准实时需求数据,流式计算处理有实时需求的数据如实时营销需要的信令触点;根据处理时效分类,分为常规ETL,准实时ETL和实时ETL。其中实时和准实时处理主要处理网管和信令数据。目的:对公司各项数据(经分、话单、业务类、信令类、网管类、财务类、企划类等)进行整合,整合到大数据存储平台
22、;,数据采集/ETL技术架构,数据采集通过智能数据采集适配器,轻松支持各种数据源的接入,如FTP/SFTP、DB、Webservice,Scoket等数据处理数据ETL支持传统ETL、云化(Hadoop)ETL、流式ETL通过元数据可以定制ETL,对ETL流程进行实时监控全程ETL数据质量监控和管理,大数据平台分层描述-数据存储层,关系数据库(RDB),基础数据服务,数据聚合服务,数据处理引擎,数据查询服务,数据分发同步处理工具,事件通知服务,分布式关系数据库(GBase),数据层,处理规则管理,分析引擎,数据存储传统关系型数据库主要存储结构化数据;分布式关系数据主要存储对复杂数据的进行多表关
23、联分析需要的从主库各表聚合的数据;分布式文件系统HDFS主要存储海量半结构化数据;分布式非关系数据库HBase主要存储海量原始数据经过ETL的汇总数据,主要用于海量数据查询和简单分析应用基础数据服务数据分发同步工具支持在各种不同存储间进行数据的交换、同步、分发;处理规则管理和数据处理引擎提供不同存储中的数据根据业务需求进行数据组合,转换,处理能力的支持;分析引擎主要支持业务分析,提供基础工具,算法等;数据聚合服务主要提供各种不同场景需要的数据集市和数据集市的构建数据查询服务对上层业务提供灵活的数据查询,屏蔽下层不同存储处理方式的查询事件通知服务提供业务所需的实时事件通知,数据订阅通知等同时完成
24、:对各项数据进行梳理,形成高效数据索引规范,便于数据查找、整合;,分布式文件系统,分布式计算系统,分布式非关系数据库,天云Hadoop体系架构,1.处理客户端请求2.启动/监控ApplicationMaster3.监控NodeManager4.资源分配与调度,1.单个节点的资源管理2.处理来自ResourceManager的命令3.处理来自ApplictionMaster的命令,Container中封装了机器资源,每个任务会被分配一个容器,该任务只能在该容器中运行,并使用该容器封装的资源。,1.数据切分2.为应用申请资源,并分配给内部任务3.任务监控与容错,部署在NameNode,部署在Dat
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 辽宁 移动 数据 平台 建设 方案 v11

链接地址:https://www.31ppt.com/p-2229275.html