XXX运营商大数据平台规划解决方案.pptx
XX运营商大数据平台规划解决方案,XX运营商大数据平台规划解决方案,目 录,二、大数据平台整体规划,一、大数据应用发展趋势,目 录二、大数据平台整体规划一、大数据应用发展趋势,大数据,大数据所谓“大数据”,指的是所涉及的数据量规模巨大到无法通过,大数据对电信运营商的应用价值体现,大数据对电信运营商的应用价值体现31542自助分析、生产管道,XX运营商数据平台现状,经过一二期的建设,精细化运营平台的数据中心,已经成为XX运营商最大、内容最丰富的数据仓库;随着数据量的增长,需要对基础架构做长远规划;有必要深入挖掘数据价值,研究新的商业模式,将成本中心转化为利润中心,XX运营商数据平台现状精细化营销数据中心营账系统经分(BI),5,大数据处理的需求和特点,5扩展性增量式的、几乎无限的扩展可用性要求系统总是在线运行灵,低成本运营,一体化运营,精细化运营,全网运营,实时、智能化运营,集中化建设、管理和维护可不断线性扩展提高资源综合利用率标准化功能组件,可共享可复用按业务量、按需支付,BASS与BOSS、CRM的一体化BSS与MSS、OSS、VAS等跨域一体化对外部客户和应用的一体化,片区化、网格化管理长尾市场、小众市场的支撑个性化、短周期需求的满足,异地客户、家庭客户、集团客户一点接入、全网服务、全网客户画像全国统一套餐、全网营销、 统一客服,实时数据获取、处理、分析智能化主动事件触发智能管道移动互联网,业务运营发展趋势,对业务支撑平台的集中化要求,对数据架构的集中化要求,集中化、大容量、高扩展、高可用数据库平台:支持全网型数据、跨域数据的整合,形成集中化管理的的企业级数据中心高性能:支持3G时代更高的实时性要求、支持动态资源共享:支持多租户管理、资源动态按需供应可重用、标准化组件:形成可重用组件,支持一次开发、各省共享的模式,形成规模型效益,数据集中化趋势使得运营商面临着海量数据的存储及分析问题,大数据在支撑移动业务发展趋势中,充当重要角色。,电信运营商数据集中化趋势,低成本运营一体化运营精细化运营全网运营实时、智能化运营集中化,7,电信运营面临的大数据挑战,移动互联网和个人消费领域业务扩展和CEM导致海量数据的及时分析带来挑战,运营商一体化集中运营和透明管控,催生巨大的经营分析数据仓库,对大数据的存储、性能、开放带来挑战,DPI和信令监测,产生的大量事件在存储和用户通信行为分析的实时处理性能带来挑战,ICT融合,核心网络、运营支撑和VAS业务数据的融合催生海量User Profile并集,对大数据的关联分析计算效能带来挑战,移动互联网流量井喷与客户行为分析,业务融合、能力互通带来数据融合,提升客户体验要求分析网络服务数据,IT系统集中化和行业数据价值挖掘,BSS BI数据:河南17个地市,每天抽取正常用户数7000多万,拨备用户数3000多万,DW层用户表总量1亿多条;语音清单每天2.7亿条数据,GPRS清单每天4.2亿条数据;账务每天4.7亿条数据 ;GPRS文件每个100M左右,其它文件25M。日接口数据量:2000G,其中话单 220G,WAP清单 300G , 工单服务 200G , 用户、帐务 300G,其它980G。每月124TB数据量入库,历史数据保留1年,总数据量1.45PB。按照用户数简单测算, 6.5亿用户下,总数据量 10PB!,联通总部3G互联网访问记录查询及分析系统:全国每日新增10TB数据,每月近万亿条记录,要存放6个月,约 2PB的上网记录数据。上网记录入库时间小于30分钟, 原始上网记录保留6个月。上网查询速度不高于1秒,并发查询数1000请求/秒。集群规模188个数据节点,存储容量2.6 PB,7电信运营面临的大数据挑战移动互联网和个人消费领域业务扩展和,传统数据仓库无法有效存储日益增长的业务数据存储需求,基础数据(用户资料,产品订购信息):15G/日*365+40G *12月 = 5T/年考虑20%的业务增长率后为: 6T/年,用户上网数据话单数据:250T/年考虑20%的业务增长率后为:300T/年,MR数据话单数据:634G/日634G/日*365 = 227T/年考虑20%的业务增长率后为:272T/年,BSS数据,新增,新增,评估中,随着业务发展数据量的增加,随着应用复杂导致的数据量增加,这些数据量导致了数据存储和处理压力; 数据仓库无法线性扩容,管理难度加大,成本高扩容压力大,效率下降等传统数据仓库只保存处理后的汇总数据。在大数据架构下需要对用户原始话单进行长期保存。需要扩容大量存储空间。,大数据使得现有的数据处理方法面临新问题,面对海量的数据压力,需要大数据平台提供可供线性扩容的存储能力。,传统数据仓库无法有效存储日益增长的业务数据存储需求基础数据用,每个应用需求的变化就是一场灾难。由于数据处理与业务的紧密关联可能需要对中间每个处理环节进行逐个调整。重新生成数据的周期也非常缓慢。,由于传统数据仓库的数据处理流程与业务保持紧密关联。整个数据加工流程为最终应用服务。为缓解存储压力在数据抽取和清洗阶段会过滤掉与业务无关的数据记录和字段。,大数据使得现有的数据处理方法面临新问题,数据源,明细数据层 (DW),汇总层(MK),报表数据,标签库,指标数据,客户统一视图,应用层,DW&MK,操作型数据,ODS层,Oracle数据库,精细化营销架构,2,4,1,2,3,4,现网数据平台是传统关系型数据库架构。大量的用户上网、用户行为等半结构化和非结构化数据无法保存和处理,缺乏非结构化数据的处理能力。用户上网行为等互联网行为数据以结构化数据方式保存至数据仓库中。,传统数据仓库无法有效应对大数据分析需求,1,现网每日用户上网HTTP话单达14亿条。每月汇总的记录条数也近30亿条。随着移动互联网正在迅猛增长,传统数据仓库将很难驾驭,无法满足数据处理时限和事务处理需求。,3,面对海量的数据压力,需要大数据平台提供快速的处理能力。,每个应用需求的变化就是一场灾难。由于数据处理与业务的紧密关联,大数据使得现有的数据处理方法面临新问题,传统数据仓库组网将是大数据分析的瓶颈,现网精细化营销平台的数据库既存放着所有采集的原始数据,又承担所有的数据加工任务,还承载所有报表和业务应用的数据存储和计算。缺乏对数据分层分级及生命周期的有效管理。系统核心架构为Oracle数据库+小型机+磁阵。数据存放在磁阵上,计算时由数据库服务器从磁阵读到本地后进行计算结果。随着数据量增长,磁盘I/O、网络带宽、数据库服务器的处理能力将存在瓶颈,处理时延严重。由于传统架构的可扩展性差,无法满足大数据的计算的扩容需求。,为应对海量数据处理需求,大数据将从集中数据库向分布式数据库进行转变。计算和存储资源都由x86服务器提供。,大数据使得现有的数据处理方法面临新问题传统数据仓库组网将是大,因为在移动互联网和物联网上需要有新领域的突破,不同于传统通信业务分析特点,需要对内容等非结构化、大容量信息进行有效分析,传统的架构处理吃力。,关系数据库引入对XML 的支持仍然无法有效处理,ETL,大数据使得现有的数据处理方法面临新问题,传统数据仓库无法有效处理新型的业务数据,传统数据仓库无法有效支撑数据合作运营,由于保存原始话单数据周期较短,合作运营无法追溯历史原始数据。现网传统主数据库的设计只适用与向上层提供既定好的数据分析任务结果。对外开放底层数据将大大消耗系统资源,影响主库正常的数据处理流程。同时数据的处理方式及结果也恐难以满足合作运营的需要。大数据平台的架构将数据分层管理。在各层提供数据开放接口,以满足不同数据需求。将更有效支撑数据合作运营。同时历时数据能促使合作在第一时间就开展起来。,因为在移动互联网和物联网上需要有新领域的突破,不同于,4G、M2M将大大加快移动网络数据业务和流量增长,2013年4G网络将占到全球流量的20%,2016年将超过3G网络流量,2018年将占据超过2/3的移动网络流量。2013-2018年,4G流量的年复合增长率达到82.2%。2018年数据业务收入占运营商的份额的47.3%ABI Research 2013.09,数据来源:Ericsson 2013.11,2012年9月Verizon LTE网络建成不到2年,用户达到11M,占Verizon用户总数约12%,流量消耗占全网流量的35%以上。2013年1月,4G流量占比50%,2013年11月,4G流量超过64%,视频是主要业务,2017年,全球4G终端产生的数据流量是非4G终端的8倍,每月数据流量超过10EB 1EB=1000PB (Cisco VNI 2013),M2M终端数量大幅度增长,4G驱动流量增长,2014年,M2M设备数量接近智能终端,数据来源:ABI Research 2012,4G、M2M将大大加快移动网络数据业务和流量增长2013年4,数据业务成为运营商收入的新增长点,Verizon 2013Q3的ARPU同比增长7.1%,比2010年发布4G时增长21%。SKT 2013年Q3 4G的ARPU增长比综合ARPU增长超32%,竞争对手KT则达到40%。荷兰所有的电信运营商的数据业务收入占比同比增加14%,全部来自语音业务的下降。,2013年全球移动互联网业务收入增加23.4%,达到3千亿美元。其中,2013年Q4美国运营商的数据收入超过语音收入。ABI Research Feb.2014,数据业务成为运营商收入的新增长点Verizon 2013Q3,移动互联网用户流量激增,手机数据化、宽带化趋势明显,中国移动互联网发展有相类似的趋势,截至2013年6月,中国手机网民已达4.6亿,上半年移动互联网接入流量同比增长62.6%(CNNIC、工信部),移动互联网用户流量激增,手机数据化、宽带化趋势明显时间分布移,面对巨大流量,移动运营商面临强大的挑战,SNS,博客,电商,视频,图片,音乐,签到,问答,点评,优惠券,专业SNS,微博,消息,论坛,2G、3G、4G、WIFI ,新闻,地图,管道数据类型多样、数据巨大、处理速度要求高,同时也存在质量问题,是电信运营商大数据的主要来源,超过7.1亿用户,超过100万基站,每分钟超过800万通话,每天信令数据超过1PB,每秒上网流量超过40GB,经分系统数据规模接近10PB,面对巨大流量,移动运营商面临强大的挑战移动互联网电信运营商S,需要融合巨大的管道数据和业务数据,网络优化,决策支持,精准营销,业务创新,虽然结构化的业务数据虽然价值含量很高,但是管道数据却提供了用户的数据消费、社交网络、行为轨迹、内容偏好等业务数据中无法提供的重要信息,这对用户刻画、套餐设计、用户体验提升等个人和企业产品设计所需依据均有巨大帮助,日志,结构化数据,+,需要建立采集、存储、分析、交互等全方位能力,其中既包括传统已经具备的能力,也包括需要新建的大数据能力,需要融合巨大的管道数据和业务数据网络优化决策支持精准营销业务,互联网公司通常采用混合架构解决大数据问题,http:/spark-summit.org/wp-content/uploads/2013/10/Tully-SparkSummit4.pdf,By Tim Tully (Distinguished Engineer/Architect, Yahoo),互联网公司目前主要采用Hadoop、Streaming、RDBMS、NoSQL等技术应对大数据4V挑战,例如Yahoo针对日志数据进行两种处理,并与业务系统结合(后期尝试Spark技术),示例:Yahoo数据处理流程,互联网公司通常采用混合架构解决大数据问题http:/spa,大数据技术在互联网公司得到成功应用,Google在全球多个数据中心大规模混合部署和调度数据处理能力,系统利用率高达80%+,2011年MapReduce系统每天处理1000PB左右输入数据,支撑其核心业务,包括搜索、广告、地图、邮件、社区等业务。针对不同的数据处理需求提供多种数据处理系统。随着技术能力提高,将大数据处理能力服务化。,Facebook以Hadoop为基础建设了包括流计算、实时计算、离线分析在内的各种大数据系统系统。2012年每天要处理25亿条消息、用户点击Like按钮的次数达到27亿次、上传3亿张照片。Graph Search可以检索10亿用户、2400亿图片和1万亿次访问。目前已经支持多区域数据同步。Facebook Puma每天处理超过200亿事件,延迟小于30秒,Amazon为被托管应用提供了多租户、按使用付费的大数据服务,整合了非结构化(S3)、结构化(RDS、SimpleDB、DynamoDB)数据,通过并行计算EMR能力,将数据放入RedShift用于最终的数据展现等目的。,Twitter利用Hadoop和Pig工具完成数据的批量分析,并进行决策支持和数据挖掘,利用Storm每天实时推送1亿活跃用户的5亿消息,大数据技术在互联网公司得到成功应用Google在全球多个数据,目 录,二、大数据平台整体规划,一、大数据应用发展趋势,目 录二、大数据平台整体规划一、大数据应用发展趋势,面向结构化数据,非结构化处理效率低基于昂贵硬件(小型机+磁盘阵列)或一体机硬件平台兼容性差:在跨代硬件或跨厂商硬件环境下常常无法部署扩展性达到PB级之上可选厂商较少,易绑定,具备结构化/非结构化混合分析的能力,大数据多为非结构化基于消费级硬件,以常态化硬件故障为设计出发点,不依赖高性能、高可靠性硬件保障系统性能和可靠性。基于通用硬件,平台兼容性好,可跨代,跨厂商硬件部署扩展性高,业内有上万节点级部署案例,大陆有千节点级部署,transaction,DBMS,ETL,DW,Analysis,Cluster,Unstructure,Stream,Multiple data sources,(MapReduce),传统数据分析处理,基于云计算的大数据处理,Distributed architecture,Traditional DB/DW,TB,PB,EB ZB,MPP DW+Hadoop,Analysis,云计算是挖掘大数据价值的核心基础,面向结构化数据,非结构化处理效率低具备结构化/非结构化混合分,云计算平台,IT基础资源,对象存储BC-oNest,数据仓库系统BC-HugeTable,系统监控和管理CloudMaster,平台安全管理CloudSecurity,移动互联网业务平台,IDC服务,经分集中化,结算系统,云计算资源池系统,经分系统ETL/DM,信令系统,物联网应用,弹性计算BC-EC,弹性块存储BC-EBS,商务智能平台BI-PaaS,数据管理/分析类,计算/存储资源池,BC-Hadoop 数据存储和分析平台,IaaS 产品,PaaS 产品,“大云”产品,实时交易类,SQL数据库BC-RDB,BC-BSP 数据并行框架,内存处理引擎BC-DME,K-V数据库BC-kvDB,2.0产品体系,2.5新增产品,2.5功能增强,云计算平台IT基础资源,BC-Hadoop:开源社区有很多Hadoop的发布,但是没有一项可以满足大云现有数据分析需求。BC-Hadoop将所需的特性打包形成独特的大数据平台产品,大数据基础平台(BC-Hadoop & BC-HBase),大规模:支持4000节点组成单个大数据集群高性能:提供聚合的IO访问能力,线性扩展多租户:提供多用户计算和存储能力相对隔离的手段高可用:提供Hadoop主控节点,即NameNode和Job Tracker的高可用能力标准接口:消除开源Hadoop升级造成的接口不兼容,提供向下兼容的接口,MapReduce 并行计算框架,HDFS 分布式文件系统,HBase 分布式NoSQL数据库,监控和管理工具,BC-Hadoop应用,包括HugeTable、PDM、BC-SE等,BC-Hadoop:开源社区有很多Hadoop的发布,但是没,XX运营商大数据平台目标架构及定位,准实时采集,批量采集,Hadoop平台,MPP,基于X86平台,主数据仓库,分布式数据库,基于X86平台,数据采集(云化ETL,流数据处理、爬虫),数据层,获取层,能力层,精细化营销,智能运营,物联网应用,应用商店,客服应用,基础分析能力,数据挖掘能力,实时分析能力,自助分析能力,多维分析能力,数据共享能力,指标应用,报表应用,主题分析,专题分析,互联网,GN口,半结构化、非结构化数据,BSS,经分,DM,VAC,MC话单,业务平台,结构化数据,数据源,分布式文件系统 HDFS,记录明细数据,HBase,M/R,Hive,记录汇总数据,数据统一服务和开放SQL、FTP、WS、MDX、API、,分布式数据库(MPP):存储加工、关联、汇总后的业务数据,并提供分布式计算,支撑数据深度分析和数据挖掘能力,向主数据仓库输出KPI和高度汇总数据。主数据仓库(与MPP合设):存储指标数据、KPI数据和高度汇总数据。,Hadoop云平台:负责存储海量的流量话单数据,提供并行的计算和非结构化数据的处理能力,实现低成本的存储和低时延、高并发的查询能力。,数据开放接口:向大数据应用方提供大数据平台的能力。,数据采集(ETL):负责源数据的采集、清洗、转换和加载包括:1、把原始数据加载到Hadoop平台。2、把加工后的数据加载分布式数据库和主数据仓库,应用层,XX运营商大数据平台目标架构及定位准实时采集批量采集Hado,HDFS:分布式文件系统有较强的容错性可在x86平台上运行,减少总体成本可扩展,能构建大规模的应用HBase:非结构化NoSQl分布式数据库 基于分布式文件系统HDFS,保证数据安全列式存储,节省存储空间提供大数据量的高速读写操作Hive:分布式关系型数据库数据可保存在HDFS,可提供海量的数据存储类SQL的查询语句,提供大数据的统计和分析操作,适合海量数据的批处理通过MapReduce实现大规划并行计算MapReduce:大规划并行计算引擎可将任务分布并行运行在一个集群服务器中,Hadoop平台提供了海量数据的分布式存储与处理的框架。基于服务器本地的计算与存储资源, Hadoop集群可以扩展到上千台服务器。同时,Hadoop在设计时充分考虑了硬件设备的不可靠因素,在软件层面提供数据和计算的高可靠保证。,大数据平台: Hadoop主要功能,HBase,MapReduce,Hive,HDFS,快速的数据读取,大数据存储统计,复杂计算并行处理,HDFS:分布式文件系统Hadoop平台提供了海量数据的分布,Shared Nothing,代表数据库:GreenPlum、Vertica、Teradata,适合大数据量的OLAP应用,新型MPP数据库主要构建在x86平台上,为无共享架构(Share Nothing),依靠软件架构上的创新和数据多副本机制,实现系统的高可用性和可扩展性。负责深度分析、复杂查询、KPI计算、数据挖掘以及多变的自助分析应用等,支持PB级的数据存储。,大数据平台: 分布式数据库,新型MPP分布式数据库基于开放平台x86服务器大规模的并发处理能力无单点故障,可线性扩展多副本机制保证数据安全支撑PB级的数据量支持SQL,开放灵活,Shared Nothing代表数据库:GreenPlum、,数据分级存储原则,数据融合与分级存储实施,按数据血缘,按逻辑层次,按业务种类,按设备网络划分,按设备物理地址,在线、近线、离线,按访问频度,内存数据库,按响应及时性,内存数据库,数据生命周期中在线数据对高性能存储的需求,以及随着数据生命周期的变更,逐渐向一般性能存储的迁移,是分级存储管理的一条主线。同时兼顾考虑其他分级原则,共同作用影响数据迁移机制。,基于生命周期,基于访问压力,基于业务用途,基于物理属性,分级原则,高性能磁盘库,磁带光盘库,中低性能磁盘库,将核心模型(即中度汇总的模型)通过改造融入到现有主数据仓库的核心模型中,减少数据冗余,提升数据质量。将主数据仓库中的历史数据和清单数据迁移到低成本分布式数据库,减轻主数据仓库的计算与存储压力并支撑深度数据分析。,数据,数据,数据,1、核心模型融入主数据仓库,主数据仓库,2、历史数据迁移到分布式数据库,分布式数据库,1、清单数据入MPP数据库,大数据平台: 数据分级存储,数据分级存储原则数据融合与分级存储实施按数据血缘按逻辑层次按,Hadoop平台,主数据仓库,报表数据,标签库,指标数据,客户统一视图,信息子层,话单数据,非结构化数据,信息子层:报表数据、多维数据、指标库等数据来源于汇总层。汇总层:主题域之间进行关联、汇总计算。汇总数据服务于信息子层,目的是为了节约信息子层数据计算成本和计算时间。,轻度汇总层:主题域内部基于明细层数据,进行多维度的、用户级的汇总。明细数据层:主题域内部进行拆分、关联。是对ODS操作型数据按照主题域划分规则进行的拆分及合并,ODS层:数据来源于各生产系统,通过ETL工具对接口文件数据进行编码替换和数据清洗转换,不做关联操作。未来也可用于准实时数据查询。,明细数据层 (DW),轻度汇总层(MK),高度汇总层(MK),应用库,精细化营销,分布式数据库MPP,其他应用1,其他应用2,应用层:应用系统的私有数据,应用的业务数据。精细化营销做为大数据平台的一个上层应用,有由大数据平台提供数据支撑,数据访问,SQL,FTP,HSQL,API,ETL,数据采集ETL,互联网,GN口,非结构化数据,BSS,经分,DM,VAC,MC话单,业务平台,结构化数据,数据源,获取层,1,2,1,2,3,3,4,4,大数据平台: 数据分层,Hadoop平台主数据仓库报表数据标签库指标数据客户统一视图,源数据导入ETL,进行数据的清洗、转换和入库。,基础数据加载到主数据仓库,规划保存3年,清洗、转换后的ODS加载到分布式数据库规划保存1+1月,在分布式数据库内完成明细数据和轻度汇总数据加工生成,规划保存2年,ODS数据和非结构化数据,如爬到的网页数据ftp到Hadoop平台做长久保存,非结化数据分析处理在Hadoop平台完成,产生的结果加载到分布式数据库,生成KPI和高度汇总数据加载到主数据仓库。,Hadoop平台,主数据仓库,报表数据,标签库,客户统一视图,信息子层,话单数据,非结构化数据,明细数据层 (DW),轻度汇总层(MK),高度汇总层(MK),应用库,分布式数据库MPP,数据访问,SQL,FTP,HSQL,API,ETL,数据采集ETL,互联网,GN口,非结构化数据,BSS,经分,DM,VAC,MC话单,业务平台,结构化数据,数据源,获取层,1,2,3,4,6,5,业务应用通过数据访问接口获取所需求数据。,7,精细化营销,其他应用1,其他应用2,指标数据,大数据平台: 数据处理流程,源数据导入ETL,进行数据的清洗、转换和入库。基础数据加载到,图计算平台(BC-BSP),产品特性搜索引擎PageRank、最短路径等算法需大量迭代计算,基于MR实现具有较大数据同步开销;BSP并行计算模型更适于图、矩阵计算;支持大规模集群,可以达到4000节点支持海量数据计算,用户迭代步骤可以设定提供用户开发接口,一方面可以与BC-PDM系统整合,一方面也可以单独使用,BC-BSP:针对社交网络 分析、用户精准营销、搜索引擎PageRank计算等图计算领域的数据挖掘需求而研发的并行计算框架,针对迭代计算,计算效率优于MapReduce框架,http:/,图计算平台(BC-BSP)IAAS分析PAAS交易PAAS云,海量结构化数据存储系统(HugeTable),基于Hadoop的海量结构化数据存储系统,利用低成本硬件提供高性能的数据加载、索引查询和并行分析能力,对外提供易于应用集成的数据访问接口,大容量:支持PB级别的数据存储能力低成本:基于PC架构,不需要外接集中存储设备高性能:秒级别索引查询、数据并行扫描可靠性:数据冗余备份永不丢失;全系统无单点可定制:根据应用需求选择索引类型及存储引擎接口丰富:提供标准的JDBC/ODBC/ SQL接口;提串行Scan接口和分布式MapReduce接口外围工具:支持数据、性能、故障、配置、日志管理功能;支持外部数据并行加载;支持数据快速备份、恢复,海量结构化数据存储系统(HugeTable)基于Hadoop,分布式NoSQL数据库(BC-KVDB),BC-RDB:根据订购关系存储(阅读基地)、用户个人信息存储(彩云)等应用需求和相关规范,增强系统操作维护功能、优化性能并提高系统可靠性。提供一个高并发、高可扩展的键值对存储系统。,大规模:支持1000节点组网形成统一数据库高性能:支持读写缓存,提供告诉的数据读写能力,支持高性能硬件优化一致性:支持数据强一致性和最终一致性可靠性:数据冗余备份永不丢失;全系统无单点数据模式:提供支持schema定义的复杂数据定义外围工具:支持数据、性能、故障、配置、日志管理功能;支持外部数据并行加载;支持数据快速备份、恢复,分布式NoSQL数据库(BC-KVDB)BC-RDB:根据订,分布式关系数据库(BC-RDB),BC-RDB是一款分布式关系数据库。即具有关系数据库的特性,同时具备可扩展、高可用的特性。主要应用于海量数据的实时在线交易处理系统。BC-RDB支持SQL92,传统交易型应用可实现平滑迁移,高扩展性,采用share nothing架构,可以动态水平扩展,设计容量64节点,高可用性,存储采用节点内置硬盘,提供三副本,保障数据及服务的高可用性,分布式事务支持,采用两阶段提交分布式事务,保证多节点数据之间的完整性和一致性,同时保证用户操作的事务性,海量数据的高性能处理,多节点并行计算和多节点并行加载技术使得在海量数据存储下获得高性能。,低成本,采用X86集群架构,存储采用节点内置大容量硬盘,可搭建在廉价的PC机集群上,成本远远低于UNIX系统,集群可以部署于自带硬盘的x86服务器,不需要小型机和磁盘阵列,分布式关系数据库(BC-RDB)IAAS分析PAAS交易PA,并行数据挖掘系统(BC-PDM),高效丰富的数据ETL操作:支持数据清洗、转换、集成等7大类45种ETL海量数据的挖掘算法:支持分类、聚类、关联分析等3大类共15种算法海量数据探索能力:支持数据统计、变量分析、分布特征探索等大规模社交网络分析:支持网络特征分析、社团发现和演化、社团展示等多模式数据接口:支持与RDB直接交换数据、支持Hive、CSV格式数据支持SaaS服务模式:Web浏览器使用,并可支持应用共享支持丰富的用户UI: 支持Web图形化方式创建数据分析逻辑,支持SQL脚本方式,支持CLI命令行方式支持二次开发:Java API、Web Service,BC-PDM:支持SaaS模式的海量数据并行处理、分析与挖掘系统。适用于经营决策、用户行为分析、精准营销、网络优化、移动互联网等领域的智能数据分析与挖掘应用,主要特点,并行数据ETL,社交网络分析,广域网,并行数据挖掘系统(BC-PDM)任务任务分解M 1M 2M,商务智能平台(BI-PAAS),商务智能平台(BI-PAAS)产品定位利用云计算的强大并行,消息采集,文件采集,话单预处理,信令预处理,Gn话单,位置信令,DCN,1*10GE,1*GE,2*GE,S9300,S9300,分布式数据库集群,新建ETL、分布式数据库和Hadoop集群内部各自独立组网。分别通过10GE网口接入汇聚交换机。,Hadoop集群,1*10GE,ETL集群,1*10GE,大数据平台的组网,消息文件话单信令Gn位置DCNBSS炫铃VAC短彩物联网客服,36,建设方案基于Hadoop构建大数据的用户行为分析系统系统提供了核心的分布式云存储、分布式并行计算、分布式数据仓库、分布式列数据库整体解决方案,方案延伸基于Hadoop的大数据解决方案提供了基础的云存储和云计算的能力,基于该技术框架可进行应用的扩展和衍生。基于用户互联网访问行为分析结果,形成详细的户兴趣爱好列表,可进行即时、精准的广告投放,大数据平台有助于提升现网分析能力,36Pcap数据(DPI)互联网路由器路由器防火墙WAP网站,37,系统构成,系统主要包含数据采集子系统、数据入库子系统、数据存储子系统、数据查询与分析子系统采用Hadoop/HBase作为上网记录存储方案采用MapReduce/Hive作用统计分析和数据挖掘工具,关键性指标,数据存储上网记录入库时间:一般小于30分钟,实际约10分钟历史5个月+当前月数据查询上网记录查询速度:不高于1秒(不含用户访问查询页面的时间)并发查询数目:1000请求/秒,大数据平台有效提升数据查询速度,以手机上网详单查询为应用案例,37系统系统主要包含数据采集子系统、数据入库子系统、数据存储,38,项目背景运营商建设有多套垂直的网管子系统,目前系统数据集中程度不够,还未形成统一的数据标准和数据共享框架,对运营支撑的支撑力度不够,而网络运维分析在面向服务转型的过程中对数据的汇聚和共享要求极为迫切,因此需要建立统一的网管资源池网管资源池主要负责各个垂直网管子系统信令数据、日志数据的、告警数据的统一管理,实现跨平台的数据整合、数据应用和数据共享等功能,网管统一资源池需提供海量历史数据的查询功能,满足运维人员日常信息查询和信息追溯的需要。系统与呼叫中心、工单系统对接,实现快速的数据交付(工单生成、告警触发)难点分析多个垂直网管系统的数据结构千差万别,抽取后的数据无法关联形成统一的数据集合,传统关系型数据库优势无法体现系统需要满足OLAP类应用分析,并面向上层应用提供一致性的数据查询,传统的关系型数据库受限于数据体量和数据种类,无法满足多类型的海量数据的查询和分析要求系统需同时从多个数据源实现数据库数据、信令数据和日志数据的采集,传统的ETL工具无法满足流式数据的采集要求,导致进程拥塞。建设方案基于不同的数据源及应用分析模式采用Flume、Sqoop等系统工具完成结构化和非结构化数据的导入基于HDFS实现海量历史数据的存储Hive组件可通过SQL命令完成大数据的统计分析,并与传统关系型数据库配合完成分析结果数据的存放HBase主要应用于历史数据的查询,例如:查询1天全网所有隐形故障告警数据,大数据平台适应复杂数据结构的数据整合应用,38项目背景大数据平台适应复杂数据结构的数据整合应用,“大云”应用案例之一:大数据ETL业务,现网3.2天,减少为0.8天节约近2.5天,现网90分钟减少为10分钟仅为1/10,滚详单类,出月表类,“大云”应用案例之一:大数据ETL业务流程现网时间(min),帐详单系统存储数量急剧膨胀,传统架构难以满足当前业务运营要求,系统面临扩容难题,“大云”应用案例之二:大数据查询业务,某地市应用,每个月帐详单总体数据量10TB话单通过HTLoad工具批量加载帐详单查询通过SQL或Native API接口进行复杂分析则通过MR接口进行HugeTable支持数据按照Join key预先进行数据划分,减少join过程中数据在节点间的拷贝,应用效果:加载:支持数据并行加载,数据加载保证完整性和可靠性;查询:在高并发条件下,数据查询性能一般可达到网络IO(对于千兆以太网单节点可达1GB)或磁盘IO瓶颈;更新:可支持单条或批量数据增删改查操作,聚合更新带宽可达网络IO极限;压缩:对数据内容进行高效压缩,节省磁盘、网络IO,节省存储空间;,帐详单系统存储数量急剧膨胀,传统架构难以满足当前业务运营要求,“大云”应用案例之三:大数据挖掘业务,新业务提升模型:通过客户细分与手机报业务匹配,实现精确营销。Kmeans算法,10节点云平台。效果:业务1用户渗透率提高48%,业务1收入提高64%业务1用户数提高76%,3个地市公司直接使用BC-PDM建模,验证BC-PDM在功能、性能、易用性上能满足现网需求,应用效果显著,地市公司1,地市公司2,客户的识别模型:C45分类算法,6节点云平台。模型准确性较好,极大提升了营销效率,也极大节约了成本,地市公司3,欠费风险监控与个人客户信用度应用:8节点云平台。,1、减少了可观的停机工单量2、延停后欠费用户比例上升,“大云”应用案例之三:大数据挖掘业务新业务提升模型:通过客户,“大云”应用案例之四:分布式交易数据库,TRM:终端进销存系统(在线交易+统计报表),高并发:能支持现网3000个用户同时在线高可用:在线主主热备集群,集群内部多副本(强一致)功能:支持兼容SQL92语法,应用改造时间短,开发速度快(1-4周)可运营可管理:提供命令行监控工具,集成BOMC网管。稳定性:早期出现过较多故障(含严重故障),提供改进产品和运维手段,实现稳定运行,紧急故障在1-10分钟之内抢通。,业务:服务于各终端网点、经销商、各级公司以及供应商的销售支撑业务管理平台,实现对移动终端所属的零售商和零售店的终端需求和终端发货的集中管理。规模:预计接入组织(含所有网点、各级管理部门、经销商和供货商、售后等)达到几万水平需求:终端进销存管理系统需要一个支持实时交易处理、SQL标准、高并发、具有高可靠性的关系数据库系统。BC-RDB方案架构: 6节点组成2个安全组,每组3副本,支持双集群热备,集群内部读写分离。,“大云”应用案例之四:分布式交易数据库TRM:终端进销存系统,提供更大、更快、更强、更高质量的大数据能力,Volume,静止的数据,TB-EB甚至更大规模的现存数据账单、CDR、网页库,Velocity,运动的数据,数据流,响应时间为毫秒-秒时间窗口日志、交易、信令、M2M、消息、监控,Variety,数据形态各异,结构化、半结构化、非结构化、多媒体数据等,Veracity,数据不够精确,由于不一致、不完整、模糊、延迟、模型错误、伪造而使数据不够精确,http:/www.intergen.co.nz/Global/Images/BlogImages/2013/Defining-big-data.png,提供更大、更快、更强、更高质量的大数据能力Volume静止的,谢谢!,谢谢!,