中石化-IBM大数据方案介绍.ppt
,2012 IBM Corporation,2014年5月29日星期四,IBM大数据方案介绍曾翔IBM 信息管理 软件部,2012 IBM Corporation,2,议程 应用场景和启发 IBM的大数据平台,?TBs,3,何来大数据,每天20亿人浏览网页2011底 2012 IBM Corporation,30 亿/天 RFID标签数据(1.3B in 2005),46亿部智能电话,25+TBs 日志数据/每天7千6百万智能电表in 2009200M by 2014,12+TBs 每天智能手表、穿戴式电脑每年新增数亿GPS设备,2012 IBM Corporation,4,大数据的4维,数据格式多,传输速度快,大数据量不确定性,2012 IBM Corporation,5,大数据为什么是现在?,2012 IBM Corporation,6,大数据带来什么表现优秀的企业使用分析技术的数量比表现较差的企业高五倍(见图1)。调查来自100多个国家、30多个行业的近3,000高管、经理和分析员,2012 IBM Corporation,7,大数据带来什么,消费意向,duke/unc and take it to the courtshttp:/,Im at Mickeys Irish Pub Downtown(2063rd St,Court Ave,Raleigh)w/2 othershttp:/,silliesylvia good!U shouldnt!,Think about the important stuff,like ur 43rd birthday;),btw happy birthday Sylvia;),地址,silliesylvia I 3 your leatherleggings!Its so katniss!,年龄,个人属性,Sylvia Campbell,Female,In aRelationship32 years old,birthday on 7/17,Lives near Raleigh,NC,College graduate;Income of 80-120k,喜爱和厌恶,Retweets BFs comments Interest in BBC shows:Downton Abbey,Sherlock,Fringe,(P&P?)Sherlock Holmes,Robert Downey,Jr.Hunger Games,Katniss/J.Lawrence兴趣/行为 Watch movies,tv shows Romance plots,“hero types”,strongwomenUses iPad 3,Redbox,HuluShopping,interest in sales/dealsDuke/UNC basketball 2012 IBM Corporation,兴趣,bamagirl cant wait to,watch sherlock with you!Oh,robert downey jr,I still loveyou but bbc is so amazing,兴趣,silliesylvia$10 dollars saysmatthew&mary get marriednext season:)#downtownabbeyOMG OMG.just droppedmy new ipad3 crappola!预测消费88,态度John Carter Review Other than the crapcinematography and that it seems like alord of the flies in the thunderdome,itsstill disney and deserves at least atrilogy.Id be sad about the money,but Idid just pay to see American Reunion.,dear redbox please have kingsspeech for my new tv colin firthmovie marathon,360 度的客户视图,消费意向,Consumption,分析的第一步:大数据中的信息提取行为Maybe our politicians should take aplaybook out of the rivalry between,9,Marketing,CampaignPerformance,Interactions,3rd PartyNewsSources,Social MediaActivity,ConsumerSubs&Distribution,Web&MobileAppBehavior,results in a roll-up view of millions ofaudience members,将多个来源的数据进行整合CRM,Demographic Data:age,gender,location,education,income,etcLifestage:maritalstatus,employment,family members,property ownership,etc,Product Affinity&Behaviors:Brands and product affinity,intent,andpurchases/ownershipMedia Affinity&Behaviors:Comprehensive view of contentpreferences and consumption-magazine,apps,TV,movies,music,games,etc,Lifestyle:hobbies,interests,activitiesAssociated Communities:Professional/educationalmemberships,social groups,and other associationsBrand Sentiment:Generalsentiment toward mediafranchises and competitivebrands,products 2012 IBM Corporation,现在我们对客户有了360度的全视角,分析的第二步:信息的整合和挖掘,Analytics Complexity,2012 IBM Corporation,1010,Curated Panels Polling&ExtrapolationData Volume,360-degree Profiles Micro-segmentation Predict Behavior,Social Listening andMonitoring Sentiment Buzz Key influencers,Volume-Growing volume of socialmedia or other media source data Extract concepts from several 100Mmessages per day100M+active users per source,Variety-Heterogeneous data Combine,correlate informationover 100s of sources(sites,forums,message boards,newswires),Velocity-Timely Decision,making Make decisions in near real-time over 10K+messages persecond,insightsunderstand jargon and acronyms,eliminatespam,大数据量,数据格式多传输速度快,分析过程的挑战:Social Media Analytics:A Big Data Problem不确定性Veracity-From Noisy data to Trustworthy,2012 IBM Corporation,11,议程 应用场景和启发 IBM的大数据平台,12,PureData for Analytics基亍Netezza平台支持海量关系数据分析挖掘,PureData forTransactional Analytics基亍DB2数据仓库支持海量数据的实时分析,InfoSphere Streams海量数据的实时分析平台,数据分析一体化平台,流计算平台,信息集成平台,InfoSphere InformationServer大数据量的数据集成与转换,IBM 大数据平台InfoSphere BigInsights基亍Hadoop平台,低延迟高性能分析平台支持非结构海量数据存储分析Hadoop平台,PureData for Hadoop基亍IBM BigInsight支持海量非结构化的数据分析 2012 IBM Corporation,2012 IBM Corporation,13,IBM 大数据平台解决的问题分析各种格式的大数据(Variety)Novel analytics on a broad set of mixedinformation that could not be analyzedbefore分析实时的大数据(Velocity)Streaming data analysisLarge volume data bursts and ad-hoc analysis分析极其海量的数据(Volume)Cost-efficiently process and analyze PBs of informationManage&analyze high volumes of structured,relationaldata分析和展现Ad-hoc analytics,data discovery andexperimentation管理(Veracity)Enforce data structure,integrity and control toensure consistency for repeatable queries,14,PureData for Analytics基亍Netezza平台支持海量关系数据分析挖掘,PureData forTransactional Analytics基亍DB2数据仓库支持海量数据的实时分析,InfoSphere Streams海量数据的实时分析平台,关系型数据仓库平台,流计算平台,信息集成平台,InfoSphere InformationServer大数据量的数据集成与转换,IBM 大数据平台InfoSphere BigInsights&Explorer基亍Hadoop平台,低延迟高性能分析平台支持非结构海量数据存储分析Hadoop平台,PureData for Hadoop基亍IBM BigInsight支持海量非结构化的数据分析 2012 IBM Corporation,2012 IBM Corporation,15,IBM BigInsight 基亍Hadoop的大数据分析平台 Hadoop 的计算模式 数据存在由便宜的计算机集群构成的分布式文件系统上 将应用功能分割在各个数据片上计算,然后汇总 可支持几乎无限的节点扩展和PB级别的海量数据,1.Map Phase,(break job into small parts),2.Shuffle(transfer interim outputfor final processing)3.Reduce Phase(boil all output down toa single result set),Return a single result set,Result Set,public static class TokenizerMapperextends Mapper private final static IntWritableone=new IntWritable(1);private Text word=new Text();public void map(Object key,Text val,ContextStringTokenizer itr=new StringTokenizer(val.toString();while(itr.hasMoreTokens()word.set(itr.nextToken();context.write(word,one);,public static class IntSumReducerextends ReducerText,IntWritable,Text,IntWrita,private IntWritable result=new IntWritable();public void reduce(Text key,Iterable val,Context context)int sum=0;for(IntWritable v:val)sum+=v.get();.MapReduce Application,Distribute maptasks to clusterShuffle,Hadoop Data Nodes,2012 IBM Corporation,16,InfoSphere BigInsights 有别亍开源的Hadoop,2012 IBM Corporation,17,GPFS-SNC并行文件系统 vs HDFS BigInsights底层存储GPFS-SNC基于GPFS发展而来,与HDFS相比,在性能、可靠性,易操作性方面具有巨大优势,是BigInsights强大的基石。,2012 IBM Corporation,18,增强的数据分析能力,企业级管理和处理能力的提升 SystemT文本分析器-基于Hadoop MapReduce文本分析,从非结构化的文本数据中抓取出结构化,半结构化的数据便于分析和处理。简单但是具有强大的扩展能力的JAQL语言。统计分析平台project R,以及机器智能学习systemML。可视化的工具BigSheet用于展示和挖掘。提升MapReduce仸务的处理性能。解决Hadoop工作负载管理问题。,2012 IBM Corporation,19,与IBM数据分析软件深度集成 通过DB2 Bridge to BigInsight提供统一的访问接口。与分析应用和分析模型进行端对端集成。可以继续利用客户现有的分析平台的投资,降低整体的拥有成本,包括企业级别的数据仓库集成能力(Netezza,DB2,InfoSphereWarehouse)。,Import&Export Data Database&Files Web and Social Analyze and Query,Predictive AnalyticsText AnalyticsSQL/Hive,Jaql,Pig,HBase 2012 IBM Corporation,BigInsight提供的应用开发界面,20 20,2012 IBM Corporation,拖拽的方式创建应用,21 21,2012 IBM Corporation,BigSheets 大数据的分析展现工具,Model“big data”collectedfrom various sources ascollections(tabularstructures)Filter and enrich contentwith built-in functionsCombine data in differentcollectionsVisualize results throughspreadsheets,chartsExport data into common,Sheets,formats(if desired)No programming knowledge needed!,22 22,2012 IBM Corporation,23 23,BigSheets 大数据的分析展现工具,2012 IBM Corporation,24,HDFS files:Hive-RC,text,delimited,JSON,SEQUENCE,HBase servers,HBaseclient API,ODBCClient,JDBCClient,SQL interface ServerSQL EngineParallel Execution Engine,Hive MetaStore,Metastore,HCatalog,Client APIHive Storage Handlers,Hive-RCstorage driver,Delstoragedriver,Textstoragedriver,JSONstoragedriver,HBasestoragehandler,Other DataSources,(RDBMS,Web,etc.),IBM Big SQL通过SQL访问所有大数据利用MapReduce的并行机制提供对各种数据源的接口,2012 IBM Corporation,25,Web Results,RSS/LicenseFeeds,Subscriptions,IBM Data Explorer 大数据搜索架构,Search Engine,Content,Document,Record Mgt.Systems,Databases,RSS/LicenseFeeds,CollaborationSystems,Email andEmail Archives,Internet(Web),CRM Systems File Systems,Knowledge BaseThesauriAcronymsOntology SupportSemantic Processing,FederatedSources,Content IntegrationQuery transformation&federation,Clustering Engine,User Profiles,Publish Search,ResultsDisplayTemplates,robust transformation,XML feed,26,PureData for Analytics基亍Netezza平台支持海量关系数据分析挖掘,PureData forTransactional Analytics基亍DB2数据仓库支持海量数据的实时分析,InfoSphere Streams海量数据的实时分析平台,关系型数据仓库平台,流计算平台,信息集成平台,InfoSphere InformationServer大数据量的数据集成与转换,IBM 大数据平台InfoSphere BigInsights基亍Hadoop平台,低延迟高性能分析平台支持非结构海量数据存储分析Hadoop平台,PureData for Hadoop基亍IBM BigInsight支持海量非结构化的数据分析 2012 IBM Corporation,Streams 如何工作?,架构提供的服务协调多物理节点的协同工作,建立多节点的流连接转换,标识,连续的数据获取 连续的分析过程过滤/取样,关联分类将关联的数据进行碰撞匹配,减少通信延迟通过将应用进行分割和网格部署实现高性能和高扩展性应用可部署在由数据流连接的多个物理机器上,RFID,网络包traces,数字语音,视频和图像数据twitters 卫星数据(GPS),交易数据ATM 交易,感应器数据,Stream 定位亍处理高频率数据、海量多来源数据、分布式数据和事件来源广泛的数据和事件来源,非结构化数据,结构化数据,高可用密度数据 简单分析 规范定义的数据 高频率(百万比/秒)极低延迟,低可用密度数据 复杂分析 需要被监测的事件 高容量(TB/秒)低延迟,新闻播报天气预报,方位数据web searches,Stream产品 一套基础软件平台 基于x86处理器平台和RHEL 5u3 64-bit 从单个笔记本扩展到大型集群 Single-and/or multi-core 处理节点 首个原型基于IBM Blue Gene TD Financial Group 世界最快 交易系统原型 处理 5百万 TAQ 事件/秒,平均延迟150 微妙 可为专门领域进行定制 Infrastructure selects analytic implementation appropriate to target GA 产品包括 w/,高度精简用于开发基于流计算的语言平台开发工具开发组件包与 IBM 其它产品的整合,2010 IBM Corporation,30,InfoSphere Streams 平台,运行环境可扩展的Stream运行环境,工具和技术集成数据源连接器数学和文本处理函数运算函数库,开发环境Streams StudioEclipse IDE for SPL,”,),Supported on x86 hardware,RedHat Enterprise Linux 5.3 and 5.4,31,PureData for Analytics基亍Netezza平台支持海量关系数据分析挖掘,PureData forTransactional Analytics基亍DB2数据仓库支持海量数据的实时分析,PureData for Hadoop基亍IBM BigInsight支持海量非结构化的数据分析 2012 IBM Corporation,InfoSphere Streams海量数据的实时分析平台,关系型数据仓库平台,流计算平台,信息集成平台,InfoSphere InformationServer大数据量的数据集成与转换,IBM 大数据平台InfoSphere BigInsights基亍Hadoop平台,低延迟高性能分析平台支持非结构海量数据存储分析Hadoop平台,2012 IBM Corporation,32,与过去的 Netezza 技术相比,战术查询的并发性和吞吐量提高 了20 倍,PureData-Workload Optimized Data Service Experts 基于模式的数据库快速部署服务 高可用、高性能的OLTP数据服务System for Transactions 在一个系统上处理超过一百个数据库 比传统定制系统的速度快 10-100 倍,System for Analytics,持续摄取运营数据System for Operational 处理千余个并发运营查询Analytics 企业非结构化的大数据服务System for Hadoop 易与传统的数据仓库集成 企业级的安全性,企业级,2012 IBM Corporation,33,33,-电子表格样式的工具-RDBMS、仓库连接性-管理工具、安全性-Eclipse 开发工具-企业集成功能的广度,基本版免费下载-基于 Web 的管理控制台-Jaql-集成的安装,ApacheHadoop,从入门到企业部署:InfoSphere BigInsights 将 Hadoop 带给企业PureData for Hadoop-面向企业的设备简单性企业版根据托管的 TB 数量进行销售-加速器-性能优化-可视化功能-预构建的应用程序-文本分析,2012 IBM Corporation,34,34,34,IBM PureData System for Hadoop 的优势 部署速度快 8 倍与自定义构建的解决方案相比,内置的可视化可以加快获得洞察的速度 内置的分析加速器与市场上的大数据设备不同 单一系统控制台实现完整的系统管理 快速维护更新可自劢完成 不需要任何组装,在几个小时内准备好加载数据 集成 Hadoop 系统与内置归档工具 提供更强大的安全性与开源软件相比 针对高可用性设计的架构,加快大数据实现价值的速度简化大数据的采用和使用实施企业级大数据,35,PureData for Analytics基亍Netezza平台支持海量关系数据分析挖掘,PureData forTransactional Analytics基亍DB2数据仓库支持海量数据的实时分析,PureData for Hadoop基亍IBM BigInsight支持海量非结构化的数据分析 2012 IBM Corporation,InfoSphere Streams海量数据的实时分析平台,关系型数据仓库平台,流计算平台,信息集成平台,InfoSphere InformationServer大数据量的数据集成与转换,IBM 大数据平台InfoSphere BigInsights基亍Hadoop平台,低延迟高性能分析平台支持非结构海量数据存储分析Hadoop平台,2012 IBM Corporation,36,IBM Information Server 数据整合平台,37,易亍使用的图形化界面优点:,1.2.3.4.5.,使开发、维护和调试变得容易只需要鼠标的点击即可完成数据整合基于组件的体系结构可重用性顺序开发,并行执行37 2012 IBM Corporation,2012 IBM Corporation,38,Datastage提供灵活的ETL任务调度针对ETL任务多系统间数据整合的管理调度问题图形化的工作流多种流程控制方式支持条件路径和错误处理支持EMAIL通知,Server,非入侵、网络旁路的方式 数据库引擎之外部署 性能影响极小(2-3%),无需DBMS及应用的任何变更 跨DBMS类型及平台,支持大数据平台 对包括DBA本地访问在内的所有用户的数据库访问行为提供100%可见性39,仅负责审计、监控,不与DBMS存在任何职责覆盖 不依赖任何DBMS的事务、审计日志,如上两种日志本身也极容易遭受攻击(如被攻击者删除、篡改),精细粒度的实时安全策略、审计能力 Who,what,when,how自动化合规及审计报表生成、升级、签报等(SOX,PCI,NIST,etc.)2012 IBM Corporation,DB2,IBM 大数据平台的数据安全SQL,2012 IBM Corporation,40,Guardium 对HDFS数据安全的监控Does this look familiar?Sample HDFS Commands cat Shows contents of files vs.select which show thecontents of tables mkdir Create a directory to storefiles vs.create a table to storedata rm Deletes a file vs.(delete/drop)chmod/chgrp Change the permissions orgroup of a file vs.grantingprivileges to a table orrevoking privileges,CUSTOMERS,ORDERS,ORDERS,DETAILS,-,CUST,ORD,DETL,CUST,ORD,DETL,DETL,2012 IBM Corporation,41,ExtractFile,TESTDB-QADBCUST-ORD-,INSERT/UPDATELoadFilesLOAD,转换/变形敏感数据,从生产系统数据源中抽取具有相关性的数据子集 一致的抽取流程 可重复加载的数据文件 可访问/恢复的归档文件,-,-CUSTOMERS-DETAILS-,MaskedExtractFile,NewDB-,Create&Load,归档文件集,归档,二级存储,归档管理,测试数据管理,隐私数据保护管理,选择性恢复归档后删除,IBM Optim 对大数据的治理(归档、敏感信息屏蔽),42,Traditional/RelationalData Sources,Analytics onData at Rest,DataWarehouse,Analytics onStructured Data 2012 IBM Corporation,RTAP:Analytics onData in Motion,BigInsights,Non-Traditional/Non-Relational,Non-Traditional/Non-RelationalData Feeds,Data SourcesTraditional/,RelationalData Sources,大数据与传统分析平台的融合Streams,流数据,非结构化数据,传统关系型数据,2012 IBM Corporation,43,IBM Information Server,IBM BigInsightIBM PureData for Analytics,IBM Data Explorer,IBM SPSS,大数据平台一览IBM Guardium,IBM OptimIBM StreamsIBM Cognos,2012 IBM Corporation,2014年5月29日星期四,44,THINKhttps:/w3-,al%20Resources%20Wiki/page/Understanding%20Big%20Data,