大数据介绍及公司大数据规划ppt课件.ppt
大数据时代,ERP班组 2012.11,平均每一分钟中国互联网上发生了什么?,百度搜索查询,48.7万次,5万条,微博,465名,新用户,1.37亿人,同时QQ在线,556篇,博客文章,83名,新博客,4944条,心情更新,6597篇,日志发布,13.9万张,照片上传,3125条,状态更新发布,417篇,日记更新,97个,视频上传到优酷,内容总计14个小时,5.6万人,淘宝在线,交易额,230万元,80篇,新帖子发布,新回复,1200篇,大数据时代的到来,一切都在被记录,一切都在数据化,大数据时代的到来,大数据起源:1980年,家阿尔文托夫勒的第三次浪潮,大数据时代的到来,目 录,一、什么大数据,“大数据”或称巨量数据、海量数据、大资料,指的是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。,一、什么是大数据,大数据的定义:,数据的存储单位有:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、NB、DB,它们按照进率1024(2的十次方)来计算:1 Byte=8 bit1 KB=1,024 Bytes1 MB=1,024 KB=1,048,576 Bytes1 GB=1,024 MB=1,048,576 KB1 TB=1,024 GB=1,048,576 MB1 PB=1,024 TB=1,048,576 GB1 EB=1,024 PB=1,048,576 TB1 ZB=1,024 EB=1,048,576 PB1 YB=1,024 ZB=1,048,576 EB1 NB=1,024 YB=1,048,576 ZB1 DB=1,024 NB=1,048,576 YB,二、大数据的特征,数据量巨大,二、大数据的特征,数据类型多样,价值密度低,高速,如今的数据类型早已不是单一的文本形式,订单、日志、音频结构化数据(20%)、半结构化数据和非结构化数据(80%),犹如沙里淘金,实时获取需要的信息,大数据与传统数据的区别,一、什么是大数据,VS,大数据其实是人们根据电脑的优势,找出了一个全新的数据分析、挖掘方式,与传统的方式完全不同,二、大数据在企业中的运用,Target,一家比父亲更早知道女儿怀孕的超市 曾经有一位男性顾客到一家塔吉特超市店中投诉,商店竟然给他还在读书的女儿寄婴儿用品的优惠券。这家全美第二大零售商,会搞出如此大的乌龙?但经过这位父亲与女儿进一步沟通,才发现自己女儿真的已经怀孕了。,未卜先知怀孕案例,如何比更早发现潜在的客户?,二、大数据在企业中的运用,Target公司是如何做到的呢?,1、数据信息记录,2、数据模型建立,3、数据实时监控,4、精准营销,根据大数据模型,Target制订了全新的广告营销方案,结果Target的孕期用品销售呈现了爆炸性的增长。公司大数据分析技术从孕妇这个细分顾客群开始向其他各种细分客户群推广,Target的销售额也因此从每年的440亿美元增长到了670亿美元。,二、大数据在企业中的运用,*,通过用户行为分析实现精准营销是大数据的典型应用,大数据在各行各业特别是公共服务领域同样具有广阔的应用前景,消费行业,金融服务,食品安全,医疗卫生,军事,交通环保,电子商务,气象,二、大数据在企业中的运用,5)利用大数据找到新的商业机会,开发产品,4)了解同行经营情况,针对性提升自己的业绩,3)为精准营销提供支持,2)真正实时的了解客户,1)给予上下游产业链者市场预判,大数据的价值,二、大数据在企业中的运用,1、手握大数据,但是没有利用好,2、没有数据,有大数据思维及技术,3、既有数据,又有大数据思维及技术,金融机构,电信行业,政府机构等,IT咨询和服务企业,比如,埃森哲,IBM等,Google,Amazon,BAT三巨头等,按大数据价值链分,分为三类,二、大数据在企业中的运用,三、大数据如何开展工作,有技术,有大数据思维,有数据,大数据部岗位总概述:建立更多的数据收集渠道去积累更多的数据,利用相关技术进行整理、分析,将数据转化为企业的资产!,一、数据从哪里来?,二、如何利用它?,企业运营大数据的三要数,三、大数据如何开展工作,2、数据在哪里,3、怎么获取,1、需要什么数据,三、大数据如何开展工作,一、数据从哪里来?,3、怎么获取 数据的拥有者是我们数据的提供者和受益者。,三、大数据如何开展工作,一、数据从哪里来?,自我采集:,合作与购买:,基于大数据4V特征,要开发利用大数据,需要特殊的技术。关键技术一般包括:大数据采集、大数据统计分析、大数据挖掘、大数据展现和应用等技术,三、大数据如何开展工作,二、如何利用它?,1、大数据采集技术:利用多种轻型数据库来接收发自客户端的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。使用的产品:MySQL,Oracle,HBase,Redis和 MongoDB等,2、大数据统计分析:海量的来自前端的数据快速导入到一个集中的大型分布式数据库 或者分布式存储集群,利用分布式技术来对存储于其内的集中的海量数据 进行普通的查询和分类汇总等,以此满足大多数常见的分析需求。使用的产品:Hadoop(Pig和Hive),YunTable,SAP Hana和Oracle Exadata,基于大数据4V特征,要开发利用大数据,需要特殊的技术。关键技术一般包括:大数据采集、大数据统计分析、大数据挖掘、大数据展现和应用等技术,三、大数据如何开展工作,二、如何利用它?,3、大数据挖掘技术:基于前面的查询数据进行数据挖掘,来满足高级别 的数据分析需求。使用的产品:Hadoop Mahout,4、大数据统展现与应用:可视化工具及大数据产品使用的产品:大数据魔镜(国内)、google charts,三、大数据如何开展工作,Hadoop主要功能,HBase,MapReduce,Hive,HDFS,快速的数据读取,大数据存储统计,复杂计算并行处理,HDFS:分布式文件系统有较强的容错性可在x86平台上运行,减少总体成本可扩展,能构建大规模的应用HBase:非结构化NoSQl分布式数据库 基于分布式文件系统HDFS,保证数据安全列式存储,节省存储空间提供大数据量的高速读写操作Hive:分布式关系型数据库数据可保存在HDFS,可提供海量的数据存储类SQL的查询语句,提供大数据的统计和分析操作,适合海量数据的批处理通过MapReduce实现大规划并行计算MapReduce:大规划并行计算引擎可将任务分布并行运行在一个集群服务器中,四、公司大数据平台建设规划,购买 VS 自建,摩尔定律,大数据平台的建设,公司应分三个阶段,大数据平台建设初步阶段采集大数据,形成“入口”能力(12年时间),大数据平台建设中期阶段应用“入口”大数据,服务产品化(23年时间),大数据平台建设成熟期垂直整合,“入口”能力释放(持续发展),开发能采集用户大数据的智能产品、完善运营大数据的采集能力形成大数据采集、存储和管理的技术平台内外部数据梳理和整合,形成统一的用户大数据和运营大数据整合数据挖掘资源和能力,应用内外大数据支撑产品领先和消费体验领先战略发展,大数据技术平台成熟基于用户的大数据内生和应用平台形成形成12个领先型大数据产品拥有强大的数据挖掘资源和能力,对大数据进行价值挖掘和应用,数据价值开始显著发挥,形成网络化的大数据采集体系整合相关资源形成开放生态圈平台,成为平台生态圈发展的主导者基于生态圈平台,能为用户提供多元化的精确性服务,抢占用户的心理份额、生活份额、钱包份额。,四、公司大数据平台建设规划,