大数据概论ppt课件.ppt
《大数据概论ppt课件.ppt》由会员分享,可在线阅读,更多相关《大数据概论ppt课件.ppt(85页珍藏版)》请在三一办公上搜索。
1、大数据概论,大数据概论,1 大数据技术简介,半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息爆炸的学科如天文学和基因学,创造出了“大数据”这个概念。如今,这个概念几乎应用到了所有人类智力与发展的领域中。,1.1大数据的时代背景,20世纪90年代,数据仓库之父的Bill Inmon就经常提及Big Data。,1.1大数据的时代背景,互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在
2、疯狂产生着数据。,21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。,2011年5月,在“云计算相遇大数据”为主题的EMC World 2011 会议中,EMC 抛出了Big Data概念。,1.1大数据的时代背景,数据的本质是生产资料和资产,数据爆炸式增长-每分钟,1.2大数据定义,1.2大数据的定义,大数据(big data),又称巨量数据集合,是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。对于“大数据”研究机构Gartner给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力
3、、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据加上云计算被认为是继信息化和互联网后整个信息产业的第三次革命。,1.3大数据的4V特征,大数据的4V特征,大数据的4V特征,大数据的4V特征,大数据的4V特征,大数据的4V特征,体量Volume,多样性Variety,价值密度Value,速度Velocity,非结构化数据的超大规模和增长占总数据量的8090%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍,大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义,大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析
4、(机器学习、人工智能Vs传统商务智能(咨询、报告等),实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效,“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。,大数据的构成,大数据 = 海量数据 + 复杂类型的数据,大数据包括:交易数据和交互数据集在内的所有数据集,海量交易数据:企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。,海量交互数据:源于Face
5、book、Twitter、LinkedIn及其他来源的社交媒体数据构成。它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输Manage File Transfer协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。,海量数据处理:大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如具有开放源码、在商品硬件群中运行的Apache Hadoop。,大数据的特点,1.4大数据的数据格式,结构化信息:这种信息可以在关系数据库中找到,多年来一直主导着IT应用,是关键任务OLTP(联机事务处理)系统业务所依赖的信息
6、。另外,这种信息还可对结构数据库信息进行排序和查询。例如VF中的表。半结构化信息:包括电子邮件、文字处理文件及大量保存和发布在网络上的信息。非结构化信息:该信息在本质形式上可认为主要是位映射数据。,大数据需要解决的问题,Volume海量的数据规模,Variety多样的数据类型,Value,Velocity快速的数据流转,发现数据价值,1.5大数据的处理流程,1.6大数据的技术架构,大数据的四层堆栈式技术架构,1.7大数据的整体技术,一般包括:数据采集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测和结果呈现等。,大数据的相关技术,数据采集,数据存储与管理,数据分析与挖掘,计算结果展
7、示,大数据的相关技术,1.8大数据分析的四种典型工具简介,1HadoopHadoop是一个能够对大量数据进行分布式处理的软件框架,是一个能够让用户轻松架构和使用的分布式计算平台。2SparkSpark是一个基于内存计算的开源集群计算系统,目的是更快速的进行数据分析。,大数据分析的四种典型工具简介,3StormStorm是一种开源软件,一个分布式、容错的实时计算系统。4Apache Drill为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法,Apache软件基金会发起了一项名为Drill的开源项目。Apache Drill实现了Googles Dremel。,大数据的相关技术,Had
8、oop是一个由Apache基金会所开发的分布式系统基础架构。Hadoop是以分布式文件系统(Hadoop Distributed File System,简称HDFS)和MapReduce等模块为核心,为用户提供细节透明的系统底层分布式基础架构。,大数据的相关技术,MapReduce是面向大数据并行处理的计算模型、框架和平台。 MapReduce由Map和Reduce两部分用户程序组成,利用框架在计算机集群上根据需求运行多个程序实例来处理各个子任务,然后再对结果进行归并输出。,大数据的相关技术,MapReduce举例: “统计54张扑克牌中有多少张?” 最直观的做法:你自己从54张扑克牌中一张
9、一张地检查并数出13张。而MapReduce的做法及步骤如下:1.给在座的所有牌友(比如4个人)尽可能的平均分配这54张牌;2.让每个牌友数自己手中的牌有几张是,比如老张是3张,老李是5张,老王是1张,老蒋是4张,然后每个牌友把的数目分别汇报给你;3.你把所有牌友的数目加起来,得到最后的结论:一共13张。这个例子告诉我们,MapReduce的两个主要功能是Map和Reduce。Map:把统计数目的任务分配给每个牌友分别计数。 Reduce:每个牌友不需要把牌递给你,而是让他们把各自的数目告诉你。,1.9大数据带来的变革,商业模式,以数据/数据产品为输入,数据/数据产品为输出的新商业模式,大数据
10、让教育真正面对每一个独立的个体,利用数据进行决策,数据挖掘与认识论挑战数据资源与价值观转变数据足迹与伦理观危机,大数据带来的思维变革,大数据时代的思维方式,大数据时代,人们对待数据的思维方式变化:从样本思维转向总体思维:带来更全面的认识,可以更清楚地发现样本无法揭示的细节信息;从精确思维转向容错思维:当拥有海量即时数据时,绝对的精准不再是追求的主要目标,适当忽略微观层面上的精确度,容许一定程度的错误与混杂,反而可以在宏观层面拥有更好的知识和洞察力;从因果思维转向相关思维:努力颠覆千百年来人类形成的传统思维模式和固有偏见,才能更好地分享大数据带来的深刻洞见。从自然思维转向智能思维,不断提升机器或
11、系统的社会计算能力和智能化水平,从而获得具有洞察力和新价值的东西,甚至类似于人类的“智慧”。,1.10大数据的应用领域,RFID传感器,军事侦察,社会网络、数据,天文学,摄影档案馆视频档案,医疗记录,互联网搜索索引,网络日志,生物、基因组学,大规模的电子商务,大数据应用案例之:医疗行业IBM最新沃森医疗保健内容分析预测技术,该技术允许企业找到大量病人相关的临床医疗信息,通过大数据处理,更好地分析病人的信息。在加拿大多伦多的一家医院,针对早产婴儿,每秒钟有超过3000次的数据读取。通过这些数据分析,医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施,避免早产婴儿夭折。为了让更多的创业者更方
12、便地开发产品,比如可以通过社交网络来收集数据的健康类App。也许未来数年后,这些搜集的数据能让医生给你的诊断变得更为精确,比方说不是通用的成人每日三次一次一片,而是检测到你的血液中药剂已经代谢完成会自动提醒你再次服药。,大数据的应用案例,大数据应用案例之:能源行业智能电网现在欧洲已经做到了终端,也就是所谓的智能电表。在德国,为了鼓励利用太阳能,会在家庭安装太阳能,除了卖电给你,当你的太阳能有多余电的时候还可以买回来。通过电网收集每隔五分钟或十分钟收集一次数据,收集来的这些数据可以用来预测客户的用电习惯等,从而推断出在未来23个月时间里,整个电网大概需要多少电。有了这个预测后,就可以向发电或者供
13、电企业购买一定数量的电。因为电有点像期货一样,如果提前买就会比较便宜,买现货就比较贵。通过这个预测后,可以降低采购成本。维斯塔斯风力系统,依靠的是BigInsights软件和IBM超级计算机,对气象数据进行分析,找出安装风力涡轮机和整个风电场最佳的地点。利用大数据,以往需要数周的分析工作,现在仅需要不足1小时便可完成。,大数据的应用案例,大数据应用案例之:通信行业XOCommunications通过使用IBMSPSS预测分析软件,减少了将近一半的客户流失率。XO现在可以预测客户的行为,发现行为趋势,并找出存在缺陷的环节,从而帮助公司及时采取措施,保留客户。此外,IBM新的Netezza网络分析
14、加速器,将通过提供单个端到端网络、服务、客户分析视图的可扩展平台,帮助通信企业制定更科学、合理决策。电信业者透过数以千万计的客户资料,能分析出多种使用者行为和趋势,卖给需要的企业,这是全新的资料经济。中国移动通过大数据分析,对企业运营的全业务进行针对性的监控、预警、跟踪。系统在第一时间自动捕捉市场变化,再以最快捷的方式推送给指定负责人,使他在最短时间内获知市场行情。,大数据的应用案例,大数据应用案例之:零售业时装零售商希望向客户提供差异化服务,定位公司的差异化,Informatica的技术通过从Twitter和Facebook上收集社交信息,更深入的理解化妆品的营销模式,他们认识到必须保留两类
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 概论 ppt 课件

链接地址:https://www.31ppt.com/p-1408502.html