大数据专题讲稿ppt课件.ppt
《大数据专题讲稿ppt课件.ppt》由会员分享,可在线阅读,更多相关《大数据专题讲稿ppt课件.ppt(42页珍藏版)》请在三一办公上搜索。
1、,Big Data 大数据,什么是大数据? 海量数据本身+处理方法,大数据的产生及概念,*,21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。,“大数据”的诞生 半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息爆炸的学科如天文学和基因学,创造出
2、了“大数据”这个概念。如今,这个概念几乎应用到了所有人类发展的领域中。,大数据时代的背景,物联网加速大数据的发展,指数型增长的海量数据,所有研究都表明,未来数年数据量会呈现指数增长。根据麦肯锡全球研究院(MGI)估计,全球企业2010年在硬盘上存储了超过7EB(1EB等于10亿GB)的新数据,而消费者在PC和笔记本等设备上存储了超过6EB新数据。1EB数据相当于美国国会图书馆中存储的数据的4000多倍。事实上,我们如今产生如此多的数据,以至于根本不可能全部存储下来。例如,医疗卫生提供商会处理掉他们所产生的90%的数据(比如手术过程中产生的几乎所有实时视频图像)。,想驾驭这庞大的数据,我们必须了
3、解大数据的特征。,地球上至今总共的数据量:在2006 年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;在2011 年,这个数字达到了1.8ZB。而有市场研究机构预测:到2020 年,整个世界的数据总量将会增长44 倍,达到35.2ZB(1ZB=10 亿TB)!,1PB = 250字节1EB = 260字节1ZB = 270字节,指数型增长的海量数据,大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长,大数据是指社会生产生活和管理服务过程中形成的,依托现代信息技术采集、传输、汇总的,超过传统数据系统处理能力的数据,具有数据量大、数据类型多、处理速度快的特点,通过整合
4、共享、交叉复用、提取分析可获取新知识,创造新价值。,大数据 = 海量数据 + 复杂类型的数据处理方法,海量交易数据:企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。,大数据包括:交易数据和交互数据集在内的所有数据集,海量交互数据:源于Facebook、Twitter、LinkedIn及其他来源的社交媒体数据构成。它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输Manage File Transfer协议传送的海量图像文件、Web文本和点击流数据、科
5、学信息、电子邮件等等。可以告诉我们未来会发生什么。,海量数据处理:大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如具有开放源码、在商品硬件群中运行的Apache Hadoop。,“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。,商业模式驱动,应用需求驱动,云计算本身也是大数据的一种业务模式,云计算的模式是业务模式,本质是数据处理技术。数据是资产,云为数据资产提供存储、访问和计算。当前云计算更偏重海量存储和计算,以及提供的云服务,运行云应用,但是缺乏盘活数据资
6、产的能力,挖掘价值性信息和预测性分析,为国家、企业、个人提供决策和服务,是大数据核心议题,也是云计算的最终方向。,密不可分的大数据与云计算,大数据是落地的云,*,大数据不仅仅是“大”,多大?至少PB级,比大更重要的是数据的复杂性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值,*,软件是大数据的引擎,*,大数据的应用不仅仅是精准营销,通过用户行为分析实现精准营销是大数据的典型应用,但是大数据在各行各业特别是公共服务领域具有广阔的应用前景,消费行业,金融服务,食品安全,医疗卫生,军事,交通环保,电子商务,气象,如何让大数据更有意义是重点;对非结构化数据的内容理解是实现大数据资源化、知识化、
7、普适化的核心非结构化海量信息的智能化处理:自然语言理解、多媒体内容理解、机器学习等麻省理工学院数字商业中心的首席科学家安德鲁麦卡菲对北美33家上市公司的高管进行了结构性访谈之后发现:运用大数据做决策的那些行业领先企业,比其竞争对手在产能上高5%,利润上高6%。,分析技术:数据处理:自然语言处理技术统计和分析:A/B test; top N排行榜;地域占比;文本情感分析数据挖掘:关联规则分析;分类;聚类模型预测:预测模型;机器学习;建模仿真大数据技术:数据采集:ETL工具数据存取:关系数据库;NoSQL;SQL等基础架构支持:云存储;分布式文件系统等计算结果展现:云计算;标签云;关系图等,存储结
8、构化数据:海量数据的查询、统计、更新等操作效率低非结构化数据图片、视频、word、pdf、ppt等文件存储不利于检索、查询和存储半结构化数据转换为结构化存储按照非结构化存储,解决方案:Hadoop(MapReduce技术)流计算(twitter的storm和yahoo!的S4),能够在不同的数据类型中,进行交叉分析的技术,是大数据的核心技术之一。语义分析技术、图文转换技术、模式识别技术、地理信息技术等等,都在大数据分析时获得应用。,大数据的展现方式,新模式正在出现,基于SQL语言: 面对OLAP的传统行和列,不基于SQL或map-reduce的: 由谷歌率先发起,数据流: 基于运行商数据直接生
9、成任意图形,数据入口/汇聚,数据平台,分析,前提:传统交付模式-单片或基于设备的解决方案,云: 能够充分利用物理设施的弹性,以实现处理快速增长数据的能力,“数据库将演变成一个虚拟的,基于云计算,超级可扩展的分布式平台。”- Forrester analyst Jim Kobielus,大数据的组成部分,大数据技术:图像、音频、视频、非结构化、社交关系数据处理技术商;现有IT系统改造商:大数据咨询公司、集成商、ERP、商务智能、客户关系管理系统;终端提供商向数据提供商演进:对现有客户数据的深度把握、建立客户之间的社交和联系;,展现方式:大型控制中心、移动终端,在多样性、体量、速度三大特征的指引下
10、,大数据将有新型的展现方式:大型控制中心和移动终端,实现数据的实时处理和快速决策。,大数据为什么重要?决定企业是否有未来、业务可延伸范围,更高一层数据层面整合企业内外部,挖掘内部需求,经过大数据改造的IT不再是一个冷冰冰的系统,而变成了推动业务发展,挖掘客户内心需求的真正推动剂;大数据将催生更多的应用领域需求。,产生新的用户量、给用户产生行为指纹,用户在线的每一次点击,每一次评论,每一个视频点播,就是大数据的典型来源。互联网企业之所以取得令人瞩目的成绩,其核心的本质就是包括用户网络操作的大数据,进行记录和分析,形成用户“行为指纹”,从而洞悉用户的潜在的、真实的需求,形成预判。这是传统企业花费重
11、金都难以企及的梦想。所有传统的产品公司都只能沦为这种新型用户平台级公司的附庸。,国外发展情况:万马奔腾,抢占大数据高地,衍生于亚马逊、Google等互联网公司,前瞻来看,随着互联网对网民的理解,网民对网络的反作用,互联网将变得越来越智能。它在满足你需求的同时,也在创造新的需求。前者的代表是Google,后者的典型则是Facebook。谷歌的盈利在于所有的软件应用都是在线的。用户在免费使用这些产品的同时,把个人的行为、喜好等信息也免费的送给了Google。因此Google的产品线越丰富,他对用户的理解就越深入,他的广告就越精准。广告的价值就越高。这是正向的循环,谷歌好用的、免费得软件产品,换取对
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 专题 讲稿 ppt 课件
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-1327835.html