大数据时代概述课件.ppt
《大数据时代概述课件.ppt》由会员分享,可在线阅读,更多相关《大数据时代概述课件.ppt(51页珍藏版)》请在三一办公上搜索。
1、大 数 据 时 代生活、工作与思维的大变革,作者 作者:【英】维可托.迈尔-舍恩伯格 肯尼斯.库克耶译者:周涛,维克托迈尔-舍恩伯格(Viktor Mayer-Schnberger),被誉为“大数据时代的预言家”,也是最受人尊敬的权威发言人之一。现任牛津大学网络学院互联网研究所治理与监管专业教授,曾任哈佛大学肯尼迪学院信息监管科研项目负责人,新加坡国立大学信息政策研究中心主任。一百多篇论文公开发表在科学自然等著名学术期刊上。备受众多世界知名企业、机构和国家政府高层信赖的信息权威与智囊。他的咨询客户包括微软、惠普和IBM等全球顶级企业;他是欧盟互联网官方政策背后真正的制定者与参与者,也是世界经济
2、论坛、马歇尔计划基金会等重要机构的咨询顾问;还先后担任新加坡商务部高层、文莱国防部高层、科威特商务部高层、迪拜及中东政府高层的咨询顾问。他所著的删除一书,获得美国政治科学协会颁发的“唐K普赖斯奖”,以及媒介环境学会颁发的“马歇尔麦克卢汉奖”。肯尼斯库克耶(Kenneth Cukier),经济学人数据编辑,曾任职于华尔街日报(亚洲版)和国际先驱论坛报。他是美国外交关系协会成员,CNN、BBC和NPR的定期商业和技术评论员之一。,Lorem ipsum dolor sit amet,consectetur adipisicing elit,sed do eiusmod tempor incidid
3、unt ut labore et dolore magna aliqua.,目 录,引 言第一部分:大数据时代的思维变革第二部分:大数据时代的商业变革第三部分:大数据时代的管理变革结 语,引 言,一场生活、工作与思维的大变革,大数据开启了一次重大的时代转型。就想望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正蓄势待发,大数据,变革公共卫生大数据,变革商业大数据,变革思维大数据,开启重大的时代转型预测,大数据的核心大数据,大挑战,大数据,何为大?数据度量1Byte=8 Bit1KB=1,024 Byte
4、s1MB=1,024 KB=1,048,576 Bytes1GB=1,024 MB=1,048,576 KB=1,073,741,824 Bytes1TB=1,024 GB=1,048,576 MB=1,099,511,627,776 Bytes1PB=1,024 TB=1,048,576 GB=1,125,899,906,842,624 Bytes1EB=1,024 PB=1,152,921,504,606,846,976 Bytes1ZB=1,024 EB=1,180,591,620,717,411,303,424 Bytes1YB=1,024 ZB=1,208,925,819,614,6
5、29,174,706,176 Bytes,大数据,红楼梦含标点87万字(不含标点853509字)每个汉字占两个字节:1汉字=16bit=2*8位=2bytes1GB 约等于671部红楼梦1TB 约等于631,903 部1PB 约等于647,068,911部美国国会图书馆藏书(151,785,778册)(2011年4月:收录数据235TB)1EB=4000倍美国国会图书馆存储的信息量,一天之间,互联网上要发生多少事,每天有2940亿封电子邮件发出,如果这些是纸质信件,在美国需要花费两年时间处理;每天有200万篇博客在网上发布,这些文章相当于时代杂志刊发770年的总量;每天有2.5亿张照片上传至社
6、交网站Facebook,如果都打印出来,摞在一起能有80个埃菲尔铁塔那么高;每天有86.4万小时视频被上传至视频网站Youtube,相当于不间断播放视频98年;每天有1.87亿个小时的音乐会在流媒体音乐网站Pandora上播放,如果一台电脑从公元元年就开始播放这些音乐会,到现在还没完没了地接着放;谷歌翻译每天处理的文字数量,每天翻译次数达十亿次,相当于一百万册图书,超过了全世界的专业翻译人员一年能够翻译的文字规模;百度每天的关键词搜索量50亿,谷歌33.3亿;淘宝天猫双11那一天营业额达571亿人民币。中国小商品城全年成交额才580.03亿元人民币;累积起来,互联网一天之内产生的信息总量,可以
7、装满1.68亿张DVD光盘。,未来:物联网每天产生的数据将会是海量的。,地球上至今总共的数据量:在2006 年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;在2011 年,这个数字达到了1.8ZB。而有市场研究机构预测:到2020 年,整个世界的数据总量将会增长44 倍,达到35.2ZB(1ZB=10 亿TB)!,1PB=250字节1EB=260字节1ZB=270字节,大数据时代的爆炸增长,想驾驭这庞大的数据,我们必须了解大数据的特征。,大数据=海量数据+复杂类型的数据,大数据包括:交易数据和交互数据集在内的所有数据集,大数据的构成,海量交易数据:企业内部的经营交易信息主要
8、包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。,海量交互数据:源于Facebook、Twitter、LinkedIn及其他来源的社交媒体数据构成。它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输Manage File Transfer协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。,海量数据处理:大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如具有开放源码、在商品硬件群中运行的Apache Hadoop。,大数
9、据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合,什么是Big Data,数据量巨大全球在2010 年正式进入ZB 时代,IDC预计到2020 年,全球将总共拥有35ZB 的数据量,大数据变革公共卫生,2009年H1N1流行病毒背景下谷歌通过检测检索词条,处理了4.5亿个不同的数据模型,通过预测并与2007年、2008年美国疾控中心记录的实际流感病例进行对比后,确定了45条检索词条组合,并将其用于一个特定的数学模型后,预测的结果与官方数据的相关系数高达97%。按照传统的信息返回流程,通告新流感病毒病例将有一到两周的延迟。对于飞速传播的疾病,信息滞后两周是致命的。
10、而谷歌运用大数据技术,以前所未有的方式,通过海量数据分析得出流感所传播的范围,为世界预测流感提供了一种更快捷的预测工具。,预测,是大数据的核心,准确的预测是最大的竞争力大数据带来大挑战!让数据来说话一切专家的经验只是来源于判断和估算,而大数据分析是精算.,一、大数据时代的思维变革,一、大数据时代的思维变革更多,“更多”不是随机样本,而是全体数据,当数据处理技术已经发生翻天覆地的变化时,在大数据时代进行抽样分析就像在汽车时代骑马一样。一切都改变了,我们需要的是所有的数据,“样本总体”。,让数据“发声”小数据时代的随机采样,最少的数据获得最多的信息全数据模式,样本总体,一、大数据时代的思维变革更杂
11、,“更杂”不是精确性,而是混杂性,执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是有框架且能适用于传统数据库的。如果不能接受混乱,剩下95%的非框架数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。,允许不精确大数据的简单算法比小数据的复杂算法更有效纷繁的数据越多越好混杂性,不是竭力避免,而是标准途径新的数据库设计的诞生,无所不包的谷歌翻译系统,IBM在名为 Candide 的项目上花费了大概十年的时间,将大约有300万句之多的加拿大议会资料译成了英语和法语并出版。翻译的标准非常高,投入资金也很多,但取得的成效不大,最终被迫停止了该项目。而谷歌翻译利用更大更
12、杂的数据库(上万亿的语料库),也就是全球的互联网。它吸收了它能找到的所有翻译,还会去寻找联合国等国际组织发布的译本。尽管其输入源很混乱,但较其他翻译系统而言,谷歌的翻译质量相对而言还是最好的,而且可翻译的内容更多。,大数据的简单算法比小数据的复杂算法更有效。,一、大数据时代的思维变革更好,“更好”不是因果关系,而是相关关系,知道“是什么”就够了,没必要知道“为什么”。在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己“发声”。,关联物,预测的关键“是什么”,而不是“为什么”改变,从操作方式开始大数据,改变人类探索世界的方法,相关关系的核心是量化两个数据值之间的数理关系。相关关系强是
13、指当一个数据值增加时,另一个数据值很有可能也会增加。相关关系弱就意味着当一个数据值增加时,另一个数据值几乎不会发生变化,沃尔玛,请把蛋挞与飓风用品摆在一起,2004年,沃尔玛对历史交易记录这个庞大的数据库进行了观察,这个数据库记录的不仅包括每一个顾客的购物清单以及消费额,还包括购物篮中的物品、具体购买时间,甚至购买当日天气等。沃尔玛公司注意到,每当在季节性飓风来临之前,不仅手电筒销量增加了,而且POP-Tarts蛋挞的销量也增加了。因此当季节性风暴来临时,沃尔玛会把库存的蛋挞放在靠近飓风用品的位置,以方便行色匆匆的顾客从而增加销量。,关联物,预测的关键,美国折扣零售商塔吉特与怀孕预测,塔吉特公
14、司在完全不和准妈妈对话的前提下成功的预测了一个女性会在什么时候怀孕。公司分析团队首先查看了签署婴儿礼物登记簿的女性的消费记录,登记簿上的妇女会在怀孕大概第三个月的时候买很多无香乳液。几个月之后,她们会买一些营养品,比如镁、钙、锌。公司最终找出了大概20多种关联物,这些关联物可以给顾客进行“怀孕趋势”评分。这些相关关系甚至使得零售商能够比较准确地预测预产期,这样就能够在孕期的每个阶段给客户寄送相应的优惠券,这才是塔吉特公司的目的。,美国折扣零售商塔吉特与怀孕预测,杜西格在习惯的力量一书中讲到了接下来发生的事情。一天,一个男人冲进了一家位于明尼阿波利斯市郊的塔吉特商店,要求经理出来见他。他气愤地说
15、:“我女儿还是高中生,你们却给她邮寄婴儿服和婴儿床的优惠券,你们是在鼓励她怀孕吗?”而当几天后,经理打电话向这个男人致歉时,这个男人的语气变得平和起来。他说:“我跟我的女儿谈过了,她的预产期是8月份,是我完全没有意识到这个事情的发生,应该说抱歉的人是我。”,关联物,预测的关键,大数据的核心,建立在相关关系分析法基础上的预测!,二、大数据时代的商业变革,二、大数据时代的商业变革数据化,“数据化”一切皆可“量化”,大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。信息技术变革随处可见,但是如今信息技术变革的重点在“T”(技术)上,而不是在“I”(信息)上。现在,我们是时候把聚光灯打向“I”
16、,开始关注信息本身了。,数据,从最不可能的地方提取出来数据化,不是数字化量化一切,数据化的核心当文字变成数据当方位变成数据当沟通成为数据一切事物的数据化,大数据的早期实践,曾经,一位美国海军军官在上任为图表和仪器厂负责人时,利用以前海军的航海日志、地图和图表等数据整理成全新的航海图,整合之后,这些数据显示出了更有价值的模式,也提供了更有效的航海路线。多年后,当他前去到欧洲为他绘制的图表寻求国际支持的时候,四个国家授予了他爵士爵位,包括梵蒂冈在内的其他八个国家还颁给了他金牌。即使到今天,美国海军颁布的导航图上仍然有他的名字。,莫里的导航图,大数据的最早实践之一,数据,从最不可能的地方提取出来,日
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 时代 概述 课件
链接地址:https://www.31ppt.com/p-3679733.html