大数据技术及应用培训.ppt
大数据技术及应用,1,2,3,大数据应用,目 录,大数据时代,大数据技术,大数据时代,大数据时代,生活、工作与思维的大变革,Living,working and thinking big changes,一场生活、工作与思维的大变革,大数据开启了一次重大的时代转型。就想望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正蓄势待发,大数据,变革生活大数据,变革商业大数据,变革思维大数据,开启重大的时代转型预测是大数据的核心,第一个故事,百货公司知道女孩怀孕第二个故事,搜索热词里的商机第三个故事,阿里知道谁需要贷款第四个故事,中移动挽留流失客户第五个故事:每天,我们借助大数据完成微信上的互动第六个故事:大数据解救每一位“路盲”第七个故事:大数据协助大闸蟹养殖,大数据时代,大数据时代,国家电网大数据案例,基于PMS(电力生产系统)系统数据,构建基于词云图分析的文本信息挖掘及可视化实现对电网设备的家族缺陷信息的快速分析。,6,设备类型,设备型号,断路器,查询,LW25-126,信息查询:,大数据时代,大数据时代,西安公交集团大数据案例 公交司机驾驶行为直接影响到乘客的安全,如全国公交一样,西安公交集团在每辆公交车上安装了监控设备,每日审核监控视频,对开车过程中出现违章行为的司机进行罚款处理,但由于公交车多,视频数量极大,这给分析处理视频的工作人员带来了很大的工作压力,因此公交集团希望能够建立一种快速视频识别分析手段,以缓解当前这种情况。,如何能让20多名工作人员从每天10个小时的视频审核工作中解脱出来?,大数据时代,违章类型:吸烟,违章时间:2014-01-16,违章视频时间:10:57-10:58,违章车辆:陕A XXXXX,违章人:张XX,通过数据挖掘,使工作人员从每天长达数千小时视频违章信息筛选工作中脱离出来,将原来需要数十小时的视频审核工作,缩短为几个小时完成,大大提高了工作效率。且可以有效避免人为舞弊的情况。,大数据时代,数据:2014年10月纳税人A申报营业额为10万。信息:2014年10月纳税人A申报营业额比去年同期减少了25%。知识:原因是纳税人A在华东地区的渠道销售不利,或其产品B进入了衰退期,还是公司整体营销活动落后,竞争者强力促销导致?或是其它原因。针对这一问题公司应对的策略是什么?智慧:应对的行动方案可能有多种,但(战略)选择哪个靠智慧。行动则又会产生新的交易数据。,大数据时代,大数据时代的思维变革,“更多”-不是随机样本,而是全体数据,当数据处理技术已经发生翻天覆地的变化时,在大数据时代进行抽样分析就像在汽车时代骑马一样。一切都改变了,我们需要的是所有的数据,“样本总体”。,让数据“发声”小数据时代的随机采样,最少的数据获得最多的信息全数据模式,样本总体,大数据时代,“更杂”-满足精确性,包容混杂性,执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是有框架且能适用于传统数据库的。如果不能接受混乱,剩下95%的非框架数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。,允许不精确大数据的简单算法比小数据的复杂算法更有效纷繁的数据越多越好混杂性,不是竭力避免,而是标准途径新的数据库设计的诞生,大数据时代的思维变革,大数据时代,“更好”-不是因果关系,而是相关关系,知道“是什么”就够了,没必要知道“为什么”。在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己“发声”。,关联物,预测的关键“是什么”,而不是“为什么”改变,从操作方式开始大数据,改变人类探索世界的方法,大数据时代的思维变革,大数据时代,大数据时代的商业变革,“数据化”-一切皆可“量化”,大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。信息技术变革随处可见,但是如今信息技术变革的重点在“T”(技术)上,而不是在“I”(信息)上。现在,我们是时候把聚光灯打向“I”,开始关注信息本身了。,数据,从最不可能的地方提取出来数据化,不是数字化量化一切,数据化的核心当文字变成数据当方位变成数据当沟通成为数据一切事物的数据化,大数据时代,大数据时代的商业变革,“价值”-“取之不尽,用之不竭”的数据创新,数据就像一个神奇的钻石矿,当它的首要价值被发掘后仍能不断给予。它的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而绝大部分都隐藏在表面之下。,数据创新1:数据的再利用数据创新2:重组数据数据创新3:可扩展数据数据创新4:数据的折旧值数据创新5:数据废气数据创新6:开放数据给数据估值,大数据时代,大数据时代的商业变革,“角色定位”-数据、技术与思维的三足鼎立,微软以1.1亿美元的价格购买了大数据公司Farecast,而两年后谷歌则以7亿美元的价格购买了给Farecast提供数据的ITA Software公司。如今,我们正处在大数据时代的早期,思维和技术是最有价值的,但是最终大部分价值还是必须从数据本身来挖掘。,大数据价值的3大构成大数据掌控公司大数据技术公司大数据思维公司和个人全新的数据中间商专家的消亡与数据科学家的崛起大数据,决定企业的竞争力,大数据时代,大数据时代的管理变革,“风险”-让数据主宰一切的隐忧,我们时刻都暴露在“第三只眼”之下:亚马逊监视着我们的购物习惯,谷歌监视着我们的网页浏览习惯,而微博似乎什么都知道,不仅窃听到了我们心中的“TA”,还有我们的社交关系网。,无处不在的“第三只眼”我们的隐私被二次利用了预测与惩罚,不是因为“所做”,而是因为“将做”数据独裁挣脱大数据的困境,大数据时代,“掌控”-责任与自由并举的信息管理,当世界开始迈向大数据时代时,社会也将经历类似的地壳运动。在改变人类基本的生活与思考方式的同时,大数据早已在推动人类信息管理准则上重新定位。然而,不同于印刷革命,我们没有几个世纪的时间去适应,我们也许只有几年时间。,管理变革1:隐私保护,从个人许可到让数据使用者承担责任管理变革2:个人动因VS预测分析管理变革3:打破黑盒子,大数据程序员的崛起管理变革4:企业和行业应用突破,大数据时代的管理变革,大数据时代,正在发生的未来,大数据并不是一个充斥着算法和机器的冰冷世界,人类的作用依然无法被完全替代。大数据为我们提供的不是最终答案,只是参考答案,帮助是暂时的,而更好的方法和答案还在不久的未来。,1,2,3,大数据应用,目 录,大数据技术,大数据时代,大数据技术,认知,初识,大数据算法与理论大数据系统与实践NoSQLHadoop,大数据带来的思维变化大数据带来的价值链大数据发展现状与未来大数据 vs 人类,什么是大数据大数据的特性大数据与传统技术的关系大数据与其他新兴技术的关系,深入,大数据技术,什么是大数据,百度百科:大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。维基百科:大数据是由数量巨大、结构复杂、类型众多数据构成的数据集合,是基于云计算的数据处理与应用模式,通过数据的整合共享,交叉复用形成的智力资源和知识服务能力。学术观点:大数据是由大量异构的数据组成的数据集合,它是可以应用合理的数学算法或工具从中找出有价值的信息,为人们带来利益的一门新兴学科。,大数据技术,2009年,甲型H1N1流感在全球爆发传播,为了发现和控制疫情,各国政府和卫生相关部门付出了巨大努力,但得到的数据仍然滞后一两周,而Google对人们的搜索的历史记录进行处理,建立合理的数学模型后,得到的预测结果与官方的数据相关性高达97%,能够立刻判断出流感是从哪里传播出来的,没有一两周的滞后。Google处理了5000万条历史记录、4.5亿个不同的数学模型。,什么是大数据,大数据技术,Farecast是一个对机票价格进行预测的公司,帮助消费者抓住最佳购买机票的时机,使乘客节省很多钱。最初预测系统建立在41天之内的12000个价格样本基础上,数据是从旅游网站上抓取的,如今已经拥有超过2000亿条飞行记录。系统只推测机票的价格何时最便宜,同时分析是什么原因导致的价格下降。,FarecastBing,什么是大数据,大数据技术,大数据的特性,更关注相关性,主要用于预测,数据量巨大,实时性要求高,大数据的特征,大数据技术,大数据是在传统数据库学科的分支-数据仓库与数据挖掘的基础上进一步发展起来的。但有两点比较主要的不同:结构化程度传统数据库保存的是结构化或者半结构化的数据,以二维表或者标准XML文件的方式存储数据,由于结构清晰,处理相对容易;大数据面向的是一切计算机可以存储的数据格式,包括互联网上的各种网页、图片、音频、视频,包括办公文档、报表,包括人们在搜索引擎中输入的关键词、在社交网络中的留言、喜好,也包括各种传感器自动收集的监控结果等等,显然不同的格式处理起来更加困难。异常数据的处理传统数据库通常把异常数据先剔除,应用在需要高精确度的领域,如银行对每个账户的管理;大数据则允许异常数据存在,更多应用在预测方面,找出大量数据中隐藏的关联关系,少量异常数据不会对总体结果产生影响。,大数据与传统数据库的区别,大数据技术,大数据、物联网、云计算、移动通信等都是近年涌现出来的新兴概念,彼此之间不是孤立的,而是存在着内部联系。,大数据与其他新兴技术的关系,大数据技术,处理的对象往往是全部数据,而不是部分数据的采样采样的不合理会导致预测结果的偏差,在大数据时代,依靠强大的数据处理能力,应该去处理全部的数据。不再执迷于精确性精确的、规范化的、可以被传统数据库处理的数据只占全部数据的5%,必须接受不精确性才能处理另外95%的数据。错误的数据是客观存在的,竭力避免它就失去了应有的客观性和公平性。大数据的简单算法比小数据的复杂算法更有效。更加关注相关性,而不是因果性预测依靠的是相关性。很多情况下知道“是什么”即可,不必知道“为什么”。,大数据带来思维方式的变化,大数据技术,数据,数据的掌控者,拥有或者可以收集大量数据的公司。海量的数据就是财富,可以考虑自己分析或者卖数据给其他公司。,技术,技术供应商或者分析公司。掌握了从海量数据中分析出有用信息的技能或者工具,但本身不一定拥有数据。,思维,有创新思维的人或者公司。他们对大数据敏感,有怎样挖掘数据的新价值的独特想法。,大数据的价值链,大数据技术,大数据=海量数据+复杂类型的数据,海量交易数据:企业/机构的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。,大数据包括:交易数据和交互数据集在内的所有数据集,海量交互数据:源于互联网的社交媒体数据构成(日志和非结构化数据);源于物联网的设备和传感器采集数据(日志和非结构化数据);源于GPS和地理定位映射数据;医疗/监控产生的海量图像文件;科学计算/电子邮件等等。可以告诉我们未来可能会发生什么。,海量数据处理:大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如在商用硬件群中运行的各种数据挖掘和分析系统。,大数据处理,大数据技术,分析技术:数据处理:自然语言、视频图像处理技术抽样统计分析:A/B test;top N排行榜;地域占比;文本情感分析数据挖掘:关联规则分析;分类;聚类模型预测:预测模型;机器学习;建模仿真大数据技术:数据采集:ETL工具数据存取:关系数据库;NoSQL;SQL等基础架构支持:云存储;分布式文件系统等计算结果展现:云计算;标签云;关系图等,多元数据:结构化数据:海量数据的查询、统计、更新等操作效率低非结构化数据图片、视频、word、pdf、ppt等文件存储不利于检索、查询和存储半结构化数据转换为结构化存储按照非结构化存储,存储计算框架:Hadoop(MapReduce技术)分布式文件系统,大数据处理,大数据技术,行业应用逐渐趋向大数据处理2.传统的信息平台无 法实现海量数据面临存储和 处理的瓶颈,大数据处理,大数据技术,过去,现在,高性能计算,企业,中小企业,万亿字节,千兆字节,兆字节,千万亿字节,万亿字节,千兆字节,面临的新难题-如何处理大规模数据,大数据技术,采用完全无共享(Share-Nothing)系统架构,大数据技术,查询,海量并行处理结构(MPP),大数据技术,传统并行运算架构,运算,存储,传统存储架构,海量数据高性能计算与存储,传统存储架构共享存储访问模式;计算与存储分离;仅适合于计算相关数据量较小的高并发、计算密集型应用,大数据环境下:存储将成为访问的性能瓶颈;海量文件的管理、访问难题;传统盘阵数据冗余保护机制不能满足高性能要求。,大数据技术,计算存储节点=并行式运算+分布式存储,大数据并行计算架构,分布式文件系统,计算与存储一体,计算向数据集中,高效专用计算存储节点完全解决应用、并发、同步与一致性等问题处理和计算任务之间实现无依赖,具有高系统延展性(Scale-Out)分布式文件系统,提供高效的海量数据存储访问与管理应用:地质勘探生命科学非线编媒资管理动画渲染等高性能运算,海量数据高性能计算与存储,大数据技术,40GE Infiniband或者160GB万兆,SureCloud分布数据库(计算能力),SureCloud分布式分布式存储(存储能力),设计超大规模数据的关联计算使用节点高速缓冲区支持连续复杂计算,大容量的海量数据存储高性能IO全冗余平滑扩容,数据服务,获取复杂的大数据处理结果,开放的应用,开放的应用,开放的应用,直接数据提取,大数据数据仓库,大数据技术,分布式数据库,分布式物理节点,自动部署,节点监控,资源监管,动态调度,分布式文件系统,QFS,HDFS,SDFS,NoSQL SDDB,Cacendra,大数据挖掘,应用,Map/Reduce,统一智能管理,大数据接口,访问权限管理,大数据存储,自动化部署配置,监控与资源管理,大数据管理,大数据采集,辅助工具,Hbase,Mango DB,大数据计算应用,医疗云,政务云,物联网,行业应用,金融,电信,政府,大数据技术,应用1,应用2,应用N,大数据处理平台,大数据技术,泛互联网数据,机器数据,行业内容数据,焦点,挖掘价值,面向行业,关键技术,基于泛互联网内容的准实时舆情监测和用户行为分析,基于机器设备数据的生产状态实时监测和统计分析,基于行业内容数据的海量分布式存储和查询,各级/地政府;舆情监测个人消费品制造/零售;精准营销、电商、客服、反向创新金融/电信;精准营销、客服,电力/电网/石油;设备、管线状态和故障监测自动化工业制造;设备状态监测以管控产品质量复杂设备运营;状态监测,公安/海关;人脸/指纹识别身份医疗/交通;影像/图片提取价值数据卫星/基因科研;复杂内容计算税务数据仓库,新华社与媒体政府,公安电信客户、基地中心,电力、电网中石油、中石化电信大型制造业,气象局交通研究院Smart City银行历史库,用户行为分析NoSQL-分布式存储和查询查询和搜索实时过滤和聚合业务分析SureSaveBDP,用户行为分析NoSQL-分布式存储和查询实时过滤和聚合业务分析SureSaveBDP,NoSQL-分布式存储和查询SureSaveBDP,大数据技术,采集/挖掘,分析,决策,导入的是数据,取出的是价值,存储,计算,访问,结构化数据的导入,非结构化数据的导入,ETL,结构展现,分析决策模型,分析决策工具,分布存储,数据挖掘,大数据技术,分布式文件存储,分布式结构化数据存储,数据处理技术,分布式计算框架,分布式索引,查询,检索,分析,挖掘,结构化数据,数据存储技术,数据索引技术,数据计算技术,数据访问技术,数据智能技术,可扩展的体系结构,数据采集技术,大数据解决的不是单一的一个产品能够解决的,它需要一整套的解决方案,它要融合很多传统的、新的技术,包含了很多不同的产品和功能模块,大数据技术,大数据系统,大数据技术,大数据存储问题文件存储千万级的大文件存储:如视频亿级的中等文件存储:如文档十亿级的小文件存储:如图片缩略图不同文件存储对于系统需求不同结构化数据亿级的结构化数据存储查询、统计、更新等操作效率低,大数据系统-存储,大数据技术,大数据存储的最主要的论文CAP Theorem Consistency,Availability and Partition ToleranceGoogle的GFS和BigTableGFS一种存储海量大文件的存储系统BigTable提出了一种Schemaless的表数据模型Amazon的DynamoDynamo的模型更简单,它将数据按key进行hash存储,K-V StoreGossip protocol(discovery and error detection)Distributed key-value data storeEventual consistency,大数据技术,C,A,P,RelationalKey-ValueColumn-OrientedDocument-Oriented,RDBMS(Oracle,MySQL),Aster Data Vertica,MongoDB,TerrastoreHyperTable,HbaseRedis,Berkeley DB,Scalaris,Dynamo,Voldemort,TokyoCabinetCassandraCouchDB,Riak,所有的客户端有统一的数据视图,网络出现分区时仍能够正常运行,客户端在任意时间都可以读写,大数据技术,NoSQL NoSQL是Not Only SQL的缩写,而不是Not SQL,它不一定遵循传统数据库的一些基本要求,比如说遵循SQL标准、ACID属性、表结构等等。,大数据技术,NoSQL系统提高数据服务的交付能力,解决了数据集中与共享的问题,数据存储的高可扩展性,即使数据量达到PB级别,存储仍然可以在一定的成本范围内拥有良好的可扩展性支持大量的并发执行和高效的分析型处理,大数据技术,大数据计算问题海量数据带来计算快速性难以保证结构变化导致计算模式变更大数据处理解决方案MapReduce技术流计算技术:twitter的storm和yahoo的S4,大数据技术,MapReduce是一种常用的分布式编程模型,用于大规模数据集(通常大于1TB)的并行运算。,Local FS,Local FS,大数据技术,On-line MapReduce使用Map-Reduce的流水线执行机制,进行Map和Reduce任务的动态调度,大数据技术,大数据上的统计分析:Hive建立在Hadoop/MapReduce上的数据仓库系统提供HQL语句实现对Hadoop上的数据查询和分析机制,大数据技术,统计分析套件,基于Hive及辅助索引技术,实现快速的数据统计分析微博日志分析50亿条/天统计登陆人数/5分钟,大数据技术,分析结果应用,大数据技术,大数据存储分布式文件系统:GFS、HDFSNoSQL系统Key/Value Store:Amazon S3(Dynamo)、Voldemort、ScalarisSchema-less:Bigtable、Hbase、MongoDB、Neo4j大数据处理MapReduce/Spark/SwormRDB NoSQLLogNoSQL,谢 谢,