大数据处理技术简介课件.pptx
《大数据处理技术简介课件.pptx》由会员分享,可在线阅读,更多相关《大数据处理技术简介课件.pptx(52页珍藏版)》请在三一办公上搜索。
1、大数据处理技术简介,三、大数据开源软件Hadoop简介,二、大数据处理实现技术,一、大数据背景,目 录,1. Hadoop 简介2. 实例演示,1. 定义2. 数据的来源,1. 分布式储存系统(GFS / HDFS)2. 分布式计算模型(MapReduce),一、大数据背景,我们正处在信息爆炸的年代,2000年 数字数据只占全球数据量的1/42007年 所有数据中只有7%是存储在报纸、书籍、图片等媒介上的模拟数据,其余93%全是数字数据(二进制数据)Google 单日数据处理量超过 24 PBFacebook 单日照片更新量超过 1千万张淘宝网 单日数据产生量超过 5万 GB,大数据背景 定义
2、,大数据定义,“大数据”是指一个数据集(Datasets),它的尺寸大到已经无法由传统的数据库软件去采集、储存、管理和分析。,大数据背景 定义,数据的分类,结构化数据:行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。例如:二维表半结构化数据:自描述,数据结构和内容混杂在一起的数据。例如: XML、HTML等。非结构化数据:除去以上两种类型例如:音视频、图片等。,大数据背景 定义,2000年以后非结构化数据占绝大部分,大数据背景 数据的来源,从非结构化数据到结构化数据,视频、音频识别技术等,大数据背景 数据的来源,网页爬虫,视频识别,语音识别等,大数据背景 数据的来源,传统关系数据
3、库,如:Oracle、MYSQL无法储存几亿行长,几百万行宽的表格,巨大的数据直接导致数据库崩溃半结构化数据和脏数据将会导致出错(类型不严格)传统方法失效 !如何解决?大数据处理技术的解决办法:存成文件(File System),大数据背景 数据的来源,某搜索引擎搜索日志,大数据背景 数据的来源,二、大数据处理实现技术,大数据处理技术面对的第一个问题,如何高效存储大规模文件?,大数据处理实现技术 分布式储存系统GFS / HDFS,数据读取问题,1 T,100M/S,OH NO !,大数据处理实现技术 分布式储存系统GFS / HDFS,2.5小时,谷歌文件系统(GFS),大数据处理实现技术
4、分布式储存系统GFS / HDFS,分而治之,大数据处理实现技术 分布式储存系统GFS / HDFS,谷歌文件系统(GFS)解决方案,.,10G,1分30秒,100M/S,大数据处理实现技术 分布式储存系统GFS / HDFS,10G,10G,10G,10G,可靠性问题,大数据处理实现技术 分布式储存系统GFS / HDFS,大数据处理技术面对的第二个问题,99%*99%*99%*99%*99%=95%95%*95%*95%*95%*95%=76%,备份一份数据至少做三个备份,大数据处理实现技术 分布式储存系统GFS / HDFS,谷歌解决方案,10G,10G,10G,10G,10G,10G,
5、10G,10G,10G,10G,10G,10G,10G,10G,心跳(HeartBeat ),Master(主管),Secondary master(副主管),Client(用户程序),读取元数据,读取数据,云( Cloud ),Master作用:储存元数据(数据位置信息)储存节点的日常维护,储存节点,10G,10G,10G,10G,数据位置信息,读取数据,Google File System架构,大数据处理实现技术 分布式储存系统GFS / HDFS,大数据处理实现技术 分布式计算模型 MapReduce,大数据处理技术面对的第三个问题,数据运算问题,分布式计算(并行计算),大数据处理实现技
6、术 分布式储存系统GFS / HDFS,谷歌解决方案,谷歌提出 Map / Reduce 模型,大数据处理实现技术 分布式计算模型 MapReduce,Map函数:接受一个键值对(key-value pair),产生一组中间键值对。map函数将中间键值对里键相同的值传递给Reduce函数。Reduce函数:接受一个键,以及相关的一组值,将这组值进行合并产生一组规模更小的值(通常只有一个或零个值),大数据处理实现技术 分布式计算模型 MapReduce,Key-Value(键-值)模型,键(Key):键必须是唯一的,而值并不一定是唯一的每个值必须与键关联,但键可以没有值必须对键进行明确定义。他决
7、定了计数是否区分大小写(键由Hash值唯一确定)。键值对举例 :通讯录中的姓名(Key)和联系方式(Value)计算机中各种根据文件名(Key)访问各类文件,如文本、图片(Value)年份(Key) 温度(value),大数据处理实现技术 分布式计算模型 MapReduce,气象站气象数据的处理(找出最高气温),大数据处理实现技术 分布式计算模型 MapReduce,Key(年份)Value(温度),大数据处理实现技术 分布式计算模型 MapReduce,MapReduce计算架构,Map/Reduce特点,开发简单 无需处理线程或提供精细的同步逻辑规模大 无需修改程序即可在任意规模机器上运行
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据处理 技术 简介 课件
链接地址:https://www.31ppt.com/p-1581882.html