大数据处理技术简介.ppt
大数据处理技术简介,三、大数据开源软件Hadoop简介,二、大数据处理实现技术,一、大数据背景,目 录,1.Hadoop 简介2.实例演示,1.定义2.数据的来源,1.分布式储存系统(GFS/HDFS)2.分布式计算模型(MapReduce),一、大数据背景,我们正处在信息爆炸的年代,2000年 数字数据只占全球数据量的1/42007年 所有数据中只有7%是存储在报纸、书籍、图片等媒介上的模拟数据,其余93%全是数字数据(二进制数据)Google 单日数据处理量超过 24 PBFacebook 单日照片更新量超过 1千万张淘宝网 单日数据产生量超过 5万 GB,大数据背景 定义,大数据定义,“大数据”是指一个数据集(Datasets),它的尺寸大到已经无法由传统的数据库软件去采集、储存、管理和分析。,大数据背景 定义,数据的分类,结构化数据:行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。例如:二维表半结构化数据:自描述,数据结构和内容混杂在一起的数据。例如:XML、HTML等。非结构化数据:除去以上两种类型例如:音视频、图片等。,大数据背景 定义,2000年以后非结构化数据占绝大部分,大数据背景 数据的来源,从非结构化数据到结构化数据,视频、音频识别技术等,大数据背景 数据的来源,网页爬虫,视频识别,语音识别等,大数据背景 数据的来源,传统关系数据库,如:Oracle、MYSQL无法储存几亿行长,几百万行宽的表格,巨大的数据直接导致数据库崩溃半结构化数据和脏数据将会导致出错(类型不严格)传统方法失效!如何解决?大数据处理技术的解决办法:存成文件(File System),大数据背景 数据的来源,某搜索引擎搜索日志,大数据背景 数据的来源,二、大数据处理实现技术,大数据处理技术面对的第一个问题,如何高效存储大规模文件?,大数据处理实现技术 分布式储存系统GFS/HDFS,数据读取问题,1 T,100M/S,OH NO!,大数据处理实现技术 分布式储存系统GFS/HDFS,2.5小时,谷歌文件系统(GFS),大数据处理实现技术 分布式储存系统GFS/HDFS,分而治之,大数据处理实现技术 分布式储存系统GFS/HDFS,谷歌文件系统(GFS)解决方案,.,10G,1分30秒,100M/S,大数据处理实现技术 分布式储存系统GFS/HDFS,10G,10G,10G,10G,可靠性问题,大数据处理实现技术 分布式储存系统GFS/HDFS,大数据处理技术面对的第二个问题,99%*99%*99%*99%*99%=95%95%*95%*95%*95%*95%=76%,备份一份数据至少做三个备份,大数据处理实现技术 分布式储存系统GFS/HDFS,谷歌解决方案,10G,10G,10G,10G,10G,10G,10G,10G,10G,10G,10G,10G,10G,10G,心跳(HeartBeat),Master(主管),Secondary master(副主管),Client(用户程序),读取元数据,读取数据,云(Cloud),Master作用:储存元数据(数据位置信息)储存节点的日常维护,储存节点,10G,10G,10G,10G,数据位置信息,读取数据,Google File System架构,大数据处理实现技术 分布式储存系统GFS/HDFS,大数据处理实现技术 分布式计算模型 MapReduce,大数据处理技术面对的第三个问题,数据运算问题,分布式计算(并行计算),大数据处理实现技术 分布式储存系统GFS/HDFS,谷歌解决方案,谷歌提出 Map/Reduce 模型,大数据处理实现技术 分布式计算模型 MapReduce,Map函数:接受一个键值对(key-value pair),产生一组中间键值对。map函数将中间键值对里键相同的值传递给Reduce函数。Reduce函数:接受一个键,以及相关的一组值,将这组值进行合并产生一组规模更小的值(通常只有一个或零个值),大数据处理实现技术 分布式计算模型 MapReduce,Key-Value(键-值)模型,键(Key):键必须是唯一的,而值并不一定是唯一的每个值必须与键关联,但键可以没有值必须对键进行明确定义。他决定了计数是否区分大小写(键由Hash值唯一确定)。键值对举例:通讯录中的姓名(Key)和联系方式(Value)计算机中各种根据文件名(Key)访问各类文件,如文本、图片(Value)年份(Key)温度(value),大数据处理实现技术 分布式计算模型 MapReduce,气象站气象数据的处理(找出最高气温),大数据处理实现技术 分布式计算模型 MapReduce,Key(年份)Value(温度),大数据处理实现技术 分布式计算模型 MapReduce,MapReduce计算架构,Map/Reduce特点,开发简单 无需处理线程或提供精细的同步逻辑规模大 无需修改程序即可在任意规模机器上运行工作具备自动并行和分发功能 用户只需写好Map和Reduce函数即可高容错 失败任务在新节点上会重新运行,大数据处理实现技术 分布式计算模型 MapReduce,Map/Reduce的局限,对迭代算法无能为力不是所有算法都能并行,大数据处理实现技术 分布式计算模型 MapReduce,三、大数据开源软件Hadoop简介,谷歌技术开源实现,GFS MapReduce,开源实现,大数据开源软件Hadoop简介,HDFS,MapReduce,2002年,Doug Cutting从做开源Apache Nutch引擎开始2003年,Doug在看到谷歌发表的GFS之后,开始开源实现 NDFS(Nutch Distributed File System)。2004年,谷歌发表MapReduce,2005年,Nutch开发人员开源实现MapReduce。2006年,Nutch的NDFS和MapReduce移出Nutch项目,独立形成独立项目,命名Hadoop。Hadoop的得名(Doug Cutting 的小孩给毛绒玩具象起的名字)2006年,Doug Cutting加入雅虎(聘请),雅虎开始资助Hadoop发展。2008年,1月Hadoop成为Apache顶级项目,2月,雅虎宣布,Hadoop应用在自家搜素引擎中(其搜索引擎的索引建立在拥有1万个内核的Hadoop集群上),4月,Hadoop在900个节点上运行1TB排序测试仅需209秒,成为全球最快。,大数据开源软件Hadoop简介,Hadoop 分布式文件系统(HDFS)架构,大数据开源软件Hadoop简介,安装Hadoop,1.系统要求:Linux(Ubuntu/CentOS/)2.java运行环境(安装JDK)3.安装SSH4.安装Hadoop,大数据开源软件Hadoop简介,Hadoop启动HDFS演示,大数据开源软件Hadoop简介 实例演示,Hadoop云的实际操作,1.启动HDFS命令:start-dfs.sh,2.在eclipse中打开HDFS目录(eclipse需安装Map/Reduce插件),Map/Reduce单词统频(Wordcount)示例,大数据开源软件Hadoop简介 实例演示,1.通过eclipse上传文本至HDFS,2.启动MapReduce计算框架,命令:start-yarn.sh,Wordcount Java程序 map部分,public class WordCount public static class Map extends MapReduceBase implements Mapper private final static IntWritable one=new IntWritable(1);private Text word=new Text();public void map(LongWritable key,Text value,OutputCollector output,Reporter reporter)throws IOException String line=value.toString();StringTokenizer tokenizer=new StringTokenizer(line);while(tokenizer.hasMoreTokens()word.set(tokenizer.nextToken();output.collect(word,one);/输出:1,Wordcount Java程序 reduce部分,public static class Reduce extends MapReduceBase implements Reducer public void reduce(Text key,Iterator values,OutputCollector output,Reporter reporter)throws IOException int sum=0;while(values.hasNext()sum+=values.next().get();/累加统频 output.collect(key,new IntWritable(sum);,3.运行wordcount程序 java jar包 命令:hadoop jar,Hadoop的优势,廉价 计算节点和储存节点普通机器即可可伸缩性好 通过增加节点即扩展容错性好 副本机制可编程 Map/Reduce框架适合一次写入多次读取(HDFS),大数据开源软件Hadoop简介,Hadoop 生态系统,各组件简介,Hive:为程序员提供类SQL语句编写,底层将HiveQL(Hive-SQL)转换为MapReduce编译运行Pig:提供给用户使用的脚本语言,简化MapReduce代码编写Hbase:低延时、分布式的非关系型数据库ZooKeeper:分布式协同工作系统Hcatalog:向Hadoop应用(Hive/Pig)共享元数据,大数据开源软件Hadoop简介,大数据开源软件Hadoop简介,谢谢大家敬请批评指正,