欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    大数据处理技术简介.ppt

    • 资源ID:6110375       资源大小:6.34MB        全文页数:52页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    大数据处理技术简介.ppt

    大数据处理技术简介,三、大数据开源软件Hadoop简介,二、大数据处理实现技术,一、大数据背景,目 录,1.Hadoop 简介2.实例演示,1.定义2.数据的来源,1.分布式储存系统(GFS/HDFS)2.分布式计算模型(MapReduce),一、大数据背景,我们正处在信息爆炸的年代,2000年 数字数据只占全球数据量的1/42007年 所有数据中只有7%是存储在报纸、书籍、图片等媒介上的模拟数据,其余93%全是数字数据(二进制数据)Google 单日数据处理量超过 24 PBFacebook 单日照片更新量超过 1千万张淘宝网 单日数据产生量超过 5万 GB,大数据背景 定义,大数据定义,“大数据”是指一个数据集(Datasets),它的尺寸大到已经无法由传统的数据库软件去采集、储存、管理和分析。,大数据背景 定义,数据的分类,结构化数据:行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。例如:二维表半结构化数据:自描述,数据结构和内容混杂在一起的数据。例如:XML、HTML等。非结构化数据:除去以上两种类型例如:音视频、图片等。,大数据背景 定义,2000年以后非结构化数据占绝大部分,大数据背景 数据的来源,从非结构化数据到结构化数据,视频、音频识别技术等,大数据背景 数据的来源,网页爬虫,视频识别,语音识别等,大数据背景 数据的来源,传统关系数据库,如:Oracle、MYSQL无法储存几亿行长,几百万行宽的表格,巨大的数据直接导致数据库崩溃半结构化数据和脏数据将会导致出错(类型不严格)传统方法失效!如何解决?大数据处理技术的解决办法:存成文件(File System),大数据背景 数据的来源,某搜索引擎搜索日志,大数据背景 数据的来源,二、大数据处理实现技术,大数据处理技术面对的第一个问题,如何高效存储大规模文件?,大数据处理实现技术 分布式储存系统GFS/HDFS,数据读取问题,1 T,100M/S,OH NO!,大数据处理实现技术 分布式储存系统GFS/HDFS,2.5小时,谷歌文件系统(GFS),大数据处理实现技术 分布式储存系统GFS/HDFS,分而治之,大数据处理实现技术 分布式储存系统GFS/HDFS,谷歌文件系统(GFS)解决方案,.,10G,1分30秒,100M/S,大数据处理实现技术 分布式储存系统GFS/HDFS,10G,10G,10G,10G,可靠性问题,大数据处理实现技术 分布式储存系统GFS/HDFS,大数据处理技术面对的第二个问题,99%*99%*99%*99%*99%=95%95%*95%*95%*95%*95%=76%,备份一份数据至少做三个备份,大数据处理实现技术 分布式储存系统GFS/HDFS,谷歌解决方案,10G,10G,10G,10G,10G,10G,10G,10G,10G,10G,10G,10G,10G,10G,心跳(HeartBeat),Master(主管),Secondary master(副主管),Client(用户程序),读取元数据,读取数据,云(Cloud),Master作用:储存元数据(数据位置信息)储存节点的日常维护,储存节点,10G,10G,10G,10G,数据位置信息,读取数据,Google File System架构,大数据处理实现技术 分布式储存系统GFS/HDFS,大数据处理实现技术 分布式计算模型 MapReduce,大数据处理技术面对的第三个问题,数据运算问题,分布式计算(并行计算),大数据处理实现技术 分布式储存系统GFS/HDFS,谷歌解决方案,谷歌提出 Map/Reduce 模型,大数据处理实现技术 分布式计算模型 MapReduce,Map函数:接受一个键值对(key-value pair),产生一组中间键值对。map函数将中间键值对里键相同的值传递给Reduce函数。Reduce函数:接受一个键,以及相关的一组值,将这组值进行合并产生一组规模更小的值(通常只有一个或零个值),大数据处理实现技术 分布式计算模型 MapReduce,Key-Value(键-值)模型,键(Key):键必须是唯一的,而值并不一定是唯一的每个值必须与键关联,但键可以没有值必须对键进行明确定义。他决定了计数是否区分大小写(键由Hash值唯一确定)。键值对举例:通讯录中的姓名(Key)和联系方式(Value)计算机中各种根据文件名(Key)访问各类文件,如文本、图片(Value)年份(Key)温度(value),大数据处理实现技术 分布式计算模型 MapReduce,气象站气象数据的处理(找出最高气温),大数据处理实现技术 分布式计算模型 MapReduce,Key(年份)Value(温度),大数据处理实现技术 分布式计算模型 MapReduce,MapReduce计算架构,Map/Reduce特点,开发简单 无需处理线程或提供精细的同步逻辑规模大 无需修改程序即可在任意规模机器上运行工作具备自动并行和分发功能 用户只需写好Map和Reduce函数即可高容错 失败任务在新节点上会重新运行,大数据处理实现技术 分布式计算模型 MapReduce,Map/Reduce的局限,对迭代算法无能为力不是所有算法都能并行,大数据处理实现技术 分布式计算模型 MapReduce,三、大数据开源软件Hadoop简介,谷歌技术开源实现,GFS MapReduce,开源实现,大数据开源软件Hadoop简介,HDFS,MapReduce,2002年,Doug Cutting从做开源Apache Nutch引擎开始2003年,Doug在看到谷歌发表的GFS之后,开始开源实现 NDFS(Nutch Distributed File System)。2004年,谷歌发表MapReduce,2005年,Nutch开发人员开源实现MapReduce。2006年,Nutch的NDFS和MapReduce移出Nutch项目,独立形成独立项目,命名Hadoop。Hadoop的得名(Doug Cutting 的小孩给毛绒玩具象起的名字)2006年,Doug Cutting加入雅虎(聘请),雅虎开始资助Hadoop发展。2008年,1月Hadoop成为Apache顶级项目,2月,雅虎宣布,Hadoop应用在自家搜素引擎中(其搜索引擎的索引建立在拥有1万个内核的Hadoop集群上),4月,Hadoop在900个节点上运行1TB排序测试仅需209秒,成为全球最快。,大数据开源软件Hadoop简介,Hadoop 分布式文件系统(HDFS)架构,大数据开源软件Hadoop简介,安装Hadoop,1.系统要求:Linux(Ubuntu/CentOS/)2.java运行环境(安装JDK)3.安装SSH4.安装Hadoop,大数据开源软件Hadoop简介,Hadoop启动HDFS演示,大数据开源软件Hadoop简介 实例演示,Hadoop云的实际操作,1.启动HDFS命令:start-dfs.sh,2.在eclipse中打开HDFS目录(eclipse需安装Map/Reduce插件),Map/Reduce单词统频(Wordcount)示例,大数据开源软件Hadoop简介 实例演示,1.通过eclipse上传文本至HDFS,2.启动MapReduce计算框架,命令:start-yarn.sh,Wordcount Java程序 map部分,public class WordCount public static class Map extends MapReduceBase implements Mapper private final static IntWritable one=new IntWritable(1);private Text word=new Text();public void map(LongWritable key,Text value,OutputCollector output,Reporter reporter)throws IOException String line=value.toString();StringTokenizer tokenizer=new StringTokenizer(line);while(tokenizer.hasMoreTokens()word.set(tokenizer.nextToken();output.collect(word,one);/输出:1,Wordcount Java程序 reduce部分,public static class Reduce extends MapReduceBase implements Reducer public void reduce(Text key,Iterator values,OutputCollector output,Reporter reporter)throws IOException int sum=0;while(values.hasNext()sum+=values.next().get();/累加统频 output.collect(key,new IntWritable(sum);,3.运行wordcount程序 java jar包 命令:hadoop jar,Hadoop的优势,廉价 计算节点和储存节点普通机器即可可伸缩性好 通过增加节点即扩展容错性好 副本机制可编程 Map/Reduce框架适合一次写入多次读取(HDFS),大数据开源软件Hadoop简介,Hadoop 生态系统,各组件简介,Hive:为程序员提供类SQL语句编写,底层将HiveQL(Hive-SQL)转换为MapReduce编译运行Pig:提供给用户使用的脚本语言,简化MapReduce代码编写Hbase:低延时、分布式的非关系型数据库ZooKeeper:分布式协同工作系统Hcatalog:向Hadoop应用(Hive/Pig)共享元数据,大数据开源软件Hadoop简介,大数据开源软件Hadoop简介,谢谢大家敬请批评指正,

    注意事项

    本文(大数据处理技术简介.ppt)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开