Hadoop基础知识培训.ppt
《Hadoop基础知识培训.ppt》由会员分享,可在线阅读,更多相关《Hadoop基础知识培训.ppt(48页珍藏版)》请在三一办公上搜索。
1、PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,Hadoop基础知识培训,江西电信大数据支撑团队,2014年中国电信大数据技术与应用培训,PDF created with pdfFactory Pro trial version,2企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,主要内容,第一篇 Hadoop综述 第二篇 HDFS 分布式文件系统第三篇 MapReduce 分布式计算框架 第四篇 常用Hadoop组件介绍,PDF created with pdfFactory Pro
2、 trial version,3企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,第一篇Hadoop综述,:什么是Hadoop:Hadoop生态系统:Hadoop的厂商:Hadoop的部署,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,Hadoop是什么?,Hadoop是Apache基金会下的一个开源分布式计算平台,以分布式 文件系统(HDFS)和分布式计算框架(MapReduce)为核心,为用户 提供了底层细节透明的分布式基础设施。yHDFS的高容错性、高伸缩性等优点,允许用户将H
3、adoop部署 在廉价的硬件上,构建分布式系统。yMapReduce分布式计算框架允许用户在不了解分布式底层细节 的情况下开发并行、分布的应用程序,利用大规模计算资源,解 决传统高性能单机无法解决的大数据处理问题Hadoop NutchLucene,高性能全文 索引工具包,高性能搜索 引擎工具包,版本演进,对应Cloudera公司的CDH3u5,对应Cloudera 公司的CDH4,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,Hadoop的特点,Hadoop运用于海量数据处理,主要有如下几
4、个优势:方便Hadoop可以运行在一般商业机器(X86服务器)构成的大型集群 上弹性Hadoop通过增加集群节点,可以线性扩展以处理更大的数据集;同时在负载下降时,也可减少节点,以便高效使用资源。健壮Hadoop设计之初,将故障检测和自动恢复作为设计目标,可以从容处理通用计算平台上出现的硬件失效情况。简单Hadoop允许用户快速编写出高效的并行分布式代码。,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,HADOOP生态系统,y经过几年的快速发展,Hadoop现在已经发展成为包含多个相关项目的
5、软件生 态系统,成为大数据处理技术的事实标准,目前典型的Hadoop生态系统如下所 示:,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,发展目标,HADOOP生态系统,(1)实时应用场景(05s):Storm、S4等;(2)交互式场景(5s1m):这种场景通常能要求必须支持SQL,则可行系统有:Cloudera Impala、Apache Drill、Shark等;(3)非交互式场景(1m1h):通常运行时间较长,处理数据量较大,对容错性和扩 展性要求较高,可行系统有:MapReduce、H
6、ive、Pig、Stinger等;(4)批处理场景(1h+):通常运行时间很长,处理数据量很大,对容错性和扩展性要 求很高,可行系统有:MapReduce、Hive、Pig、Stinger等。,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,HADOOP厂商,Hadoop处于近时间的大数据革命的风暴眼,在Hadoop取得成功的同时也促使主 流市场对其稳定性、成熟的管理,丰富的SQL环境等提出更高要求,于是Hadoop 厂商通过技术创新各显神通。,PDF created with pdfFact
7、ory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,物理上的Hadoop集群,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,逻辑部署的Hadoop集群,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,简介:江西电信Hadoop批处理平 台共由62台PC服务器构成,形成物理上独立的3个RACK,按照功能角色分组,主控 节点、数据节点、Hive接
8、入 节点、元数据节点、监控告 警节点和ETL节点。主控节点6台(2台Namenode、1台 Jobtracker、3台 Zookeeper)数据节点56台,江西电信物理部署的Hadoop集群,PDF created with pdfFactory Pro trial version,12企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,第二篇HDFS,一:HDFS简介二:HDFS 架构三:漫画HDFS之读写机制 四:漫画HDFS之容错性 五:漫画HDFS之复制策略,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为
9、中国电信企业核心竞争力之一,1HDFS简介,HDFS(HADOOP DISTRIBUTED FILE SYSTEM),是一个分布式文件系统。它是谷歌的GFS提出之后出现的一种用户级文件系统。有一定的容错性,能提供高吞吐量的数据访问,适合大规模数据集上的应用。HDFS 提供了一个高度容错性和高吞吐量的海量数据存储解决方案,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,2 HDFS 架构,Block:大文件的存储会被分割为多个block进行存储。默认64MB,每一个blok会在多个datanod
10、e上存储多份副本,默认3份,基 本 概 念,Namenode:主要负责存储一些metadata信息,主要包括文件目录、block和文件对应关系,以及block和datanote的对应关系,Datanode:负责存储数据,数据以block的形式存在,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,3 HDFS 之漫画读写,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,3 HDFS 之漫画读写(
11、续),PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,3 HDFS 之漫画读写,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,3 HDFS 之漫画读写,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,4 HDFS 之漫画容错,PDF created with pdfFactory Pro t
12、rial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,4 HDFS 之漫画容错,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,4 HDFS 之漫画容错,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,4 HDFS 之漫画容错,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心
13、竞争力之一,5 HDFS 之漫画复制策略,PDF created with pdfFactory Pro trial version,24企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,第二篇 MapReduce,一:MapReduce基础二:MapReduce优劣 三:MapReduce工作原理,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,1 MapReduce基础,MapReduce是一种编程模型,用于大规模数据集的并行计算。核心操作 由Map(映射)和Reduce(归约)组
14、成,极大地方便了编程人员在不会分 布式并行编程的情况下,将自己的程序运行在分布式系统上,典型的MapReduce过程可以细分为Input(Split)、Mappers、(Shuffle/Partition/Sort)、Reducers和Output等阶段,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,1 MapReduce示例,1.输入端根据输入文本大小进行切片形成适合Map处理的数据片,2.分片后的数据申请Map资源,执行本地单词映射操作,3.通过交换将map生成的结果按照单词进行归并重组
15、,4.重组后的结果,申请Reduce资源,进行单词的合并统计,5.对Reduce的结果进行记录合并生成输出文件,MapReduce过程示例,对输入的文 本进行单词 统计,对输入的文 本进行单词 统计,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,2 MapReduce 执行过程,从MapReduce在整个Hadoop框架 的位置可以看出作为Hadoop最成熟 的批处理框架,MapReduce起到承 上启下的作用,一方面可以操作 HDFS中的数据,另一方面可以被封 装,提供Hive、Pig这样
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Hadoop 基础知识 培训

链接地址:https://www.31ppt.com/p-5432855.html