Hadoop基本概念与架构.ppt
《Hadoop基本概念与架构.ppt》由会员分享,可在线阅读,更多相关《Hadoop基本概念与架构.ppt(56页珍藏版)》请在三一办公上搜索。
1、Hadoop基本概念与架构,dongxicheng.org,主要内容,主要内容,背景介绍,Hadoop是一整套大数据存储和处理方案数据收集数据存储(离线存储,在线存储)数据分析与挖掘Hadoop是一个生态系统每个系统解决一类问题系统间相互配合Hadoop生态系统特点源代码开源(免费)社区活跃、参与者众多涉及分布式存储和计算的方方面面已得到企业界验证,Hadoop发行版本(以开源版本为主),Apache Hadoop()最原始版本,所有其他发行版均基于该发行版实现的包含1.0和2.0两个系列HDP(http:/hadoop 1.0系列CDH4/CDH5:对应apache hadoop 2.0系列
2、不同发行版兼容性架构、部署和使用方法一致,不同之处仅在若干内部实现。,主要内容,Hadoop内核基本构成,分布式存储系统HDFS(Hadoop Distributed File System)高可靠性高扩展性高吞吐率资源管理系统YARN(Yet Another Resource Negotiator)负责集群资源的统一管理和调度分布式计算框架MapReduce易于编程高容错性高扩展性,Hadoop内核基本构成,HDFS是什么,源自于Google的GFS论文发表于2003年10月HDFS是GFS克隆版Hadoop Distributed File System易于扩展的分布式文件系统运行在大量普
3、通廉价机器上,提供容错机制为大量用户提供性能不错的文件存取服务,HDFS优点,高容错性数据自动保存多个副本副本丢失后,自动恢复适合批处理移动计算而非数据数据位置暴露给计算框架适合大数据处理GB、TB、甚至PB级数据百万规模以上的文件数量10K+节点规模,HDFS优点,流式文件访问一次性写入,多次读取保证数据一致性可构建在廉价机器上通过多副本提高可靠性提供了容错和恢复机制,HDFS缺点,低延迟数据访问比如毫秒级低延迟与高吞吐率小文件存取占用NameNode大量内存寻道时间超过读取时间并发写入、文件随机修改一个文件只能有一个写者仅支持append,存储文件的一种方式,Server(10*1TB),
4、Server(10*1TB),Server(10*1TB),Server(10*1TB),file1,file2,file3,file4,file1,file1,file2,file2,file3,file4,存在问题,难以实现负载均衡文件大小不同,节点磁盘利用率难以均衡不利于并行处理大文件放在一个节点上,受限于单个节点处理能力,HDFS设计思想,Server(10 TB),Server(10 TB),Server(10 TB),block1,block2,block3,block4,block1,block1,block2,block2,block3,block3,block4,block4
5、,Server(10 TB),block1,block2,block3,HDFS架构,Standby Namenode,HDFS架构,主Master(只有一个)管理HDFS的名称空间管理数据块映射信息配置副本策略处理客户端读写请求,Active Namenode,NameNode的热备;定期合并fsimage和fsedits,推送给NameNode;当Active NameNode出现故障时,快速切换为新的 Active NameNode。,Standby NameNode,HDFS架构,文件切分与NameNode交互,获取文件位置信息;与DataNode交互,读取或者写入数据;管理HDFS;
6、访问HDFS。,Client,Slave(有多个)存储实际的数据块执行数据块读/写,Datanode,HDFS数据块(block),文件被切分成固定大小的数据块默认数据块大小为64MB,可配置若文件大小不到64MB,则单独存成一个block为何数据块如此之大数据传输时间超过寻道时间(高吞吐率)一个文件存储方式按大小被切分成若干个block,存储到不同节点上默认情况下每个block有三个副本,HDFS写流程介绍,HDFS读流程介绍,HDFS副本放置策略,HDFS块副本放置策略,RackA,RackB,问题:一个文件划分成多个block,每个block存多份,如何为每个block选择节点存储这几份
7、数据?Block副本放置策略:副本1:同Client的节点上副本2:不同机架中的节点上副本3:与第二个副本同一机架的另一个节点上其他副本:随机挑选,HDFS可靠性,文件损坏,网络或者机器失效,NameNode挂掉,常见的三种错误情况,文件完整性CRC32校验用其他副本取代损坏文件HeartbeatDatanode 定期向Namenode发heartbeat元数据信息 FSImage(文件系统镜像)、Editlog(操作日志)多份存储主备NameNode实时切换,文件损坏,网络或者机器失效,NameNode挂掉,常见的三种错误情况,HDFS不适合存储小文件,元信息存储在NameNode内存中一个
8、节点的内存是有限的存取大量小文件消耗大量的寻道时间类比拷贝大量小文件与拷贝同等大小的一个大文件NameNode存储block数目是有限的一个block元信息消耗大约150 byte内存存储1亿个block,大约需要20GB内存如果一个文件大小为10K,则1亿个文件大小仅为1TB(但要消耗掉NameNode 20GB内存),YARN是什么,资源管理和调度系统管理集群中的资源(类似于操作系统)将资源分配给上层的应用程序好处降低运维成本有利于数据共享提高资源利用率,YARN基本架构,YARN基本架构,ResourceManager处理客户端请求启动/监控ApplicationMaster监控Node
9、Manager资源分配与调度NodeManager单个节点上的资源管理处理来自ResourceManager的命令处理来自ApplicationMaster的命令Container对任务运行环境的抽象,封装了CPU、内存等多维资源以及环境变量、启动命令等任务运行相关的信息,YARN基本架构,ApplicationMaster数据切分为应用程序申请资源,并分配给内部任务任务监控与容错Client用户与YARN交互的客户端程序提交应用程序、监控应用程序状态,杀死应用程序等,YARN工作原理,NodeManager,NodeManager,NodeManager,ResourceManager,Ap
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Hadoop 基本概念 架构
链接地址:https://www.31ppt.com/p-5432853.html