《hadoop入门介绍》PPT课件.ppt
《《hadoop入门介绍》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《hadoop入门介绍》PPT课件.ppt(31页珍藏版)》请在三一办公上搜索。
1、Hadoop 交流,使用Hadoop的动因,数据的挑战传统技术的局限新解决方案要满足的新需求Hadoop如何满足新需求,数据的挑战,当前信息系统需要处理比过去更多的数据-组织正产生海量的数据-数据对组织具有重要价值,不能删除产生海量数据的组织:-互联网公司:如腾讯、淘宝数据达到PB级-电信、银行行业-电力行业(国家电网、南方电网),传统技术的局限,单台高性能计算机(小型机)存在处理极限高性能计算(HPC)和网格计算使用消息传递接口(MPI):-编程复杂,需要处理各种分布环境下的异常-高性能计算的方法把作业分配给一个机器集群,这些机器访问共享文件系统(如存储区域网络 SAN)。非常适用于以计算密
2、集型为主的作业,但当节点需要访问大数据量(数百GB的数据)时,这会因为网络带宽成为“瓶颈”,导致计算节点闲置下来。,新解决方案要满足的新需求,系统必须对部分故障提供支持-当出现组件故障时应用程序性能能优雅的降级-系统不会出现整体的故障数据可复原性-如果系统的一个组件发生故障,它的工作负载将分配给系统中 正常工作的组件-故障不会导致任何数据的丢失 组件的可恢复性-如果系统中一个故障的组件恢复了可正常工作,它可以重新加入到系统中,不需要重启整个系统,新解决方案的需求,一致性-组件在执行作业期间出现故障,不会影响作业的处理结果 可伸缩性-增加系统的负载只会优雅的降低个别作业的性能-整个系统不会发生故
3、障-增加系统的资源可以成比例的提高系统的负载容量,新解决方案的需求,一致性-组件在执行作业期间出现故障,不会影响作业的处理结果 可伸缩性-增加系统的负载只会优雅的降低个别作业的性能-整个系统不会发生故障-增加系统的资源可以成比例的提高系统的负载容量,Hadoop如何满足新需求,Hadoop机制概述-数据被分割成块进行存贮(通常每块64Mb或128Mb),冗余备份;-MapReduce中的每个Map任务处理相对小的一部分数据(通常是一个块的数据);-master程序把任务分配到多个节点时,尽可能把Map任务分 配到它所处理的数据所在的节点上(数据局部性);-应用程序只需关心业务相关的代码编写,无
4、需关心各种分布 式相关异常处理。,Hadoop如何满足新需求,满足高可扩展性-Hadoop把一个大作业分解为多个相对小的任务,分配给多个节点处理,通过增加节点来线性的提高系统的负载容量;-MapReduce的各个任务之间不需要通信(Shared nothing 架构),对于大作业增加处理任务的节点可以线性的提高作业的作业处理速度。,Hadoop如何满足新需求,满足数据一致性、组件可恢复性等容错需求-如果一个节点出现了故障,master会检测到故障并把工作重新分配到系统中别的节点上,重启任务不需要与负责处理其他部分数据的节点进行交互;-如果故障的节点重启并修复了故障,它会自动加回系统中并被分配给
5、新任务;-如果一个节点出现了对任务处理慢的状况,master 会在另一个节点上为同一个任务启动另一个执行实例,先完成的哪个实例的结果被使用。,Hadoop生态圈,Hadoop1.0 与 hadoop2.0,Hadoop 主要内核组成,分布式存储系统HDFS(Hadoop Distributed File System)提供了高可靠性、高扩展性和高吞吐率的数据存储服务 资源管理系统YARN(Yet Another Resource Negotiator)负责集群资源的统一管理和调度 分布式计算框架MapReduce 具有易于编程、高容错性和高扩展性等优点,分布式存储系统HDFS,HDFS特点:良
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- hadoop入门介绍 hadoop 入门 介绍 PPT 课件
链接地址:https://www.31ppt.com/p-5625697.html