基于Hadoop的分布式云计算云存储方案的研究与设计.doc
《基于Hadoop的分布式云计算云存储方案的研究与设计.doc》由会员分享,可在线阅读,更多相关《基于Hadoop的分布式云计算云存储方案的研究与设计.doc(5页珍藏版)》请在三一办公上搜索。
1、基于Hadoop的分布式云计算/云存储方案的研究与设计成静静(广东省电信规划设计院有限公司 广州510630)摘要:通过介绍云计算技术的发展背景以及目前云计算技术的几种技术架构,对分布式云计算/ 云存储技术进行了详尽的研究,包括分布式云计算/ 云存储的整体架构、分布式文件系统、分布式数据库、分布式数据 仓库、分布式同步软件等,并通过与并行关系型数据库、MPP数据库的对比,分析了基于Hadoop的分布式云计算/ 云存储架构的竞争优势,基于Hadoop的分布式云计算/ 云存储将更有效支撑未来电信运营商业务的发展。关键词:云计算;终端桌面云;分布式云计算/ 云存储;Hadoop;分布式文件系统(HD
2、FS);分布式数据库(Hbase);并行计算框架(MapR educe);分布式同步软件(Zookeeper)1 云计算发展背景云计算技术将IT基础资源和服务转变为像水和 煤气一样的社会公用基础设施,云计算数据中心成 为IT资源和服务的提供者,云计算模型能以按需方 式,通过网络方便的访问云系统的可配置计算资源 共享池(如网络、服务器、存储、应用程序和服务)。同 时,以最少的管理开销及最少的与供应商的交互,迅 速配置提供或释放资源。电信运营商引入云计算技术,实现高效率、快速 部署、按需使用的IT服务能力,有助于企业缩短IT系 统建设周期、降低维护成本、创新业务模式 。图1 云计算架构体系IaaS
3、(基础设施即服务)交付给用户的是基本的 基础设施资源。用户无需购买、维护硬件设备和相关 系统软件,就可以直接在基础设施即服务层上构建 自己的平台和应用;PaaS(平台即服务)为开发人员 提供了支持离线开发的SDK和集成开发测试环境, 实现客户应用的自动部署和扩展,PaaS的实现通常 依赖于一体化设备,用户无需为服务器、操作系统、 网络和存储等资源运行环境操心;SaaS (软件即服 务)提供应用软件的集合,这些应用构建在基础设施 层及平台层提供的环境之上,通过网络交付给用户 使用。SaaS应用一般为标准化的应用,提供的服务是 标准的、一致的,并为数量众多的用户提供相互隔离2 分布式云计算的体系架
4、构云资源池虚拟化资源池平台主要以提供用户基于云的各 种服务,共包含3个层次:SaaS将应用主要以基于Web 的方式提供给客户;PaaS将一个应用的开发和部署 平台作为服务提供;IaaS将各种底层的计算和存储等 资源作为服务提供给用户。在管理方面,云管理层确保整个云计算中心能 够安全、稳定地运行,并且能够被有效管理。2.114收 稿 日 期:2012-08-29新技术New Technology数 据 通 信2012.5的操作空间。领域。终端桌面云基于瘦终端的桌面云将原有访问、计算和存储 一体的桌面终端演变为终端只完成接入访问,存储 和计算资源迁移到后台资源池进行部署,所有应用 也都部署在后台机
5、房。2.23基于Hadoop的分布式云计算/云存储方案研究与设计3.1 分布式云计算/云存储设计思路大量普通服务器的集群可以比高性能主机提供 更快的性能和更高的可靠性。(1)互联网规模的服务建设只能通过分区实现。 单个服务节点的性能已然不够用,即使是解答一个 小问题,都需要使用大量的数据,已超出单个节点的 能力,更大的问题通常需要具有大量的并行性。数据和计算通常可以被分布到大量的独立的节 点上,进行分布式计算。(2) 超过99.99%的可用性只能通过冗余方式来 实现:墨菲定律:有可能出错,总能出错。假设单个服 务器的故障率是运行3年(1000天)有一次故障;对于 一万个服务器,每天就有10个服
6、务器出现故障。“超级可靠”硬件并不能永久保证可靠:在规模 扩大时,“超级可靠”的硬件依然会出错,虽然出错概 率小一点。为了实现可靠性,数据需要被复制到多个 节点,最好还可以异步跨数据中心进行数据复制。3.2 基于Hadoop的分布式云计算/云存储建设方案基于Hadoop的分布式云计算整体架构体系如图3所示。图2 终端桌面云体系架构图桌面云瘦终端:前台瘦终端设备实现访问接入, 后台机房部署计算和存储设备;在后台服务器统一 部署操作系统、应用软件等个人配置;终端设备占用 较小空间,具有较低功耗。出于集中管理、安全和节能的要求,基于瘦终端 的桌面云未来将取代传统的分布式桌面终端,在试 点的基础上逐步
7、进行推广。2.3 分布式云计算/云存储在Google发表MapReduce后,2004年开源组织A- pache发布了开源的Hadoop分布式计算框架,模仿和 实现了Google云计算的主要技术。Hadoop基于Java开发,为应用程序提供一组稳定 可靠的API接口,实现具有高可靠性和良好扩展性的 分布式系统,运行于大量廉价硬件设备组成的集群 系统上。分布式云计算:采用标准X86架构服务器大规模 集群实现,每个模块都是一个离散的处理单元,使用 并行计算技术,集群内各计算节点负荷均衡,当某节 点负荷过高时,可智能的将负荷转移到其他节点,并 支持节点线性平滑扩展。分布式云存储:采用X86服务器的本
8、地硬盘实 现,使用分布式文件系统,每份数据至少保存在2个 节点,保证存储设计的性能和可靠性目标。出于成本及开放性的要求,分布式云计算/存储 在未来将部分取代传统小型机盘阵存储,并从非 关键性业务应用领域逐步扩展到较关键的业务应用图3 分布式云计算/ 云存储体系架构图分布式文件系统(HDFS):针对大规模数据的高 容错性和高吞吐的分布式文件系统;它可以构建从 几台到几千台由常规服务器组成的集群中,并提供 高聚合输入输出的文件读写访问。Namenode是一个中心服务器,负责管理文件系 统的namespace和客户端对文件的访问;Datanode在 集群中会有多个,一般是一个节点存在一个,负责管 理
9、其自身节点上它们附带的存储。在内部,一个大文15新技术New Technology数 据 通 信 2012.5缩,有效降低磁盘I/O,提高磁盘利用率;多维表,四个维度,其中三个维度可变,适合描述复杂嵌套关系。分 布 式 数 据 仓 库 (Hive):基于Hadoop的大数据 分布式数据仓库引擎,可以将数据存放在分布式文 件系统或者分布式数据库中,并使用SQL语言进行海 量数据统计、查询和分析操作。图4 分布式文件系统体系架构图件分成一个或多个block,这些block存储在Datanode集合里。Namenode执行文件系统的namespace相关操 作,例如打开、关闭、重命名文件和目录,同时
10、决定了 block 到具体Datanode 节点的映射。 Datanode 在Na- menode的指挥下进行block的创建、删除和复制。单一节点的Namenode大大简化了系统的架构。 Namenode负责保管和管理所有的HDFS元数据,因而 在请求Namenode得到文件的位置后就不需要通过 Namenode参与而直接从Datanode进行。为了提高Namenode的性能,所有文件的names- pace数据都在内存中维护,所以就天生存在了由于内 存大小的限制导致一个HDFS集群的提供服务的文 件数量的上限。图6 分布式数据仓库体系架构图提供类似于SQL的语句查询、易于使用;针对海量数据
11、的高性能查询和分析系统;高扩展性,通过增 加节点提高计算性能,扩容无需停机;和Hbase结合, 同时提供实时查询和高效统计。分 布 式 数 据 分 析 (Pig):基于Hadoop的大数据分 布式数据分析语言和运行平台,确保分析任务。提供Pig Laten语言,便于编写分析程序;系统可 以自动优化运行,允许用户关注与业务实现;用户可 以实现自定义函数扩展实现特殊处理。并 行 计 算 框 架 (MapReduce):适用于大数据量 处理的分布式框架,是为离线数据分析而设计,利用数据的并行性进行分布运算,而后汇总结果的计算 框架。将任务拆分、分布、汇总,开发人员只需要实现 业务逻辑;分布任务自动失
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Hadoop 分布式 计算 存储 方案 研究 设计
链接地址:https://www.31ppt.com/p-2393233.html