基于Hadoop的分布式云计算云存储方案的研究与设计.doc

上传人：仙人指路1688

文档编号：2393233

上传时间：2023-02-17

格式：DOC

页数：5

大小：1.12MB

《基于Hadoop的分布式云计算云存储方案的研究与设计.doc》由会员分享，可在线阅读，更多相关《基于Hadoop的分布式云计算云存储方案的研究与设计.doc（5页珍藏版）》请在三一办公上搜索。

1、基于Hadoop的分布式云计算/云存储方案的研究与设计成静静（广东省电信规划设计院有限公司广州510630）摘要：通过介绍云计算技术的发展背景以及目前云计算技术的几种技术架构，对分布式云计算/ 云存储技术进行了详尽的研究，包括分布式云计算/ 云存储的整体架构、分布式文件系统、分布式数据库、分布式数据仓库、分布式同步软件等，并通过与并行关系型数据库、MPP数据库的对比，分析了基于Hadoop的分布式云计算/ 云存储架构的竞争优势，基于Hadoop的分布式云计算/ 云存储将更有效支撑未来电信运营商业务的发展。关键词：云计算；终端桌面云；分布式云计算/ 云存储；Hadoop；分布式文件系统（HD

2、FS）；分布式数据库（Hbase）；并行计算框架(MapR educe)；分布式同步软件(Zookeeper)1 云计算发展背景云计算技术将IT基础资源和服务转变为像水和煤气一样的社会公用基础设施，云计算数据中心成为IT资源和服务的提供者，云计算模型能以按需方式，通过网络方便的访问云系统的可配置计算资源共享池（如网络、服务器、存储、应用程序和服务）。同时，以最少的管理开销及最少的与供应商的交互，迅速配置提供或释放资源。电信运营商引入云计算技术，实现高效率、快速部署、按需使用的IT服务能力，有助于企业缩短IT系统建设周期、降低维护成本、创新业务模式。图1 云计算架构体系IaaS

3、（基础设施即服务）交付给用户的是基本的基础设施资源。用户无需购买、维护硬件设备和相关系统软件，就可以直接在基础设施即服务层上构建自己的平台和应用；PaaS（平台即服务）为开发人员提供了支持离线开发的SDK和集成开发测试环境，实现客户应用的自动部署和扩展，PaaS的实现通常依赖于一体化设备，用户无需为服务器、操作系统、网络和存储等资源运行环境操心；SaaS （软件即服务）提供应用软件的集合，这些应用构建在基础设施层及平台层提供的环境之上，通过网络交付给用户使用。SaaS应用一般为标准化的应用，提供的服务是标准的、一致的，并为数量众多的用户提供相互隔离2 分布式云计算的体系架

4、构云资源池虚拟化资源池平台主要以提供用户基于云的各种服务，共包含3个层次：SaaS将应用主要以基于Web 的方式提供给客户；PaaS将一个应用的开发和部署平台作为服务提供；IaaS将各种底层的计算和存储等资源作为服务提供给用户。在管理方面，云管理层确保整个云计算中心能够安全、稳定地运行，并且能够被有效管理。2.114收稿日期:2012-08-29新技术New Technology数据通信2012.5的操作空间。领域。终端桌面云基于瘦终端的桌面云将原有访问、计算和存储一体的桌面终端演变为终端只完成接入访问，存储和计算资源迁移到后台资源池进行部署，所有应用也都部署在后台机

5、房。2.23基于Hadoop的分布式云计算/云存储方案研究与设计3.1 分布式云计算/云存储设计思路大量普通服务器的集群可以比高性能主机提供更快的性能和更高的可靠性。（1）互联网规模的服务建设只能通过分区实现。单个服务节点的性能已然不够用，即使是解答一个小问题，都需要使用大量的数据，已超出单个节点的能力，更大的问题通常需要具有大量的并行性。数据和计算通常可以被分布到大量的独立的节点上，进行分布式计算。（2）超过99.99%的可用性只能通过冗余方式来实现：墨菲定律：有可能出错，总能出错。假设单个服务器的故障率是运行3年（1000天）有一次故障；对于一万个服务器，每天就有10个服

6、务器出现故障。“超级可靠”硬件并不能永久保证可靠：在规模扩大时，“超级可靠”的硬件依然会出错，虽然出错概率小一点。为了实现可靠性，数据需要被复制到多个节点，最好还可以异步跨数据中心进行数据复制。3.2 基于Hadoop的分布式云计算/云存储建设方案基于Hadoop的分布式云计算整体架构体系如图3所示。图2 终端桌面云体系架构图桌面云瘦终端：前台瘦终端设备实现访问接入，后台机房部署计算和存储设备；在后台服务器统一部署操作系统、应用软件等个人配置；终端设备占用较小空间，具有较低功耗。出于集中管理、安全和节能的要求，基于瘦终端的桌面云未来将取代传统的分布式桌面终端，在试点的基础上逐步

7、进行推广。2.3 分布式云计算/云存储在Google发表MapReduce后，2004年开源组织A- pache发布了开源的Hadoop分布式计算框架，模仿和实现了Google云计算的主要技术。Hadoop基于Java开发，为应用程序提供一组稳定可靠的API接口，实现具有高可靠性和良好扩展性的分布式系统，运行于大量廉价硬件设备组成的集群系统上。分布式云计算：采用标准X86架构服务器大规模集群实现，每个模块都是一个离散的处理单元，使用并行计算技术，集群内各计算节点负荷均衡，当某节点负荷过高时，可智能的将负荷转移到其他节点，并支持节点线性平滑扩展。分布式云存储：采用X86服务器的本

8、地硬盘实现，使用分布式文件系统，每份数据至少保存在2个节点，保证存储设计的性能和可靠性目标。出于成本及开放性的要求，分布式云计算/存储在未来将部分取代传统小型机盘阵存储，并从非关键性业务应用领域逐步扩展到较关键的业务应用图3 分布式云计算/ 云存储体系架构图分布式文件系统（HDFS）：针对大规模数据的高容错性和高吞吐的分布式文件系统；它可以构建从几台到几千台由常规服务器组成的集群中，并提供高聚合输入输出的文件读写访问。Namenode是一个中心服务器，负责管理文件系统的namespace和客户端对文件的访问；Datanode在集群中会有多个，一般是一个节点存在一个，负责管理

9、其自身节点上它们附带的存储。在内部，一个大文15新技术New Technology数据通信 2012.5缩，有效降低磁盘I/O，提高磁盘利用率；多维表，四个维度，其中三个维度可变，适合描述复杂嵌套关系。分布式数据仓库（Hive）：基于Hadoop的大数据分布式数据仓库引擎，可以将数据存放在分布式文件系统或者分布式数据库中，并使用SQL语言进行海量数据统计、查询和分析操作。图4 分布式文件系统体系架构图件分成一个或多个block，这些block存储在Datanode集合里。Namenode执行文件系统的namespace相关操作，例如打开、关闭、重命名文件和目录，同时

10、决定了 block 到具体Datanode 节点的映射。 Datanode 在Na- menode的指挥下进行block的创建、删除和复制。单一节点的Namenode大大简化了系统的架构。 Namenode负责保管和管理所有的HDFS元数据，因而在请求Namenode得到文件的位置后就不需要通过 Namenode参与而直接从Datanode进行。为了提高Namenode的性能，所有文件的names- pace数据都在内存中维护，所以就天生存在了由于内存大小的限制导致一个HDFS集群的提供服务的文件数量的上限。图6 分布式数据仓库体系架构图提供类似于SQL的语句查询、易于使用；针对海量数据

11、的高性能查询和分析系统；高扩展性，通过增加节点提高计算性能，扩容无需停机；和Hbase结合，同时提供实时查询和高效统计。分布式数据分析（Pig）：基于Hadoop的大数据分布式数据分析语言和运行平台，确保分析任务。提供Pig Laten语言，便于编写分析程序；系统可以自动优化运行，允许用户关注与业务实现；用户可以实现自定义函数扩展实现特殊处理。并行计算框架（MapReduce）：适用于大数据量处理的分布式框架，是为离线数据分析而设计，利用数据的并行性进行分布运算，而后汇总结果的计算框架。将任务拆分、分布、汇总，开发人员只需要实现业务逻辑；分布任务自动失

12、败重试，单个任务失败不会造成整个任务推出；和HDFS整合，使计算移到数据所在的节点运行。分布式同步软件（Zookeeper）：针对大型分布式系统的可靠协调系统。提供的功能包括：配置服务、名字维护、分布式同步、组服务等。可以维护系统配置、群组用户和命名等信息。分布式服务的数据被复制在ZooKeeper集群中，保证数据的可靠性和可用性；数据严格按照时间更新、查询和发布；高性能、特别在以读为主的应用中，可以提供数千台客户端的查询。分布式数据库（HBase）：HBase是一个分布式的、按列存储的、多维表结构的实时分布式数据库，它可以提供大数据量架构化和非结构化数据高速读写

13、操作，为高速在线数据服务而设计。图5 分布式数据库体系架构图Hbase支持每秒数万条级别的高速并发写入和高速查询；可扩展，数据自动切分和分布，可动态扩容，无需停机；数据存放在HDFS文件系统上，不会丢失；灵活的表结构，可动态增加或改变；面向列，可压16新技术New Technology数据通信2012.53.3 基于Hadoop的分布式云计算/云存储网络集群架构二层服务器每个节点配置：大约40台普通的两路八核或六核处理器、12到48GB内存、612块硬盘、2块千兆以太网卡的服务器，由一层普通网络交换机互联。一层汇聚交换机配置：采用40Gbit/s的inf

14、iniband交换机。网络架构如图7所示。图9 Hadoop方案优势：计算与存储融合，支持横向扩展，有更好的扩展性；劣势：解决数据冲突时，需要节点间协作。适用范围：数据仓库和离线数据分析；大规模在线实时应用。MPP型数据库与Hadoop的方案对比:（1）软件架构（扩展性）：图7 基于Hadoop的分布式云计算网络架构图3.4 基于Hadoop的分布式云计算/云存储方案优势并行关系型数据库与Hadoop的方案对比：（1）并行关系型方案如图8所示。（2）数据模型：（3）分析方式：图8 并行关系型方案多个独立的关系数据库服务器，访问共享的存储资源池。优势：采用多个关系数据库服务器、多个存储，与

15、原有的架构相比扩展了存储和计算的能力。劣势：计算与存储分离，数据访问存在竞争和带宽瓶颈；支持的关系数据库服务器数量有限；只能向上扩展不能横向扩展。适用范围：适合复杂的需要事务处理的应用。（2）Hadoop方案如图9所示。有大量独立的服务器通过网络互连形成集群，每台服务器有独立的存储；4 结束语IDC预测全球的数据使用量2020年将增长44倍，达到35.2ZB。传统技术无法胜任大数据集的分析、管理和挖掘。基于Hadoop的分布式云计算/云存储方案将有效地支撑大量的结构化、非结构化数据以及结构可变的数据的导入、查询和统计，有效支持PB级别数据、支持万级每秒查询、支持该可用性系统、支

16、持高效率统计分析。基于Hadoop的分布式云计算/云存储方案对电信运营商未来业务和技术的发展有重要的战略意义和经济意义。17MPP数据库Hadoop分析方式SQL查询语言广泛的数据分析，包括 SQL、M/R、Rlanguage、数据挖掘、预测性分析MPP数据库Hadoop数据模型二元关系模型非结构化或者多维MAP模式静态数据模式动态可变数据模式 MPP数据库Hadoop软件架构（扩展性）集群规模几十个节点几千个节点扩展能力静态停机扩展（数据需要重新分布）动态无

17、缝扩展，自动扩展容错能力不存放中间结果，出错时需要重新执行查询只需要重新运行出错的子任务新技术New Technology数据通信 2012.5参考文献电信工程技术与标准化,2009(11)6 韩银俊 ,高洪 ,郭斌 .基于云计算分布式缓存构建 IPTV 业务平台J.电脑知识与技术,2011(3)7 张文峰 .MapReduce模型的分布式计算平台的原理与设计J.华中科技大学,2012(3)8 郑启龙,房明,汪胜等

18、.基于MapReduce模型的并行科学计算J. 微电子学与计算机,2009(08)9 张应刚.分布计算中间件技术的探讨J.科技创新导报, 2009 (02)1 Jay Heiser,Mark Nicolett. Assessing the Security Risks ofCloud ComputingR. June 20082 Jeffrey Dean, Sanjay Ghemawat. Map Reduce: Simplified Data Processing on Large Clusters J.Communications

19、 of the ACM, 20083 适用于云计算的面向查询数据库数据分布策略 J.计算机科学,2010(9)4 程伟炜 ,杨宗凯 , 乐春晖 . 基于 Web Service 的一种分布式体系结构J.计算机应用研究,2002(02)5 钱宏蕊,刘玲.云计算技术在移动通信运营商的落地应用J.作者简介：成静静 , 广东省电信规划设计院从事云计算新技术、通信软件架构的研究设计。简讯2012新一代宽带无线移动通

20、信发展论坛召开由工业和信息化部电信研究院主办的“2012新一代宽带无线移动通信发展论坛” 近日在北京举办。论坛以 “技术创新驱动产业发展，开启未来移动互联时代 ”为主题，聚焦LTE、TD-LTE产业链建设、扩大规模试验、技术演进等内容，关注移动互联网行业的发展趋势、产业发展特点、典型业务应用以及大数据挖掘技术等。大唐电信科技产业集团副总工程师、首席科学家王映民发表了题为“TD-LTE演进助推移动互联网发展 ” 的演讲，介绍了TD-LTE的快速

21、发展情况，提出TD-LTE对移动互联网发展的助力作用。王映民在演讲中指出，TD-LTE正吸引着全球更多主流运营商加入。我国于2008年启动TD-LTE概念验证，随后进行了技术试验，2011年开展了“6+1”城市大规模组网性能测试， 2012年启动了13城市扩大规模试验，实现主城区无线网络连续覆盖，并实现与现网TD-SCDMA互联互通和多模应用。王映民认为，根据TD- SCDMA产业发展的经验，TD-LTE正处于商用前的产业化关键阶段。要遵循TD-LTE和TD-SCDMA协调发展原则，在多频多模终端芯片研发

22、、国家频谱规划与分配政策、用户需求挖掘和消费培养、商业模式创新和终端应用模式等方面，科学快速推动本土产业链成熟。王映民指出，移动互联网产业持续高速发展，移动数据业务已形成规模需求，移动数据流量的指数式增长将使移动运营商面临更大的压力。对此，大唐积极推进TD-LTE技术和标准的持续演进，满足高频热点小覆盖的LTE-Hi(Small Cell)技术（TDD高频高速热点接入技术）将帮助TD-LTE打造多层次、多频段、全覆盖的移动宽带网络，助推移动互联网升级发展。大唐电信集团一直致力于持续推

23、动TDD产业升级演进，积极布局核心网、无线网、终端芯片及测试仪表等产业链关键环节，率先满足LTE预商用背景下工信部、中国移动对于多模终端芯片的需求，成为TD-LTE 产业链关键环节最完整的厂家。大唐移动积极配合中国移动参加TD-LTE南京规模技术试验网建设，并独家承担北京演示网建设。王映民还介绍了由大唐率先推出的业界领先的LTE网络规划 “真仿”云计算平台及大唐在海外市场的布局和发展。王映民建议，应当坚持TDD协调发展和同步发展策略，一方面坚定不移地推进TD-SCDMA规模商用，另一方面积极推进TD-LTE规模试验、规模扩大试验等产业化进程。大唐提出发展TDD的四个“同步” 策略：行业应用与公网市场同步，商业模式与发展周期同步，国内市场与国际市场同步，资源配置与产业推进同步。（来源：大唐电信集团）18

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

8 金币 0人已下载

下载	加入VIP免费专享

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于 Hadoop 分布式计算存储方案研究设计

三一办公所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：基于Hadoop的分布式云计算云存储方案的研究与设计.doc
链接地址：https://www.31ppt.com/p-2393233.html