计算机软件与理论毕业论文 .doc
《计算机软件与理论毕业论文 .doc》由会员分享,可在线阅读,更多相关《计算机软件与理论毕业论文 .doc(58页珍藏版)》请在三一办公上搜索。
1、分 类 号 学号 2005612100144学校代码 10487 密级 硕士学位论文数据网格中数据复制管理技术研究学位申请人:张慧娜学科专业:计算机软件与理论指导教师:徐丽萍 副教授答辩日期:2007年6月2日A Thesis Submitted in Partial Fulfillment of the Requirements for the Degree of Master of EngineeringResearch on Data Replicating Managementin Data GridCandidate :Zhang Huina Major :Computer Soft
2、ware and TheorySupervisor :Associate Prof. Xu LiPingHuazhong University of Science and TechnologyWuhan 430074, P. R. ChinaJune, 2007独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名: 日期: 年 月 日学位论文版权
3、使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密,在_年解密后适用本授权书。本论文属于不保密。(请在以上方框内打“”)学位论文作者签名: 指导教师签名: 日期: 年 月 日 日期: 年 月 日摘要计算网格被用来解决广域网中分布的资源共享、互联和互操作问题。随着数据密集型应用的飞速发展,数据呈爆炸式增长,数据网格技术应运而生,而且正成为网格技术的另外一个研究重
4、点。数据复制技术是数据网格中一个重要的组成部分,被广泛应用于分布式数据库、移动数据库和Internet等分布式环境之中。创建副本可以降低远程访问该数据的网络延迟以及带宽消耗,还可以提高网络的负载均衡。而良好的副本定位机制可以有效的定位可能存在的诸多副本也是数据网格关注的重要问题之一。主要对数据复制管理中的副本创建策略和副本定位机制两个方面展开了研究。副本的创建策略研究的是如何在合适的时间、合适的地点创建相应数据副本。通过分析和研究用户驱动和利润驱动的副本动态创建策略,提出域内副本衍生和域间副本创建相结合的副本创建策略。基于数据网格的层次性,把整个网格划分为域内和域外两部分,针对各自不同的特性,
5、实施不同的副本创建方法,有效提高了访问效率、减少带宽消耗、节省存储空间,通过仿真试验验证了上述优越性。数据副本的定位也是提高数据访问速度的一个重要方面,通过综合研究和评价基于同一个模型的几种分布式、动态自适应的副本定位方法,提出一种改进的分布式动态副本定位方法(Decentralized Dynamic Replica Location method, DDRL)。通过对算法进行理论分析和测试,结果表明DDRL定位方法能够实现宿主节点的负载均衡,同时该方法具有可靠性高、分布性、可扩展性好等特点。关键词:数据网格;数据复制;副本创建;副本定位AbstractComputational grid
6、has been used to solve a wide area network distributed resource sharing, networking and interoperability issues, with the rapid development of data-intensive applications and the explosive growth of data, Data Grid emerged and become another focus of grid. Data Replica Management is one of the criti
7、cal parts in Data Grids. It has been widely applied in the areas of distributed database, mobile database, Internet and other distributed environments. Replication can reduce access latency, and balance the loads for distributed applications. Excellently Replica location is also important to reduce
8、access latency in data grids. This paper investigates on two component of replica management in data grids: replicas creation strategies and replica location mechanism.Replicas creation strategies tend to make decisions on where and when to create which data replicas. we propose our replicas creatin
9、g strategy based on investigating and analyzing the related researches. The method employ the different methods between the inner domain and the inter domain. This method can also reduce access latency, improve data locality and improve the overall performance of the grid system.Replica location is
10、also important to reduce access latency in data grids. we proposed an improved replica location mechanism-Decentralized Dynamic Replica Location method(DDRL),based on investigating and analyzing some Dynamic self-Adaptive Replica Location Method.Keywords: Data Grid; Data Replica; Replica creation; R
11、eplica location目录摘要IAbstractII1绪论1.1研究背景(1)1.2国内外研究现状(3)1.3研究的内容(8)1.4本文结构(9)2数据复制管理技术2.1数据复制管理相关概念(10)2.2数据复制管理技术的特点和功能(12)2.3数据复制管理关键技术(13)2.4小结(14)3副本创建策略3.1问题的提出和网格环境(15)3.2相关的工作及评价(16)3.3域内副本衍生和域间副本创建策略(20)3.4小结(22)4副本定位机制4.1问题的提出(23)4.2相关工作及评价(24)4.3一种改进的分布式动态副本定位方法DDRL(26)4.4小结(30)5数据复制管理系统原型
12、设计实现5.1原型系统环境(31)5.2系统各角色之间的具体实现(31)5.3各功能模块具体实现(33)5.4原型系统测试及分析(37)5.5小结(43)6总结和展望致谢(46)参考文献(47)1绪论1.1研究背景1.1.1网格计算模型从1969年最早的互联网雏形由美国军方采用到今天人们在互联网上进行科学计算、阅读新闻、采集信息、和网上聊天以及游戏等,基于Internet的电子政务、电子商务、数字地球也应运而生,互联网高速发展,已经成了人们日常生活不可或缺的一部分。然而,科学家们也被当前互联网存在的一些缺憾困扰,尤其是在进行大规模分布式计算时,诸如网络瓶颈、资源共享之类的问题也层出不穷。因此他
13、们潜心研究继Internet和Web之后的第三代互联网网格。网格(Grid)自90年代中期被提出以来,得到迅速的发展,被称作“下一代互连网”。它的目标是将地理上分布、异构的各种计算机、服务器、虚拟现实系统等所有的网络资源通过高速互连的网络连接集成起来,以实现资源的高度共享和统一访问,从而消灭资源孤岛。所以网格最初被提出并研究的原由是为了大规模的并行计算,称为计算网格1,2(Grid Computing)。计算网格在科学研究和工程计算中发挥了巨大的作用,取得了巨大的成功。然而,人们需要的不仅是实施大规模的数据计算,还需要存储、传送、分析海量数据科学研究、军事决策、战场仿真、分子物理、数字地球计划
14、,都迫切需要缩短提取和处理原始数据到高层信息的时间。这就需要扩充网格的数据管理能力,建立一种有效的数据管理体系结构以对网格的高效的数据访问提供有力支持。在这种情况下,数据网格应运而生。1.1.2数据网格的产生网格计算最重要的特征就是资源的共享和协同计算,由于技术的发展,现代大型科学工程研究,信息服务和数字媒体应用中的数据呈爆炸式增长,应用数据从几十个Terabyte到Petabyte,而且还在持续高速的增长,数据已经成为一个重要的资源,例如全球气候模拟、高能物理、生物计算、战场仿真、核模拟、数字地球,电子商务、电子政务、数字媒体等应用。它们的数据将达到几十个Terabyte至Petabyte的
15、级别,地理上广泛分布的用户都希望能够访问、分析和使用这些庞大的分布数据,而他们的分析方法往往是计算复杂和计算量大,这种结合海量数据集合,地理上分布的用户和资源,以及计算密集型的分析处理应用导致现有的数据管理体系结构、方法和技术己经不能很好的满足高性能、大容量分布存储和分布处理能力的要求,如何存储、分发、组织和管理、高性能处理、分析和挖掘海量分布数据成为许多应用的首要问题。数据网格技术的发展为解决这个问题提供了一条有效的技术途径。数据网格3(Data Grid)是当前网格领域的研究热点,它的概念来自网格。它是网格技术在数据管理方面的应用和实现。最终目标是建立异构分布环境下海量数据的一体化操作的构
16、架和环境,从而更好地解决海量数据难于组织、难以处理的问题。它通过开发能够集成网络上分布的多个数据集之类的资源,形成单一虚拟的数据访问、管理和处理环境,为网络用户屏蔽底层物理资源,从而建立分布式海量数据的一体化数据访问、存储、传输、管理与服务构架。在数据量庞大且结构复杂的数据网格环境中,衡量不同系统的技术的一个重要指标就是数据访问时间。在以往的分布存储技术中,网络延迟是影响数据访问时间的重要因素之一。虽然随着网络性能的提高,网络延迟将逐渐降低,但访问本地数据与通过网格访问远程数据相比,特别是数据量庞大且结构复杂的数据网格环境中,仍存在很大的性能差异。通过数据复制技术(Data Replicate
17、)为网格环境下的客户提供多个数据备份,可以有效减小数据访问时间,降低网络带宽负载,而且还可以提高整个系统的负载均衡性和可靠性。这样数据复制技术在数据网格中的应用就越来越广泛。数据复制管理(Data Replicating Management)成为人们广泛关注的研究领域之一。复制技术并不是一个崭新的概念,在分布数据库、分布对象计算、移动计算等领域已得到广泛应用。由于不同的研究前提、研究目标和对网络环境的假定,现有的一些复制策略和技术不能很好地综合应用在数据网格系统中。因此需要在这些策略的基础上,根据应用特点和用户需求,综合设计、实现符合数据网格特性的数据复制策略和技术。1.2国内外研究现状1.
18、2.1数据网格的研究现状数据网格是面向数据密集型应用的网格体系结构。数据网格为各种应用提供了一个高性能、大容量、高速传输的并行分布广域计算平台,应用领域十分之广,自提出以来受到全世界很多国家和科学研究机构的广泛重视,并开展了诸多重大数据网格项目的研究。近年来,世界各地都启动了大型网格计划,并得到了产业界的大力支持。目前,已有许多网格研究的组织和项目。世界信息技术大国都认识到网格对当前网络技术巨大的拓展功能和宏伟的发展前景,把发展网格技术放到了战略高度,纷纷投入巨资,争相发展网格技术,力图抢占至高点,获取竞争新优势。在网格研究的基础上,数据网格的研究工作也在世界各地逐步开展起来,各国政府和研究机
19、构结合具体的应用领域推出了一系列重要的研究计划,具体工作如下:Globus4,5是最具有影响力的网格研究项目,由美国Argonne国家实验室、南加州大学和芝加哥大学联合研制,主要研究网格基础理论和关键技术、网格软件工具的开发、试验平台的建立和网格应用的开发。Globus提出了开放网格服务体系结构OGSA(Open Grid Service Architecture),建立Globus Toolkit6工具包,提供一整套关于资源管理、信息服务、数据管理技术等的SDK和API,用户可以选择其中的工具模块进行高层次的应用开发,因此国际上很多网格项目都采用了Globus系统。Globus系统最初是面向
20、计算网格的,后来在原有的基础上增加了数据管理的功能,对数据的高速传输、元数据管理、数据复制、数据副本选择等进行了研究和实现,成为数据网格应用的开发平台。Globus Data Grid7,8由美国圣地亚哥超级计算中心(SDSC)的存储资源代理(SRB)系统支持。Globus Data Grid数据网格结构可以抽象为核心服务层和高级服务层。其中的核心服务主要提供存储系统的数据访问、元数据访问和系统配置元数据等服务。具体提供访问和管理位于各类存储系统,包括高性能存储系统(HPSS)、分布式并行存储系统(DPSS)甚至更复杂的SRB系统上的数据的机制,并且还可提供访问和管理有关这些数据的信息,包括应
21、用元数据、复制元数据和系统配置元数据等。高级服务层建立在核心服务层之上,主要提供数据管理的功能,是根据特定应用的需求在网格环境中对数据访问、数据传输、数据复制、复制选择以及查询优化等进行管理。欧洲原子能研究机构CERN成立于1954年,是世界最大的粒子物理研究中心,由其主持开发的欧洲数据网格(European Data Grid)项目是另一个著名的网格项目,其基本思想是将大型强子对撞机LHC(Large Hadron Collider)等物理设备产生的超大规模海量数据分散到全球的计算机和存储系统上进行处理,将应用扩展到高能物理学、地球观测和生物信息学等科学研究领域。欧洲数据网格(EU Data
22、 Grid)9是建立在Globus之上的,其解决的主要问题包括:负载调度与管理、数据管理、海量存储管理、资源管理和网格监控。EU Data Grid需要开发中间件以支持对海量数据的访问,既要有统一的名字空间和统一的数据格式,又要能在不同站点之间高速移动和复制数据,还要保持远程数据拷贝的一致性。EU Data Grid提供不同格式数据之间的转换接口,同时它还要负责将本地的海量数据存贮系统集成到网格的数据管理系统中,即用统一的接口屏蔽不同站点的数据存储方式和处理方式之间的差异,使分布的存储资源能够无缝融合。网格物理网项目(Grid Physics Network, GriPhyN)10是由实验物理
23、学家和IT研究人员联合开发的一个大型数据网格项目,提出了虚拟数据的概念和描述语言,为数据的自动生成和再生成提供了比较系统和完整的方法,以解决高能物理等物理科学领域的数据管理问题,向全球的科学家提供一个面向数据处理的计算平台。另外,Avaki Grid是在数据网格技术方面做的比较成功的网格软件。如要由网格协议层、系统管理服务层、应用服务层三个服务组成。国内对网格的研究始于2000年,与国外相差时间较短,不足十年,都以研究性网格为主。目前,我国己经通过863、十五攻关等计划资助建立了中国国家网格(CNGrid)、织女星网格(Vega Grid)、中国教育科研网格(ChinaGrid),上海交通信息
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机软件与理论毕业论文 计算机软件 理论 毕业论文

链接地址:https://www.31ppt.com/p-3992824.html