云平台监控系统的研究与实现.doc
《云平台监控系统的研究与实现.doc》由会员分享,可在线阅读,更多相关《云平台监控系统的研究与实现.doc(45页珍藏版)》请在三一办公上搜索。
1、云平台监控系统的研究与实现 南开大学硕士学位论文云平台监控系统的研究与实现姓名:孙杰申请学位级别:硕士专业:计算机软件与理论指导教师:邵秀丽2012-05中文摘要中文摘要随着云计算技术的推广,涌现了许多优秀的云计算平台,其聚合了大量硬件资源和软件资源,并采用虚拟化技术实现动态伸缩服务量,按需提供服务。为确保云平台正常运转,必须对整个云架构实施多方位监控,而普通和网格监控软件都有着自身的局限性和适用范围,不适用于云平台,所以本文研究并实现云平台下的监控系统,解决云平台资源运行和用户使用的监控,并改进增强了系统自配置和容错性,具有重要意义。本文首先进行了云平台监控的需求分析,给出总体功能设计和各模
2、块设计,并基于设计了包含监控资源层、监控采集层、监控汇集层、数据持久层、用户交互层的五层架构模型,并具体分析了每层的实现技术和设计过程,对不同监控对象采取不同传输策略,以保证低干扰、实时、准确传输,同时设计实时展示库和监控分析库,以保证监控数据实时展示和深度分析。之后对云平台中物理资源、虚拟资源、服务资源提供多维度的监控和资源利用率分析进行研究,并根据分析实现监控预警和故障统计,实现数据稀释,以达到监控和证明云平台的正常运行,检测出云平台瓶颈和故障,为运营者均衡负载提供信息依据的目的;同时基于运行机制设计了用户存储监控及分析组件和用户计算监控和分析组件用于监控用户对云存储服务和计算服务的使用,
3、以增强云端透明度,提高用户对云服务商信任度,并根据监控结果进行计费管理。本文还针对使用的层级监控结构研究实现了监控系统的自注册机制和节点动态发现机制,以实现云端节点接入自配置以及采集参数和频率的配置,降低系统部署难度,支撑云平台动态伸缩的特性,并基于此改进了系统容错机制,使系统具有一定的故障自恢复能力。最后应用以上的研究实现了一个云平台监控系统,其运行效果表明本文的策略是有效可行的。关键字:云平台;监控系统;用户监控;白配置;故障自恢复;一一?一 , ,.酊 ., , 。,】尬 ,.?,?, . ?锄, , .锄, , ,. , , . , ., :; ; 第一章绪论第一章绪论本章主要介绍云平
4、台监控系统的研究背景和意义,并分析了国内外对云平台监控的研究现状,最后给出全文的组织结构。第一节研究背景和意义随着应用和信息化技术的蓬勃发展,以及商业智能、科学计算等各领域大规模数据存储和计算需求,单机性能的改善已无法满足,应运而生的网格计算结合分布式计算和并行计算的特点,将一群松散耦合的计算机组成的超级虚拟计算机,在实现过程中研究中间件、标准协议等以屏蔽异构资源,但过于理想化,应用性能单一,并没有得到大规模的实际运用。而云计算结合网格计算的优点,通过虚拟化技术组织基础设施提供统一资源层,使得存储资源、计算资源、各种平台和软件相互协作,并抽象提供、三层服务【】,对用户按需收费,相较而言更偏向商
5、业模式,即云计算服务商管理云计算平台,向用户提供计算、存储、网络资源等底层基础设施服务和部署其上的多种云服务,并收取一定费用。而普通用户不需要关注云平台内部的实现机制,只需要把自己的存储和计算任务放入云平台中处理,并获取结果。目前,云计算平台研究和应用在学术和商业共同推动作用下,逐步显现迅猛增长的势头,、盛大云计算等国内外公司纷纷推出了自己云计算平台和解决方案,云计算的时代已经到来,逐步向面向服务、动态伸缩、按需收费的公有云或私有云发展【。而云平台的用户范围也逐步扩大,例如企业可以在云计算平台上按需选择适合自己的云服务,快速构建具有本企业特色的业务流程管理系统和数据库,这种快速架构系统的新模式
6、,能够合理充分地利用资源,降低成本,从而提升企业的核心竞争力;而政府则通过云计算加强部门间的信息交流,促进部门的协同办公,并将获得的大量信息利用云计算数据挖掘、并行处理等技术进行分布式存储和科学分析,最终让数据得到使得数据能够得到统一有效的管理。而中国自年云计算经历引初期步骤后,开始步入快速发展通道,预测第一章绪论结果如图.所示【】:图.中国云计算服务市场规模和预测云平台聚合了大量物理资源、虚拟资源,并采用虚拟化技术实现动态伸缩服务量,按需提供服务。而监控在提高云计算提供服务质量方面扮演着重要的角色,为使得云平台可以顺利提供服务且正确运转,需要多方位监控云平台运转的架构,确保云平台运营者可以了
7、解和把握总体运行情况,从而可以及时优化资源性能和可用性。监控往往由监控软件来实现,通过对重要系统资源的监控,检查系统瓶颈和隐藏的缺陷,并在严重故障时执行故障的自处理或手动处理,以满足云平台的灵活及高可用的特点【】。同时,用户在云服务使用过程中,对于云服务的运行监控要求将会时刻存在着,以确保机密数据安全和开展的计算作业正确完成,同时云服务提供商也需要知道用户对云服务使用情况,以进行收费,并核算在什么样的成本下提供相应服务。由于云平台底层资源异构,并采用虚拟化技术封装,而且提供多种服务,所以监控云平台面临许多挑战,而现有成熟的监控系统往往存在很多缺陷,而不适用于云平台监控,比如功能单一的缺陷,体现
8、在很多监控软件仅提供对机器性能单项指标的监控和展示,且没有提供监控数据的保存和分析,即造成历史数据不可查,且对未来不可分析和预测【】;专用的缺陷则体现在监控系统仅管理员进行操作和查看,不符合云平台下多租户的特性,并且不能提供对云服务的监控,标准统一的接口更无从谈起,不具备较好的系统移植性;并且云平台节点众多,而现有监控软件受监控规模的约束,常常无法适应云平台的大规模集群的需求;容错性差的缺陷则体现在数据采集、传输过程不适应云平台大规模集群的并发要求,容易造成局部瘫痪甚至完全停滞,更没有提出相应的数据第一章绪论恢复策略,同时很多监控系统初始部署配置复杂,且不适合云平台动态伸缩按需提供服务的特点。
9、本文设计的云平台监控系统则克服现有监控系统的缺陷,实现自动配置、自主发现监控节点,改进了系统容错机制,对云平台的物理资源层、虚拟资源层、服务提供层实现多维度的监控以及数据分析,同时从用户使用云平台存储、计算服务角度进行监控,并提供清晰明了的监控结果展示,以达到监控和证明云的物理资源和虚拟资源的正常运行,监控服务资源的按需供给并进行计费管理,并增强云端的透明度,降低云平台运营者维护云平台的难度,提高用户对云平台服务商的信任程度的目的,这也为云平台快速部署、资源动态配置以及负载均衡等提供信息依据。第二节国内外研究现状针对监控系统,网格监控方面研究较多,其中有【、【、【】等优秀的监控模型,开源工具包
10、含、 、】等,可综合运用几种开源建设监控系统,但是配置复杂且资源占用率大,下面详细介绍云计算平台监控研究现状。随着云计算平台的风起云涌,大多数知名云计算公司也都在研发相应的监控工具,但其侧重点不同。例如盛大云监控产品于年月日开放,其侧重于实时监测网站响应速度和网站服务器性能数据的变化,及时发现网站故则的监控工具障。公司针对侧重于让服务提供者了解平台中云服务的运行情况【引。亚马逊的从云资源的的监控服务,用户可其开始提供了针对无偿使用自动缩放 功能,动态增加或迁移实例【引。而开源】贝是侧重于日志分析,其虽然利用了的分布式监控数据处理,但实时性差,且目前具有一定的局限性。此外一些监控研发公司也在着力
11、开发第三方监控产品,用以监控云平台,例如公司研发的云监务,提供服务可用性、响应时间、延迟和吞吐量的报告,可监测和 ,其 商业版可监测,使企业可兼顾监控云平台的基础设施和服务运行情况,但是其由于后台数据处理,有一定的滞后性。公司的提供监控第一章绪论从物理机到虚拟机应用,并根据监控数据进行云端容量规划和计费,但其配置流程繁琐且收取费用较高。提供云环境的评估、测试和监测服务,使得使用者可以监控应用服务的可用性和性能表现,并判定云服务提供商有无遵循。与此同时云平台监控的相关理论研究却相对较少。论文采用对云平台基础设施进行监控和管理,即云平台中的计算资源、存储资源以及网络资源等以方式构建在树形结构中,具
12、有较好的可扩展性,但是云平台的服务层很难被监控,且没有考虑云平台用户使用云服务的监控;论文【】提出了基于的云平台交互接口的设计,以解决云平台接口多资源异构的难题,获取监控数据,但是没有考虑接口性能开销问题,不能徊好满足云平台存储和计算资源量大、监控系统低开销的特点。论文【】通过对集群产生的系统日志进行分析获得控制流、数据流和相关统计数据,并进行了相关的可视化和故障诊断工作,但是日志分析延迟性较大,不符合监控系统实时性特点。论文【】偏向于研究云计算提供的服务的监控。论文贝偏向监控云平台下的应用。论文【】提出了云平台下的资源监控的模型,但是其没有进行相关的分析,且没有加入用户的元素。论文【】提出了
13、运行时云监控模型旨在构建轻量运行且又包含大容量数据的灵活可用的模型,但是只停留的理论阶段,没有真正实现。综上可知,已有的监控对云平台资源情况监控并进行多维度的分析以及用户使用云平台基础设施及服务的监控研究较少,且存在配置复杂、费用高、开销大的问题。因此,本文对监控云平台资源运行和监控用户使用云服务方面进行了研究,并进行了多维度资源利用率分析,同时设计自配置策略,降低部署配置复杂度,改进其容错机制,实现自动化、安全云平台监控。第三节本文组织结构论文的组织结构如图.所示。第一章绪论。第三章云平毛滥控第三章用户监控资源监控数据持久层设计数据持久层设计用户存储监控和分析组件数据稀释数据抽取组件用户计算
14、监控和分析组件监控预警和故障统计用户计费管理云平台多维度资源利用率分析第西章云平台蓝控系统关键自注册机制云端节点接入自配置改进节点动态发现机制故障白恢复策略容错机制改进单指数平滑预测算法实现匝至巫;言丢磊嘉二二一二二二二二二图.论文组织结构图第一章:绪论。主要介绍了云平台监控系统的研究背景和意义,并分析总结了相关的国内外研究现状,最后给出了本文的组织结构第二章:总结了一般云平台架构,并重点分析了云平台架构和作业第一章绪论执行监控信息的获取;然后分析了监控系统中常见的集中式和阶梯式两种体系结构和推模式和拉模式两种数据传输模式的使用场景和优缺点;最后对本文用到的开源软件的实现原理和缺陷做出分析,为
15、云平台监控系统实现做好铺垫。第三章:是本文的核心工作,首先对云平台监控系统进行用户、监控对象、数据处理做出需求分析,并分析云环境的监控所应满足的特性,在此基础上给出了系统功能设计、五层架构设计、以及监控信息流分析。之后详细介绍了云平台资源监控和用户使用云服务监控并计费的设计实现过程。第四章:针对降低系统配置复杂度、增强系统容错性的问题,对云端节点接入白配置和容错机制进行了研究和改进,并对改进做出评价,提出了进一步的改进方法。第五章:根据三四章的研究,设计实现了云平台监控系统。第六章:对本文进行总结与展望。第二章云平台监控架构研究第二章云平台监控架构研究本文主要研究和实现云平台的监控系统,所以本
16、章学习分析了已有的云计算平台,总结了一般云平台架构,详细介绍了云平台守护进程的相互协作运行过程以及对存储和作业运行中监控。由于一般监控系统体系结构存在监控节点少或配置复杂的缺点,数据传输的推拉模式单一应用具有资源消耗大的缺点,最终确定了本文采用开源实现资源运行情况数据的采集与汇集,并对及缺点进行改进,为此本部分先剖析的实现原理、功能和不足之处。第一节云平台架构研究.云平台架构本文根据云计算所具有的服务资源池化、可扩展性、可度量性、宽带网络调用、可靠性等特点【,结合当下典型云计算平台的一些设计,给出了如图.所示的云平台总体架构,架构分为四层,物理设备层、虚拟资源层、资源管理层、资源服务层。厂/
17、、用户剀幽幽 计费。丛开发平台服务组件分布式数据库标准接口监控分布式存储并行计算系统资源自动化部署二资源管理层二二二二三重重重重三亘二三三三重重三三三工容错安全配置臣壑三海量数据物理设备层服务器 存储设备 其他硬件 驱动程序、【.,.,.一【.【. . /图.云平台架构第二章云平台监控架构研究下面详细介绍云平台架构各层的设计原理:物理设备层:该层主要将磁盘阵列、服务器、普通机器、路由器、其他硬件等设备整合组成云平台的基础设施。虚拟资源层:该层主要是将接入到网络中的计算、存储和带宽等各类资源汇聚成虚拟资源,由虚拟化资源、虚拟化映像管理模块组成实现。比如在的中使用了虚拟化技术,映像使用 的格式【。
18、每个物理主机资源被虚拟成多个虚拟机来运行多个操作系统和应用程序实例,云平台提供虚拟资源池,实现多租户共享物理基础设施但是用各自的资源池保证数据安全,且采用负载均衡技术实现不中断平台提供的服务情况下虚拟资源的动态迁移,以实现虚拟资源层的监、控配置和按需服务。资源管理层:可采用等开源云平台进行部署管理,进行资源监控,为虚拟化资源层的负载均衡提供指导,并实现服务集的各资源服务适配、服务注册,并提供产品设计服务发布,以及对集成服务的认证、监控和管理。下文中将详细介绍平台。资源服务层则是用户与云平台的交互界面,云平台提供、三个层次上的服务,使后台强大的资源被用户使用,云用户在请求服务的交互界面上,完全以
19、浏览器为入口,登陆到已经注册过的云服务平台,打开应用实例,就像使用本地桌面。.云平台云平台即为上述云平台架构中资源管理层采用软件框架进行底层资源管理的云平台。而是管理大规模分布式系统存储和数据处理的框架,其中 ,分布式文件系统实现分布式存储,/实现对大规模数据分析处理【。云平台的物理部署基于/主从模式,由一个和若干个组成,其中和属于,和属于,而客户端通过与的守护进程交互,获取元数据信息文件名、目录、备份因子等,以及开展作业的当前状态,并且对数据读写和作业运行进行控制。如图.所示:第二章云平台监控架构研究图.组成图其中主从之间传递消息采用心跳机制,与之间的通信,与佻啾通信都是通过心跳完成,其流程
20、为,然后启动时会连接,并隔一定时间发启动时,开启一个送心跳将自己的状态信息告诉,然后通过心跳返回值的方式,向发送命令。下面详细介绍作业的/任务的执行及监控信息获取,总流程如图.所示:图.作业执行及监控信息获取流程图.客户端获取作业和配置信息对作业配置,并用方法在提交作业后,定时轮询作业的进度,通过对象传回的状态第二章云平台监控架构研究信息,如执行开始和结束时间、和任务完成的比例等。如果发现和上次记录不同,就将该进度记录到控制台,作业完成后,若成功则显示作业计数器【。若失败,信息则被记录。.会建立一个代表这个作业的线程,它启动若干线程,将任务和记录信息封装到响应的监控对象中,用来跟踪和任务的运行
21、状态和进度。.和之间通过心跳机制进行通信和任务的分配,其中每隔一段时间向发送心跳,报告的当前状态,则综合任务运行信息,为用户提供可视化结果。.启动一个新的来运行每个任务,子进程通过接口与父进程进行通信。任务完成前,子进程间隔时间便向父进程报告其进度,任务运行过程中,对其进度,即任务完成百分比保持跟踪【。对于任务,进度是已处理输入数据量所占的比例;而任务,划分成三个阶段处理,和的三个步骤相呼应,这样如果任务已经执行一般的输入,那么任务进度便是/,因为已经完成复制和排序阶段每个占/并且已经完成阶段的一半/.作业完成后,将中间输出等执行状态信息清空,并发送命令使得将作业的状态信息清空。第二节云监控系
22、统云计算平台中聚合了大量的物力资源和虚拟资源,并提供、三个层次的服务,其资源是否运行正常、云服务是否对用户按需顺利供给,需要云监控系统进行监控,本节则主要介绍监控系统一般体系结构和数据传输中采取的推拉模式优缺点进行分析。.体系结构监控系统目前最常用的体系结构仍然为/结构,即由监控客户端和监控服务器组成,大规模分布式监控系统中大多采用集中式体系结构和阶梯式体系结构两种【】,下面介绍两种结构,并分析比较两种结构的性能表现。第二章云平台监控架构研究集中式体系结构在集中式体系结构中,每个监控节点安装监控代理,收集节点监控信息,监控服务器负责汇集以及分析展示监控信息。监控代理以推送方式向监控服务器发送信
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 平台 监控 系统 研究 实现

链接地址:https://www.31ppt.com/p-4151105.html