数据库网格计算.ppt
《数据库网格计算.ppt》由会员分享,可在线阅读,更多相关《数据库网格计算.ppt(65页珍藏版)》请在三一办公上搜索。
1、2023/6/21,1,第5章 网格监控,第II部分 基本服务,本章内容的安排5.1 引言5.2网格监控体系结构 5.3评价准则 5.4网格监控系统概览 5.5其他监控系统5.6 小结5.7 本章小结,2023/6/21,2,5.1 引言,网格环境是一个复杂的、全球分布式系统,它可能涉及到数量巨大的、千差万别的、地域上分布的应用所使用的部件。这里所指的部件包括了应用所需要的所有软、硬件服务和资源。这些部件的差异性以及大量的用户数极易导致故障、失败和超载的发生。因此,需要采用一些合理的机制对这些部件和它们的使用情况进行监控,希望能检测到导致瓶颈、故障或失败的原因。网格监控最关键的是提供健壮的、可
2、靠的、有效的环境。,2023/6/21,3,5.2 网格监控体系结构,网格监控体系结构GMA2由三种类型的部件组成:目录服务(Directory Service):用于生产者、消费者以及监控数据(事件)的发布和发现;生产者(Producer):由产生性能数据的传感器组成;消费者(Consumer):对性能数据访问和使用。,2023/6/21,4,消费者 消费者可能是接收来自生产者的监控数据(事件)的任何程序。消费者经历的步骤:定位事件:消费者根据新的事件类型来检索一种摘要知识库。这种摘要知识库可能是GMA目录服务的一个组成成分。定位生产者:消费者检索目录服务去寻找一个合适的生产者。查询初始化:
3、消费者向生产者请求事件,并作为响应的一部分被传递。订阅初始化:消费者能为它们感兴趣的某些确定类型的事件向生产者订阅。终止订阅:消费者向一个生产者终止订阅。注册:消费者能增加/移除/更新一个或多个在目录服务中的条目,这些条目描述了消费者可接受生产者事件。接受查询:消费者也能接受来自某一生产者的查询请求。当然这里的“查询”也包含了响应。接受订阅:消费者接受来自一个生产者的订阅请求。一旦有来自消费者的请求,生产者将被自动通知。取消订阅:消费者接受来自生产者的取消订阅请求。一旦成功,对应于此订阅的任何事件不再被接受。,2023/6/21,5,目录服务 GMA目录服务提供关于生产者或接受请求的消费者的信
4、息。目录服务提供的功能概括如下:查询授权:对想要进行查询的消费者建立标识(通过授权)。修改授权:对想要修改条目的消费者建立标识。添加:在目录中添加一条记录。更新:更改目录中记录的状态。移除:移除目录中的一条记录。查询:执行来自生产者或特定类型的消费者的查询,可能附带一些事件元素的确定值。消费者可指出是否仅有一种结果返回还是多个结果返回。一种可选的扩展允许消费者获得多个结果,每次在子查询中使用“获取下一个”来获得一个元素。,2023/6/21,6,2023/6/21,7,生产者 一个生产者是向消费者发送监控数据(事件)的软件组件。生产者经历的步骤:定位事件:检索事件目录服务以获得一个事件的描述。
5、定位消费者:检索事件目录服务以获得一个消费者。注册:在事件目录服务中增加、移除、更新一个或多个事件描述条目,这些事件是生产者将要接受的来自消费者的事件。接受查询:接受来自消费者的查询请求。在回复中返回一个或多个事件。接受订阅:接受来自消费者的订阅请求。在回复中返回事件流信息的进一步细节。取消订阅:接受来自消费者的取消订阅请求。一旦成功,与此订阅相关的事件不再发送。查询初始化:向消费者发送事件的单一的集合,作为“请求”查询的一部分。订阅初始化:请求向消费者发送事件,它们以流的形式传递。在回复中返回事件流信息的进一步细节。取消订阅初始化:中断消费者订阅。一旦成功,与此订阅相关的数据不再发送。,20
6、23/6/21,8,监控数据1.时间相关的数据带时间戳的动态数据来源于伴随有几个规则消息和间隔信息(由与采样频率相关的计数器提供)的流。这种数据包含了性能事件和状态监控。带时间戳的异步数据通常指示一个事件何时发生。这种数据用来表示警报和检查点通知。时间无关数据包括静态信息,例如操作系统类型和版本号、硬件特性或监控信息的更新时间。这里的所说的“静态”是指数据几乎是不变的,并且通常是由操作员更新的。而“动态”指的是类似状态或性能的信息,它们随着时间的变化而改变。2.信息流数据生产者消费者之间的直接流,在数据的传递中不涉及中间部件。监控是主动的还是被动的,取决于通信是由生产者还是消费者发起的。GMA
7、文档描述了三种类型的交互:发布/订阅;查询/响应通知间接数据分布在中央仓库中。这也许对静态信息是有用的,因为数据量相对较少并且很少更新,而信息发布或发现的成本和信息归集的成本相当。在这种情形下,交互是通过将生产者的发起通知交给目录服务,然后消费者再从目录服务获得数据。沿着一个工作流路径,产生监控信息并在本地存储。这些数据被添加了标记使得能与工作流的特定部分相对应。在作业结束时,监控信息、标记以及工作流的输出也许会返回给消费者或丢弃。通过跟踪作业路径,消费者可以收集标记和监控数据,这些数据混合起来可提供概括性的视图或独立地发送给消费者。3.监控种类静态监控,以使用的时间和带宽来计算,信息归集的成
8、本小于或等于资源发现的成本,例如向中央目录服务发出查询以寻找信息生产者。这些信息几乎不变并且中央仓库能直接提供所需要的信息。这类信息包括系统配置和描述信息。动态监控,一般信息归集的成本较高并且通常涉及到时间序列,如提供连续数据流或需要大量的数据。这类的典型例子是网络和系统的性能监控。工作流监控,随着作业或任务的处理过程产生了大量的可变数据,并且消费者对这些数据的全部或部分感兴趣。例如作业或任务处理的静态信息、错误报告以及作业或任务的追踪。,2023/6/21,9,5.3 评价准则,可扩展的广域监控资源监控交叉API监控同类数据表示信息检索运行可延长性数据的筛选和融合开放和标准协议安全性 软件可
9、用性和独立性项目的活动性和支持性;许可,2023/6/21,10,5.4 网格监控系统概览,Autopilot1.概述Autopilot5,6是一种对并行和分布式计算资源进行实时适应控制的基础结构。Autopilot的目标是创建一种提供带有实时适应控制的分布式应用环境,这样能基于请求模式和观测到的系统性能来自动选择和配置资源管理特性。2.一般体系结构 Autopilot监控部件包括:传感器(Sensor):对应于GMA中的生产者;在监控的主机上安装传感器来捕获应用和系统性能信息。传感器经配置可完成数据缓存、本地数据简化(传递之前)、频率改变(与远程用户之间信息通信的频率)。在启动之前,传感器通
10、过Autopilot管理器AM(Autopilot Manager)进行注册。激励器(Actuators):对应于GMA的生产者并提供指导远程应用行为和控制传感器操作的机制。在启动之前,激励器通过Autopilot管理器AM进行注册。Autopilot管理器AM:履行GMA的注册义务;它对远程传感器和激励器的注册请求提供支持,并且为用户提供了定位资源信息的机制。,2023/6/21,11,2023/6/21,12,3.体系结构:可扩展性和故障容错4.监控和可延长性5.数据请求和表示6.检索和标准化7.安全性8.软件实现,2023/6/21,13,分布式环境的控制和观测(CODE)1概述 COD
11、E13,14是一种类GMA体系结构的系统,它试图提供一种可扩展的方法来监控和管理网格。CODE允许管理员监控分布式资源、服务和应用,并对远程主机远程执行预先定义好的系统任务而引起的状态变化做出反应。CODE是由国家航空和宇宙航行局NASA(National Aeronautics and Space Administration)的Ames研究中心15开发的,并在NASA信息能源网格IPG(Information Power Grid)16中加以使用来保证资源的正常运作。2一般体系结构它的核心结构由观测器、控制器、管理器以及注册器组成:在监控的主机上安装传感器来收集监控数据。每个传感器产生一种
12、或多种监控事件,这些事件包含了由传感器命名计划所描述的监控信息。可通过查询传感器来判断它们产生的信息类型。传感器仅对来自传感器管理器SM(Sensors Manager)的直接请求作出响应并收集资源信息。传感器管理器SM对本地的传感器进行管理并决定执行哪个传感器以满足用户的请求。传感器管理器接受来自观测器(Observer)的查询请求和订阅。为了对特定的查询做出响应,传感器管理器向适当的传感器发送请求并通过观测器的生产者接口向请求的客户返回结果。观测器将传感器管理器和传感器机制嵌入到监控的主机上,并提供生产者接口PI(Producer Interface),消费者可通过此接口对收到的监控信息进
13、行查询。PI支持查询响应和基于订阅的请求这两种方式。观测器根据用户的标识、客户位置以及信息类型来实施访问控制机制。控制器(Controller)位于监控的主机上并提供一些机制允许消费者在此台主机上执行一些动作。控制器由一个激励器(AM)组成,它与安装在本地的许多执行特定功能的激励器部件相互作用。例如,启动操作系统daemon。类似传感器,激励器是被动部件,仅当它们的管理者请求时才执行动作。管理器(Manager或消费者)与观测器相连接来查询它所提供的监控数据、事件订阅或修改事件订阅。管理器与控制器相连接来修改远程主机上的Daemons或应用的执行。用户可在管理器内实现管理逻辑,这样,通过控制远
14、程主机自动对监控环境的变化做出响应。例如,当管理器检测到某一个远程作业管理器不响应时,其自动命令远程控制器杀死所有的与此作业有关的进程并启动一个新的实例。管理逻辑能用Java代码来实现或通过采用适当管理规则的专家系统来实现。注册器(Registry)存储观测器和控制器的位置信息,并对它们提供的传感器和激励器进行描述。管理器使用注册器定位远程部件。,2023/6/21,14,2023/6/21,15,3体系结构:可扩展性和故障容错4监控和可扩展性5数据请求和表示 6检索和标准化7安全性8软件实现,2023/6/21,16,GridICE1.概述GridICE18-20以监控网格资源为目标,目的是
15、为了分析资源的使用、行为和性能。该项目是为了为用户提供故障检测报告、服务级协议违规以及用户定义事件的机制。GridICE倾向于把网格信息服务GIS(Grid Information Services)和目前的使用的Globus MDS221,22集成起来发现新的资源。2.一般体系结构GridICE的分层结构在图5.5中给出,它由下列层次构成:度量服务MS(Measurement Service):使用EDG Lemon 监控基础结构23对资源查询并在内部的中央仓库中缓存信息。要在每一个监控的资源上安装Lemon代理,从而对个性化的传感器部件的操作进行控制。传感器执行本地脚本或应用找回资源信息,
16、这些信息是要在GLUE的扩展版本中输出的。GLUE的扩展版本使用角色来对计算机提供的服务进行描述,例如作业提交或代理服务。必须对传感器进行个性化的配置,从而对主机产生的资源信息进行广告、收集和格式化。基于资源的角色,发布服务Pub(Publisher Services)为用户分类资源。发布服务Pub(Publisher Services)通过在网格信息服务(GIS)中插入最新的资源值把捕获到的资源信息提供给客户。附带地要求GIS向用户发布GLUE命名计划的定义。GIS的使用倾向于给用户提供一个获取GridICE监控信息的公共接口。目前,GridICE使用Globus MDS2。数据收集服务DC
17、S(Data Collector Services)收集并永久保存历史监控数据。资源检测部件周期地扫描本地MDS2,从而自动检测到适于监控的新的资源。新资源的联系信息传递给调度部件,调度部件周期地查询资源去发现它们提供的信息。收集到的资源信息永久存储在GridICE服务器上。检测和通知服务DNS(Detection and Notification Services)提供了事件检测和通知等配置机制(采用Nagios28服务提供的事件机制和主机监控程序)。DNS允许对预先定义的事件集进行检查并发送通知给用户。数据分析器DA(Data Analyser)提供性能和效用分析并产生统计输出。表现服务P
18、S(Presentation Service):为了满足不同级别用户的需要,提供了一种基于角色的Web接口的资源视图。例如,对一个虚拟结构的管理者来说,它呈现所有可用的资源以及正在执行的作业的视图。对一个网格站点管理者来说,该视图指出了本地资源的状态,而这种用户视图也许包含了如可访问的处理机级别等细节信息。,2023/6/21,17,2023/6/21,18,3体系结构:可扩展性和故障容错4监控和可延长性5数据请求和表示 6检索和标准化7安全性8软件实现,2023/6/21,19,网格门户信息仓库 1.概述 网格门户信息仓库GPIR(Grid Portals Information Repos
19、itory)的目标是对来自网格资源的信息进行事先获取、归集并缓存到一个中心场所,从而提供对网格门户的开发支持。2.一般体系结构GPIR信息提供器GIP(GPIR Information Provider)在监控的资源上运行,获取本地信息并输出XML文档(采用某一种命名计划)。用户把XML文档提交给GPIR摄取器(GPIRIngester);如果这些XML文档采用一种注册过的命名计划,那么存储到GPIR数据库中。提供了示例的客户端来自动完成这些步骤。GPIR查询(GPIRQuery)服务为用户提供了一种接口来查询缓存在数据库中的信息。可通过资源或虚拟结构名来查询资源。查询请求用事先定义好的一种命
20、名计划的名字进行公式化,例如“load”表示机器装载,“services”表示在系统上执行的可用服务。GPIR查询服务从数据库中找回信息并把这些信息以XML文档的形式返回给用户。GPIR管理用户GAC(GPIR Admin Client)是基于Web的管理级用户,它定义虚拟结构并管理资源信息。GAC能以手工方式提供资源相关的附加信息,例如一种资源的物理位置以及系统管理员的联系方式等细节信息。目前,GPIR定义了9种命名计划,描述如下:静态主机细节,包括主机名、它的结构、位置以及管理员的联系细节。主机装载细节,包括CPU和内存的平均数。主机状态:上线、下线以及不可达。资源的停工期。作业信息,包括
21、队列、作业状态以及约束条件。主机MOTD报文。一簇计算节点的节点状态信息。一系列预先定义的网格服务的状态(通过、失败、超时):Globus Gatekeeper、GRAM、GIIS、GRIS、GridFTP、NWS以及批作业提交。网络气象服务NWS(Net Weather Service)的带宽和延迟的度量。,2023/6/21,20,2023/6/21,21,3体系结构:可扩展性和故障容错4监控和可延长性5数据请求和表示 6检索和标准化7安全性8软件实现,2023/6/21,22,GridRM1.概述 GridRM36,37是一种通用的开放源代码网格资源监控框架,设计用来获取各种网络设备和服
22、务的资源数据,并向各种用户以他们需要的形式提供信息。2.一般体系结构GridRM采用层次的体系架构,拥有一个全局层和多个的本地层,每一个本地层拥有一个网关来访问本地站点的资源信息(见图5.7):命名方案NS(Naming Schema)定义资源的语义。默认情况下,GridRM采用GLUE来定义基于计算的资源的属性和数值。驱动程序采用命名方案把来自异类资源的原始数据转换成一种标准形式。驱动程序(Driver)是模块化的插件程序,用来从本地监控代理找回所选择的信息。本地层(Local Layer)提供对本地资源的实时信息和历史信息的访问。管理员与本地层交互来配置驱动程序、命名方案以及资源接口。全局
23、层(Global Layer)提供网格站点或VO与GridRM网关之间的交互,采用GMA著名的轻量级实现jGMA40,41。GridRM网关就是GMA生产者,通过GMA目录注册并对消费者的资源信息请求做出响应。接受SQL格式的请求并将请求转交给本地层加以处理。来自本地层的结果被加工成XML格式并返回给消费者。全局层给消费者提供了访问控制机制并负责控制信息发布。大的网格站点或VO也许拥有多个网关,在这种情形下,构造网关的分层结构来提供资源信息。消费者与网关在全局层交互。使用GMA注册器定位网关,采用SQL语法查询它们的资源。消费者可使用注册器发现当前网格站点上可用的资源,然后直接查询这些资源。,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据库 网格 计算

链接地址:https://www.31ppt.com/p-5270406.html