【教学课件】第二节网格的资源管理.ppt
第二节 网格的资源管理,网格和集群RMS面临的不同环境,广域分布多域规模庞大资源种类多异构性更强共享和私有共存更多的用户,网格资源管理核心结构,网格资源管理和分配网格资源信息服务网格资源监控网格资源需求描述,资源管理和分配,资源信息服务,资源监控服务,网格资源管理和分配,资源使用者的需求,希望根据自己工作活动过程,能够按照需要发现、获取和可靠地动态管理计算资源不希望受到资源位置、资源本身的使用机制,以及计算任务操作的资源细节等干扰不关心它们的任务在什么位置执行,中间过程如何不关心它们的安全机制是什么等等,多管理域协作的困难,不同地点管理域的安全机制不同,资源具有很强的异构性schedulers,hardware architectures,operating systems,file systems)用户对远端资源特性知之甚少,也不容易获取这样的信息。分布式环境可能出现多种不同形式的错误multi-site computing environment,computers,networks,and subcomputations都会出现失败 在多个管理域上完成计算任务所需要的跟踪记录工作十分繁重和困难 特别是在子计算之间的关系和错误出现,网格资源管理和分配要求,可扩展在管理方面没有集中的瓶颈适应多种应用和管理需求有效能够处理大量资源的管理和用户请求灵活可以和各种已经存在的资源管理和调度工具共同工作灵活构架各种应用资源管理模型和结构,网格资源管理和分配任务,可扩展资源管理体系结构规模可扩大兼容各种现行系统构建多种实现结构,各个结点缺乏和整个专项其它项目的沟通和交流。,网格资源管理和分配任务,全局统一管理统一视图用户操作多个管理域的资源,如同在一个管理域在日常的工作中,动态地发现、请求与管理计算资源 不受资源所在地理位置不同的影响 任务运行时间的长短以及运行该任务的开销,分布多域资源,网格资源管理和分配任务(续),保持局部资源管理的自治特性每个管理域都有自己的资源管理系统和控制策略,例如PBS,LSF等相互之间是一个平等关系,网格资源管理和分配任务(续),多种访问控制和授权机制协调全局访问授权和局部访问授权全局访问控制和局部访问控制用户定义问题?网格用户和局部用户多级访问控制?映射?,逻辑网格管理授权中心,社区授权服务CAS,问题:一个社区给用户对大量资源集合进行访问授权减少用户和资源提供者的负担社区授权服务Community Authorization ServiceCommunity negotiates access to resourcesResource outsources fine-grain authorization to CASResource only knows about“CAS user”credentialCAS handles user registration,group membershipUser who wants access to resource asks CAS for a capability credentialRestricted proxy of the“CAS user”cred.,checked by resource,社区授权服务,User,网格资源管理和分配任务(续),全局资源的联合分配各个域的资源联合或独立工作解决一个问题,经过统一的协调和分配一个问题的多个任务在不同管理域资源上运行的联合管理和统一调度资源的预约和联合预约资源的事务性原则保证等,网格资源管理和分配任务(续),资源的统一公共接口各种类型资源的操作接口不同资源之间的相关性管理不同级别的资源管理之间的关系,网格资源管理和分配任务(续),队列根据属性和资源要求优先级别执行、等待、挂起等策略的管理计算环境的高级自动控制机制多种策略,资源需求描述,资源需求的描述表达各种资源表达各种资源的需求表达各种任务综合表达能力资源需求的描述语言语法属性标记,网格资源信息服务,网格资源信息服务GIS(grid Information Services),信息服务:关于资源特性和状态的元数据收集、存储、管理和服务提供资源状况描述资料的服务对管理网格、应用网格的操作和构建至关重要什么样的资源是合适的?资源发现网格的状态是什么?资源选择如何优化使用资源?用户配置和自适应调节机制需要一个通用的基础信息服务 回答上述问题,信息服务的应用列举,调度:问题空间映射到资源空间体系结构、操作系统,系统软件、应用软件性能、可用性、策略等动态信息:负载以及未来资源可用性的预测服务发现记录虚拟组织成员可以得到的各种服务及其特征 此类服务信息的特点:信息相对稳定并且容易获得,信息服务的应用列举(续),选择最合适的拷贝(数据管理):合适的数据往往在多个地方有拷贝,选择哪一个?依据:存储系统与网络的系统配置、即时性能与预测自适应性保证:应用程序与底层环境的各种组件通过对运行的程序及其外部可用资源的监控,结合资源状态,调整应用程序的行为,达到提高效率的目的性能诊断与故障排除:第一步:发现异常行为排除故障的依据:信息信息的特点:任意性,动态性,可以由故障排除器通过启发的方式确定,有用信息的例子,计算资源的特性IP address,software available,system administrator,networks connected to,OS version,load网络的特性Bandwidth and latency,protocols,logical topology系统的特性Hosts,resource managers,网格环境信息服务的特点,资源信息多样,数量大底层基础资源到上层应用和用户资源信息来源地理位置分布分布的状态很难获得Complexity of global snapshot 资源信息动态变化 信息往往是过时随时间而改变,需要有质量的数据部件失败服务规模大可扩展性低开销多种不同的使用场景不同的策略、不同的信息组织,etc.,网格资源信息服务的要求,提供统一、灵活的信息访问方式访问系统及其组件的动态与静态信息 可扩展高效地访问动态数据可以访问多个信息源 信息分布维护和保持,GIS 问题:许多信息源,多个视图,R,R,R,R,R,R,R,R,R,R,R,R,R,R,R,R,R,网格资源信息服务GIS任务,资源的信息模型资源的特性和状态资源之间的关系资源信息的描述如何描述各种资源XML,LDAP?如何描述资源之间的关系资源的信息存储资源状态信息存储分布还是集中?,网格资源信息服务GIS任务,资源信息的服务提供有关系统的动态和静态信息的统一访问检索、查询、更新、广播等资源状态信息对外服务网格资源注册协议网格资源查询协议灵活多级分布的资源信息服务灵活分布多域的资源管理模型,适应不同的管理模型灵活构建所需要的信息服务结构和机制在异构和动态的网格环境中的系统配置和自适应的基础,两类信息服务器,资源描述服务提供关于某个资源的信息(e.g.Globus 1.1.3 GRIS).汇集目录服务汇集多个资源信息服务,形成信息集合(e.g.Globus 1.1.3 GIIS).个性化命名和索引,GIS Architecture,A,A,Customized Aggregate Directories,R,R,R,R,Standard Resource Description Services,RegistrationProtocol,Users,EnquiryProtocol,信息服务总体结构,传统的资源信息服务不足之处。Globus采用中心服务器模式的资源信息服务网格系统的扩大,中心保存的信息越来越多,可扩展性差,一些比较动态的信息难以及时更新。Globus目前采取了层次结构和分布式服务各地点的资源信息服务可以分层,采用GIIS和GRIS的模型完成。为各地点的资源信息服务增加cache的功能,缓存其他地点的信息,信息服务总体结构,允许灵活的多级别信息服务总体结构的建立层次式的信息服务对等式的信息服务混合式的信息服务等多个访问入口多级Cache标准的查询和注册协议兼容各种实现方式通用的信息模型,逻辑层次结构部署,ISI,信息服务提供者,汇集,Grads,Gusto,协议,协议,协议,协议,汇集,汇集,更高级汇集,更高级汇集,资源信息模型,描述资源的特性和状态采用OO思想建立信息模版描述资源之间的关系树型结构工具表示或平面结构等,C(国家),O(组织),Ou(机构),dun,ns,jn,GridCE,资源信息模版:资源目录信息模型的基本结构树,应用,software,GridCluster,GridHost,GridLocalFS,GridRemoteFS,GridHostFile,GridHostFile,账号,C(国家)=CN(中国),O(机构)=长沙,o=北京,o=上海,ou=计算中心,ou=计算所,Jn(任务)=job01,Sw(软件)=gcc,Hn(机器)=银河机器,Grp(小组)=GEN,Nd(结点)=node1,Cn(人员)=Tom,Ou(组织)=科大,资源信息的表示,Nd(结点)=node1,GridAdmin,举例:MPP资源信息,Objectcalss MassiveParallel Processor requiresObjectclass,mpp name,/mpp 机器的主机名integer Nodenumber,/节点个数Nodetype,/节点类型Topefficiency,/峰值性能Operatingsystem,/操作系统,URL,/url地址Communicatebandwidth,/通讯带宽Disk,/磁盘空间,Memory,/内存大小Filesystem,/文件系统NFS、Topological,/拓扑结构Utilization,/利用率 Softwaresummary,/重要软件列表Parallelsoftware,/并行软件 Compiler,/机器上提供的编译器Status,/状态,既是否可用,Description,举例:用户信息,登录名字/具有唯一性pwd,/Priority/优先级Expense,/计帐信息Rersourcelimit,/全网格内的资源使用限制UserClass,/用户类别,正规、特殊、试用户 Setuptime,/用户帐号建立时间Indate,/用户网格帐号的有效期 Dn Othergroup,/用户组Authority,/用户权限,网格中的帐号状态account/用户帐号Name/用户的真实名字EmailTelephonenumber,/联系电话号码Department,/工作单位,填写方式类似于descriptionProfession,/职业,可在一定的程度上,一个信息服务结构案例,网格信息中心,全网格的信息(实时更新),结点信息管理器1,其它结点 备份信息(定时更新),结点1的 局部信息(实时更新),结点信息管理器2,结点信息管理器3,其它结点 备份信息(定时更新),其它结点 备份信息(定时更新),结点2的 局部信息(实时更新),结点3的局部信息(实时更新),网格资源监控,网格资源监控要求,可扩展在监控方面没有集中的瓶颈监控数据发送接受数据方面没有集中的瓶颈有效能够处理许多高容量的信息流灵活可以和各种已经存在的监控工具共同工作,网格资源监控任务,获取各个资源的状态分布式计算环境中各个层面资源资源状态的信息收集统一集中监控每个资源的运行状态及时识别和诊断发生故障的主机和网络最小化主机和网络失败的影响为系统资源管理和网格应用提供支持分析系统性能瓶颈预测系统运行的轨迹对网格动态的应用和资源调度提供依据事件机制,网格监控与传统监控系统差别,Windows NT/2K 和 Unix系统中,提供完备的单机状态和性能监控,不支持远程访问。SNMP能够提供远程访问的功能,但只提供了点对点的访问机制。机群系统中,监控对象的地理位置相对集中决定了其简单的软件及监控对象结构不能为网格监控所用。,网格监控与传统监控系统差别,网格监控在广域范围内是可扩展的,能包容异构资源兼容已经存在的监控工具在命名和安全方面能和其他的网格中间件集成适应多个管理域,网格监控信息特性,更新频繁性能信息是随机的数据的集成和传递必须高性能性能度量的影响必须最小化,网格监控对象和事件表示,监控对象:需要掌握运行状态的计算资源。以主机为中心,由上而下分为3类:系统类(CPU Usuage,Memory Usuage etc.)网络类(主机间通信延迟,数据传输的带宽,路由情况等)应用类(Web服务器,DB服务器或其他事务服务器的运行状态),网格监控对象和事件表示,监控事件:与监控对象紧密联系,是在特定时间由特定输入触发的输出结果,每个监控对象对应3种监控事件警告故障数据过期(时效性),GMA(Grid Monitor Architecture),GMA基本介绍GMA体系结构和术语GMA组件和接口GMA的应用例子,GMA基本介绍,GGF Performance Working Group提出草稿规范网格监控术语的定义与描述解决网格监控工具开发的互操作性。主要贡献是提出Producer/Comsumer模型和Event Subscribe的数据传送方式,GMA体系结构和术语,GMA体系结构:由三种类型的组件组成ConsumerProducersDirectory Service,GMA体系结构,GMA体系结构,Producer,DirectoryService(LDAP?),Consumer,Plus security!,GMA术语,Events:命名的数据集合,可以与任何事物相关,但是一般指Memory Usage,CPU Usage,Network Usage,或者错误条件(如服务进程崩溃等);Producer(生产者):使Event Data 可用的组件;Consumer:请求或者接受Event Data 的任何进程;Directory Service:发布哪些Event Data是可用的,和哪个producer 联系以得到这些数据;,生产者/消费者间的互操作,GMA体系结构支持3种在生产者/消费者之间传输数据的互操作:publish/subscribe:互操作的发起者可以是生产者,也可以是消费者query/response:发起者必须是消费者,类似HTTP的request/replynotification(通知):发起者必须是生产者,所有互操作由生产者一步完成。,GMA 生产者和消费者协议(1),Publish/Subscribe modelConsumer can subscribe to Producer to receive a stream of eventsProducer can subscribe to Consumer to push a stream of eventsEither side can unsubscribeQuery modelConsumer can get a single event,GMA 生产者和消费者协议(2),Example of Consumer subscribing to latency information between two hosts.,C:100 15 foo bar P:6001 Success,-continued-,简单的XML生产者和消费者协议,P:foo bar 2001-03-22T11:00:00.143 87.5 P:.more messages.C:6001 P:Success,-Fin-,简单的XML生产者和消费者协议,GMA组件和接口,Directory Serviceproducerconsumercompound components,Directory Service,目录服务的作用是定位、命名和描述网格中具有结构化特征的数据,让信息消费者(users,visualization tools,programs and resource schedulers)发现信息、理解可用信息的特性。信息生产者必须能够更新信息以反映系统状态。Directory Service包含所有可用事件数据的列表,使Consumer可以发现当前可用的事件数据,数据的特性,以及应该和哪个Producer联系以获取指定类别的数据。,Directory Service(Cont.),简单来说,目录服务并不储存事件的附加数据,它只提供数据的名称、特性和位置信息。这样一来,若想获得事件的数据,首先要通过目录服务找到该事件生产者的静态信息,比如事件类型、主机地址等,然后再向该生产者发出请求获得相应数据。,Directory Service支持的功能,Add:向目录加入记录(entry)。Update:改变记录在目录中的状态。Remove:从目录中删除一个记录Search:查找事件数据,Client可以指定是仅仅返回一个结果、还是多个结果。,Producer,负责通过接口为Consumer提供事件数据的组件。Producers 将在目录服务中发布事件可用信息。A given component may have multiple producer interfaces,each acting independently and sending events.The term producer is used interchangeably,and inexactly,to refer both to a single producer interface and to a component that contains at least one producer interface.,Producer 支持的功能,Maintain Registration:add/update/remove directory service entry or entries describing events that the producer will send to a consumer.Corresponds to Directory Service Add,Update,and Remove.Accept Query:接受Consumer的查询,返回一组事件。,Producer 支持的功能,Accept Subscribe:接受Consumer的请求订阅。如果订阅成功,生产者发送事件数据给消费者直到订阅被终止。Accept Unsubscribe:接受Consumer的取消订阅。如果Consumer取消订阅,Producer应该自动取消其在任何地方的订阅。Locate Consumer:在directory service中查找一个消费者,Producer 支持的功能,Notify(通报):发送一个单一的事件数据给消费者Initiate Subscribe:Producer 异步开始与Consumer之间的订阅。被授权可以给Consumer传送数据。Initiate Unsubscribe:Producer通知Consumer订阅将结束。,Producer,Producer也可以用于访问控制,容许不同等级的用户进行不同的访问。由于网格一般有多个组织来控制被监控的资源,因而会有不同的访问策略,支持不同的访问频率,对组织内外的Consumer将提供不同的性能细节。,Consumer,Consumer 是通过接口从Producer接受事件数据的任意组件。接收来自Producer的异步请求的Consumer将在目录服务中发布这一信息。一个Consumer组件可能包含一个或多个接口,每个接口可单独从Producer接受事件数据,Consumer 支持的功能,Locate Producer:Consumer向目录服务查询生产者Initiate Query:请求从producer接收一个或者一组事件。可以设置filter表明感兴趣的部分。Initiate Subscribe:Consumer 请求建立到producer的连接以连续接收数据。Initiate Unsubscribe:Consumer告诉Producer关闭Subscribe。Subscription 被删除,producer确认之后不再在这个Subscription上传送数据。,Consumer 支持的功能,Maintain Registration:增加/更新/删除目录服务中有关从 producer接收的事件的记录。Accept Notification:Consumer 接受来自Producer通知。Accept Subscribe:Consumer接受来自希望传送数据的Producer的subscription。Accept Unsubscribe:Consumer 接受来自Producer的取消订阅请求。定位消息模式:在给定的事件类型中在模式库中搜索请求,Consumer 的类型,具有以下类型的Consumer:1、Realtime monitor:实时收集监控数据供实时分析工具使用。2、Archiver:为存档服务收集信息。收集的信息可以供历史分析。3、Overview monitor:从多个信息源收集事件,使用组合信息做出无法基于单个主机的数据做出的决定。,Consumer&Producer,有的组件同时既是Consumer也是Producer,事件数据源,用于构建事件的数据能从许多资源上进行收集。比如硬件/软件传感器能够收集实时的性能数据;另外,通过数据库的查询接口可以得到历史数据。如图3完整的监控系统,比如说NWS,可以看作一个事件数据源。,事件数据源,Figure 3:Sources of Event Data,Produce and Sensor,一个Producer可以关联一个传感器、一个指定主机上的所有传感器、一个给定子网的所有传感器、或者任意一组传感器。这些在GMA中没有定义,可以实现时确定。一个Producer和Sensor的关系如下图:,Producer和Sensor的关系,GMA的应用例子,GMA Implementation Issues,System components must be fault tolerant.The data management system must adapt to changing performance conditions.All system components must scale.Monitoring data must be managed in a distributed fashion.,GMA Implementation Issues,System components must control their intrusiveness on the resources they monitor.Efficiency/ease-of-use tradeoffs for data formats should be carefully considered.Security standards are useful.,