欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    基于自主计算的集群管理软件的设计和实现.ppt

    • 资源ID:5316739       资源大小:2.08MB        全文页数:35页
    • 资源格式: PPT        下载积分:10金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要10金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    基于自主计算的集群管理软件的设计和实现.ppt

    2023/6/25,北航计算机学院,1,基于自主计算的集群管理软件的设计和实现,作者:李云春、张德生、李强,2008年10月29日,2023/6/25,北航计算机学院,2,报告内容,研究背景主要研究内容ACMS体系结构和功能模块实现ACMS事件通知机制节点代理的自配置机制中间汇集节点的自恢复机制工作总结和展望,2023/6/25,北航计算机学院,3,概述,课题来源北航校园网格建设中对集群计算环境的管理需求十一五863计划信息技术领域重大项目:高效能计算机系统研制及关键技术研究 2007AA01A127 研究背景集群占据了我国高性能产品和应用的90%份额集群管理日趋复杂北航校园网格目前采用ganglia集群监测软件,无法满足需求平均故障恢复时间较长,自主计算研究计算系统的自管理问题,为集群系统管理提供了一种新的思路,2023/6/25,北航计算机学院,4,自主计算,IBM于2001年提出自主计算的概念思想起源于人体的植物神经系统其动机是试图通过“技术管理技术”自主计算系统具有的属性自动修复自动优化自我保护自动配置,2023/6/25,北航计算机学院,5,集群管理的国内外相关研究,Ganglia树状分层式结构,可扩展没有解决非叶子节点层的容错,易造成单点故障Supermon基于linux集群的分布式监控不能动态添加节点Hawkeye可以定制资源监测模块,适用多平台系统客户端工具还不完善国内曙光公司的DCMM集群监控系统面向曙光服务器集群,软硬件结合,研究现状:1、国外起步较早,国内相对滞后2、大多侧重集群的监测3、缺乏自主管理能力,2023/6/25,北航计算机学院,6,报告内容,概述主要内容ACMS体系结构和功能模块实现ACMS事件通知机制节点代理的自配置机制中间汇集节点的自恢复机制工作总结和展望,2023/6/25,北航计算机学院,7,消息通信机制,命令通道,事件通知机制,ACMS自主管理模型,管理策略,集群资源,分析,传感器,效应器,消息通信机制,决策,监视,执行,事件信息模型,IBM自主计算框架没有解决具体实现问题:1、管理策略2、事件信息模型3、组件之间的消息通信机制,2023/6/25,北航计算机学院,8,ACMS体系结构,JNDI连接,资源监视泵,中间汇集组件,动态发现,管理服务,资源探针,节点代理服务,分析决策引擎,监视组件,资源中介,执行组件,数据库,事件模型,数据库组件,管理服务器,WEB用户界面,监测视图,性能曲线,负载预测,自主管理,事件通知机制,中间汇集节点,域内节点,域内节点,应用层,管理服务层,代理服务层,域内节点,2023/6/25,北航计算机学院,9,节点代理服务的功能模块实现,MBean Server,CPU,Memory,Disk,Network,OS,Tomcat,管理服务组件,资源监视泵,节点动态发现,中间汇集组件,资源探针组件,各组件设计为标准MBean组件,利用Jmx的动态类装载服务mlet服务实现远程URL路径的动态注册和加载,资源探针注册为资源监视泵中线程实例,中间汇集组件收集域内节点的监视泵的事件消息,节点动态发现组件实现节点自配置,动态发现,注册,运行时可管理可扩展,2023/6/25,北航计算机学院,10,ACMS体系结构,JNDI连接,资源监视泵,中间汇集组件,动态发现,管理服务,资源探针,节点代理服务,分析决策引擎,监视组件,资源中介,数据库组件,数据库,事件模型,执行组件,管理服务器,WEB用户界面,监测视图,性能曲线,负载预测,自主管理,事件通知机制,中间汇集节点,域内节点,域内节点,域内节点,管理服务层,2023/6/25,北航计算机学院,11,管理服务器的功能模块实现,资源中介,事件监听,节点连接器,访问接口,监视模块,消息中间件,事件解析器,连接器,分析决策引擎,数据库模块,执行模块,消息中间件,Java规则引擎,分析处理单元,连接器,规则文件,消息中间件,数据库ORM,消息中间件,执行器,事件信息模型,访问接口,数据库,Web界面,节点代理,自主管理控制环路,2023/6/25,北航计算机学院,12,基于规则的策略决策,决策的问题依据当前的状态,决定采取什么样的动作传统的控制理论建立数学模型计算机系统管理复杂性很难建立建立精确的数学模型基于规则的控制将规则表示为产生式规则产生式规则一般形式IF(条件1)and(条件2)andand(条件m)THEN(动作1)and(动作2)and and(动作n)规则引擎基于规则的专家系统的推理引擎试探性规则正向推理和反向推理,2023/6/25,北航计算机学院,13,分析决策引擎,管理服务器模块的核心组件,通过java规则引擎实现基于规则的自主管理控制五种管理级别采用Drools的规则语言定义规则 cpu_alarm_ra.isActive()CpuMonitorHelper.isOverThreshold(cpu,80)CpuMonitorHelper.cpuMetricAlarm(cpu);,监视、警告、报警、建议、操作,2023/6/25,北航计算机学院,14,报告内容,课题来源及研究背景主要研究内容ACMS体系结构和功能模块实现ACMS事件通知机制节点代理的自配置机制中间汇集节点的自恢复机制工作总结和展望,2023/6/25,北航计算机学院,15,ACMS事件通知机制,节点代理服务发送的事件通知消息统称为事件消息监测事件消息心跳事件消息操作事件消息事件消息格式采用XML格式描述采用压缩减少网络流量基于JMX Notification通知模型的两层事件监听机制,方便扩展体现以事件通知为中心的设计原则,2023/6/25,北航计算机学院,16,事件通知机制(续一),监视泵,中间汇集组件,资源中介,监听,监听,资源中介的事件监听,2023/6/25,北航计算机学院,17,事件通知机制(续二),2.5 ok restart restarted the Tomcat instance of clustertrue,2023/6/25,北航计算机学院,18,报告内容,课题来源及研究背景主要研究内容ACMS体系结构和功能模块实现ACMS事件通知机制节点代理的自配置机制中间汇集节点的自恢复机制工作总结和展望,2023/6/25,北航计算机学院,19,节点代理的自配置,需要解决的问题中间汇集节点需要知道域内节点的JMX/RMI连接地址手工配置方式无法实现节点动态加入,并且在节点数量很大时,效率极为低下节点代理的自配置机制基于UDP组播的节点动态发现机制心跳计数机制组播报文格式定义,标记字段“jmxrmi”,中间汇集节点的主机IP地址,中间汇集节点的监听响应端口,2023/6/25,北航计算机学院,20,节点代理的自配置(续一),监视线程,响应线程,中间汇集组件,资源监视泵,加入新节点,发现新节点,返回JMXServiceURL,心跳检测,监听事件,请求线程,建立连接,动态发现组件,动态发现机制,心跳计数机制,2023/6/25,北航计算机学院,21,报告内容,课题来源及研究背景主要研究内容ACMS体系结构和功能模块实现ACMS事件通知机制节点代理的自配置机制中间汇集节点的自恢复机制工作总结和展望,2023/6/25,北航计算机学院,22,中间汇集节点的自恢复,需要解决的问题解决中间汇集节点的单点故障问题Ganglia没有解决中间汇集节点的单点故障基本思想当发现某个域中间汇集节点失效时,管理服务器根据负载预测选举算法从域内节点中选出一个节点作为替代中间汇集节点优点实现了局部域范围内的自恢复,不会增加其他中间汇集节点的负担,2023/6/25,北航计算机学院,23,中间汇集节点的自恢复(续一),负载预测选举算法根据单指数平滑时间序列预测模型,对过去T时间内的节点综合负载进行预测,选取负载预测值最小的节点作为替代中间汇集节点采用linux系统的平均负载作为综合负载的估计值负载评估计算公式,基本思想:最近的负载观测值赋予较高的权值,较早的观测值赋予相对较低的权值,权值呈几何级数递减,使得最近的观测值对将来的负载预测作用更大,2023/6/25,北航计算机学院,24,中间汇集节点的自恢复(续二),单指数平滑预测公式实现的关键平滑参数 的优化单指数平滑预测的精确性和拟合程度与平滑参数的取值有很大的关系,平滑参数的选取应该满足最小均方误差(MSE)的原则采用黄金分割查找法进行优化查找,在 的初始不确定参数区间(0,1中不断迭代缩小参数的取值范围,最终获得一个满足容忍度 的最佳平滑参数值。,2023/6/25,北航计算机学院,25,中间汇集节点的自恢复(续三),第一步:初始化不确定参数区间,第二步:如果当前参数区间的长度在容忍度范围内则返回,否则计算黄金分割点,第三步:比较两个分割点的预测模型的均方误差,重新划分分割点,继续第二步,2023/6/25,北航计算机学院,26,中间汇集节点的自恢复(续四),管理服务器,中间汇集节点,域内节点1,域内节点2,域内节点n,2.确认中间汇集节点失效,健康探测,心跳事件,数据库,获取负载数据,返回历史数据集,3.计算负载预测值,选举最小预测值的节点,4.启动替代中间汇集节点,5.替代中间汇集节点建立监听,启动、监听,监听,事件通知,事件通知,2023/6/25,北航计算机学院,27,实验性能评估,节点代理程序占用系统资源,实验结果:域内节点和中间汇集节点的代理服务程序占用CPU资源差别不大,平均占用0.3%的CPU资源;内存利用率相差较大,普通域内节点占用3.5%,中间汇集节点占用6.6%,2023/6/25,北航计算机学院,28,论文总结,提出了一种基于规则的集群自主管理体系结构,并设计和实现了节点代理服务和管理服务器的功能结构设计并实现了一种“推”模式的可扩展的基于中间汇集节点的事件通知机制设计并实现了节点代理的自配置机制设计并实现了一种基于负载预测选举算法的中间汇集节点自恢复机制,2023/6/25,北航计算机学院,29,下一步工作,分析决策引擎的实现中,事件信息模型通过简单的测量量实现,未来需要利用人工智能的一些方法建立系统组件间的依赖性模型用于系统感知,使得系统感知智能化集群的状态监测没有实现对更细粒度的进程等状态的监测,未来需要完善对进程等资源的监测和分析,以便实现进一步的集群故障和安全监控,2023/6/25,北航计算机学院,30,运行实例-监测结果,2023/6/25,北航计算机学院,31,运行实例-集群状态,2023/6/25,北航计算机学院,32,运行实例-预测曲线,2023/6/25,北航计算机学院,33,配置决策引擎,2023/6/25,北航计算机学院,34,运行实例-自主操作日志,2023/6/25,北航计算机学院,35,谢谢!,

    注意事项

    本文(基于自主计算的集群管理软件的设计和实现.ppt)为本站会员(sccc)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开