华科大金海云计算探索与实践.ppt
云计算:探索与实践,金 海 服务计算技术与系统教育部重点实验室集群与网格计算湖北省重点实验室华中科技大学计算机学院,目 录,云计算初探云计算实践,热门的云计算,Legend:Cluster computing,Grid computing,Cloud computing,2008 Gartner IT Hype Cycle of Emerging Technologies,2009 Gartner IT Hype Cycle of Emerging Technologies,2010 Gartner IT Hype Cycle of Emerging Technologies,Top 10 Technologies for 2010,云计算的技术背景,云计算是并行计算(Parallel Computing)、分布式计算(Distributed Computing)和网格计算(Grid Computing)的发展,或者说是这些计算机科学概念的商业实现云计算是虚拟化(Virtualization)、效用计算(Utility Computing)、IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)等技术混合演进并跃升的结果,维基中的云计算定义,Cloud computing involves the provision of dynamically scalable and often virtualized resources as a service over the Internet.,云计算的服务类型,Enabler,Providers,Consumers,IaaS,PaaS,SaaS,IaaS:Infrastructure as a ServicePaaS:Platform as a ServiceSaaS:Software as a Service,网格计算与云计算的比较,资源异构多机构虚拟组织以科学计算为主采用高性能计算机问题求解环境紧耦合,并不强调资源异构单一机构拥有虚拟机以商业应用为主采用普通服务器集群松耦合环境下的海量数据处理,云计算技术体系结构,云计算的核心支撑技术:虚拟化,Hardware,Xen,Domain0,XenoLinux,XenoWindows,Application,Application,Application,Application,Application,Application,Application,Application,Application,Control,I/O(Domain 0),Guest Domain,Guest Domain,系统虚拟化是云资源管理的关键技术,云计算的核心支撑技术:虚拟化,桌面虚拟化是用户使用云资源的重要方式,云计算的重要工具:MapReduce,提供了简便的分布式数据处理编程模型为云数据中心的大规模数据处理提供支撑,目 录,云计算初探云计算实践,我们的一些实践,面向科学计算与企业信息化的云计算平台CRANE云存储平台ppStore云备份系统B-Cloud云安全技术及基于云模式的大规模主动安全防御系统CloudFence面向云环境的虚拟化桌面ClouDesk,面向科学计算与企业信息化的云计算平台CRANE,CRANE-系统架构,核心管理层,驱动层,服务层,接口层,PaaS(科学计算),PaaS(企业信息化),CLI,PORTAL,API,监控诊断,存储管理,网络管理,资源调度,DATACENTER,HARDWARE,NETWORK,STORAGE,资源供给,模板库管理,跨域协作,Public cloud,云扩展,Virtual Platform Driver,Storage System Driver,Agent Driver,VM,Agent,交互接口,DATACENTER,安全,QoS,可靠性,用户认证管理,IaaS,VM,Agent,VM,Agent,VM,Agent,CRANE-IaaS,VIM,Local infrastructure,External cloud,CLI,IaaS接口,PaaS接口,Core,存储管理,网络管理,模板库管理,资源调度,提供多种驱动支持多种虚拟化平台与存储系统,支持IPV6网络,模块化结构可灵活扩展,基础设施动态扩展兼容EC2接口,CRANE-IaaS(调度器),CRANE-PaaS,科学计算PaaS,企业信息化PaaS,两种类型的PaaS服务由IaaS提供基础虚拟环境支撑,MPI基础环境及常用应用环境环境模板定制流程化作业管理,信息化站点托管自动负载均衡透明扩容缩容,由CRANE云监控提供信息支持,CRANE,CRANE-科学计算PaaS,CRANE 科学计算PaaS 是基于CRANE IaaS,集虚拟集群创建、MPI环境部署、作业调度、作业自动化处理、模板创建与管理等功能的PaaS平台平台提供两种服务:1.虚拟集群;2.MPI作业托管,虚拟集群:在Web上选择虚拟机模板,提交模板数量,系统根据参数创建虚拟集群。用户通过SSH登录虚拟集群即可使用MPI作业托管:在Web上提交参数(部署有所需MPI应用的虚拟机模板、资源量、输入数据、应用运行参数),系统根据参数处理作业,最终返回结果给用户,通过SSH登录虚拟集群,即可使用,通过Web,提交相关参数,提交作业,系统自动处理作业,并返回结果,CRANE-企业信息化PaaS,传统的Web托管,云环境下的Web托管 云计算利用相对集中的资源,在一个有较好的稳定性和扩展性的基础架构上,按需为人们提供各类服务,这就为解决传统Web主机扩展性差、资源利用率低、可定制性差等问题创造了条件,CRANE云平台中的企业信息化PaaS利用云平台的IaaS基础设施为个人和企业提供优质的主机服务,让部署一个Web应用变得廉价和快捷,并且使Web服务具有良好的扩展性,一键部署,动态扩容,可定制性强,云存储平台ppStore,26,ppStore系统架构,27,ppStore 存储服务的使用,用户,网盘,FTP,Email,免费的网络存储服务,上传,下载,网络上现有的免费存储服务(简称SS),优点:用户不用在网络上架设服务器,就可以获得一种网络平台的服务,让用户在任何时候,任何地方都可以获得文件缺点:鸡蛋放在一个篮子里,可用性、安全性无法保证,28,存储服务(SS)的聚合,问题的症结:单个SS供应商的服务能力是有限的关键思想:化零为整,原来的每个SS单独为用户服务的单一点到点的服务模式,转化为综合各种SS服务,相互有联系的面到点服务模式,SS,SS,SS,SS,用户,用户,用户,用户,SS,SS,SS,SS,中间件,用户,用户,用户,用户,存储管理,共享处理,29,ppStore 数据传输性能保证,支持的P2P协议:Kademlia支持的邮箱支持的网盘 Rapidshare,异构数据协议封装,30,30,ppStore 系统截图,云备份系统B-Cloud,什么是云备份?,云备份是指通过网络将位于客户端机器上的数据自动备份到存储服务提供商(SSP)的异地数据中心,以便将来恢复数据云备份是商业服务概念在存储领域的一种体现。存储服务提供商(SSP)为客户提供存储空间,并给客户必要的承诺(安全、可用、可靠等),双方的合作建立在相互信任基础上云备份让用户脱离技术与部署上的复杂性,通过Internet获得备份服务,B-Cloud总体设计,B-Cloud的几个关键技术,执行备份作业,执行恢复作业,云安全技术及基于云模式的大规模主动安全防御系统CloudFence,云计算的最核心问题云安全,Gartner在2008年关于云安全的报告中所指出的:云平台最大的安全威胁来自于平台提供商员工对于租户隐私数据的非法访问2010年9月份Google解雇了两名对租户的Google Voice,Gtalk等帐户进行侵入以获取隐私数据的员工Gartner于2010年4月给出的调查报告指出:安全与隐私成为了人们对云计算最为担心的问题2007年,华盛顿邮报就披露了客户关系管理领域的著名云提供商S由于安全攻击而导致大量租户数据的泄漏与丢失主流云提供商为租户提供的安全与隐私保护手段还非常有限著名的Amazon 云服务AWS(Amazon Web Services)的2010年租户协议就明确指出Amazon并不能保证租户数据的安全性,云计算安全问题分析,云计算安全问题主要源于云计算平台的服务外包特征、多租户资源共享特征,以及平台的开放特征在云计算环境下,租户数据的计算和存储都交由云端处理,云平台的这种服务外包特征使得云服务提供商员工可能会窃取租户的隐私数据不同租户乃至竞争对手的数据经常存放于云端同一存储设备或在同一主机上进行处理,云平台的这种多租户资源共享特征使得平台中一个租户可能试图攻击同平台的其他租户,恶意租户可通过占用大量资源的方式导致其他租户的服务不可用,或使用旁道方法探测运行在同一主机上其他租户的隐私数据由于云平台的开放性以及常采用存在较多安全漏洞与缺陷的开放性软件构建平台,导致平台的安全风险大大增加,攻击者更容易窃取或破坏租户数据,云计算安全挑战,任务可信执行问题,资源隔离问题,云服务的可靠性问题,监控和管理问题,云安全服务,虚拟化技术提高了云平台资源使用的效率,但需要在物理节点上的多虚拟机之间进行有效隔离,由于云平台同时为很多用户提供服务,云平台必须对用户行为进行有效监控,防止云平台上的攻击云,为了保证为云用户提供不间断服务,云平台必须保证服务软件的可靠性及云平台中数据备份问题,用户失去了对云端资源的控制,如何保证云端用户任务的安全执行以及用户数据的安全性,41,云计算安全挑战,任务可信执行问题,资源隔离问题,云服务的可靠性问题,监控和管理问题,云安全服务,虚拟化技术提高了云平台资源使用的效率,但需要在物理节点上的多虚拟机之间进行有效隔离,由于云平台同时为很多用户提供服务,云平台必须对用户行为进行有效监控,防止云平台上的攻击云,为了保证为云用户提供不间断服务,云平台必须保证服务软件的可靠性及云平台中数据备份问题,用户失去了对云端资源的控制,如何保证云端用户任务的安全执行以及用户数据的安全性,42,资源隔离问题,虚拟化技术是云计算的核心技术,单节点多虚拟机之间存在资源共享即使实施了诸如中国墙之类的隔离策略,但同样存在隐通道问题(如左图所示),可导致相互竞争的公司之间的信息泄露在云环境中对虚拟机进行有效的隔离是非常有必要的,43,资源访问控制模型,优先中国墙模型(PCW):通过将中国墙模型中的静态冲突集替换成动态冲突集,从而降低了虚拟机之间由于隐通道带来的信息泄露,44,云计算安全挑战,任务可信执行问题,资源隔离问题,云服务的可靠性问题,监控和管理问题,云安全服务,虚拟化技术提高了云平台资源使用的效率,但需要在物理节点上的多虚拟机之间进行有效隔离,由于云平台同时为很多用户提供服务,云平台必须对用户行为进行有效监控,防止云平台上的攻击云,为了保证为云用户提供不间断服务,云平台必须保证服务软件的可靠性及云平台中数据备份问题,用户失去了对云端资源的控制,如何保证云端用户任务的安全执行以及用户数据的安全性,45,可信执行环境-TEE,云计算的三个组件:云资源提供商、云软件服务提供商(SaaS)、云用户,我们的方法是同时在用户端和云端提供可信执行环境,云软件服务提供商,46,TEE的组件,云端的可信执行环境(TEEc)虚拟动态可信度量根(vDRTM)让一个物理平台上的多个用户、多个虚拟机可以同时拥有自己的DRTM用户可以在任意时刻启动基于vDRTM的可信执行环境来运行安全敏感应用而不用重新启动虚拟机,并能向第三方提供可信证明,用户端的可信执行环境(TEEu)可以在操作系统运行时动态插入轻量级虚拟机到OS的下面,并可随时动态撤销轻量级虚拟机管理器开销很小并不需要对用户本身的系统做任何的修改,47,TEEc,TEEc=支持vDRTM的vTPM管理器+虚拟LPC+vD-CRTM+TEE核心模块+TEE域+TEE管理器,48,Cherub利用了硬件虚拟化技术。当操作系统运行时,在操作系统下面动态插入一个轻量级虚拟机管理器,其特权级比操作系统要高,轻量级虚拟机管理器为目标应用程序创建一个可信执行环境,阻止其它进程对目标应用程序内存页的访问(包括应用程序的代码页和数据页),在可信执行环境中允许进行敏感操作,而且访问应用程序受保护内容也只能在可信执行环境中进行,TEEu,49,可信执行环境的创建过程,度量,程序,内核,内核模块,配置文件,启动加载器,数据,(1)度量,(2)验证,(3)保护,+,Xen,SHA1(启动加载器)SHA1(内核),可信集,Xen,启动阶段,度量,运行时状态,分析,50,Daoli,Daoli:和EMC、复旦、武大共同设计,为虚拟化的网格节点提供可信支持,让其成为云的一部分,在网格中间件层实现,使用的中国教育科研网格公共支撑平台(CGSP)作为示例,51,云计算安全挑战,任务可信执行问题,资源隔离问题,云服务的可靠性问题,监控和管理问题,云安全服务,虚拟化技术提高了云平台资源使用的效率,但需要在物理节点上的多虚拟机之间进行有效隔离,由于云平台同时为很多用户提供服务,云平台必须对用户行为进行有效监控,防止云平台上的攻击云,为了保证为云用户提供不间断服务,云平台必须保证服务软件的可靠性及云平台中数据备份问题,用户失去了对云端资源的控制,如何保证云端用户任务的安全执行以及用户数据的安全性,52,基于驱动的虚拟机透明监控,根据不同虚拟机中操作系统版本和类型的不一样,采用不同的监控驱动来实现对各虚拟机中操作行为透明监控的目的为上层管理工具和平台管理者提供了统一的监控接口,53,云计算安全挑战,任务可信执行问题,资源隔离问题,云服务的可靠性问题,监控和管理问题,云安全服务,虚拟化技术提高了云平台资源使用的效率,但需要在物理节点上的多虚拟机之间进行有效隔离,由于云平台同时为很多用户提供服务,云平台必须对用户行为进行有效监控,防止云平台上的攻击云,为了保证为云用户提供不间断服务,云平台必须保证服务软件的可靠性及云平台中数据备份问题,用户失去了对云端资源的控制,如何保证云端用户任务的安全执行以及用户数据的安全性,54,云服务的可靠性,云服务及其宕机情况如下表所示:(Above the Clouds:A Berkeley View of Cloud Computing,Technical Report 2009-28,UC Berkeley,2009)保证云服务的高可用性是一个巨大的挑战,55,云服务的可靠性系统SHelp,绕过有故障的函数带权值的营救点分配权值给营救点检测到故障时优先选择权值较高的营救点进行测试错误虚拟化在函数返回时强制返回一个基于启发式的值,int bad(char*buf)char rbuf10;int i=0;if(buf=NULL)return-1;while(i strlen(buf)rbufi+=*buf+;return 0;,bad(),查看调用栈,创建rescue-graph,执行图,营救图,56,SHelp主要思想,在虚拟机之间共享故障处理信息营救点的管理采用一个两级的存储架构Dom0中部署一个全局的营救点数据库每个DomU中部署一个营救点缓存在Dom0和DomU之间共享故障处理信息时,需要保证权值更新的一致性,57,CloudFence:基于云模式的大规模主动安全防御系统,采用安全检测与防御相分离的原则,充分利用云端强大的处理能力和存储能力,云端集中检测和决策关键技术云端的入侵报警信息聚类和关联基于数据挖掘的隐式关联多检测引擎并行检测和综合决策基于虚拟机的恶意软件行为分析用户隐私去除恶意网址拦截,强大的处理能力 和存储能力,“瘦”客户端,系统架构,面向云环境的虚拟化桌面ClouDesk,面向云的虚拟化桌面,动态适应用户需求变化,为用户提供高效、安全、易用的云资源访问的桌面环境按需动态构建虚拟化桌面环境与客户端现有OS无差别的人机接口计算、数据远程部署的安全可信环境无限延展、动态调配的云中计算资源,ClouDesk:云模式下的虚拟化桌面,动态资源管理,服务端关键技术,高性能可靠迁移,虚拟环境节能管理,虚拟环境网络配置,虚拟环境分布式存储,虚拟环境容错与恢复,虚拟机域间通信及优化,关键点:图形原语翻译与聚合机制,基于图形API,实施原语翻译,大大提高传输效率,减小交互传输延迟,63,关键点:虚拟桌面的自动配置与管理,问题:如何实现虚拟桌面的自动配置、部署与监控方法:1)提出了虚拟机模板增量归类与调用的策略,自动配置用户所需的程序运行环境与软件自动安装环境;2)提出了虚拟环境一体化监控机制;3)设计了虚拟机迁移、资源调度的一系列策略,64,关键点:虚拟桌面的迁移,问题:迁移机制广泛用于集群内的负载均衡、高可靠系统的在线维护及数据中心的节能;传统迁移策略大多基于copy-on-write机制,内存传递时间较长,性能不佳(总迁移时间长、WAN下数据传输量很大)方法:1)基于Replay的在线迁移策略:传输并同步执行指令,而非内存页面,维护虚拟机的状态一致性,已在单核处理器上实现;2)全系统状态记录机制和检查点设置策略,为Replay在多核下的实现打下基础,65,关键点:数据中心内的分布式镜像管理,66,减少虚拟机镜像存储的冗余数据,保证虚拟机镜像存储的高性能快照和快速启动,镜像数据的直接物理索引,不同操作系统镜像的冗余度,ClouDesk:云计算的用户桌面,云中异构资源聚合与共享,工作环境的个性化定制,工作环境的保存与恢复,工作环境的在线迁移,移动环境的虚拟接入,本地资源的协同访问,Xen server,Xen server,APP Server,VCM,Thin Client,PDA,Data Server,Internet,Virtualized PC,桌面虚拟化体系框架,All-in-one Desktop Environment,ClouDesk Web版本,ClouDesk 客户端版本,ClouDesk 手机版本,特点:瘦客户登录端云端处理的计算与存储统一的用户数据视图简便的数据备份与恢复服务随处可得,应用(一),某运营商的在线游戏试玩系统,连接虚拟机,画面和声音传到手机端,服务中心,虚拟机,虚拟机,虚拟机,连接虚拟机,画面和声音传到手机端,连接虚拟机,画面和声音传到手机端,实验室内/某公司的虚拟工作环境实验系统,应用(二),虚拟化桌面支撑大规模复杂仿真计算,数据中心:软件资源、仿真模型资源等等,VMM,应用(三),两点总结,Cloud Computing Makes FBI Access to Documents Easy,All your docs in the cloud are belong to us.,国内第一本虚拟化领域的学术专著,第一章 概 述第二章 指令级虚拟化第三章 计算系统虚拟化方法第四章 多虚拟机监控与管理第五章 虚拟用户使用环境第六章 安全可信的虚拟计算系统第七章 虚拟计算系统的性能评测第八章 虚拟化在高效能计算机 中的应用第九章 虚拟化在仿真系统中的 应用第十章 虚拟化技术的现状和未来,国内第一本XEN虚拟机代码分析专著,第一章 概 述第二章 Xen体系结构第三章 Xen共享页机制第四章 超级调用和事件通道第五章 授权表第六章 CPU虚拟化第七章 内存虚拟化第八章 I/O设备虚拟化第九章 Xen访问控制模块第十章 可信平台模块虚拟化第十一章 硬件虚拟化,即将出版敬请关注,谢谢!,