华为CloudOS云操作系统方案介绍.docx
1.1整体方案华为云计算数据中心提供端到端的解决方案和综合咨询服务。整体方案 如图1-1所示。可以根据用户需求进行裁剪,形成针对性的解决方案,适 应客户多种应用场景。图1-1云计算整体方案DC设计云布线消防闭路运维中心专业 服务D4商业评估 J 维护 咨询优化& 评估虚拟机管理资源管理 资源调度运维管理虚拟计算UVP虚拟化 虚拟存储虚拟网络 1硬件 1._安全一,计算*存储网络云操作系统运营管理系统运维管理系统基础设施机房基础设施。硬件组成数据中心系统的相关硬件,包括服务器、存储设备、交换设备、安 全设备、防火墙等。云操作系统提供云平台功能。包括:UVP虚拟化:将计算、存储、网络硬件资源进行虚拟化,从而实现一个 服务器上运行多个虚拟机,共享物理资源。资源管理:调度物理资源、虚拟化资源,支持OM运维管理,对外提供 运维和业务接口。运维管理系统负责整个云计算解决方案系统的运行与维护,包括机房、硬件、软件。 功能包括用户管理、配置管理、告警管理、日志管理、性能管理等操作 维护功能。运营管理系统支持云计算业务自动化管理,实现可运营,可管理,例如:虚拟机发放、 出租业务。云应用解决方案:云操作系统支持多种云应用解决方案,例如:. 桌面云应用:为用户提供基于云计算的远程桌面访问服务。. IDC云服务:基于互联网提供公众服务云业务。. 企业云服务:为大中型企业提供私有云解决方案。专业服务为用户提供商业咨询、架构设计、集成交付、维护咨询、评估优化等专 业服务。1.2云操作系统特点1.2.1资源统一管理、高效利用物理机、虚拟机统一管理和调度采用虚拟化技术、分布式计算和存储等技术,实现资源的池化管理。支 持管理虚拟机和物理机,同时各种资源对外提供管理接口。高效利用、动态节能采用虚拟化和业务安全机制,支持多个虚拟机共享物理资源,而互不影 响,提高了服务器资源的利用率。通过对业务忙闲交错和峰谷交错的特点分析,将空闲或处于谷底的业务 进行迁移,从而清理出一些机器将其休眠或关闭,达到节能的效果。1.2.2自动化部署能力安装节点自动发现物理设备,自动安装云操作系统,支持并行安装,减 少手工操作。虚拟机操作系统和软件,可以使用镜像自动化安装,减少用户操作。1.2.3高可用性&高安全业务高可用性支持HA虚拟机:当物理服务器故障时,系统自动将其上的HA虚拟机迁 移到其它物理服务器上,供用户使用。支持虚拟机的卷审计,确保用户数据的一致性。支持防止虚拟机恶意攻击。产生告警时,支持以Email和短信方式实时通知管理员,以便及时处理故 障。管理节点高可用管理节点采用双机方式部署,避免单点故障,提高系统可用性。支持监控,包括硬件、软件、虚拟化资源等。高安全性支持分权分域,用户只能管理自己权限范围内的资源。支持多种类型日志及其审计,提高用户操作安全性和系统运行安全性。支持传输数据加密,用户密码加密保存。支持管理、业务、存储平面隔离,提高数据安全性。1.2.4丰富的业务能力支持弹性计算、虚拟存储等基本功能,虚拟机镜像、模板、快照、弹性 ip、安全组等功能。1.2.5开放接口能力接口包括:性能数据、告警、日志、计费、虚拟机管理。接口类型包括:FTP、WebService、虚拟机管理API接口。1.3资源管理方案1.3.1功能资源管理是资源池系统管理的核心,负责对各种云计算叮资源进行部署、 操作、回收、监控、统计分析。主要支持如下功能:资源模板管理支持模板的创建、删除、修改、查看。模板参数包括VCPU、内 存、系统磁盘大小、镜像、虚拟机QoS等参数。-支持镜像管理,包括镜像的制作、上传、注册、注销。支持镜像 文件存储在独立的镜像服务器上。. 资源分配回收管理-支持虚拟机的创建、删除。支持使用模板和镜像创建虚拟机,并 且可以指定所属VLAN和使用的存储。-支持将虚拟机、存储资源分配给用户或用户组。同时支持回收。-支持调整虚拟机资源:创建虚拟机后,可以调整虚拟机的CPU. 内存、网卡个数,挂载卷或卸载卷。-支持管理弹性IP资源。弹性IP是静态公网IP,由管理员统一管 理,唯一分配给一个用户。用户可以将弹性IP绑定到虚拟机,也 可以解绑定再绑定到另一个虚拟机。用户使用固定的弹性旧访问 虚拟机或其上的服务。. 资源操作管理-支持虚拟机操作管理:包括虚拟机的启动、关闭、暂停、重启、 迁移、休眠和唤醒。并且支持通配置策略,定时或周期启动、关 闭、迁移虚拟机。-支持虚拟机快照、使用快照恢复或创建虚拟机。-支持虚拟机迁移:支持手动迁移虚拟机,HA虚拟机则支持服务 器故障时自动迁移虚拟机。-支持虚拟机资源调度管理:支持通过配置策略,实现负载均衡或 动态节能。-支持安全组:通过配置安全组的防火墙规则,实现虚拟机、安全 组间的互通或阻隔,确保安全。. 资源状态管理-支持监控各类资源,包括计算、存储、网络、虚拟机。监控其资 源总量、已分配资源、未分配资源。如果容量接近于饱和,会发 出报警,提示管理员。-支持按虚拟机的业务类型管理虚拟机、管理虚拟机应用程序。-支持拓扑、统计报表等功能。1.3.2特点. 大容量管理支持大容量集群和虚拟机管理,支持集群20个,每个集群支持计算 节点100个,集群内可以实现HA及热迁移。. 高可靠性、高安全性-支持虚拟机HA、迁移、快照,确保高可靠性。-支持虚拟机的卷审计,确保用户数据的一致性。-资源管理支持分权分域,用户只能管理自己权限范围内的资源, 确保安全。. 资源灵活调整-系统支持灵活扩容、减容,便于资源调整。-虚拟机规格支持灵活调整,包括VCPU、内存、网卡等。.QoS保障-支持网络平面隔离:管理平面、业务平面、存储平面,保证用户 虚拟机的带宽。-支持虚拟机网卡限速,确保不影响其他虚拟机的性能。-支持为虚拟机指定SAN的特定LUN,这样可以为不同类型用户 提供不同的存储质量支持。-采用资源智能调度可实现负载均衡,确保虚拟机的QoS。. 友好的管理界面1.4运维管理方案1.4.1运维管理结构云操作系统提供硬件、软件和业务的运维管理,运维管理结构如图1-2 所示。图1-2 运维管理运维管理功能业务节点1.4.2运维管理特点. 支持硬件、软件和业务的全方位运维能力,支持友好的WebUI维护 界面。. 支持用户分权分域管理,安全性高。具备故障预防和自恢复能力。-支持软件HA,高可靠性,减少故障对系统和业务的影响。-支持系统配置自动备份,避免系统数据丢失。-支持虚拟机快照、使用快照创建虚拟机和恢复虚拟机。为用户数 据提供备份功能。. 支持告警Email和短信方式的即时通知,使用户及时了解系统。. 支持日志记录,便于审计和故障处理。. 支持灵活配置、报表。1.4.:运维管理功能监控管理系统具有拓扑和监控功能,维护管理员通过分权分域功能,可以监控自 己权限内的资源信息,掌握资源使用情况和设备健康状况。包括:. 监控主要针对云操作系统、计算集群、计算服务器、虚拟机等进行监控。 支持管理员自定义监控统计项。支持多维度分类监控,方便用户管 理使用:按监控对象所属的逻辑节点,按虚拟机的业务类型。具体 监控项如表1-1所示。. 资源监控:支持监控物理资源、虚拟资源、桌面资源等。. 终端监控:通过TCM监控TC终端。表1-1云操作系统监控项监控对象监控项云操作系统云的整体CPU平均占用率、内存平均占用率、存储平均占用率、故障服 务器数量、虚拟机CPU分配情况、虚拟内存分配情况、存储资源分配情集群况等。集群的CPU平均占用率、内存平均占用率、故障服务器数量、虚拟机CPU服务器分配情况、虚拟内存分配情况等。服务器的CPU占用率、内存占用率、虚拟机数量、服务器基本信息、虚拟机CPU分配情况、虚拟内存分配情况等。虚拟机虚拟机的CPU占用率、内存占用率、运行状态等。交换机交换机状态、端口流量。统计信息服务器性能趋势、TOP10、虚拟资源分配统计。拓扑管理支持拓扑自动发现系统资源。支持以拓扑图的形式展示资源、资源关系及状态,状态包括正常和故障 等情况。资源包括集群、服务器、虚拟机、存储。支持拖拽拓扑节点。支持导出和打印拓扑。图1-3拓扑图示例口警管理故障管理是确保系统正常运行的重要活动,包括:系统故障预防设计、 故障检测和处理。告警管理是故障管理的重要部分。. 系统故障预防设计系统设计时,考虑到部件故障时的系统自动处理,确保故障不影响 系统正常运行和业务正常使用,降低了故障危害。包括:-硬件RAID、硬件HA和软件HA。-系统数据自动备份、用户数据备份容灾方案。-虚拟机HA、虚拟机快照、虚拟机迁移、存储迁移。-故障处理时,支持对故障服务器进行隔离,避免业务消息发到故 障服务器。. 故障检测和处理系统支持故障的自动检测,及时上报告警。告警管理具体如下:-告警对象:硬件、云操作系统软件、虚拟机。-告警级别:支持四种告警级别,标识不同严重程度的告警。-告警的声光显示:根据用户的设置,云管理可通过不同的声音、 颜色标识不同级别的告警,呈现给维护人员。-告警查看:支持活动告警浏览和历史告警查询。通过设置浏览参 数,管理员可以实时监控自己关注的活动告警,例如查重要” 级别的实时告警。-Email和短信通知告警功能:告警产生和恢复时,系统会自动给 运维人员发Email和短信,及时告知。通过订阅重要的告警,实 现在无人值守的环境下,仍能实时掌握全网节点的运行状态。-告警阈值可配:管理员可根据实际情况,配置告警阈值。-告警NBI北向接口:云管理提供标准的告警北向接口能力,供上 层OSS对接。-支持第三方设备告警接入到云操作系统管理系统。日志管理日志管理包括日志记录、查看、审计。支持的日志包括:. 操作日志:管理员访问运维管理平台日志,即管理员的操作日志, 包括管理员登录、修改配置、查看告警监控等所有用户操作的日志。. 系统运行日志。. 黑匣子日志:用于业务和系统异常的故障定位。统计报表管理系统支持各种统计报表和运行分析报告,报表具体统计功能项如下表所 示。表1-2统计报表功能报表统计分类统计功能资源统计. 提供按资源池、用户、使用时间统计资源的使用情况报表(包括内 存资源,CPU等的使用情况)。. 支持统计资源组中虚拟机的总数量、使用数量、闲置数量和预约数 量。. 支持统计虚拟机的内存、CPU、磁盘的占用率。. 支持资源的历史使用情况的统计,如某个虚拟机启动和关闭的时 间、操作用户等。监控数据统计_按照时间段 监控对象进行查询告警信息统计J按八照时间段、监11控对象1进1 J查询。. 支持告警信息的日志记录统计,可按照警告级别进行分类统计。. 支持物理机服务器告警统计。. 支持虚拟终端告警信息统计。. 支持网络信息告警统计。虚拟资产的统 计. 支持按部门、地域等对每个用户的虚拟资产对应情况统计,通过对 虚拟机进行应用分类和集群管理实现。. 支持对资源余量的统计,包括服务器空闲资源、空闲存储等。用户管理系统支持对用户进行访问控制,支持用户组、分权、分域、密码管理, 便于维护团队内分职责共同有序地维护系统。. 用户角色管理通过用户组和分权功能实现。用户组包括:-超级管理员:具有全部操作维护权限和管理其他用户的权限。-操作维护管理员:具有超级管理员授予的操作和查看权限。-只读管理员:具有超级管理员授予的查看权限。. 分域管理-监控功能支持对操作维护管理员和只读管理员用户进行分集群域 的授权管理。-用户分域管理:授予用户各自的集群权限。集群可对应不同部门 (如营业厅、客服中心)、不同地区(如东城区、西城区)的虚拟 桌面。分域管理员仅对属于自己管理范围的虚拟桌面具有管理权 限,包括虚拟机的查看、分配、回收、登录、关闭、重启等。. 密码管理支持设置密码策略,确保密码的保密性。密码策略包括:密码长度、 密码是否含特殊字符、密码有效时长、密码到期提前多长时间提醒 用户、修改密码时不允许使用最近几次的密码、是否强制用户第一 次登录时修改密码等。配置管理配置管理支持初始配置和配置调整,配置的保存和备份,具体配置如下 表所示。表1-3云操作系统维护管理系统的配置管理分类配置项说明网络服务器IP网络调整。系统虚拟机内存超分配 是否开启计费功能系统运行可靠性。口警告警阈值添加第三方设备告警Email和短信通知方式故障管理。对接防火墙VNC连接与第三方对接。虚拟机业务虚拟机资源调度策略 安全组VLANVPC VLAN弹性IP池公共IP池 快照配置虚拟机自动休眠客户的虚拟机业务相关的基础配置。软件管理软件系统具有如下特点:. 软件预安装和预置使用华为服务器时,支持发货前,将部分云操作系统软件已安装到 服务器上。. 软件自动化批量安装-云操作系统软件:支持统一安装界面,一次性导入所有服务器的 信息,多节点同时加载安装,安装效率高。-用户虚拟机软件:通过镜像方式,创建虚拟机并安装应用软件, 且支持批量创建虚拟机,大大减少了用户操作和操作难度。. 升级、打补丁及回退自动化云操作系统软件支持升级、打补丁有工具支撑,实现了自动化健康 检查、分发软件、升级/打补丁、校验、回退。且支持静默升级,即 升级/打补丁不影响业务。虚拟机运维管理. 虚拟机生命周期管理:创建、删除、暂停。. 虚拟机操作管理:启动、关闭、重启、自动休眠、迁移和查看虚拟 资源的使用情况,包括:虚拟计算、存储、网络资源。. 虚拟机资源调整:VCPU个数、内存、网卡、磁盘挂载和卸载等。. 远程诊断虚拟机:通过云操作系统运维管理系统上的虚拟机登录功 能,可以远程诊断虚拟机。其他运维管理功能表1-4其他运维管理功能功能项功能描述License支持License控制,包括功能控制和资源控制,例如对 集群规模、镜像个数等控制项的控制。电子标签支持下载服务器信息。在线帮助OM管理系统支持在线帮助。1.5云平台架构及实现1.5.1虚拟化架构华为UVP虚拟化平台主要由Hypervisor和Domain0组成。Hypervisor是子系统的核心,它介于硬件和操作系统之间,负责为上层 运行的操作系统提供虚拟化的硬件资源,管理和分配资源,并确保上层 虚拟机之间的相互隔离。Hypervisor向Domain0提供了一抽象层,其 中包含了管理和虚拟硬件的API。Domain0是一个特权虚拟机,内部包含了真实的设备驱动(原生设备驱 动),可直接访问物理硬件,负责与Hypervisor提供的管理API交互, 并通过Agent接受管理系统的管理指令,实现对其它虚拟机(DomainU) 的管理。为了提升I/O虚拟化的性能,子系统采用分离设备驱动模型实现I/O的 虚拟化。该模型将设备驱动划分为前端驱动程序、后端驱动程序和原生 驱动三个部分。. 前端驱动在DomainU中运行。负责将DomainU的I/O请求传递到Domain。中的 后端驱动。. 后端驱动在Domain0中运行。解析I/O请求并映射到物理设备,提交给相应的设 备驱动程序控制硬件完成I/O操作。. 原生驱动1.5.2资源管理架构资源管理由云平台实现,逻辑结构如图1-5所示。管理节点ESC、OMM、 CRM、BRM均采用主备模式,CNA、BSP个数与用户量有关。图1-5云平台逻辑结构CNABSBBSPSAN操作维护模块,对外提供统一的操作维护管理接口,包括监控、1=1吉寸。弹性计算子系统表1-5云。资源模块功能模块IMN功能安装管理节占通过MN安装其他节点ESC装管H理节八、,通过nu装其1他节点。ESC弹性业务控制器 是云控制节点管理cpm 镜像存储子IMGJ JI 1 LL-J-L- 1 lJ J 口口,J1l|JJm,_1 -M_L 5 us、 以L|5J、 I J |P| J系统。用于管理和存储镜像。与ESC合一部署。CRMCRM计算资源管理器,管理CRM内的CNA计算节点、虚拟机VM (Virtual Machine)在计算节点上的分布和虚拟机迁移。BRMBRM块存储资源管理器,管理一个Cluster内的卷资源信息,接CNA收并处理来自ESC的存储相关消息。与CRM合 部署。CNA计算节点代理,提供虚拟计算功能。UVP部署在CNA上。BSBBSB块存储功能模块,提供CNA访问卷的接口。与CNA合一部S 署。BSPBSP通用存储服务器,使用服务器作为虚拟机的存储。一个集群SAN中,BSP 和 SAN 二选一。SAN存储,可作为虚拟机的存储。OMM图1-6集群管理架构Cluster1Cluster存储CRMCRMESCcna ' cnaLC, cNa1.6对外接口图1-7云操作系统对外接口运维管理系统运营管理系统操作维护WebUIFTPSOAPWebService _ VNC操作维护虚拟化"Cr云操作系统虚拟机用户服务器存储网络硬件1.6.2与运维平台的接口FTP:对外提供云的性能、日志等数据的下载。WebService :对外提供云管理的应用服务,提供基于TTP的REST接口。VNC :支持客户端通过VNC方式访问虚拟机。1.6.3与运营平台的接口SOAP :对外提供虚拟机管理接口。1.6.4与终端用户的接口RDP/SSH :虚拟机用户通过该接口登录虚拟机。