服务器三大体系SMP、NUMA、MPP介绍.docx
服务器三大体系SMP、NUMA、MPP介绍大中小发表时间:2010-5-17 11:58:25 来源:网界网 作者:佚名 点击数:57 评论数:0 【查看评论】摘要:从系统架构来看,目前的商用服务器大体可以分为三类,即对称多处理器结构、非一致存储访问结构以及海量并行处理结构。本文关键字: 服务器 SMP NUMA MPP 从系统架构来看,目前的商用服务器大体可以分为三类,即对称多处理器结构(SMP:Symmetric Multi-Processor),非一致存储访问结构(NUMA:Non-Uniform Memory Access),以及海量并行处理结构(MPP:Massive Parallel Processing)。它们的特征分别描述如下:SMP(Symmetric Multi-Processor)所谓对称多处理器结构,是指服务器中多个CPU对称工作,无主次或从属关系。各CPU共享相同的物理内存,每个 CPU访问内存中的任何地址所需时间是相同的,因此SMP也被称为一致存储器访问结构(UMA:Uniform Memory Access)。对SMP服务器进行扩展的方式包括增加内存、使用更快的CPU、增加CPU、扩充I/O(槽口数与总线数)以及添加更多的外部设备(通常是磁盘存储)。SMP服务器的主要特征是共享,系统中所有资源(CPU、内存、I/O等)都是共享的。也正是由于这种特征,导致了SMP服务器的主要问题,那就是它的扩展能力非常有限。对于SMP服务器而言,每一个共享的环节都可能造成SMP服务器扩展时的瓶颈,而最受限制的则是内存。由于每个CPU必须通过相同的内存总线访问相同的内存资源,因此随着CPU数量的增加,内存访问冲突将迅速增加,最终会造成CPU资源的浪费,使 CPU性能的有效性大大降低。实验证明,SMP服务器CPU利用率最好的情况是2至4个CPU。NUMA(Non-Uniform Memory Access)由于SMP在扩展能力上的限制,人们开始探究如何进行有效地扩展从而构建大型系统的技术,NUMA就是这种努力下的结果之一。利用NUMA技术,可以把几十个CPU(甚至上百个CPU)组合在一个服务器内。其CPU模块结构如图2所示:图2.NUMA服务器CPU模块结构NUMA服务器的基本特征是具有多个CPU模块,每个CPU模块由多个CPU(如4个)组成,并且具有独立的本地内存、I/O槽口等。由于其节点之间可以通过互联模块(如称为Crossbar Switch)进行连接和信息交互,因此每个CPU可以访问整个系统的内存(这是NUMA系统与MPP系统的重要差别)。显然,访问本地内存的速度将远远高于访问远地内存(系统内其它节点的内存)的速度,这也是非一致存储访问NUMA的由来。由于这个特点,为了更好地发挥系统性能,开发应用程序时需要尽量减少不同CPU模块之间的信息交互。利用NUMA技术,可以较好地解决原来SMP系统的扩展问题,在一个物理服务器内可以支持上百个CPU。比较典型的NUMA服务器的例子包括HP的Superdome、SUN15K、IBMp690等。但NUMA技术同样有一定缺陷,由于访问远地内存的延时远远超过本地内存,因此当CPU数量增加时,系统性能无法线性增加。如HP公司发布Superdome服务器时,曾公布了它与HP其它UNIX服务器的相对性能值,结果发现,64路CPU的Superdome (NUMA结构)的相对性能值是20,而8路N4000(共享的SMP结构)的相对性能值是6.3。从这个结果可以看到,8倍数量的CPU换来的只是3倍性能的提升。图3.MPP服务器架构图MPP(Massive Parallel Processing)和NUMA不同,MPP提供了另外一种进行系统扩展的方式,它由多个SMP服务器通过一定的节点互联网络进行连接,协同工作,完成相同的任务,从用户的角度来看是一个服务器系统。其基本特征是由多个SMP服务器(每个SMP服务器称节点)通过节点互联网络连接而成,每个节点只访问自己的本地资源(内存、存储等),是一种完全无共享(Share Nothing)结构,因而扩展能力最好,理论上其扩展无限制,目前的技术可实现512个节点互联,数千个CPU。目前业界对节点互联网络暂无标准,如 NCR的Bynet,IBM的SPSwitch,它们都采用了不同的内部实现机制。但节点互联网仅供MPP服务器内部使用,对用户而言是透明的。在MPP系统中,每个SMP节点也可以运行自己的操作系统、数据库等。但和NUMA不同的是,它不存在异地内存访问的问题。换言之,每个节点内的CPU不能访问另一个节点的内存。节点之间的信息交互是通过节点互联网络实现的,这个过程一般称为数据重分配(Data Redistribution)。但是MPP服务器需要一种复杂的机制来调度和平衡各个节点的负载和并行处理过程。目前一些基于MPP技术的服务器往往通过系统级软件(如数据库)来屏蔽这种复杂性。举例来说,NCR的Teradata就是基于MPP技术的一个关系数据库软件,基于此数据库来开发应用时,不管后台服务器由多少个节点组成,开发人员所面对的都是同一个数据库系统,而不需要考虑如何调度其中某几个节点的负载。NUMA与MPP的区别从架构来看,NUMA与MPP具有许多相似之处:它们都由多个节点组成,每个节点都具有自己的CPU、内存、I/O,节点之间都可以通过节点互联机制进行信息交互。那么它们的区别在哪里?通过分析下面NUMA和MPP服务器的内部架构和工作原理不难发现其差异所在。首先是节点互联机制不同,NUMA的节点互联机制是在同一个物理服务器内部实现的,当某个CPU需要进行远地内存访问时,它必须等待,这也是NUMA服务器无法实现CPU增加时性能线性扩展的主要原因。而MPP的节点互联机制是在不同的SMP服务器外部通过I/O 实现的,每个节点只访问本地内存和存储,节点之间的信息交互与节点本身的处理是并行进行的。因此MPP在增加节点时性能基本上可以实现线性扩展。其次是内存访问机制不同。在NUMA服务器内部,任何一个CPU可以访问整个系统的内存,但远地访问的性能远远低于本地内存访问,因此在开发应用程序时应该尽量避免远地内存访问。在MPP服务器中,每个节点只访问本地内存,不存在远地内存访问的问题。数据仓库的选择哪种服务器更加适应数据仓库环境?这需要从数据仓库环境本身的负载特征入手。众所周知,典型的数据仓库环境具有大量复杂的数据处理和综合分析,要求系统具有很高的I/O处理能力,并且存储系统需要提供足够的I/O带宽与之匹配。而一个典型的OLTP系统则以联机事务处理为主,每个交易所涉及的数据不多,要求系统具有很高的事务处理能力,能够在单位时间里处理尽量多的交易。显然这两种应用环境的负载特征完全不同。从NUMA架构来看,它可以在一个物理服务器内集成许多CPU,使系统具有较高的事务处理能力,由于远地内存访问时延远长于本地内存访问,因此需要尽量减少不同CPU模块之间的数据交互。显然,NUMA架构更适用于OLTP事务处理环境,当用于数据仓库环境时,由于大量复杂的数据处理必然导致大量的数据交互,将使CPU的利用率大大降低。相对而言,MPP服务器架构的并行处理能力更优越,更适合于复杂的数据综合分析与处理环境。当然,它需要借助于支持MPP技术的关系数据库系统来屏蔽节点之间负载平衡与调度的复杂性。另外,这种并行处理能力也与节点互联网络有很大的关系。显然,适应于数据仓库环境的MPP服务器,其节点互联网络的I/O性能应该非常突出,才能充分发挥整个系统的性能。SMP系统与MPP系统比较SMP (Symmetric Multi Processing),对称多处理系统内有许多紧耦合多处理器,在这样的系统中,所有的CPU共享全部资源,如总线,内存和I/O系统等,操作系统或管理数据库的复本只有一个,这种系统有一个最大的特点就是共享所有资源。 MPP (Massively Parallel Processing),大规模并行处理系统,这样的系统是由许多松耦合的处理单元组成的,要注意的是这里指的是处理单元而不是处理器。每个单元内的CPU都有自己私有的资源,如总线,内存,硬盘等。在每个单元内都有操作系统和管理数据库的实例复本。这种结构最大的特点在于不共享资源。既然有两种结构,那它们各有什么特点呢?采用什么结构比较合适呢?通常情况下,MPP系统因为要在不同处理单元之间传送信息(请注意上图),所以它的效率要比SMP要差一点,但是这也不是绝对的,因为MPP系统不共享资源,因此对它而言,资源比SMP要多,当需要处理的事务达到一定规模时,MPP的效率要比SMP好。这就是看通信时间占用计算时间的比例而定,如果通信时间比较多,那MPP系统就不占优势了,相反,如果通信时间比较少,那MPP系统可以充分发挥资源的优势,达到高效率。当前使用的OTLP程序中,用户访问一个中心数据库,如果采用SMP系统结构,它的效率要比采用MPP结构要快得多。而MPP系统在决策支持和数据挖掘方面显示了优势,可以这样说,如果操作相互之间没有什么关系,处理单元之间需要进行的通信比较少,那采用MPP系统就要好,相反就不合适了。通过上面两个图我们可以看到,对于SMP来说,制约它速度的一个关键因素就是那个共享的总线,因此对于DSS程序来说,只能选择MPP,而不能选择SMP,当大型程序的处理要求大于共享总线时,总线就没有能力进行处理了,这时SMP系统就不行了。当然了,两个结构互有优缺点,如果能够将两种结合起来取长补短,当然最好了。 什么是大型机,小型机。(Mainframe) 大型机(mainframe)这个词,最初是指装在非常大的带框铁盒子里的大型计算机系统,以用来同小一些的迷你机和微型机有所区别。虽然这个词已经通过不同方式被使用了很多年,大多数时候它却是指system/360 开始的一系列的IBM计算机。这个词也可以用来指由其他厂商,如Amdahl, Hitachi Data Systems (HDS) 制造的兼容的系统。 有些人用这个词来指IBM的AS/400 或者iSeries 系统,这种用法是不恰当的;因为即使IBM自己也只把这些系列的机器看作中等型号的服务器,而不是大型机。 什么是I/O通道(Channel) 一条大型机通道(channel)某种程度上类似于PCI 总线(bus),它能将一个或多个控制器连接起来,而这些控制器又控制着一个或更多的设备(磁盘驱动器、终端、LAN端口,等等。)大型机通道和PCI总线之间的一个主要区别是大型机通道通过几对大的bus and tag 电缆(并行通道方式),或者通过最近常使用的ESCON(Enterprise System Connection)光导纤维电缆(串行通道方式)以及光纤通道来连接控制器。这些通道在早期是一些外置的盒子(每个约6X30X5H大小),现在都已经整合到了系统框架内。 这些通道的超强I/O处理能力是大型机系统功能如此强大的原因之一。 什么是DASD DASD 是 Direct Access Storage Device(直接存取存储设备)的缩写;IBM创造这个词来指那些可以直接(并随意)设定地址的存储系统,也就是今天我们所说的磁盘驱动器。但在过去,这个词也指磁鼓(drums)和数据单元(datacell)等等。什么是数据单元?嗯,在磁盘驱动器变得廉价、快速并普遍使用前,IBM曾经制造过一种设备,基本上就是由一个磁鼓和绕在磁鼓上的许多磁条(单元)中的一个组成,然后读写的资料就被纪录在卷动的磁条的磁道上。这种存取数据的方法和磁盘很类似,但当(磁鼓)搜寻资料的时候需要更换磁带的话,所需的时间显然就得按秒来计算。数据单元设备还有个调皮的习惯,它喜欢在卸下一个单元到存储槽的时候卷成一块,这有时会造成介质的物理损坏。可见,在取得目前的技术进步前,我们已经走了很长一段路了。 什么是LPAR 一个LPAR(逻辑分区 logic partition)是一种通过PR/SM(Processor Resource/System Manager,一种最近的大型机都具有的固件fireware特性)来实施的虚拟机。在每个分区上,可以运行一个单独的镜像系统,并提供完全的软件隔离。这和UNIX操作系统上的domains 原理很相似,但IBM的方法更加细致,它允许所有的CPU和I/O子系统可以在逻辑分区间被共享。PR/SM允许在单个系统上运行15个LPAR,每个(LPAR)拥有专有真实存储(dedicated real storage RAM)并且拥有专有或共享的CPU和通道。因为对性能影响最为重要的部分都是在CPU里完成的,所以(这样做)没有多少性能的损失。IBM已经宣称它准备在不久的将来把最高可支持的LPAR数目扩展到超过15个。 大型机系统得以长盛不衰的主要原因(特点)是:RAS,I/O处理能力以及ISA。 RAS RAS(Reliability, Availability, Serviceability 高可靠性、高可用性、高服务性)是一个IBM常用来描绘它的大型机的词。到70年代早期为止,IBM已经认识到商业用途系统市场远比科研计算机系统市场有利可图。他们也知道IBM商用系统的一个重要的卖点就是高可靠性。如果他们的商业客户准备采用IBM计算机来开展极其重要的商业业务,客户就得确认他们可以在任何时间都可以正常使用(IBM的机器)。所以,最近30多年来,IBM致力于使每一个新系列的系统比前一代更加可靠。这就导致了今天的系统变得如此可靠,以至于几乎没听说过有任何因为硬件问题导致的系统灾难。这些大型机系统内集成了相当高程度的冗余和错误检查(技术),这样就能防止系统发生灾难性的问题。每个CPU die装有2个完全的执行管道(execution pipelines)来同时执行每一条指令。如果这两条管道得出的结果不相同,CPU的状态就会复原,然后这条指令被重新执行。如果重新执行后结果还是不一致,最初的CPU状态就被记录下来,然后一个空闲的CPU被激活并装入存储的状态数据。这颗CPU继续做最初那颗CPU的工作。记忆芯片、内存总线、 I/O通道、电源等等,都要么有冗余的设计,或者有相应的备用品并可以随时投入使用。这些(设备的)小错误可能会导致性能的一些小损失,但他们决不会导致系统中任何任务的失败。 当很罕见地出现错误的时候,高服务性就用得上了。许多组件都可以在系统运行的同时被更换(热插拔);甚至微码(microcode)的升级也可以在系统运行的同时进行。对于那些不能被同时更换的部件,如CPU,备用品的存在就保证了能够客户方便的时候安排系统停机。 除了系统设计中的固有可靠性,IBM也创立了一个紧密联结的集群技术,叫做Parallel Sysplex,这项技术支持由最多32个系统作为一个系统镜像运行。在一个合理部署的Parallel Sysplex系统上,即使一个独立系统遭受了毁灭性损失,整个系统也不会受太大影响,而且不会导致任何工作的损失。任何在那台遭受损失的系统的上进行的工作,都可以自动地在剩下的系统上重新开始。另一个Parallel Sysplex的优势是一台(或多台)系统可以从整个系统中移出以进行硬件或软件的维护工作(例如在非工作时间),而其余的单独系统可以继续处理工作。当维护工作完成后,系统又回归加入Sysplex系统中继续工作。充分利用这一特点就可以升级整个Sysplex系统软件(一次一个单独的系统),而不会导致任何应用程序的暂停使用。 正因为拥有所有这些功能,真正100%的系统可用性是非常实用的,并且已经在许多地方开始实施。 I/O 吞吐量(I/O Throughput) 这些通道实际上就是I/O处理器,他们执行通道程序。这些程序包含了成串的I/O指令,其中就包含有最原始的分流功能。这些通道极大地降低了CPU在I/O操作中的工作量,使得CPU可以更加高效地工作。每一个通道都能同时处理许多I/O操作和控制上千个设备。 在360和370系列构架上,操作系统会创建一个通道程序并在一个已连接到所需设备的通道上执行这个程序。如果这个通道或控制单元十分忙碌,起始 I/O指令就会失败,然后操作系统就会尝试在另一个已连接到不同控制单元的通道上重新开始通道程序。如果所有的道路都是繁忙的,操作系统就会把这个请求列入队列留在以后再试。XA系列里面出现的一个显著的改进就是创立了通道子系统的概念,这个子系统可以协调并安排系统里所有通道的活动。现在操作系统只需要创立通道程序,然后把程序转交给通道子系统,通道子系统就会处理所有的通道/控制单元以及队列问题。这样就使大型机具有了更加强大的I/O吞吐量并使 CPU能更有效地工作,因为只有在所有的I/O操作都完成的时候才需要CPU的介入。 目前z900大型机的I/O吞吐能力是最低每秒24GB(这是字节数,不是“位”数。)虽然我没有亲自测试这些最新系统的机会,但即使理论上的数字可能不太准确,如果说z900大型机达到了每秒100,000 次I/O,我也不会感到太吃惊。 The ISA (IBM System Architecture) 这些年虽然IBM大型机的整体指令集有了显著改进,IBM保持了惊人的对应用程序的向后兼容。许多最为显著的构架上的变化已经影响了一些只能直接被操作系统调用,而不能被应用程序调用的设备(如I/O子系统)。IBM已经花费了巨大的努力来保证它的客户们不必重写或重编译他们的程序来在新系统上运行。这样,客户要采用新的硬件就更为容易,客户只需要拔下旧系统,换上新系统,而不需要做额外的软件测试工作。对于只有拥有一台大型机的公司来说,只需要花几个小时就可以对旧系统进行升级,而不需要在投入正式使用前对新系统进行测试。这特别适合那些在升级前后使用同一种操作系统的客户,他们只需要将操作系统升级到所需要的版本就行了。例如,客户可以在新安装的z900系统上仍然运行31位的操作系统,然后在一个单独的LPAR上安装并测试一个64位的操作系统,然后再把全部运行的业务转移到64位的操作系统上。 大型机类型:9672/9674 = ES/9000=S/390=zSeries 中型机类型:9506/9402=AS/400=iSeries 小型机类型:RS/6000=pSeries,HP9000,SUN SPARC 小型机* 不同品牌的小型机架构大不相同,使用RISC、MIPS处理器,像美国Sun、日本Fujitsu等公司的小型机是基于SPARC处理器架构,而美国HP 公司的则是基于PARISC架构,Compaq公司是Alpha架构,IBM和SGI等的也都各不相同;IO总线也不相同,Fujitsu是PCI, Sun是SBUS,等等,这就意味着各公司小型机机器上的插卡,如网卡、显示卡、SCSI卡等可能也是专用的;操作系统一般是基于Unix的,像Sun、 Fujitsu是用Sun Solaris,HP是用HPUnix,IBM是AIX,等等,所以小型机是封闭专用的计算机系统。使用小型机的用户一般是看中Unix操作系统的安全性、可靠性和专用服务器的高速运算能力。 小型机一般都是用UNIX操作系统,以前IO不兼容,现在基本上都是PCI总线,外设板卡一般都是兼容的。SBUS之类都是古董了。 巨型机* 事实上,绝大多数当今的巨型机都是MPP或NUMA架构的,而且都采用INTEL或RISC节点。 所以说,绝大部分巨型机是由开放系统节点机(包括开放系统小型机)组成的。 巨型机是用途完全不同的东西,主要强调的是并行计算、共享内存,追求的是性能,动辄用几千个CPU,也有的用的不是CPU,而是专用的向量处理机,主要用于科学计算。典型编程语言是fortran、c。 大型机相关信息* 按照IBM的说法,大型机有S/390,中型机有AS/400,小型机有RS/6000,S/390运行z/OS或者Linux/390,主要指标在于年档机只有几小时,所以又统称为z系列(zero),AS/400主要应用在银行和制造业,还有用于Domino,主要的技术在于TIMI,单级存储,有了 TIMI技术可以做到硬件与软件相互独立。RS/6000比较常见,用于科学计算,事务处理。 大型机本来就不是以处理能力见长,各种排行榜如TPCC上,很少看到大型机,IO/RAS的优势现在也不明显了,以前EMC、HDS的存储都是用于大型机的,现在它们的主要市场都在小型机上,100000IOPS已经不稀奇了。 在CPU/内存容量/IO带宽方面,相对小型机里面的旗舰级产品如Sun15K,HP Superdome, IBM P690,没有优势。 大型机技术上还有很多领先的地方,但是性价比不敢恭维。不过积累了很多行业应用,一大堆非关系数据库/Cobol程序之类,这些东东没法移植,成为大型机吃老本的资本。 IBM的大型机概念强调的是IO和RAS,追求的是稳定、可靠,主要用于商业管理系统;典型编程语言是Cobol。