《并行计算机体系结构简介.ppt》由会员分享,可在线阅读,更多相关《并行计算机体系结构简介.ppt(38页珍藏版)》请在三一办公上搜索。
1、第11章 并行计算机体系结构简介,并行技术是针对大型机和巨型机的:第一种:多处理器(一个处理器指一个单片CPU芯片)第二种:多机组成 目前通常把后者并行技术称为并行计算机体系结构。,11.1 并行计算机结构分类,并行计算机系统可以分成两大类:SIMD系统和MIMD系统。SIMD(Single Instruction Multiple Data)计算机可以同时在多个数据集上并行执行同一条指令。这种类型计算机包括阵列处理系统和向量处理机。MIMD(Multiple Instruction Multiple Data)计算机可以同时执行多条指令并同时处理多数据集,它是目前并行技术的主流。MIMD计算
2、机又分成多处理器系统和多计算机系统两大类。如图111所示。,图111 并行计算机分类,11.2 SIMD并行计算机,SIMD计算机:用于解决使用向量和阵列这样比较规整的数据结构的复杂的科学计算和工程计算问题。这种计算机特点:只有一个控制单元,每次只能执行一条指令,但是每一条指令可同时对多个数据进行操作。SIMD分为:阵列处理机和向量处理机。,1.阵列处理机(array processor)特点:一个单一的控制单元提供信号驱动多个处理单元同时运行,如图112所示。组成:PU由1个处理单元PE同它的局部存储器组成。控制部件方式:向全体PE“播送”控制信号,所有PE在同一个总的时钟信号下同步工作。P
3、E组成:可以简单到每个PE由1位ALU组成,也可大到32位ALU,或者带浮点计算能力的ALU。,图112 阵列处理机组成图,2.向量处理机 SIMD计算机中另一类是向量处理机(vector processor)。70年代前后,为了处理向量计算研发两种类型的巨型计算机系统:流水线处理机和并行处理机。两者比较优缺点:并行处理机的结构复杂,成本高,因而流水线处理机发展很快。它是处理向量计算的主要手段,因此已把它称为向量处理机。,向量运算举例,假定有一个向量运算:D=A(B+C)式中A,B,C,D都是长度为N的向量。若按常规处理,则流水线不能连续流动。D1=A1(B1+C1)D2=A2(B2+C2)D
4、N=AN(BN+CN)计算这个向量流水线要反复进行加法和乘法的切换,即流水线功能切换。,如改变处理顺序,先对所有元素执行加法运算(N个加法),然后对所有元素执行乘法运算(N个乘法),其顺序如下:Bi+Ci Di(i从1到N)DiAi Di(i从1到N)这样就能保证流水线畅通。Cray1的体系结构与后来的RISC体系结构类似,它成为了很好的研究范例,许多现代的向量超级计算机都受到它的影响。,图113 Cray1体系结构,Cray1机采用多功能部件结构,一共有12个功能部件,分为4组:3个向量整数单元部件(加、逻辑、移位),3个浮点标量/向量浮点单元部件(加、乘、求倒数),4个标量整数单元部件(加
5、、逻辑、移位、“1”个数计数),2个地址功能部件(加、乘)。这些功能部件本身都采取流水线结构,只要不发生寄存器冲突,这些功能部件都能并行工作。,11.3 MIMD并行计算机,MIMD系统可以分为多处理器系统和多计算机系统两大类。多处理器系统特点:所有CPU共享同一个物理内存,每个CPU不带自己的内存或少量带有,由统一操作系统管理,整个物理内存空间由许多内存模块组成。多计算机系统特点:每个CPU都有自己的内存,即自己独立的物理地址空间;执行自己的操作系统,再加上对外通信的通信处理器。图114a和图114b分别说明了多处理器系统与多计算机系统的区别。,多处理器系统特点:软件设计简单,易实现,硬件设
6、计比较复杂。多计算机系统特点:正好相反。,图114a 多处理器系统,图114b 多计算机系统,MIMD并行计算机设计中的互连网络问题,MIMD并行计算机设计中面临的问题之一:互连网络。多计算机系统中用互连网络把多个计算机连接是显而易见的,多处理器系统同样存在这个问题。,11.3.1 多处理器系统,根据共享内存的实现方式可以把多处理器系统分成三类:分别是一致性内存访问(Uniform Memory Access,UMA)非一致性内存访问(Non Uniform Memory Access,NUMA)基于cache的内存访问(Cache Only Memory Access,COMA),1.UMA
7、多处理器系统 UMA计算机的特点是CPU访问所有的内存模块的时间都相同,即读取每个内存字的时间是相等的。访问速度按最慢内存模块为准。程序员不会感觉有速度问题存在,这就是一致的含义。这种一致性可以保证系统的性能可以预测,也有利于程序员编写高效率代码。如图115所示,图115 基于总线的多处理器系统,每个CPU都带有Cache,当同时操作内存中某一块数据时,会出现Cache一致性问题。例如,CPU1与CPU2同时读取内存中一块数据到自己的Cache中,CPU1先对Cache内容进行了修改,此后CPU2读自己Cache中数据就已成为旧内容,因为CPU1修改自己的Cache后还没有写回内存,而CPU2
8、读的数据相对CPU1来讲是旧数据。解决Cache一致性问题有两种方法,一种是监听型的Cache(本书不再详述,请查阅有关书籍),另一种是“MESI”Cache一致性协议。,MESI协议是一种比较常用的写回Cache一致性协议,它是用协议中用到的四种状态的首字母(M、E、S、I)来命名的。目前,Pentium 4和许多其他的CPU都使用了MESI协议来监听总线。每个Cache项都处于下面四种状态之一:(1)无效(Invalid)该Cache项包含的数据无效。(2)共享(Shared)多个Cache中都有这块数据,内存中的数据是最新的。(3)独占(Exclusive)没有其他Cache包括这块数据
9、,内存中的数据是最新的。(4)修改(Modified)该项的数据是有效的,内存中的数据是无效的,而且在其他Cache中没有该数据项的拷贝。,2.NUMA多处理器系统 NUMA系统也为所有CPU提供单一的地址空间,与UMA不同处是靠近CPU的内存模块的访问速度比其他的内存模块快得多。NUMA计算机的主要特点:(1)所有的CPU都看到一个单一的地址空间。(2)使用LOAD和STORE指令访问远程内存。(3)访问远程内存比访问本地内存慢。,NUMA计算机也存在Cache一致性问题,除前面介绍过的MESI协议外,还有一个SCI(Scalable Coherent Interface,可伸缩的一致性接口
10、)的Cache一致性协议。,3.COMA多处理器系统 在COMA系统中,把每个CPU的主存看成Cache来处理,物理地址空间被划分成Cache块,这些块根据需要在系统中来回移动,Cache块不再有宿主计算机了。它要解决的新问题:如何对Cache块进行寻址和Cache块丢弃了最后一个拷贝怎么办。COMA系统号称比NUMA有更好的性能,但实际建造的COMA系统很少。,11.3.2 多计算机系统,多处理器系统的缺点:规模扩展受到限制,通常百个左右CPU规模,同时要用大量硬件实现,它的最大规模是几百个CPU以内。多计算机系统的特点:每个CPU都有自己的私有内存,CPU不能访问其他CPU内存,不能再用L
11、OAD和STORE指令访问任意内存模块,而要用send和receive这样的原语相互传递消息。每个结点通过高性能互连网络连接起来,图116 多计算机系统结构,多计算机系统一般分成两大类:MPP和COW。1.MPP大规模并行处理机(Massively Parallel Processor)这是一种价值数百万到上亿美元的超级计算机系统。MPP系统已取代了原有SIMD计算机、向量超级计算机和阵列处理机,成为当今大型机、巨型机的主流。大多数的MPP系统都使用标准的CPU作为它们的处理器。大的系统都使用几百片以上的CPU集合而成,巨型机使用几千片CPU。,MPP有三大特点,第一为它使用了高性能的私用的互
12、连网络,可以在低时延和高带宽的条件下传递消息。另一特点是它们具有强大的输入输出能力。第三个特点是如何进行容错。在使用数千个CPU的情况下,每星期有若干CPU失效是常见的事情。如果,因一个CPU失效,而导致运行一天的任务被中止是不能容忍的。MPP系统还需要使用大量定制的软件和库。,2.COW工作站集群(Cluster of Workstation)它是另一种多计算机系统,也被称为工作站网络。COW系统是由数百台PC机或者工作站通过商用网络连接在一起构成的。COW系统主要有两种:集中式和分散式 集中式的COW是装在一个大机架上的工作站或者PC机的集群,这些计算机都是同构的,而且除了网卡和磁盘之外没
13、有其他的外设。这是当今第五代计算机的模型。,11.3.3 集群机系统Cluster,1.Cluster简介 计算机体系结构的研究就是当时的超级计算机的研究,超级计算机共经历了五代。第一代为早期的单芯片系统,第二代为向量处理系统,第三代为大规模并行处理系统,第四代为共享内存处理系统,第五代为集群系统,目前全球五百强超级计算机排名已经有半数以上是集群式系统。,第三代计算机(MPP)与第五代计算机:相同:(Cluster)在体系结构上是同构的,同属于分布式内存处理方式(DMPDistributed Memory Processing)差别:是否采用物美价廉的普通商品组件。MPP与Cluster从互连
14、角度看,区别在于MPP使用专用高性能互连网络,而Cluster使用商用网络。从CPU角度看MPP要用单独设计的高性能处理器,而Cluster采用高性能成品处理器,从价格方面看,MPP比Cluster要贵的多。,集群机系统的主要生命力来自其经济有效性,它采用高性能的普通日用品IA芯片、公开系统的主板、免费的公开源码操作系统与并行编程接口,使超级计算机系统的造价告别了天文数字,让具有一般规模的公司都用的起。基于集群机特点,它的规模可大可小。,2.Linux集群的特点 集群机根据采用的操作系统不同而称为某某集群,例如采用Linux就称为Linux集群,采用UNIX就称为UNIX集群。下面介绍Linu
15、x集群的特点。,Linux集群可分为三类:第一类是高可用性集群,运行于两个或多个节点上,目的是在系统出现某些故障的情况下,仍能继续对外提供服务。第二类是负载均衡集群,目的是提供和节点个数成正比的负载能力,这种集群很适合提供大访问量的Web服务。第三类是超级计算集群,按照计算关联程度的不同,又可以分为两种。一种是任务片方式,要把计算任务分成任务片,再把任务片分配给各节点,在各节点上分别计算后再把结果汇总,生成最终计算结果。另一种是并行计算方式,节点之间在计算过程中大量地交换数据,可以进行具有强耦合关系的计算。,CSM 包含多种组件,使 Linux 群集的管理更加容易:分布式管理服务器 事件应答资
16、源管理器。远程硬件控制 配置文件管理 分布式 Shell:能够在群集的所有节点上远程运行命令和脚本,并可以选择组合多个服务器的输出结果。,11.4 第六代超级计算机概念,这是一个比较超前的概念,目前并没有得到普遍认可,本书把两位专家的见解供读者阅读,这两位专家是李晓渝和邓越凡。李晓渝巨星超级计算技术有限公司总裁,曾任斯坦福大学的首席系统设计师;邓越凡南开大学计算研究所所长,美国纽约州立大学石溪分校教授。,在第五代超级计算机的基础上将性能与规模提升至少一个数量级,向每秒千万亿次(Pflops)的目标挺进。第六代超级计算机概念是依据超级计算机发展历史而提出的。它不针对计算模式和体系结构而定义,本质
17、上还是以到目前为止的主流冯诺依曼体系和半导体材料芯片为基础。第六代超级计算机的十项指标:高扩展能力(High Scalability)高性能节点比(High Performance Node Ratio)高整体系统均衡优化(High Over-all System Balance and Optimization)高可用性与可持续性(High Availability and Sustainability),高性能密度(High Performance Density)高机动性(High Mobility and Portability)高可管理性(High Manageability)高标准化与普适性(High Standardization and Commoditization)。高经济有效性(High CostEffectiveness)高性能能耗比(High Performance Power Ratio),
链接地址:https://www.31ppt.com/p-6046205.html