书签分享收藏举报版权申诉 / 114

立即下载加入VIP免费专享

当前位置：首页 > 生活休闲 > 在线阅读 > 计算机组织与结构--第8章-并行组织课件.ppt

计算机组织与结构--第8章-并行组织课件.ppt

上传人：牧羊曲112

文档编号：4084474

上传时间：2023-04-03

格式：PPT

页数：114

大小：2.03MB

《计算机组织与结构--第8章-并行组织课件.ppt》由会员分享，可在线阅读，更多相关《计算机组织与结构--第8章-并行组织课件.ppt（114页珍藏版）》请在三一办公上搜索。

1、本章结构,8.1 计算机系统的并行性,研究计算机体系结构的目的：提高计算机系统的性能；计算机体系结构的重要研究内容之一：开发计算机系统的并行性。,计算机体系结构、计算机组织和计算机实现,计算机体系结构、计算机组织和计算机实现三者互不相同但又互相影响,计算机组织（Computer Organization）：所研究的是计算机系统的逻辑实现；,计算机实现（Computer Implementation）：所研究的是计算机系统的物理实现。,计算机体系结构：是程序员所看到的计算机的属性，即概念性结构和功能特性；,体系结构中的并行性,现代计算机的一个共同特点是大量采用并行技术，使计算机的性能得以不断提高

2、。并行性（parallelism）：指的是在同一时刻或是同一时间间隔内完成两种或两种以上性质相同或不相同的工作。只要时间上互相重叠，就存在并行性，其包含同时性和并发性两层含义。同时性（simultaneity）：指两个或多个事件在同一时刻发生的并行性；并发性(concurrency)：指两个或多个事件在同一时间间隔内发生的并行性。,并行性等级划分：从执行程序角度,指令内部并行：指的是指令内部的微操作之间的并行。指令级并行：指的是并行执行两条或多条指令，就是指令之间的并行。线程级并行：指的是并发执行多个线程，通常是以一个进程内控制派生的多个线程为调度单位。任务级或过程级并行：指的是并行执行两个或

3、多个过程或任务(程序段)。作业或程序级并行：指的是在多个作业或程序间的并行。,并行性等级划分：从处理数据的角度,字串位串:指的是同时只对一个字的一位进行处理。字串位并：指的是同时对一个字的全部位进行处理，不同字之间是串行的。字并位串：指的是同时对许多字的同一位(称位片)进行处理。全并行：指的是同时对许多字的全部或部分位进行处理。,提高并行性的技术途径,最低耦合,1、时间重叠,2、资源重复,3、资源共享,提高并行性的技术途径,1、时间重叠,时间重叠：多个处理过程在时间上相互错开，轮流重叠地使用同一套硬件设备的各个部分，以加快硬件周转而赢得速度。实现时间重叠的基础：部件功能专用化。时间重叠的实质：

4、把一件工作按功能分割为若干个相互联系的部分；然后把每一部分指定给专门的部件完成；最后按时间重叠原则把各部分执行过程在时间上重叠起来，使所有部件依次分工完成一组同样的工作。流水线技术就是时间重叠的典型应用。,时间重叠举例,例：一条指令的执行可以看成是由四个过程组成，即取指令、指令译码、指令执行和写结果。,（a）4个子过程的指令流水线,4条指令流水的时空图,2、资源重复,资源重复：根据“以数量取胜”的原则来实现并行，其付出的代价是在空间上通过重复地设置资源，尤其是硬件资源，以提高计算机系统的性能。,资源重复的并行举例,3、资源共享,资源共享是一种软件方法的并行，它使多个任务按一定时间顺序轮流使用同

5、一套硬件设备。资源共享的实质就是用单处理机模拟多处理机的功能，形成所谓虚拟机的概念。,多机系统的并行性,多机系统：包括多处理机系统和多计算机系统。多机系统也遵循时间重叠、资源重复和资源共享这三种基本的技术途径，向着三种不同的多处理机方向发展。,多机系统的耦合度,耦合度：反映多机系统的各机器之间的物理连接的紧密程度和交互作用能力的强弱。,最低耦合,最低耦合,松散耦合,紧密耦合,多机系统的耦合度分为,最低耦合,最低耦合耦合度最低的系统。除通过某种中间存储介质之外，各计算机之间没有物理连接，也无共享的联机硬件资源。,松散耦合或间接耦合系统,松耦合系统的各处理机间通过共享I/O子系统、通道或通信线路

6、实现处理机间通信和互连，不共享主存，但可共享某些外围设备(例如磁盘、磁带等)，机间的相互作用是在文件或数据集一级进行。松散耦合多处理机由多个处理机、一个通道、一个仲裁开关和消息传送系统组成。每个处理机带有一个局部存储器和一组I/O设备。在仲裁开关的通道中有高速通信存储，用来缓冲传送的信息块。,紧密耦合系统或直接耦合系统,紧耦合多处理机系统，其处理机间物理连接的频带较高，它们往往通过总线或高速开关实现互连，可以共享主存，各处理机之间是通过互连网络共享主存的。一般地，紧耦合系统由P台处理机、m个存储器模块、d个I/O通道和三个互连网络构成。处理机-存储器网络实现处理机与各存储模块的连接；处理机中断

7、信号网络实现多处理机之间的互连；处理机-I/O互连网络实现处理机与外设的连接。每个处理机可自带局部存储器，也可自带Cache存储器模块，可采用流水工作方式。紧耦合系统多用于并行作业中的多任务，一般处理机是同构的。,并行计算机体系结构的分类,Flynn（弗林）分类法：美国的弗林（Michael Flynn）于1966年提出的分类法这种分类法主要依据指令流和数据流的多倍性关系来对计算机系统进行分类。指令流是指机器执行的指令序列；数据流是指由指令流调用的数据序列，包括输入数据和中间结果；多倍性是指在系统瓶颈部件上处于同一执行阶段的指令或数据的最大可能数。,Flynn分类法,按照Flynn分类法，把计

8、算机系统分成四类，分别是：单指令流单数据流（SISD：Single Instruction Stream Single Data Stream）单指令流多数据流（SIMD：Single Instruction Stream Multiple Data Stream）多指令流单数据流（MISD：Multiple Instruction Stream Single Data Stream）多指令流多数据流（MIMD：Multiple Instruction Stream Multiple Data Stream）,SISD计算机,SISD实际上就是传统的单处理器计算机。只要指令部件每次只对一条指令

9、译码，只对一个操作部件分配数据，就属于SISD系统。,SISD计算机,SIMD计算机,SIMD中具有代表性的例子是相联处理机和阵列处理机。特殊地，如果“多倍性”中“处于同一执行阶段”被理解成一条指令的操作全过程，那么流水线处理机的不同子过程操作就可以看作是不同子部件处理的是同一条指令的不同阶段的数据，此时流水线处理机也可以算是SIMD。,SIMD计算机,MISD计算机,MISD的一般形式是有n个处理单元，按n条不同指令的要求对同一个数据流及其中间结果进行不同的处理，一个处理单元的输出作为另一个处理单元的输入。,MISD计算机,MIMD计算机,MIMD系统能实现作业、任务、指令、数组各级的并行，

10、是能实现较为全面的并行处理的多机系统。MIMD一般形式是按n条不同指令的要求在n个控制单元的控制下对n个数据流及其中间结果进行不同的处理。,MIMD计算机,知识拓展：数据流机与归约机,数据流机的两种驱动方式：种是数据驱动方式，即一条指令当且仅当所需的操作数准备就绪时便开始执行，完全不需要指令计数器的控制。另一种是需求驱动方式，即任何操作都是纯函数操作，只有当某一个函数需要某个自变量时才驱动对该自变量的求值操作，即每一数据流操作都是消耗一组输入值，产生一组输出值而不产生副作用，这就确保任何两个并发操作可以任意次序执行，而不会产生干扰。,归约机,归约机：一种面向函数程序设计语言的计算机，指令的执行

11、顺序取决于这些指令产生结果数据的需求，而这种需求又源于函数式程序设计语言对表达式的归约。按其归约模型可分为：串归约机图归约机两者的主要区别是对函数表达式所使用的存储方式不同，前者以字符串形式存储而后者以图的形式存储。,8.2流水线技术,计算机中的流水线技术是一种利用资源重叠技术提高机器性能的并行处理技术，它能在不增加机器硬部件的情况下，通过对某一部件功能进行合理的分解与设计，有效提高部件的处理速度。,流水线的分类,1.按照计算机处理的级别来分类,流水线的分类,2.按照流水线可以完成的动作的数量来分类,多功能流水线的实现,同一个流水线在不同连接下可以分别实现浮点加、减运算时的连接和定点乘、除法运

12、算时的连接,流水线的分类,3.按照多功能流水线的各个段是否允许同时进行多种不同功能的连接流水来分类,静态流水线时空图,假设先后有二批任务要完成，第一批是n个任务的浮点加、减运算；第二批任务是AE共5个任务的定点乘法运算,按照静态方式形成流水线,动态流水线时空图,假设先后有二批任务要完成，第一批是n个任务的浮点加、减运算；第二批任务是AE共5个任务的定点乘法运算,按照动态方式形成流水线,流水线的分类,4.按照流水线内部的功能部件的连接方式（如各功能段之间是否有反馈回路）来分类,非线性流水线举例,流水线的分类,5.按照机器可处理的对象来分类,流水线的主要性能参数,衡量一种流水线处理方式的性能的高低

13、的参数主要有吞吐率、加速比和效率。吞吐率（TP,Thoughput Rate），指的是计算机中的流水线在单位时间内能流出的任务数或结果数。流水线的吞吐率可以进一步分为最大吞吐率和实际吞吐率。在线性流水线中，最大吞吐率Tp max1/T1/max（T1，.，Ti，.，Tm），其中，m是流水线的段数，Ti表示的是第i段的执行时间。,最大吞吐率受到了瓶颈段的约束,例如，某流水线有4个段，其中2号段由于需用时3t，所以2号段是瓶颈段，见图（a）；5个任务流经该流水线时的流水效果的实际情况如图（b）所示，显然流水速度受到了2号瓶颈的限制。,细分瓶颈段,把瓶颈部分的流水线分拆，以便任务可以充分流水处理,并

14、联瓶颈段,在瓶颈部分设置多条相同流水段，并行处理,流水线的实际效率,分析并计算出流水线的实际效率,分析实际吞吐率的时空图,加速比（Speed Ratio）,假设该流水线各子功能段执行时间均为t，流水段有m个段，那么n个任务非流水顺序完成需要nmt的时间；流水完成则需要mt+(n-1)t的时间；因此，流水方式工作的加速比为：,所以在流水线各子功能段执行时间均相等的情况下，仅当nm时，其加速比才能趋近于最大值m，即流水线的段数。,效率（Efficiency）,效率（Efficiency）：也称流水线设备的时间利用率，又称使用效率，它指的是流水线中各个部件的利用率，也就是设备的实际使用时间占整个运行

15、时间的比值。以前面“分析实际吞吐率的时空图”来看，在T时间里流水线的各段效率都相同，均为0，整个流水线的效率就是，计算如下：,效率实际上就是n个任务占用的时空区面积与m个段总的时空区面积的比值。显然，只有当nm时，才趋近于1。,流水线的相关问题,结构相关：当指令在重叠执行过程中，硬件资源满足不了指令重叠执行的要求，两条或两条以上指令争用同一资源而引起的冲突，因此，结构相关又称为资源相关。数据相关：当一条指令需要用到前面指令的执行结果，而这些指令均在流水线中重叠执行时，就有可能产生数据相关。控制相关冲突：是由转移指令引起的。当执行转移指令时，依据转移条件的产生结果，可能为顺序取下条指令；也可能转

16、移到新的目标地址取指令，从而使流水线发生断流。,结构相关,例如，假设一条指令流水线由5段组成，分别为取指令（IF）、指令译码（ID）、取操作数（MEM）、执行运算（EX）和写寄存器（WR）。若指令I2的取操作数和指令I4的取指令都需要访问存储器。若机器中只有一个单端口存储模块，那么I2的取操作数和指令I4的取指令就产生了访存冲突，两个操作无法同时进行，这就是一种典型的资源冲突。,结构相关解决办法,解决办法：1、在机器中增加存储器模块，如使用双端口存储器，使指令和数据分别存放在不同的存储器模块中，这样，取指令和取操作数就不会发生冲突。2、当发生取指令或取操作数冲突时，将其中一个操作的执行时间推迟

17、，如下图所示。当然，这样的话也就是发生了流水线的断流，流水线的吞吐率就下降了。,访存相关引起流水线断流,数据相关,在流水计算机中，指令的处理是重叠进行的，前一条指令还没有结束，第二、三条指令就陆续地开始工作。由于多条指令的重叠处理，当后继指令所需的操作数，刚好是前一指令的运算结果时，便发生数据相关冲突。,ADD R1,R2,R3；（R2）（R3）R1SUB R4,R1,R5；（R1）（R5）R4AND R6,R1,R7；（R1）（R7）R6,顺序流动和异步流动,任务在流水线中的流动顺序的安排和控制可以有两种方式。1、任务流入和流出的顺序一致，称为顺序流动方式或同步流动方式；2、任务流出和流入的

18、顺序可以不同，称为异步流动方式。,顺序流动和异步流动,控制相关的解决办法,（1）猜测法顾名思义，猜测法就是当遇见转移指令时，会形成两个分支，+1、+2、，是转移不成功时继续执行的一路分支，另一路分支是转移成功时转向执行指令p、p+1、。流水意味着同时解释多条指令，i进入流水线后，后面到底是执行i+1还是p指令那要等指令i的条件码建立以后才知道，而i的条件码建立一般要等到条件转移指令i快流出流水线时才行，那么在没有建立i的条件码之前，i之后的指令停等下来的话，流水就断流了，性能肯定下降。为了不断流，可采用猜测法猜取i+1和p两个分支中的一个继续向前流动。,控制相关的解决办法,（2）加快和提前形

19、成条件码尽快尽早地获得条件码，就可以提前知道流水线将流向哪个分支。其一，加快单条指令内部的条件码的形成，尤其是某些反映运算结果的条件码完全可以不必等到指令执行完就可以提前形成。比如，根据运算规律来看，乘、除运算的结果是正是负的条件码就完全可以在运算前形成。其二，在一段程序内提前形成条件码，比如循环程序，一般是根据循环条件判断是否继续转移。,控制相关的解决办法,（3）采用延迟转移采用延迟转移办法是用软件方法进行静态指令调度的技术，就是在编译生成目标指令程序时，将条件转移指令与它前面不相关的一条或多条指令交换位置，让成功转移总是延迟到在这一条或多条指令执行之后再进行。延迟转移方法因为思路简单，而

20、且不必增加硬件，故比较实用。,控制相关的解决办法,（3）采用延迟转移(续)采用延迟转移办法是用软件方法进行静态指令调度的技术，就是在编译生成目标指令程序时，将条件转移指令与它前面不相关的一条或多条指令交换位置，让成功转移总是延迟到在这一条或多条指令执行之后再进行。延迟转移方法因为思路简单，而且不必增加硬件，故比较实用。,控制相关的解决办法,（4）加快短循环程序的处理其一，为避免短循环程序取进了指缓后，由于指令预取导致指缓中需循环执行的指令被冲掉，为减少访存次数，可将短循环程序一次性整个地装入指缓内，以加快短循环程序的处理。其二，由于循环分支概率高，让循环出口端的条件转移指令恒猜循环分支，就可以

21、降低因为条件分支而造成的流水线断流的机率。,流水线调度,线性流水线在执行每个任务的过程中，各段均只通过一次，于是自然想到，如果每拍都送一个新的任务进入流水线，这些任务显然是不会争用同一个流水线的。非线性流水线则不同，因为段间设置有反馈回路，一个任务在流水的全过程中，可能会多次通过同一个段，或越过某些段不会经过。所以，如果每拍都送一个新的任务进入非线性流水线时，将会发生多个任务争用同一个段的情况，这称之为功能段冲突现象。,流水线调度举例,在一个5段的流水线处理器上需经9拍才能完成一个任务。该预约表内第n行第k列打“*”处表示任务在第k拍要用到第n段功能。现在要求根据这个预约表找到最佳调度方案。并

22、求出按此流水调度方案输入6个任务的实际最大吞吐率是多少？效率是多少？,流水线调度举例解答,初始冲突向量 C(10001101),状态转移图,流水线调度举例解答,流水线调度分析表,流水线调度举例解答,按照（2，5）调度方案周期性调度，实际输入6个任务，全部6个任务完成所需的时间为25拍，其时空图如下图所示。实际吞吐率为Tp6/25（任务/拍）效率68/(255)68/125,按照（2，5）方案调度输入6个任务的时空图,超标量处理机,假设一条指令包含取指令、译码、执行和存结果四个子过程，每个子过程经过的时间为t。常规标量单流水处理机是在每个t期间解释完一条指令，如下图所示。完成9个任务需要12t时

23、间，称这种流水机的度m=1。,常规(度m1)标量流水处理机时空图,超标量处理机,超标量处理机则采用多指令流水线，每个t同时流出m条指令（m就是度）。右图是m3时的流水时空图，每3条指令为一组，执行完9条指令只需6t。度m1是超标量流水机的特例，并行度为1就逐条执行。超标量流水线处理机的典型代表有Intel公司的i860、i960、Pentium处理机，Motolora公司的MC88110，IBM公司的Power 6000，SUN公司的SuperSPARC等。,m3时的超标量流水时空图,超流水线处理机,如果超流水线处理机的度用m表示，一个机器周期为t，那么把机器周期分为m个子周期，每个子周期表示

24、为t，tt/m，那么每个t可以流出一条指令。用k表示一条指令所含的基本机器周期数，那么一条指令需花kmt的时间。超标量处理机着重利用资源重复，设置多个执行部件寄存器堆端口，而超流水线处理机则着重开发时间的并行性。超流水线处理机的典型代表有SGI公司的MIPS R4000、R5000、R10000等。,度m3的超流水线时空图,度m3的超流水线时空图,超标量超流水线处理机,将超标量流水线与超流水线机结合就形成了超标量超流水线处理机。超标量超流水线处理机在一个t时间内发射了k条指令（超标量）。每次发射时间错开t（超流水），相当于每拍t流出了nk条任务，并行度为mkn。超标量超流水线处理机典型机器有D

25、EC公司的Alpha等。,并行度m9的超标量超流水线时空图如下图所示，k3，n3，并行度m9，完成12个任务就需5t，完成21个任务就只需6t,知识拓展：龙芯2E增强型处理器芯片的流水线,龙芯2E（Longson 2E）是一款国产实现64位MIPS 指令集的通用RISC处理器。采用90nm的CMOS工艺，布线层为七层铜金属，芯片晶体管数目为4700万，芯片面积6.8mm5.2mm，最高工作频率为1GHz，典型工作频率为800MHz，实测功耗57瓦。龙芯2E具有片上128KB一级缓存、512KB二级缓存，单精度峰值浮点运算速度为80亿次/秒，双精度浮点运算速度为40亿次/秒，在1GHz主频下SP

26、EC CPU2000的实测分值达到500分，综合性能已经达到高端Pentium 以及中低端Pentium 4处理器的水平。,知识拓展：龙芯2E增强型处理器芯片的流水线(续),龙芯2E的基本流水线包括取指、预译码、译码、寄存器重命名、调度、发射、读寄存器、执行、提交等9级。,知识拓展：龙芯2E增强型处理器芯片的流水线(续),龙芯2E的基本流水线包括取指、预译码、译码、寄存器重命名、调度、发射、读寄存器、执行、提交等9级。,知识拓展：龙芯2E增强型处理器芯片的流水线(续),龙芯2E的基本流水线包括取指、预译码、译码、寄存器重命名、调度、发射、读寄存器、执行、提交等9级。,8.3 多处理机系统,具有

27、能同时执行多个任务或多条指令或同时对多个数据项进行处理的计算机系统通称为并行处理计算机系统，包括阵列计算机、向量计算机、多处理机系统和多计算机系统。阵列计算机和向量计算机属于SIMD系统，它们通过使用多个处理器同时对多个数据进行处理，从而提高机器的数据处理能力，这类机器对于数组或向量运算具有较高的性能，常用于如图像处理、具有向量化运算的科学计算领域等。,多处理机系统和多计算机系统,多处理机系统和多计算机系统都属于MIMD系统。多处理机系统是指两个或两个以上处理机通过高速互连网络连接起来，在统一的操作系统管理下，实现指令以上级（任务级、作业级）并行。多计算机系统则是由多个独立的计算机组成，它们通

28、过某种方式连接起来，实现并行处理或计算。一般来讲，多计算机系统属于松耦合系统，构成系统的可以是独立的计算机；而多处理机系统更多属于紧耦合系统，各处理机既独立又联系紧密，如通过共享存储器互连等。,对称多处理机SMP,通常SMP系统使用商品微处理器（具有片上或外置高速缓存）作为其处理机，它们经由互联网络与一个共享存储器互连。共享存储器可以被所有处理器通过互联网络进行访问，就如同一个单处理器访问它的存储器一样。所有处理器对任何存储单元有相同的访问时间。互联网络可以是单总线、多总线或者是交叉开关。,对称多处理机SMP,因为对共享存储器的访问是平衡的，每个处理器有相等的机会读写存储器，也有相同的访问速度

29、，故这类系统就称为对称多处理机SMP。因为这种对称多处理器的存储器是共享的，所以又称为共享存储器多处理机系统。,对称式共享存储器结构多处理机系统SMP,分布式共享存储器多处理机DSM,分布式共享存储器多处理机DSM具有分布的物理存储器。为支持更大数目的处理机，存储器必须分布到各个处理机上，而非集中式，否则存储器系统将不能满足处理机带宽的要求。系统将物理上分散的各台处理机所拥有的局部存储器在逻辑上统一编址，形成一个统一的虚拟地址空间，以实现存储器的共享。其存储器采用Cache 目录表来支持分布高速Cache的一致性。系统中每个结点包含了处理机、存储器、I/O以及互连网络接口。,分布式共享存储器多

30、处理机DSM(续),DSM和SMP的主要差别是：SMP中的处理机没有自己的局部存储器，系统的存储器是由所有处理机所共享；而DSM将存储器在物理上分布到各处理机中，并进行统一编址，形成一个共享的虚拟存储器。,分布式共享存储器结构多处理机系统DSM,大规模并行处理机PP,MPP：一般是指超大型（Very Large-Scale）并行计算机系统，大规模并行处理需要有新的计算方法、存储技术、处理手段和结构组织方式。实现的方法：将数百乃至数千个高性能、低成本的RISC微处理器用专门的互联网络互联，组成大规模并行处理机（MPP）。这种处理机可进行中粒度和细粒度大规模并行处理，构成SIMD或MIMD系统。优

31、点：具有高性价比，并且可扩展性很好。,大规模并行处理机PP,MPP一般具有如下特性：（1）处理节点采用商品微处理器；（2）系统中有物理上的分布存储器；（3）采用高通信带宽和低延迟的互连网络(专门设计和定制的)；（4）能扩放至成百上千个处理器；（5）它是一种异步的MIMD机器，程序系由多个进程组成，每个都有其私有地址空间，进程间采用传递消息相互作用。,大规模并行处理机PP(续),大规模并行处理机（MPP）系统采用的关键技术主要是VLSI、可扩展技术和共享虚拟存储技术；其适用的领域主要是科学计算、工程模拟和信号处理等以计算为主的一些重大课题和领域。比如全球气候预报、基因工程、飞行动力学、海洋环流、

32、流体动力学、超导建模、半导体建模、量子染色动力学、视觉等。,多处理机的Cache一致性,在单处理机系统中，Cache一致性问题只存在于Cache与主存之间，即使有I/O通道共享Cache亦可通过全写法或回写法较好地加以解决。在紧耦合多处理机系统中，如果采用全写法，也只能维持一个Cache和主存之间的一致性，不能自动更新其他处理机中的Cache的相同副本，所以解决不了多处理机中Cache之间的一致性。实现Cache一致性的方法有多种，大体分为两类：软件方法硬件方法,软件方法,软件解决方法的思路：在程序的编译阶段解决问题，即使用编译程序对程序代码进行Cache一致性分析，确定什么样的数据项可能会造

33、成Cache的不一致性，然后相应地标记出这些项，最后由操作系统或硬件来防止这些数据项用于Cache。软件方法的优点：Cache的一致性问题的解决在编译时实现，使复杂的机器硬件系统的设计变得简单。缺点：在编译时进行的保守判决会导致一些不会引起Cache一致性的数据项可能也会禁止被Cache引用，从而导致Cache利用率的下降。,硬件方法,基于硬件的方法又称为Cache一致性协议，通过对运行过程中共享数据块状态的跟踪和潜在的不一致条件的动态识别，来阻止相关数据对Cache的使用。硬件的方法又分成两大类：目录协议（Directory protocol）监听协议（Snoopy protocol）这2种

34、方法主要体现在具体实现上的不同，如数据块状态信息保存在何处，信息是如何组织的，在何处实施一致性以及实施一致性机构的组织等。,硬件方法(续),目录协议：在主存中保存有一个目录，记录了共享数据块的状态及相关信息，由一个集中控制器（主存控制器的一部分）对该目录进行集中管理和维护，通过该目录来跟踪运行过程中共享数据块的状态，并对潜在的不一致条件进行动态识别。监听协议：每个处理机Cache除了包含主存储器中的数据拷贝之外，也保存着各个数据块的共享状态信息，各个处理机的Cache控制器通过监听共享存储器总线来判断是否有总线上请求的数据块，从而对这些数据块进行跟踪和处理。,监听协议,监听协议使用两种方法来维

35、持一致性要求：写作废协议写更新协议,写作废协议,写作废协议（write invalidate）是在一个处理机写某数据块后，若新写入主存储器中的数据与其它Cache拷贝中的数据不一致，则使所有其它Cache拷贝中的数据作废。这样的话，今后某个处理机对该数据进行读时会产生读失效，于是从主存储器中将该块调入Cache，该处理机的Cache又与主存储器保持一致了。,写更新协议,写更新协议是当一个处理机写某数据项时，通过广播使其他处理机的Cache中所对应数据项拷贝也同时更新。为减少协议所需的带宽，应知道Cache中该数据项是否为共享状态，也就是别的处理机Cache中是否也存在该数据项拷贝。如果不是共享

36、数据，则写时就无需进行广播。,基于监听协议的MESI协议,基于监听协议的MESI协议：以协议中用到的四种状态即Modified(修改)、Exclusive(独占)、Shared(共享)和Invalid(无效)的首字母来命名的。这个协议中每个Cache项都处于下面四种状态之一：修改（Modified）：该项的数据是有效的，但内存中的数据是无效的，而且在其它Cache项中没有该项数据的拷贝。独占（Exclusive）：没有其它的Cache项包括这行数据，内存中的数据是最新的。共享（Shared）：多个Cache项中都有这行数据，内存中的数据才是最新的。无效（Invalid）：该Cache项包含的数

37、据无效。大多数X86架构的CPU都是用这种MESI协议，比如Power PC601,M88110,Intel 的Pentium 和i860，AMD K6，及以后的一些产品中，都采用了此种方法。,多处理机操作系统,多处理机操作系统目前主要有三种类型：主从式操作系统独立监督式操作系统浮动监督式操作系统,主从式操作系统,主从式操作系统(master-slave)由一台主处理机记录、控制其他从处理机的状态，并分配任务给从处理机。主从式操作系统有如下特点：（1）操作系统程序在一台处理机上运行。如果从处理机需要主处理机提供服务，则向主处理机发出请求，主处理机接受请求并提供服务。不一定要求把整个管理程序都编

38、写成可重入的程序代码，因为只有一个处理机在使用它，但有些公用例程必须是可重入的才行。（2）不存在管理表格存取冲突和访问阻塞问题。,主从式操作系统(续),（3）当主处理机故障时很容易引起整个系统的崩溃。如果主处理机不是固定设计的，管理员可从其他处理机中选一个作为新主处理机并重新启动系统。（4）任务分配不当容易使部分从处理机闲置而导致系统效率下降。（5）系统由一个主处理机加上若干从处理机组成，硬件和软件结构相对简单，但灵活性差。（6）主从式操作系统用于工作负载不是太重或由功能相差很大的处理机组成的非对称系统。,独立监督式操作系统,独立监督式操作系统(separate supervisor)与主从式

39、操作系统不同，在这种类型中，每一个处理机均有各自的管理程序（核心）。独立监督式OS的特点：（1）每个处理机将按自身的需要及分配给它的任务的需要来执行各种管理功能，这就是所谓的独立性。（2）由于有好几个处理机在执行管理程序，因此管理程序的代码必须是可重入的，或者为每个处理机装入专用的管理程序副本。,独立监督式操作系统(续),（3）因为每个处理机都有其专用的管理程序，故访问公用表格的冲突较少，阻塞情况自然也就较少，系统的效率就高。但冲突仲裁机构仍然是需要的。（4）每个处理相对独立，因此一台处理机出现故障不会引起整个系统崩溃。但是，要想补救故障造成的损失或重新执行故障机未完成的工作非常困难。（5）每

40、个处理机都有专用的I/O设备和文件等。（6）独立监督式操作系统要实现处理机负载平衡更困难。这类操作系统适合于松耦合多处理机体系，因为每个处理机均有一个局部存储器用来存放管理程序副本，存储冗余太多，利用率不高。,浮动监督式操作系统,浮动监督式操作系统(floating supervisor)每次只有一台处理机作为执行全面管理功能的“主处理机”，但根据需要，主处理机是可浮动的，即从一台切换到另一台处理机。是最复杂、最有效、最灵活的一种多处理机操作系统，适用于紧耦合多处理机体系，常用于对称多处理机系统中。,浮动监督式操作系统(续),浮动监督式操作系统的特点：（1）每次只有一台处理机作为执行全面管理功

41、能的“主处理机”，但容许数台处理机同时执行同一个管理服务子程序。因此，多数管理程序代码必须是可重入的。（2）根据需要，“主处理机”是可浮动的，即从一台切换到另一台处理机。这样，即使执行管理功能的主处理机故障，系统也能照样运行下去。,浮动监督式操作系统(续),（3）一些非专门的操作（如I/O中断）可送给那些在特定时段内最不忙的处理机去执行，使系统的负载达到较好的平衡。（4）服务请求冲突可通过优先权办法解决，对共享资源的访问冲突用互斥方法解决。（5）系统内的处理机采用处理机集合概念进行管理，其中每一台处理机都可用于控制任一台I/O设备和访问任一存储块。这种管理方式对处理机是透明的，并且有很高的可靠

42、性和相当大的灵活性。,多处理机的并行性实现,1、并行算法及其分类（1）按运算基本对象分为：数值型（基于代数运算）：矩阵运算、线性方程组求解等均为典型的数值型并行算法；非数值型（基于关系运算）：非数值型并行算法主要是对符号操作的，以排序、选择、查找、字符处理的并行为主要代表。,并行算法分类(续),（2）按并行进程间的操作顺序不同又分为：同步型：同步型并行算法意味着并行的各个进程间由于相关而必须依序等待；异步型：异步型并行算法则是各个进程间相互独立，没有关联，无需因关联而等待，进程的中止或继续执行取决于执行情况；独立型：独立型并行算法则意味着各个进程间完全独立，进程间无需通信。,并行算法分类(续)

43、,（3）按计算任务的大小还可以分为：细粒度：细粒度并行算法的典型代表是向量或循环级的并行；中粒度：较大的循环级并行一般就属于中粒度并行算法了；粗粒度：粗粒度并行算法一般指子任务级的并行。,并行算法思路,研究并行算法的一种思路：将大的程序分解成一定数量的可并行处理的子过程（可以是进程、任务或程序段），其直观地表现形式是把每个过程看成一个结点，将过程之间的关联用结点组成的树来描述。这样，程序内各过程之间的关系就可以简单地当成是一种算术表达式中各项之间的运算关系来处理了，表达式中的每一项都可以看成是一个程序段的运行结果。这样，程序段之间的并行性问题就可以被设想成是对算术表达式如何进行并行运算的问题了

44、。,并行算法性能评价标准,并行算法性能标准：P：表示可以并行处理的处理机的数量；T1：表示单台处理机顺序运算的级数；Tp：表示P台处理机运算的级数（树的高度）；Sp：此处指多处理机的加速比；表示T1与Tp之比；Ep：表示P台处理机的设备利用率（使用效率），EpSp/P。,不同的并行算法对计算机性能的影响举例,例：有一个算术表达式F1a+bx+cx2+dx3，试分析算法对树高的影响。解答一：利用霍纳（Horner）法进行变换，得到等价式为：F1a+x(b+x(c+x(d)，这是一个典型的循环算法，需3个乘加循环，6级运算，即P1，T16，适合于单处理机，用树形流程图表示见下图（a）；此解法问题

45、：这样的变换并不适合在多处理机上并行运行，因为这3个乘加循环之间产生了关联，无法并行！,不同的并行算法对计算机性能的影响举例(续),用原来的式子在多处理机上直接求解更有效，此时P3，Tp4，Sp3/2，Ep1/2。如图（b）所示。两者比较，加速比Sp3/2，但Ep1/2！即运算的加速总是伴随着效率的下降。,如何对树进行变换,既然把运算过程表示成了树，树的高度又代表着运算的级数，那么提高运算的并行度问题就变成了如何对树进行变换，来降低树的高度，以减少运算的级数。那么如何对树进行变换呢？树形结构可以用结合律、交换律和分配律来变换树的形状。对树形结构进行变换的过程是：首先利用交换律把相同的运算集中在

46、一起。然后利用结合律把参加这些运算的操作数配对，尽可能并行运算，从而组成树高最小的子树。最后再把这些子树结合起来，用分配律进一步降低树高。,并行语言和并行编译,2、并行语言和并行编译算术表达式ZM+A*B*C/D+N，利用串行编译算法，产生三元指令组为：1*AB2*1C3/2 D4+3 M5+4 N6=5 Z指令之间都是相关的，需5级运算。但如果利用并行编译算法，其三元指令组为：1*AB2/CD3*1 24+M N5+3 46=5 Z两个处理机并行处理的话，则3级运算就够了。,并行语言和并行编译(续),根据这个并行编译的结果，我们可以很容易地得到如下程序：S1GA*BS2HC/DS3IG+HS

47、4JM+NS5ZI+J算术表达式ZM+A*B*C/D+N对应的并行控制程序如下：BeginCobeginS1；S2；S4；CoendS3；S5；end,8.4 机群系统,机群系统（Cluster）是指一组完整的计算机互连，它们作为一个统一的计算机资源一起工作，并能产生一台机器的印象。机群是一组独立的计算机结点的集合体，但机群对用户和应用来说它只是一个单一的系统，结点间通过高性能的互连网络连接。各结点除了可以作为一个单一的计算资源供交互式用户使用外，还可以协同工作并表现为一个单一的、集中的计算资源供并行计算任务使用。,机群系统组件,机群系统中主要包括下列组件：高性能的计算结点机。机群的结点可以是

48、一个工作站，或者是一台个人计算机，但也可以是一台规模相当大的对称多处理机(SMP)。高速交换网络。结点间的互连可以通过普通的商用网络(如以太网、FDDI、ATM等)和使用标准的网络通信协议，也可以使用专门设计的网络。具有较强网络功能的操作系统。机群中间件。支持分布共享存储器及为用户提供单一系统映象的资源管理和调度软件等。并行程序设计环境与工具，如编译器、语言环境、并行虚拟机（PVM）和消息传递接口（MPI）等。应用，包括串行和并行应用程序。,机群系统的组成,首先，在硬件组成上，各个结点（PC或工作站）通过高速网络或硬件开关互连；其次，每个独立的结点计算机都有自己的操作系统用于完成网络通信，并安

49、装有中间件以允许机群操作；最后，通过机群系统提供的并行程序设计环境为并行应用程序提供运行环境。,机群系统的组成(续),机群系统组成结构图,机群中间件功能,机群中的中间件能提供以下的功能：单一入口点：用户通过单一入口登录到机群上而不是个别的计算机上。单一文件层次：用户看到的是同一根目录下的单一文件目录系统。单一控制点：系统使用一台默认的机器用于整个机群的管理和控制。单一存储空间：机群为用户程序提供的是统一的共享存储器，虽然共享存储器可以是分布在各个结点中，但对用户程序而言，它们所看到的是一个统一的虚拟的存储空间。,机群中间件功能(续),单一作业管理系统：在机群作业调度程序管理下，用户提交作业无需

50、指定执行此作业的宿主计算机。单一用户接口：机群使用一个统一的公共图形接口支持所有用户，不管用户从哪台机器登录系统。单一I/O空间：任一结点都能访问系统中的所有I/O设备或磁盘系统，而无须知晓其在系统中的具体位置。进程迁移：这一功能可以使系统负载均衡。,机群系统中的关键技术,机群系统中的关键技术主要包括:通信技术并行程序设计环境单一系统映像（Single System Image,SSI）,单一系统映像（SSI）,单一系统映像（SSI）的目的是将整个机群系统虚拟为一个统一的系统，使用户感觉不到各工作站的存在，而好像就在使用一台普通的计算机。SSI的作用是使分散的资源看起来是一个统一的更强大的资源