《并行处理机》PPT课件.ppt
第 8 章 并行处理机,8.1 并行处理(SIMD)机原理8.2 并行处理机算法 8.3 并行处理机举例,并行处理机是通过重复设置大量相同的处理单元PE(Processing Element),将它们按一定的方式互连,在统一的控制部件CU(Control Unit)控制下,对各自分配来的不同数据并行地完成同一条指令所规定的操作。它依靠操作一级的并行处理来提高系统的速度。,并行处理机的控制部件中进行的是单指令流,因此与高性能单处理机一样,指令基本上是串行执行,最多加上使用指令重叠或流水线的方式工作。指令重叠是将指令分成两类,把只适合串行处理的控制和标量类指令留给控制部件自己执行,而把适合于并行处理的向量类指令播送到所有处理单元,控制让处于活跃的那些处理单元去并行执行。因此这是一种标量控制类指令和向量类指令的重叠执行。,8.1.1 并行处理机的原理和基本构成,并行处理机分类,并行处理机根据存贮器采用的组成方式不同分成两种基本构成。(1)分布存贮的并行处理机 各个处理单元设有局部存贮器存放分布式数据,只能被本处理单元直接访问。此种局部存贮器称为处理单元存贮器(Processing Element Memory)PEM。在控制部件CU内设有一个用来存放程序的主存贮器CUM。整个系统在CU统一控制下运行系统程序的用户程序。执行主存中的用户程序指令播送给各个PE,控制PE并行地执行。,(2)共享存贮的并行处理机。每个PE没有局部存触器,存储模块以集中形式为所有PE共享。互连网IN受CU控制,具有双向性采用分布式存贮器组成基本结构。,(A)具有共享存贮器并行处理机结构,(B)分布存贮器并行处理机结构,共享-分布存储器,并行处理机的特点 并行处理机的单指令流多数据流处理方式和由它产生的特殊结构是以诸如有限差分、矩阵、信号处理、线性规划等一系列计算问题为背景发展起来的。这些计算问题的共同特点是可以通过各种途径把它们转化成为对数组或向量的处理,而并行处理机正好利用多个处理单元对向量或数组所包含的各个分量同时计算,从而获得很高的处理速度。并行VS流水,资源重复,Vs 时间重叠;同时性,VS 并发性;其设备利用率却可能没有多个单功能流水线部件那样高。只有在硬件价格有了大幅度下降及系统结构有了较大改进的情况下,并行处理机才能具有较好的性能价格比。,第 8 章 并行处理机,8.1 并行处理(SIMD)机原理8.2 并行处理机算法 8.3 并行处理机举例,处理单元阵列 由64个PUi构成,每个Pui包括(PEi和PEMi)由64个结构完全相同的处理单元PEi 构成,每个处理单元PEi字长64位,PEMi为隶属于PEi的局部存储器,每个存储器有2K字,全部PEi由CU统一管理,PEi都有一根方式位线,用来向CU传送每个PEi的方式寄存器D中的方式位,使CU能了解各PEi的状态是否活动,作为控制它们工作的依据。,阵列控制器 CU 相当一台小型控制计算机 对处理单元阵列实现控制,(发控制信号,广播公共地址,广播公共数据)对指令流进行译码控制,利用CU内部资源可以进行标量操作,接受和处理各类中断,其他输入输出操作。,I/O系统 由磁盘文件系统DFS,输入输出子系统和宿主计算机S/C构成(驻留操作系统,编译程序,I/O服务程序等),8.2.1 并行处理机的算法,8.2.1 并行处理机的算法,ILLIAC 的处理单元阵列结构,图 8.2 ILLIAC 处理单元的互连结构,在阵列处理机上,解决矩阵加法是最简单的一维情形。若有两个 88 的矩阵A、B相加,所得结果矩阵C也是一个 88的矩阵。只需把A、B居于相应位置的分量存放在同一个PEM内,且在全部 64个PEM中,令A的分量均为同一地址,B的分量单元均为同一地址+1,而结果矩阵C的各个结果分量也相应存放于各PEM同一地址+2的单元内,如图 6.4 所示。这样,只需用下列3条ILLIAC 的汇编指令就可以一次实现矩阵相加:,SIMD处理机的算法举例-矩阵加法,LDA ALPHA;全部()由PEMi送PEi的累加器RGAiADRN ALPHA+1;全部(+1)与(RGAi)进行浮点 加,结果送RGAiSTA ALPHA+2;全部(RGAi)由PEi送PEMi的+2单元这里,0i63。,SIMD处理机的算法举例-矩阵乘 由于矩阵乘是二维数组运算,故它比循环加要复杂一些。设A、B和C为3个 88 的二维矩阵。若给定A和B,则为计算C=A*B的 64 个分量,可用下列公式,其中,0i7 且 0j7。,在SISD计算机上求解这个问题,可执行用FORTRAN语言编写的下列程序,DO 10 I=0,7 DO 10 J=0,7 C(I,J)=0 DO 10 K=0,710 C(I,J)=C(I,J)+A(I,K)*B(K,J),SIMD处理机的算法举例-矩阵乘,需要经过I、J、K三重循环完成。每重循环执行 8 次,总共需要512次乘、加的时间,此外每次还应包括执行循环控制、判别等其他操作需花费的时间。,以消去J循环为例,可执行用FORTRAN语言编写的程序 DO 10 I=0,7 C(I,J)=0DO 10 K=0,710 C(I,J)=C(I,J)+A(I,K)*B(K,J),SIMD处理机的算法举例-矩阵乘,如果在SIMD阵列处理机上运算,则可用 8 个处理单元并行计算矩阵C(I,J)的某一行或某一列,即将J循环或I循环转化成一维的向量处理,消去了一重循环。,图 矩阵乘程序执行流程图,第 8 章 并行处理机,8.1 并行处理(SIMD)机原理8.2 并行处理机算法 8.3 并行处理机举例,8.3 并行处理机举例,8.3.1 ILLIAC 阵列处理机,图 ILLIAC 的组成,8.3.1 ILLIAC 阵列处理机-单元互联,PE的字长为64 位,内部主要包括 4 个64 位的寄存器,它们是累加器 A、操作数寄存器B、数据路由寄存器R、通用存贮寄存器S。其运算部分有一个加法/乘法器、逻辑部件以及分别用于算术、布尔和移位操作的桶形开关。另有一个16位的变址寄存器X,一个8位的用于存放测试结果和PE屏蔽标志的方式寄存器,一个形成访存地址的地址加法器。,8.3.1 ILLIAC 阵列处理机,在PE中能进行64或32位浮点运算、48或24位定点运算、8位字符处理、64位逻辑运算等。所有PE都按CU播送来的指令工作,但可通过屏蔽标志来确定本PE是否活跃,即是否执行该指令。PEMi是依附于PEi的局部存贮器,容量为2 K字。,并行读写磁盘用作后援存贮器,容量为109 位。传送控制器将数据从磁盘取到PEM时,按CU来的要求向B6500 发中断请求。缓冲I/O存贮器用作B6500的缓冲。I/O接口用作处理单元阵列与I/O子系统及磁盘间的数据通路转接和缓冲。PEM中的指令或数据经CU总线送往CU,每次可送 8 个字,即 512 位。,8.3.1 ILLIAC 阵列处理机,CU经 64 位的公共数据总线向所有PE播送公用信息,经指令控制线向所有PE发送控制命令。方式位线共 64 根,每个PEi有一根,用来向CU传送该PEi的方式寄存器中的方式位。,8.3.2 BSP科学处理机,图 BSP的5 级数据流水线结构示意图,图 BSP科学处理机系统组成,8.3.2 BSP科学处理机,8.3.2 BSP科学处理机,(1)并行处理机:并行机中每个处理器以160ns的时钟周期进行向量计算。所有16个算术单元AE对不同的数据组(从并行处理机控制器广播来)进行同一种指令操作。(2)控制处理器:除了用以控制并行处理机以外,还提供了与系统管理机相连的接口。,(3)文件存储器:半导体辅助存储器。BSP的计算任务文件从系统管理机加载到它上面。然后对这些任务进行排队,由控制处理机加以执行。(4)对准网络:完全交叉开关和用来实现数据从一个源广播至几个目的地以及当几个源寻找一个目的地地址时能分解冲突的硬件。这就需要在算术单元阵列和存储器模块之间具备通用的互连特性。而存储模块和对准网络的组合功能则提供了并行存储器的无冲突访问能力。算术单元也利用输出对准网络来实现一些诸如数据压缩和扩展操作以及快速傅立叶变换算法等专用功能。,作用:(1)由17个存储器模块并行读出16个操作数;(2)经对准网络NW1将16个操作数重新排列成16个处理单元所需要的次序;(3)将排列好的16个操作送到并行处理单元完成操作;(4)所得的16个结果经过对准网络NW2重新排列成17个存储器模块所需要的次序;(5)写入存储器;,BSP的五级数据流水线 在BSP中,存储器-存储器型的浮点运算是流水进行的。BSP的流水线组织由五个功能级组成。尤其是并行处理机包括有16个处理单元、17个存储器模块和2套互连网络(亦称对准网络)组合在一起,就形成了一条五级的数据流水线,使连续几条向量指令能在时间下重叠起来执行。,8.3.2 BSP科学处理机,8.3.3 MPP位平面阵列处理机,图 MPP并行处理机原理框图,(1)位平面结构:半每一个处理单元只包含一位的硬设备,内部的算术逻辑运算按照位片串行进行,节省了设备和通讯带宽。(2)网络:Illiac相似的网络互联结构。(3)系统控制:整个系统的控制任务由程序及数据管理部件PDMU完成。,8.3.4 CM连接机,图 CM-5 的组成,(1)位平面结构。(2)网络:立方体网络,PE位于立方体网络的顶角上。(3)特点:可以进行SISD,SIMD,MIMI的切换。,图 二叉胖树连接,8.3.4 CM连接机,(1)CM-5的改进。实用胖树形的网络连接,增大根节点通讯量,本章重点并行处理机的基本结构和特点ILLIAC 处理单元的互连阵列处理机的算法,