并行计算(中科大讲义)ppt课件.ppt
《并行计算(中科大讲义)ppt课件.ppt》由会员分享,可在线阅读,更多相关《并行计算(中科大讲义)ppt课件.ppt(617页珍藏版)》请在三一办公上搜索。
1、并行计算,结构算法编程,国家高性能计算中心(合肥),2,2022/12/14,并行计算结构算法编程,第一篇 并行计算的基础第一章 并行计算机系统及其结构模型第二章 当代并行机系统:SMP、MPP和Cluster第三章 并行计算性能评测第二篇 并行算法的设计第四章 并行算法的设计基础第五章 并行算法的一般设计方法第六章 并行算法的基本设计技术第七章 并行算法的一般设计过程,国家高性能计算中心(合肥),3,2022/12/14,并行计算结构算法编程,第三篇 并行数值算法第八章 基本通信操作第九章 稠密矩阵运算第十章 线性方程组的求解第十一章 快速傅里叶变换第四篇 并行程序设计第十二章 并行程序设计
2、基础第十三章 并行程序设计模型和共享存储系统编程第十四章 分布存储系统并行编程第十五章 并行程序设计环境与工具,国家高性能计算中心(合肥),4,2022/12/14,第一章并行计算机系统及结构模型,1.1 并行计算1.1.1 并行计算与计算科学1.1.2 当代科学与工程问题的计算需求1.2 并行计算机系统互连1.2.1 系统互连1.2.2 静态互联网络1.2.3 动态互连网络1.2.4 标准互联网络1.3 并行计算机系统结构1.3.1 并行计算机结构模型1.3.2 并行计算机访存模型,国家高性能计算中心(合肥),5,2022/12/14,并行计算,并行计算:并行机上所作的计算,又称高性能计算或
3、超级计算。计算科学:计算物理、计算化学、计算生物等科学与工程问题的需求:气象预报、油藏模拟、核武器数值模拟、航天器设计、基因测序等。需求类型:计算密集、数据密集、网络密集。美国HPCC计划:重大挑战性课题,3T性能美国Petaflops研究项目:Pflop/s。美国ASCI计划:核武器数值模拟。,国家高性能计算中心(合肥),6,2022/12/14,高性能计算机,Intel(Option Red):1Tflops,1997,Pentium ProSGI(Option Blue Mountain): 3Tflops,1998,MIPS10000IBM(Option White): 7Tflops
4、,Top4,2001,Power3日本Earth Simulator: 35Tflops,Top1,2002,VPHewlett-Packard ASCI Q: 7Tflops ,Top2,3,2002, Alpha Server中国联想:1Tflops,Top43,2002,国家高性能计算中心(合肥),7,2022/12/14,系统互连,不同带宽与距离的互连技术: 总线、SAN、LAN、MAN、WAN,国家高性能计算中心(合肥),8,2022/12/14,局部总线、I/O总线、SAN和LAN,国家高性能计算中心(合肥),9,2022/12/14,网络性能指标,节点度(Node Degree)
5、:射入或射出一个节点的边数。在单向网络中,入射和出射边之和称为节点度。网络直径(Network Diameter): 网络中任何两个节点之间的最长距离,即最大路径数。对剖宽度(Bisection Width) :对分网络各半所必须移去的最少边数对剖带宽( Bisection Bandwidth):每秒钟内,在最小的对剖平面上通过所有连线的最大信息位(或字节)数如果从任一节点观看网络都一样,则称网络为对称的(Symmetry),国家高性能计算中心(合肥),10,2022/12/14,静态互连网络 与动态互连网络,静态互连网络:处理单元间有着固定连接的一类网络,在程序执行期间,这种点到点的链接保持
6、不变;典型的静态网络有一维线性阵列、二维网孔、树连接、超立方网络、立方环、洗牌交换网、蝶形网络等动态网络:用交换开关构成的,可按应用程序的要求动态地改变连接组态;典型的动态网络包括总线、交叉开关和多级互连网络等。,国家高性能计算中心(合肥),11,2022/12/14,静态互连网络(1),一维线性阵列(1-D Linear Array):并行机中最简单、最基本的互连方式,每个节点只与其左、右近邻相连,也叫二近邻连接,N个节点用N-1条边串接之,内节点度为2,直径为N-1,对剖宽度为1当首、尾节点相连时可构成循环移位器,在拓扑结构上等同于环,环可以是单向的或双向的,其节点度恒为2,直径或为 (双
7、向环)或为N-1(单向环),对剖宽度为2,国家高性能计算中心(合肥),12,2022/12/14,静态互连网络(2),二维网孔(2-D Mesh):每个节点只与其上、下、左、右的近邻相连(边界节点除外),节点度为4,网络直径为 ,对剖宽度为 在垂直方向上带环绕,水平方向呈蛇状,就变成Illiac网孔了,节点度恒为4,网络直径为 ,而对剖宽度为 垂直和水平方向均带环绕,则变成了2-D环绕(2-D Torus),节点度恒为4,网络直径为 ,对剖宽度为,国家高性能计算中心(合肥),13,2022/12/14,静态互连网络(3),二叉树:除了根、叶节点,每个内节点只与其父节点和两个子节点相连。节点度为
8、3,对剖宽度为1,而树的直径为 如果尽量增大节点度为,则直径缩小为2,此时就变成了星形网络,其对剖宽度为传统二叉树的主要问题是根易成为通信瓶颈。胖树节点间的通路自叶向根逐渐变宽。,国家高性能计算中心(合肥),14,2022/12/14,静态互连网络(4),超立方 :一个n-立方由 个顶点组成,3-立方如图(a)所示;4-立方如图(b)所示,由两个3-立方的对应顶点连接而成。n-立方的节点度为n,网络直径也是n ,而对剖宽度为 。如果将3-立方的每个顶点代之以一个环就构成了如图(d)所示的3-立方环,此时每个顶点的度为3,而不像超立方那样节点度为n。,国家高性能计算中心(合肥),15,2022/
9、12/14,嵌入,将网络中的各节点映射到另一个网络中去用膨胀(Dilation)系数来描述嵌入的质量,它是指被嵌入网络中的一条链路在所要嵌入的网络中对应所需的最大链路数 如果该系数为1,则称为完美嵌入。 环网可完美嵌入到2-D环绕网中 超立方网可完美嵌入到2D环绕网中,国家高性能计算中心(合肥),16,2022/12/14,嵌入,国家高性能计算中心(合肥),17,2022/12/14,静态互连网络特性比较,国家高性能计算中心(合肥),18,2022/12/14,动态互连网络 (1),总线:PCI、VME、Multics、Sbus、MicroChannel 多处理机总线系统的主要问题包括总线仲裁
10、、中断处理、协议转换、快速同步、高速缓存一致性协议、分事务、总线桥和层次总线扩展等,国家高性能计算中心(合肥),19,2022/12/14,动态互连网络 (2),交叉开关(Crossbar):单级交换网络,可为每个端口提供更高的带宽。象电话交换机一样,交叉点开关可由程序控制动态设置其处于“开”或“关”状态,而能提供所有(源、目的)对之间的动态连接。交叉开关一般有两种使用方式:一种是用于对称的多处理机或多计算机机群中的处理器间的通信;另一种是用于SMP服务器或向量超级计算机中处理器和存储器之间的存取。,国家高性能计算中心(合肥),20,2022/12/14,动态互联网络 (3),单级交叉开关级联
11、起来形成多级互连网络MIN(Multistage Interconnection Network),国家高性能计算中心(合肥),21,2022/12/14,动态互连网络(4),交换开关模块: 一个交换开关模块有n个输入和n个输出,每个输入可连接到任意输出端口,但只允许一对一或一对多的映射,不允许多对一的映射,因为这将发生输出冲突 级间互连(Interstage Connection ):均匀洗牌、蝶网、多路均匀洗牌、交叉开关、立方连接n输入的网络需要 级 开关,在Ilinois大学的Cedar2多处理机系统中采用了网络 Cray Y/MP多级网络,该网络用来支持8个向量处理器和256个存储器模
12、块之间的数据传输。网络能够避免8个处理器同时进行存储器存取时的冲突。,国家高性能计算中心(合肥),22,2022/12/14,动态互连网络比较,n,节点规模 w,数据宽度,国家高性能计算中心(合肥),23,2022/12/14,标准互联网络(1),Myrinet:Myrinet是由Myricom公司设计的千兆位包交换网络,其目的是为了构筑计算机机群,使系统互连成为一种商业产品。Myrinet是基于加州理工学院开发的多计算机和VLSI技术以及在南加州大学开发的ATOMIC/LAN技术。Myrinet能假设任意拓扑结构,不必限定为开关网孔或任何规则的结构。Myrinet在数据链路层具有可变长的包格
13、式,对每条链路施行流控制和错误控制,并使用切通选路法以及定制的可编程的主机接口。在物理层上,Myrinet网使用全双工SAN链路,最长可达3米,峰值速率为(1.281.28)Gbps(目前有2.56+2.56)Myrinet交换开关 :8,12,16端口Myrinet主机接口 : 32位的称作LANai芯片的用户定制的VLSI处理器,它带有Myrinet接口、包接口、DMA引擎和快速静态随机存取存储器SRAM。140 of the November 2002 TOP500 use Myrinet, including 15 of the top 100,国家高性能计算中心(合肥),24,202
14、2/12/14,Myrinet连接的LAN/Cluster,国家高性能计算中心(合肥),25,2022/12/14,标准互连网络(2),高性能并行接口(HiPPI)Los Alamos国家实验室于1987年提出的一个标准,其目的是试图统一来自不同产商生产的所有大型机和超级计算机的接口。在大型机和超级计算机工业界,HiPPI作为短距离的系统到系统以及系统到外设连接的高速I/O通道。1993年,ANSI X3T9.3委员会认可了HiPPI标准,它覆盖了物理和数据链路层,但在这两层之上的任何规定却取决于用户。HiPPI是个单工的点到点的数据传输接口,其速率可达800Mbps到1.6Gbps。开发成功
15、了一种能提供潜在的6.4Gbps速率,比HiPPI快8倍且有很低时延的超级HiPPI技术,SGI公司和Los Alamos国家实验室都开发了用来构筑速率高达25.6Gbps的HiPPI交换开关的HiPPI技术。HiPPI通道和HiPPI交换开关被用在SGI Power Challenge服务器、IBM 390主机、Cray Y/MP、C90和T3D/T3E等系统,国家高性能计算中心(合肥),26,2022/12/14,使用HiPPI通道和开关构筑的LAN主干网,国家高性能计算中心(合肥),27,2022/12/14,标准互连网络(3),光纤通道FC(Fiber Channel) :通道和网络标
16、准的集成 光纤通道既可以是共享介质,也可以是一种交换技术 光纤通道操作速度范围可从100到133、200、400和800Mbps。FCSI厂商也正在推出未来具有更高速度(1、2或4Gbps)的光纤通道 光纤通道的价值已被现在的某些千兆位局域网所证实,这些局域网就是基于光纤通道技术的 连网拓扑结构的灵活性是光纤通道的主要财富,它支持点到点、仲裁环及交换光纤连接 FDDI :光纤分布式数据接口FDDI(Fiber Distributed Data Interface)FDDI采用双向光纤令牌环可提供100-200Mbps数据传输速率 FDDI具有互连大量设备的能力 传统的FDDI仅以异步方式操作,
17、国家高性能计算中心(合肥),28,2022/12/14,双向FDDI环作为主干网,国家高性能计算中心(合肥),29,2022/12/14,标准互联网络(4),ATM(Asynchronous Transfer Mode):由成立于1991年的ATM论坛和ITU标准定义。ATM是一种独立于介质的消息传输协议,它将消息段变成更短的固定长度为53字节的报元进行传输。这种技术是基于报元交换机制。ATM的目的是将实时和突发数据的传输合并成单一的网络技术。ATM网络支持从25到51、155和622Mbps不同的速率,其速率越低ATM交换器和使用的链路价格越低。,国家高性能计算中心(合肥),30,2022/
18、12/14,香港大学开发的Pearl机群,国家高性能计算中心(合肥),31,2022/12/14,标准互连网络(5),国家高性能计算中心(合肥),32,2022/12/14,并行计算机结构模型,国家高性能计算中心(合肥),33,2022/12/14,并行计算机体系合一结构,SMP、MPP、DSM和COW并行结构渐趋一致。大量的节点通过高速网络互连起来节点遵循Shell结构:用专门定制的Shell电路将商用微处理器和节点的其它部分(包括板级Cache、局存、NIC和DISK)连接起来。优点是CPU升级只需要更换Shell。,国家高性能计算中心(合肥),34,2022/12/14,五种结构特性一览
19、表,国家高性能计算中心(合肥),35,2022/12/14,并行计算机访存模型(1),UMA(Uniform Memory Access)模型是均匀存储访问模型的简称。其特点是:物理存储器被所有处理器均匀共享;所有处理器访问任何存储字取相同的时间;每台处理器可带私有高速缓存;外围设备也可以一定形式共享。,国家高性能计算中心(合肥),36,2022/12/14,并行计算机访存模型(2),NUMA(Nonuniform Memory Access)模型是非均匀存储访问模型的简称。特点是:被共享的存储器在物理上是分布在所有的处理器中的,其所有本地存储器的集合就组成了全局地址空间;处理器访问存储器的时
20、间是不一样的;访问本地存储器LM或群内共享存储器CSM较快,而访问外地的存储器或全局共享存储器GSM较慢(此即非均匀存储访问名称的由来);每台处理器照例可带私有高速缓存,外设也可以某种形式共享。,国家高性能计算中心(合肥),37,2022/12/14,并行计算机访存模型(3),COMA(Cache-Only Memory Access)模型是全高速缓存存储访问的简称。其特点是:各处理器节点中没有存储层次结构,全部高速缓存组成了全局地址空间;利用分布的高速缓存目录D进行远程高速缓存的访问;COMA中的高速缓存容量一般都大于2 级高速缓存容量;使用COMA时,数据开始时可任意分配,因为在运行时它最
21、终会被迁移到要用到它们的地方。,国家高性能计算中心(合肥),38,2022/12/14,并行计算机访存模型(4),CC-NUMA(Coherent-Cache Nonuniform Memory Access)模型是高速缓存一致性非均匀存储访问模型的简称。其特点是:大多数使用基于目录的高速缓存一致性协议;保留SMP结构易于编程的优点,也改善常规SMP的可扩放性;CC-NUMA实际上是一个分布共享存储的DSM多处理机系统;它最显著的优点是程序员无需明确地在节点上分配数据,系统的硬件和软件开始时自动在各节点分配数据,在运行期间,高速缓存一致性硬件会自动地将数据迁移至要用到它的地方。,国家高性能计算
22、中心(合肥),39,2022/12/14,并行计算机访存模型(5),NORMA(No-Remote Memory Access)模型是非远程存储访问模型的简称。NORMA的特点是:所有存储器是私有的;绝大数NUMA都不支持远程存储器的访问;在DSM中,NORMA就消失了。,国家高性能计算中心(合肥),40,2022/12/14,构筑并行机系统的不同存储结构,国家高性能计算中心(合肥),41,2022/12/14,第二章 当代并行机系统,2.1 共享存储多处理机系统2.1.1 对称多处理机SMP结构特性2.2 分布存储多计算机系统2.2.1 大规模并行机MPP结构特性2.3 机群系统2.3.1
23、大规模并行处理系统MPP机群SP22.3.2 工作站机群COW,国家高性能计算中心(合肥),42,2022/12/14,对称多处理机SMP(1),SMP: 采用商用微处理器,通常有片上和片外Cache,基于总线连接,集中式共享存储,UMA结构例子:SGI Power Challenge, DEC Alpha Server,Dawning 1,国家高性能计算中心(合肥),43,2022/12/14,对称多处理机SMP(2),优点对称性单地址空间,易编程性,动态负载平衡,无需显示数据分配高速缓存及其一致性,数据局部性,硬件维持一致性低通信延迟,Load/Store完成问题欠可靠,BUS,OS,SM
24、通信延迟(相对于CPU),竞争加剧慢速增加的带宽(MB double/3年,IOB更慢)不可扩放性-CC-NUMA,国家高性能计算中心(合肥),44,2022/12/14,大规模并行机MPP,成百上千个处理器组成的大规模计算机系统,规模是变化的。NORMA结构,高带宽低延迟定制互连。可扩放性:Mem, I/O,平衡设计系统成本:商用处理器,相对稳定的结构,SMP,分布通用性和可用性:不同的应用,PVM,MPI,交互,批处理,互连对用户透明,单一系统映象,故障通信要求存储器和I/O能力例子:Intel Option Red IBM SP2 Dawning 1000,国家高性能计算中心(合肥),4
25、5,2022/12/14,典型MPP系统特性比较,国家高性能计算中心(合肥),46,2022/12/14,MPP所用的高性能CPU特性比较,国家高性能计算中心(合肥),47,2022/12/14,机群型大规模并行机SP2,设计策略:机群体系结构 标准环境 标准编程模型 系统可用性 精选的单一系统映像 系统结构:高性能开关 HPS 多级网络 宽节点、窄节点和窄节点2,国家高性能计算中心(合肥),48,2022/12/14,工作站机群COW,分布式存储,MIMD,工作站+商用互连网络,每个节点是一个完整的计算机,有自己的磁盘和操作系统,而MPP中只有微内核优点:投资风险小系统结构灵活性能/价格比高
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 并行 计算 中科大 讲义 ppt 课件

链接地址:https://www.31ppt.com/p-1684716.html