多核程序设计第二章并行程序设计基础并行计算基础课件.ppt
《多核程序设计第二章并行程序设计基础并行计算基础课件.ppt》由会员分享,可在线阅读,更多相关《多核程序设计第二章并行程序设计基础并行计算基础课件.ppt(31页珍藏版)》请在三一办公上搜索。
1、第二章 并行计算基础,并行计算:并行计算就是将一个大规模的计算问题分解成若干小的任务,通过运行在多个运算部件上的这些小任务的合作来求解一个规模很大的计算问题的一种方法。强并行计算:如果一个计算由若干子计算构成,若各子计算之间不存在依赖关系,可以并行计算,那么这种计算可以称为强并行计算。弱并行计算:如果一个计算由若干子计算构成,若各子计算之间存在依赖关系,不能并行计算,但是单个的子计算内又可以分解为若干更小粒度的子计算,且这些更小粒度的子计算是可以并行执行的,这种并行计算可以称为弱并行计算。,并行计算的应用 预测模型的构造和模拟、工程设计和自动化、能源勘探、医学、军事以及基础理论研究等领域中都对
2、计算提出了极高的要求。并行计算三种主要的基本类型:计算密集型应用,如大型科学工程计算与数值模拟;数据密集型应用,如数字图书馆、数据仓库、数据挖掘和计算可视化等;网络密集型应用,如协同工作、遥控和远程医疗诊断等。,第二章 并行计算基础,并行程序开发方法,并行层次与代码粒度 指令级并行:在多个并行层次中指令级并行是代码粒度最小的并行,也称为微粒度并行、甚细粒度并行;数据级并行:又称为细粒度并行,它比指令级并行所执行的代码粒度要大一些,一般长度为几百条指令,这类并行通常都是在编译阶段由编译器来负责实现的;控制级并行:也叫中粒度并行,通常是面对过程、子过程,其代码的长度一般为几千条指令。这一级的并行通
3、常需要程序员的参与,一般情况下必须由程序员先对过程间的数据依赖关系进行分析然后再开发出相应的并行性;任务级并行:任务级并行也叫做作业级并行、粗粒度并行,其代码的长度一般可高达数万条指令,一般是由加载程序和操作系统来负责处理的。,并行程序开发方法,并行程序的开发策略 第一种是采用将已有的串行程序进行自动并行化的方法来开发适合于并行计算机运行的并行程序;第二种是调用并行库来实现并行程序的开发;第三种是使用并行语言重新编写能运行于高性能并行计算机上的并行代码。,并行程序设计模式,并行程序设计模式的基本思路对数据进行分解,将大的数据块分解成若干小块,每个线程处理其中的某些小块;对计算过程进行分解,将一
4、个大的计算处理过程分解成若干可独立运行的子过程,然后每个线程运行其中的一个或多个子过程;基于问题进行分解,将一个原问题分解为若干子问题,然后将子问题的解合并起来成为原问题的解。,并行程序设计模式,并行程序设计模式 数据分解模式:将数据分解成若干独立的子数据块,每个线程处理其中的一个或多个子数据块;分治模式:将一个原问题的求解分解为多个子问题的求解,然后再将多个子问题的解通过一定的计算方法合并为原问题的解;流水线模式:将一个计算过程分解成流水线式的多个步骤序列,对于每个步骤的处理使用一个或多个线程来实现;,并行程序设计模式,并行程序设计模式任务并行模式:将一个大的静态计算任务分解成若干独立的小计
5、算任务,让这些小计算任务并行执行;任务图调度模式:将一个大的静态任务分解成若干小的计算任务时,由于很多时候各个小任务在执行时许多非独立的小任务之间存在依赖关系,将这种依赖关系通过一个无环有向图来描述,这个图就是任务图,对它的并行化方法是任务调度问题,这就是任务图调度模式;动态任务调度模式:任务图调度模式调度的是静态的任务,但是在很多情况下任务不是静态的而是在运行过程中动态产生的。运用共享资源分布式计算的知识实现的关于动态任务调度的并行模式就是动态任务调度模式,它的突出特点就是可以实现并行计算。,并行计算基础,组成并行计算机的各个部分:节点(node):每个节点由多个处理器构成,可以直接进行输入
6、输出(I/O)操作;互联网络(interconnect network):所有节点通过互联网络相互连接通信;内存(memory):内存由多个存储模块组成1、与节点对称的分布在互联网络的两侧;2、位于各个节点的内部。,并行计算基础,内存模块与节点分离,内存模块位于节点内部,多级存储体系结构,解决内存墙(memory wall)性能瓶颈问题;节点内部的cache称为二级cache(L2 cache);处理器内部更小的cache成为一级cache(L1 cache);L1 cache连接CPU寄存器和L2 cache,负责缓存L2 cache中的数据到寄存器中。,多级存储体系结构,并行计算机的多级存
7、储结构主要包括两个问题:Cache的映射策略,即cache如何从内存中取得数据进行存储;节点内部或者节点之间内存的访问模式。cache原理,cache以cache线为基本单位,每条cache包含L个字,每个字8个字节。例如,L=4,则表示cache线包含4*8=32个字节。内存空间分割成块(block),每个块大小与cache线长度一致,数据在内存和cache之间的移动以cache线为基本单位。For i=1 to M Ai=Ai+2*Bi 如果操作数存在cache中,称该次访问是命中的,否则,该次操作是“扑空”的。,多级存储体系结构,cache的映射策略(内存块和cache线之间如何建立相互
8、映射关系):直接映射策略(direct mapping strategy):每个内存块只能被唯一的映射到一条cache线中;K路组关联映射策略(K-way set association mapping strategy):Cache被分解为V个组,每个组由K条cache线组成,内存块按直接映射策略映射到某个组,但在该组中,内存块可以被映射到任意一条cache线;全关联映射策略(full association mapping strategy):内存块可以被映射到cache中的任意一条cache线。,访存模型,UMA(Uniform Memory Access)模型:该模型内存模块与节点分离
9、,分别位于互联网络的两侧 物理存储器被所有节点共享;所有节点访问任意存储单元的时间相同;发生访存竞争时,仲裁策略平等对待每个节点,即每个节点机会均等;各节点的CPU可带有局部私有高速缓存;外围I/O设备也可以共享,且每个节点有平等的访问权利。,访存模型,NUMA(Non-Uniform Memory Access)模型:该模型内存模块分布在各个节点内部,所有局部内存模块均构成并行计算机的全局内存模块。内存模块在物理上是分布的,在逻辑上是全局共享的,这种模型也称之为“分布式共享访存模型”物理存储器被所有节点共享,任意节点可以直接访问任意内存模块;节点访问内存模块的速度不同,访问本地存储模块的速度
10、一般是访问其他节点内存模块的3倍以上;发生访存竞争时,仲裁策略对节点可能是不等价的;各节点的CPU可带有局部私有高速缓存(cache);外围I/O设备也可以共享,但对各节点是不等价的。,访存模型,COMA(Cache-Only Memory Access)模型:全高速缓存存储访问模型 各处理器节点中没有存储层次结构,全部高速缓存组成了全局地址空间;利用分布的高速缓存目录进行远程高速缓存的访问;COMA中的高速缓存容量一般都大于2级高速缓存容量;使用COMA时,数据开始时可以任意分配,因为在运行时它最终会被迁移到要用到它的地方。,并行计算模型,SIMD同步并行计算模型共享存储的SIMD模型(PR
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多核 程序设计 第二 并行 基础 计算 课件
链接地址:https://www.31ppt.com/p-3807004.html