并行计算机体系结构第二章.ppt
《并行计算机体系结构第二章.ppt》由会员分享,可在线阅读,更多相关《并行计算机体系结构第二章.ppt(65页珍藏版)》请在三一办公上搜索。
1、第二章 并行计算机系统的性能度量,并行计算机系统的性能度量,硬件效率、各功能部件之间的性能平衡软件效率软硬件和需求之间的性能匹配。理想的系统应该是无瓶颈的平衡系统、结构支持应用,应用适应结构理想的计算机是为应用量身定制的计算机,并行计算机系统的性能度量,衡量计算机性能的指标 计算速度、存储容量、响应时间、通信带宽和系统吞吐率、每条指令的平均执行时间为了降低计算机成本,我们通过硬件功能的软化实现,比如我们将视频解压卡换为信息解压软件。,2.1 计算机速度,计算机通过运行程序来完成工作。不能用一段程序的运行时间来衡量计算机的性能,往往一段程序的运行与它跟计算机适应的程序相关为了客观综合描述计算机系
2、能,我们往往用大量程序运行的运行速度进行衡量,或者我们还可以用所谓的制定运行库来衡量计算机性能。,2.1 计算机速度,为了定量讨论机器速度,定义下列参数,:时钟周期f=1/:时钟频率CPI:执行每条指令的平均周期数。IPC=1/CPI:平均每拍流出的指令数。,Ic:给定程序的指令数T:给定程序的执行时间。TFU:功能部件时间常数,一般为功能部件的流水线段数+2.,2.1 计算机速度,指令条数Ic的程序的执行时间为T=Ic*CPI*。指令的执行:取指令、指令译码、取操作数、操作、存操作数。指令部件和功能部件协同完成。在流水线中,指令流出时就完成了译码,所以每条指令有一个与操作相关的功能部件时间常
3、数和数据传送的最小执行周期数。对R-R型指令,CPI=TFU。,2.1 计算机速度,对m-m型指令,CPI=TFU+mk。其中k为存储器周期与时钟周期之比,m为访存次数。当访存出现冲突时,导致CPI增加。,2.1 计算机速度,T=Ic*(TFU+mk)*Ic:与应用程序、指令系统和编译有关;:机器主频的倒数。受限于指令功能的复杂程度、器件的水平和采用的技术,与指令系统和实现技术有关m:与存储系统结构和访存指令类型有关k:与存储器结构、实现技术和有关。TFU:与指令功能、实现技术和有关。,2.1.1 MIPS、Flops和PDR,MIPS速率 设C为执行已知程序的时钟周期数。则T=C*t MIP
4、S M指令/秒。MIPS=I/(T*106)=f/(CPI*106)MIPS与时钟频率成正比,与CPI成反比 计算机系统中的指令系统、编译器、处理器和存储技术对MIPS都有影响。,2.1.1 MIPS、Flops和PDR,MIPS提高MIPS的最有效的办法就是提高主频和每拍流出的指令条数。为提高主频:指令尽量简洁,功能实现的逻辑时间短,推动了RISC的发展为提高IPC:超长指令字,超标量和并行处理机。,2.1.1 MIPS、Flops和PDR,Mflops:反映计算机每秒产生的结果数,不计指令仅计结果比MIPS公正。MIPS和Mflops都没有考虑机器的字长或数据的精度。但是精度与机器性能直接
5、相关。,2.1.1 MIPS、Flops和PDR,PDR:对不同操作和字长加权后的每秒处理多少位数据。用以衡量计算机的速度 PDR=L/R。L=0.85*定点指令位数+0.15*浮点指令数+0.4*定点数字长+0.15*浮点数字长R=0.85*定点加时间+0.09*浮点加时间+0.06*浮点乘时间,2.1.2 SPEC和TPS,SPEC:为了公正的评价计算机的性能,推出基准测试程序,用这些程序在被测机上运行的时间除对应程序的参考时间所得值的几何平均值就是所谓的SPEC分数值。SPEC主要针对处理器、存储器和编译性能的测试,不针对I/O和通信性能测试,尤其不适合于多机系统的性能评价。,2.1.2
6、 SPEC和TPS,TPS:TPS评价更佳侧重于事务处理,单位时间内完成的交易。主要取决于计算机硬件的计算、I/O和通信速度,也取决于操作系统和数据库等软件性能。,2.2 并行计算机的速度计算,并行化的应用程序在并行计算机上的执行时间最能反映并行系统的处理性能。与系统提供的性能支持、应用程序特性、并行算法、并行程序和并行编译水平有关。应能最大程度地利用并行系统中处理机资源,发挥其性能潜力。,2.2.1 算术平均速度,2.2.2 调和平均速度,2.2.3 几何平均速度,2.3 并行计算机的加速比和效率,程序的并行性并行度:并行化程序在有p个处理机的系统上运行,使用的处理机的数目,为时间的函数,记
7、作DOP(t)=p。t0-t1期间并行度的算术平均值,称为程序的并行性A。,2.3.2 加速比通式,加速比反映并行系统运行并行程序时系统并行能力发挥的程度。加速比定义为其中T(1)是程序在单处理机上执行完的时间,T(n)是程序以并行度i(i=P,其中P为处理机数目)并行执行完程序的时间。1=S(p)=P,2.3.2 加速比通式,多机运行过程中,一定会有多个计算机之间的通信设总工作量为W,并设程序中并行度为i的工作量为Wi=fiW则,其中V1为单机运行速度。,2.3.2 加速比通式,当程序的并行度大于系统的处理机数时(iP),应该将i按P进行分组,需要运行的次数为i/P次,此时的加速比其中O(n
8、)为并行开销,包括并行化开销、交互开销和通信开销等,是一个与硬件、软件和应用均有关的函数。目前O(n)已经是影响大规模并行处理系统性能发挥的瓶颈。,2.3.2 加速比通式,为了突出并行度对加速比的贡献,有些加速比公式中,往往假设O(n)=0,加速比公式将转化为其实现在多机系统中O(n)程序研制并行系统的关键技术之一,无法忽视为0。上述的S(p)仅仅是理想状态下的值。书19页例题2.1,2.2,2.3.3 固定负载加速比,固定负载加速比中,假设只有两种工作:串行工作和全并行工作,所谓全并行工作就是P台处理器全部工作。设串行工作量W1=f1W,Wp=(1-f1)W。此时S(P)转化为希望f1越小越
9、好,也被称作串行瓶颈。,2.3.3 固定负载加速比,固定负载加速比中,我们发现只要增加并行工作的工作量。比如我们把并行工作的工作量增大P倍,则加速比工作可以转化为我们可以发现,当并行工作量增加P倍的时候,在P台处理机上执行的时间和在一台处理机上执行的时间相同。,但是大家有没有发现公式的问题呢?,2.3.4 固定时间加速比,在刚刚的公式中,我们发现公式的问题。也就是并行工作量增加了p倍之后,分子上的并行工作量并未随着发生改变。在此基础上我们导出固定时间加速比,2.3.5 固定存储加速比,在多机系统中,处理机数扩展至P倍,系统的存储能力也应该做相应的增加。对于有些空间复杂性低于时间复杂性的科学计算
10、问题,系统存储容量的增大,可支持更大的并行工作量的增加,增加的倍数为G(p)倍(G(P)=P)。G(P)受限于存储器的容量。则得到如下加速比公式,2.3.5 固定存储加速比,在上面的公式中,如果多计算系统中的存储器不是全局共享,则G(P)=P,此时变成固定时间加速比。当并行负载并不增加时,变成固定负载加速比。一般情况下随着存储容量的增加,其并行工作量的增加G(P)P,所以固定负载加速比会比固定时间加速比有更好的加速能力和可扩展性。书22页例题2.3,2.3.6 粒度匹配加速比模型,前面我们提到的并行程序不包括并行化和任务间的互操作开销。并行化包括进行的管理、分配和查询等操作,开销来自软件系统;
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 并行 计算机体系结构 第二
链接地址:https://www.31ppt.com/p-6117080.html