计算机组成原理第6章流水线原理.ppt
《计算机组成原理第6章流水线原理.ppt》由会员分享,可在线阅读,更多相关《计算机组成原理第6章流水线原理.ppt(87页珍藏版)》请在三一办公上搜索。
1、第6章 流水线原理及其1 重叠方式,通常提高指令执行速度的途径有如下三种:提高处理机的工作主频。采用更好的算法和设计更好的功能部件。多条指令并行执行,称为指令级并行技术。,可以从两个方面来开发处理机内部的并行性:空间并行性:即在一个处理机内设置多个独立的操作部件,并让这些操作部件并行工作,这种处理机称为多操作部件处理机或超标量处理机;时间并行性:就是采用流水线技术。流水线技术是一种非常经济、对提高处理机的运算速度非常有效的技 术。采用流水线技术可以不增加硬件或只需要增加少量硬件就能够把处理机的运算速度提高几倍 它是目前使用非常普遍的一种并行处理方式。,本章学习标量计算机上使用的流水加速技术。主
2、要内容有流水技术的分类、流水线性能指标计算、非线性流水线的调度算法。标量计算机指只能直接进行标量运算的计算机,与能够直接进行向量运算的向量计算机相对应。流水处理方式的特征,是让多个依次启动的任务,尽量同时使用系统的不同部件,通过时间重叠来提高处理速率。这种技术理论上不增加成本。标量计算机上使用的流水加速技术属于指令级并行技术。每条指令的处理过程,可以划分为取指、译码、取数、运算、送结果5个子过程,也可以分得更细或更粗一些。划分的原则是各部分时间长度大致相等、并使用CPU中不同的部件,这样才有利于多任务重叠处理。,基本名词术语标量处理机,超标量处理机:标量处理机指只能进行标量运算的处理机,超标量
3、处理机指能在一个时钟周期内同时发射多条指令的处理机;指令级并行技术:指能使多条指令并行执行的技术,包括流水技术、多操作部件技术和超长指令字技术;流水线处理机,超流水线处理机:流水线处理机指用流水作业方式并行解释多条指令的处理机,超流水线处理机指能在一个时钟周期内分时发射多条指令的处理机;超长指令字技术VLIW:指让一条指令包含多个独立的操作字段,并且分别控制多个功能部件并行工作的技术。,一重叠解释方式1.一条指令的几个过程段 1)取指令:根据PC(指令计数器)从M(存储器)取出指令送到IR(指令寄存器)2)译码分析:译出指令的操作性质,准备好所需数据 3)执行:将准备好的数按译出性质进行处理,
4、主要涉及ALU(算术逻辑运算部件)2.对指令执行的几种方式,1)顺序执行(传统机采用)只有在前一条指令的各过程段全部完成后,才从存储器取出下一条指令 2)仅两条指令重叠:第i条指令的执行与第i+1条的取指重叠。3)三条指令重叠:第i条指令的执行与第i+1条的译码及第i+2条的取指重叠。,若一条指令的过程段划分更多时,重叠组合方式更多。重叠解释并不能加快一条指令的实现,但能加快一段程序的解释。3.重叠方式中所需时间表达式及所需时间计算1)条件:设一条指令分为三个过程段,各过程段分别用t取、t译、t执表示。执行K条指令,分别采用顺序执行、两条重叠、三条重叠。假设:各个功能段时间相同,公式见教材P2
5、85,各个功能段时间不相同,公式见顺序执行 k*(t取+t译+t执)两条重叠 t取+k*t译+(k-1)*(t取,t执)max+t执三条重叠 t取+(t译,t取)max+(k-2)*(t取,t译,t 执)max+(t执,t译)max+t执,3)例子 当k=200,t取=3t,t译=4t,t执=5t,时,分别计算上述三种执行方式的时间。顺序执行:200(3+4+5)=2400t 两条重叠:3+2004+(200-1)5+5=1803t 三条重叠:3+4+(200-2)5+5+5=1007t,4 重叠方式需要解决的问题1)对存储器的频繁访问 有哪些访问:取指令、取操作数、存放执行结果,I/O通道访
6、问.希望存储器为多体结构,以适应多种访问源的需要。当存储器为单体结构时,需要将访问源排队,先后顺序为:取指令、取数据、I/O通道访问、存结果,先行控制(look-ahead)技术最早在IBM公司研制的STRETCH机器中采用。目前,许多处理机中都已经采用了这种技术,包括超流水处理机和超标量处理机等。先行控制技术的关键是缓冲技术和预处理技术,以及两者的结合。缓冲技术是在工作速度不固定的两个功能部件之间设置缓冲栈,用以平滑它们的工作。预处理技术是把进入运算器的指令都处理成寄存器寄存器(RR型)指令,为进入运算器的指令准备好所需要的全部操作数。,6.1 先行控制技术,采用先行控制方式的处理机结构,2
7、)应具有先行控制部件 先行:在重叠操作中,当前一条指令在执行过程中就需要提前取出后面的指令进行相应处理,这种提前取出后继指令进行相应处理,称为先行。先行控制部件的主要包括)先行地址站,包括先行指令地址站和先行操作数地址站;)先行指令站,用来存放多条指令;)先行操作数站,用来存放多个操作数;)先行地址形成部件,用来形成先行指令地址 以及先行操作数地址;)先行操作码译码站,用来完成对多条指令的 译码并保留译码输出状态。,也应具有后行部件 后行部件:对指令执行后的结果进行处理的器件,称 后行部件。包括:后行数地址站,提供后行数存放地址。后行数站,存放运行的结果,并且,这些结果需送存 储器。,6.2.
8、1 基本思想,6.2 流水处理的概念,6.2.2 流水技术,流水技术:将一个重复的时序过程分解成为若干个子过程,而每个子过程都可有效地在其专用功能段上与其他子过程同时执行。时空图:从时间和空间两个方面描述了流水线的工作过程。时空图中,横坐标代表时间,纵坐标代表流水线的各个段。CPU中的各个部件按流水处理顺序连接起来,就称为一条流水线。,6.2.3 流水线工作原理流水线方式是把一个复杂的过程分解为若干个子过程,每个子过程与其他子过程同时进行。处理机解释程序的方式有顺序方式、重叠方式、流水方式等 顺序方式是解释完一条指令再开始解释下一条;流水方式是把一个重复的过程分解为若干个子过程,每个子过程可以
9、与其它子过程同时进行,以此提高单位时间内解释指令的数目;重叠方式是一种简单的流水方式,它把指令分成2个子过程 每条指令只与下一条指令相重叠。,重叠方式流水线,当分析部件完成上一条指令的“分析”后,就立即将之送入执行部件,同时分析部件可以开始处理下一条指令。虽然从执行一条指令的全过程来看,仍需要2t的时间,但从机器的输出端来看,却是每隔一个t就能给出一条指令的执行结果。,流水线结构图,流水线工作时空图,6.2.4 流水线的特点,流水过程由多个相联系的子过程组成,每个子过程称为流水线的级或段,段的数目称为流水线的深度。在流水线中处理的必须是连续任务,只有不断的提供任务才能充分发挥流水线的效率。把一
10、个任务分解为几个有联系的子任务,每个子任务由一个专门的功能部件来实现。在流水线的每一个功能部件的后面都要有一个缓冲器,用于保存本段的执行结果。各个功能段所需时间应尽量相等,否则时间长的功能段将成为流水线的“瓶颈”,会造成流水线的“堵塞”和“断流”。这个时间一般为一个时钟周期(节拍)。流水线需要有“装入时间”和“排空时间”。,6.3 流水技术的分类,1)按各过程段用时是否全等划分 均匀流水线:各过程段用时全等 非均匀流水线:各过程段用时不全等(如上图)时间匹配的均匀流水线。)时间不匹配的非均匀流水线。,2)按处理的数据类型标量流水线:用于对标量数据进行流水处理。向量流水线:用于对向量数据进行流水
11、处理。(向量很适合流水处理)3)按流水线的规模操作流水线:如将一条指令划分为多个过程段进行流水处理。规模最小指令流水线:以指令为单位进行处理,用于多进程、多任务。规模较大 宏流水线:以程序的逻辑功能段为单位进行流水处理。规模最大,4)按流水线具有功能的多少 单功能流水线:各过程段之间固定连接,不能重新构成其它流水线固定流水线 多功能流水线分:静态流水线:各过程段之间可重新连接,但不同时刻只能重构成一种不同的流水线。动态流水线:各过程段之间可重新连接,不同时刻可重构成多种流水线。5)按部件在同一时刻送出支路数的多少来分。一维流水线:在同一时刻,部件只能向一个地方传送结果。阵列流水线:在同一时刻,
12、部件可同时向多个地方传送结果。,5.4.5“瓶颈”问题及其解决方法,瓶颈:瓶颈就是ti最大的段,它使流水线“流速”减慢。S1S2S3S4t3ttt方法1:再细分 将瓶颈设备再细分为下一级流水线S1S2aS2bS2cS3S4tttttt方法2:并行设置 将瓶颈设备重复设置多套。,衡量流水线的主要指标有吞吐率,加速比和效率。6.4.1 吞吐率TP吞吐率(TP ThroughPut)指流水线在单位时间内执行的任务数,可以用输入任务数或输出任务数表示。其中k表示流水线划分的段数。当满足 条件时,有。,6.4 线性流水线性能分析,S4 1 2 3 4 N-1 N S3 1 2 3 4 N-1 N S2
13、1 2 3 4 N-1 N S1 1 2 3 4 N-1 N 时间 KT(N-1)T NT(K-1)T Tk,流水线产生n个结果所需要的时间:实际吞吐率:最大吞吐率:最大吞吐率与实际吞吐率的关系:,(1)流水线各段的执行时间相等,实际吞吐率:最大吞吐率:,(2)流水线各段的执行时间不等,6.4.2 加速比(即吞吐率之比,),不使用流水线所用的时间与使用流水线所用的时间之比一般表示:s=T0/TK其中 实际加速比:最大加速比:,段效率:,各段平均效率:其中 表示第i段设备量占整条流水线全部设备量的百分比当满足 条件(即等长、等权)时,有:,6.4.3 效率(设备利用率),上式指出,S=Ek,就是
14、说当效率达到100%时,流水方式(一个任务/t)吞吐率为顺序方式(一个任务/(kt))的k倍。,实际效率:最大效率:,瓶颈问题用两种方法改进后的效率和吞吐率,P295,6.5 流水线中的相关,相关的定义:流水线中的相关是指相邻或相近的指令因存在某种关联,后面的指令不能在原指定的时钟周期开始执行。一般来说,流水线中的相关主要分为如下三种类型:结构相关:当硬件资源满足不了指令重叠执行的要求,而发生资源冲突时,就发生了结构相关。数据相关:当一条指令需要用到前面指令的执行结果,而这些指令均在流水线中重叠执行时,就可能引起数据相关。3.控制相关:当流水线遇到分支指令和其它能够改变 PC 值的指令时,就会
15、发生控制相关。,一旦流水线中出现相关,必然会给指令在流水线中的顺利执行带来许多问题,如果不能很好地解决相关问题,轻则影响流水线的性能,重则导致错误的执行结果。消除相关的基本方法是让流水线暂停执行某些指令,而继续执行其它一些指令。在后面的讨论中,我们约定:当一条指令被暂停时,在该暂停指令之后发射的所有指令都要被暂停,而在该暂停之前发射的指令则可继续进行,在暂停期间,流水线不会取新的指令。,5.6.1 结构相关,如果某些指令组合在流水线中重叠执行时,产生资源冲突,则称该流水线有结构相关。为了能够在流水线中顺利执行指令的所有可能组合,而不发生结构相关,通常需要采用流水化功能单元的方法或资源重复的方法
16、。,许多流水线机器都是将数据和指令保存在同一存储器中。如果在某个时钟周期内,流水线既要完成某条指令对数据的存储器访问操作,又要完成取指令的操作,那么将会发生存储器访问冲突问题 产生结构相关。为了解决这个问题,可以让流水线完成前一条指令对数据的存储器访问时,暂停取后一条指令的操作。该周期称为流水线的一个暂停周期。暂停周期一般也称为流水线气泡,或简称为“气泡”。在流水线中插入暂停周期可以消除这种结构相关。,结构相关举例访存冲突,为消除结构相关插入流水气泡,时空图来表示暂停情况,分析,为消除结构相关而引入的暂停将影响流水线的性能。为了避免结构相关,可以考虑采用资源重复的方法。比如,在流水线机器中设置
17、相互独立的指令存储器和数据存储器;也可以将 Cache 分割成指令 Cache 和数据 Cache。,假设不考虑流水线其它因素对流水线性能的影响,显然如果流水线机器没有结构相关,那么其 CPI 也较小。然而,为什么有时流水线设计者却允许结构相关的存在呢?主要有两个原因:一是为了减少硬件代价,二是为了减少功能单元的延迟。如果为了避免结构相关而将流水线中的所有功能单元完全流水化,或者设置足够的硬件资源,那么所带来的硬件代价必定很大。,6.6.2 数据相关,当指令在流水线中重叠执行时,流水线有可能改变指令读/写操作数的顺序,使得读/写操作顺序不同于它们非流水实现的顺序,这将导致数据相关。,ADD指令
18、后的所有指令都要用到ADD指令的计算结果,ADD 指令在 WB 段才将计算结果写入寄存器 R1 中,但是 SUB 指令在其 ID 段就要从寄存器 R1 中读取该计算结果,这种情况就叫做数据相关。除非有措施防止这一情况出现,否则 SUB 指令读到的是错误的值。所以,为了保证上述指令序列的正确执行,流水线只好暂停 ADD 指令之后的所有指令,直到 ADD 指令将计算结果写入寄存器 R1 之后,再启动 ADD 指令之后的指令继续执行。,数据相关举例,例子分析,从上图还可以看到,AND 指令同样也将受到这种相关关系的影响。ADD 指令只有到第五个时钟周期末尾才能结束对寄存器 R1 的写操作,所以 AN
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机 组成 原理 流水线
链接地址:https://www.31ppt.com/p-6023943.html