计算机系统结构第1章教材课件.ppt
计算机系统结构 Computer Architecture,研究内容 从外部来研究计算机系统 使用者所看到的物理计算机的抽象 编写出能够在机器上正确运行的程序所必须了解到的计算机属性,学习目的建立计算机系统的完整概念学习计算机系统的分析方法和设计方法了解计算机系统的最新研究成果,第一章 基本概念,介绍计算机系统结构的一些基本知识。包括定性知识和定量知识两大内容。 定性知识:本课程经常使用的一些名词概念,以及对计算机的定性认识、分析方法。 定量知识:对计算机性能进行定量评价的几个重要公式。,计算机发展的五个阶段1、19451954:电子管、继电器,定点运算、机器/汇编语言2、19551964:分立式晶体管、铁磁心存储器、单层PCB,变址寄存器,浮点运算,高级语言批处理监控;3、19651974:SSI、MSI,多层PCB,微程序控制,Cache,多道程序并行,分时OS,IBM360/370;4、19751990:LSI、VLSI,半导体存储器,并行处理,分布处理;5、1991 :VLSI,ULSI,大规模并行处理,推动计算机性能提高的两个关键因素:组成器件:电子管晶体管集成电路系统结构的改进,第一台电子计算机:ENIAC,ENIAC的总成本为48万6千8百美元。它是一个有18000多只电子管,7200只晶体二极管,10000多只电容,7000多只电阻,5万多个焊点,长30.48米,宽1米,占地面积约170平方米,30个操作台,约相当于10间普通房间的大小,重达30吨,消耗功率150kW。,透视计算机的心脏CPU,Intel 的第一块CPU4004,4004,Intel最早的CPU,集成有2,250个晶体管,晶体管之间的距离是10微米(即10000纳米),主频0.74MHz。,1.1.1 计算机系统的多级层次模型,1.1 计算机系统结构,1.1.2 计算机系统结构定义 计算机软件硬件两种定义:定义1:Amdahl于1964年提出:程序员所看到的计算机系统属性,即概念性结构和功能特性看到的:编写出能在机器上正确运行的程序所必须 了解到的。,概念结构,IOP:IO控制器,功能特性:指令系统及其执行模式数据表示:硬件能够直接认别和处理的数据类型和格式;寻址方式:最小寻址单位、寻址方式的种类和地址运算等;寄存器组织:操作数寄存器、变址寄存器、控制寄存器及专用寄存器的定义、数量和使用规则等;指令系统:机器指令的操作类型、格式,指令间的排序和控制机制;,中断系统:中断类型、中断级别和中断响应方式等;存储系统:最小编址单位、编址方式、主存容量、最大寻址空间等;输入输出系统:连接方式、数据交换方式、数据交换过程的控制等;信息保护: 信息保护方式和硬件对信息保护的支持等。,透明性概念 本来存在的事物或属性,从某种角度看似乎不存在例如:浮点数表示、乘法指令 对高级语言程序员、应用程序员透明 对汇编语言程序员、机器语言程序员不透明例如:数据总线宽度、微程序 对汇编语言程序员、机器语言程序员透明 对硬件设计者、计算机维修人员不透明透明度越高,编程越简单,执行效率降低透明度越低,编程越复杂,执行效率提高,定义2: 计算机系统结构主要研究软硬件功能分配和对软硬件界面的确定计算机系统由软件、硬件和固件组成,它们在功能上是同等的。同一种功能可以用硬件实现,也可以用软件或固件实现。系列计算机概念:相同系统结构,不同组成和实现的一系列计算机系统。,1.1.3 计算机组成 计算机组成指计算机系统结构的逻辑实现,主要包括:确定数据通路的宽度确定各种操作对功能部件的共享程度确定专用的功能部件确定功能部件的并行度设计缓冲和排队策略设计控制机构确定采用何种可靠性技术,1.1.4 计算机实现 计算机实现是指计算机组成的物理实现,包括:处理机、主存储器等部件的物理结构器件的集成度和速度专用器件的设计器件、模块、插件、底版的划分与连接信号传输技术电源、冷却及装配技术,相关制造工艺及技术等,计算机系统结构、计算机组成和计算机实现之间的关系:系统结构组成实现,组成和实现的改进推动系统结构的进步;随着技术、器件和应用的发展,三者间界限越来越模糊。,1.2.1 性能评测的常用方法 1.2.2 其他性能1.2.3 价格标准,1.2 计算机系统的评价标准,1.2.1 性能评测的常用方法 以运算速度为主1、时钟频率(主频):如:只表示CPU的指令处理能力实际运算速度还与Cache、内存、I/O、被执行程序等均有关,2、指令执行速度一种经典的表示运算速度的方法MIPS(Million Instructions Per Second)以及 KIPS、GIPS、TIPS其中:Fz为处理机的工作主频 CPI(Cycles Per Instruction)为 每条指令所需的平均时钟周期数 IPC为每个时钟周期平均执行的指令条数,MFLOPS、GFLOPS、 TFLOPS,例1:计算PentiumII 450处理机的运算速度。解:由于PentiumII 450处理机的IPC2(或CPI0.5),Fz450MHz (1)不同指令的速度差别很大(2)指令使用频度差别很大,主要优点:直观、方便。目前还经常使用 主要缺点:,3、等效指令速度:吉普森(Gibson)法其中:Wi:指令使用频度,i:指令种类静态指令使用频度:在程序中直接统计动态指令使用频度:在程序执行过程中统计在计算机发展的早期,用加法指令的运算速度来衡量计算机的速度。通常:加、减法50,乘法15,除法5,程序控制15,其他15,例2:我国最早研制的小型计算机DJS-130,定点16位,加法速度每秒50万次,但没有硬件乘法和除法等指令。用软件实现乘法和除法,速度降低100倍左右,求定点等效速度。解:即每秒2万次,由于乘法和除法用软件实现,等效速度降低了25倍。,例3:如果浮点开平方操作FPSQR的比例为2%,CPI为100,其他浮点操作的比例为23%,CPI4.0,其余指令的CPI1.33,计算该处理机的等效CPI。如果FPSQR操作的CPI也为4.0,重新计算等效CPI。解: 等效CPI1100 2 4 23 1.33 753.92 等效CPI24 251.33 752.00 由于改进了仅占2的FPSQR操作的CPI,使等效速度提高了近一倍,4、数据处理速率PDR(processing data rate) PDRL/R其中:L0.85G0.15H0.4J0.15K;R0.85M0.09N0.06P其中:G是每条定点指令的位数M是平均定点加法时间H是每条浮点指令的位数N是平均浮点加法时间J是定点操作数的位数P是平均浮点乘法时间K是浮点操作数的位数,5、核心程序法 把应用程序中用的最频繁那部分核心程序作为评价计算机性能的标准程序。称为基准程序benchmark 整数测试程序:Dhrystone, 浮点测试程序:Linpack用FORTRAN语言编写,主要是浮点加法和浮点乘法操作。用MFLOPS(Million Floating Point Operations Per Second)表示GFLOPS、TFLOPS Whetstone基准测试程序,6、基准测试程序套件(SPEC基准程序 )SPEC:System performance evaluation Cooperative目前使用最为广泛、最具权威性的测试规矩www.spec.org 由约30个世界知名计算机大厂商所支持的非盈利合作组织,包括:IBM、AT&T、BULL、Compaq、CDC、DG、DEC、Fujitsu、HP、Intel、MIPS、Motolola、SGI、SUN、Unisys等;SPEC能够全面反映机器的性能,具有很高的参考价值;,1.2.2 其他性能1存储能力存储容量,速度,编址单位,编址方式,寻址方式2字长 关键问题:指令字长与数据字长的协调原因:程序与数据共用同一个主存储器早期:由指令字长决定当前:由数据字长决定,8的倍数,如:32位、64位等可变字长:任意组合,3数据类型目前常用:定点、浮点、逻辑、已有类型:向量、串、栈、树、发展方向:自定义数据表示4、指令系统CISC:复杂指令集计算机RISC:精简指令集计算机 VLIW:超长指令字(Very Long Instruction Word),5、输入输出能力输入输出方式中断系统输入输出接口6、兼容性共分12级:011,0级为完全不兼容,11级为自身7、保护和诊断能力程序与数据的保护诊断能力:检错、纠错、冗余、自诊断能力可靠性:RAS技术,可靠性R、可用性A、可维护性S,1.2.3 价格标准1价格与性能的关系:摩尔定理:每隔3 年芯片的集成度翻两翻 用同样的价格,五年之后能买到性能高十倍的机器 计算机系统每年的折旧率为75左右2硬件与软件的价格比例: 硬件的比例下降,软件的比例上升 目前软件价格已经超过硬件价格,微电子发展的神奇规律Moores Law,软件所占的成本越来越高,1.3 计算机系统的设计技术,1.3.1 几个定量原理 1.3.2 软硬件取舍1.3.3 软件兼容性1.3.4 计算机系统设计方法,1、Amdahl定律(加快经常性事件原理),其中:Sn 全局加速比; To 原执行时间(old); Tn 新执行时间(new); Se 被改进部分的局部加速比; Fe 被改进部分原执行时间占原来总时间的百分比。,1.3.1 几个定量原理,性能改善的极限值受Fe值限制。,例4:假设将某一部件的处理速度加快到10倍,该部件的原处理时间为整个运行时间的40%,则采用加快措施后能使整个系统的性能提高多少?,解: 由题意可知:Fe=0.4, Se=10,根据Amdahl定律,,2、 CPI与程序执行时间Te CPI是衡量CPU执行指令效率的重要指标。,3、 存储器访问的局部性原理实质:根据程序运行的最近情况,可以较为精确的预测出最近的将来将要访问哪些指令和数据。,访问的局部性原理是构成层次化存储系统的理论基础。,时间局部性:最近访问过的代码在很短的时间内有可能被再次访问;主要对应于循环语句;,空间局部性:与刚被访问过的指令或数据相邻的指令或数据有可能马上被访问;主要对应于顺序执行的语句。,1.3.2 软硬件取舍关键问题:性能与价格的关系,软件与硬件实现的特点:硬件实现:速度快、成本高;灵活性差、占用内存少软件实现:速度低、复制费用低;灵活性好、占用内存多,兼容种类:1)向后兼容:在某一时间生产的机器上运行的目标软件能够直接运行于更晚生产的机器上。2)向前兼容:3)向上兼容:在低档机器上运行的目标软件能够直接运行于高档机器上。4)向下兼容:其中向后兼容是最根本特征,必须做到。,原因:软件相对于硬件的成本越来越贵已积累了大量成熟的系统软件和应用软件。,1.3.3 软件兼容性设计方法,实现方法:在系统结构基本不变的基础上,根据不同性能的要求和当时的器件发展情况,设计出各种性能、价格不同的计算机系统。 一种系统结构可以有多种组成,一种组成可以有多种物理实现。,系列机定义:具有相同的系统结构,不同组成和实现的一系列计算机系统,方法1:系列机方法, 采用系列机的主要优点:软件兼容,可移植性好插件、接口等兼容便于实现机间通信便于维修、培训有利于提高产量、降低成本,采用系列机的主要缺点:限制了系统结构的发展,方法2:模拟与仿真 Simulation vs Emulation,定义:在一台现有的计算机上实现另一台计算机的指令系统。全部用软件实现的叫模拟用硬件、固件或软件、硬件、固件混合实现的叫仿真, 模拟的实现方法 在A计算机上通过解释方法实现B计算机的指令系统,即B机器的每一条指令用一段A机器的程序进行解释执行。 A机器称为宿主机,B机器称为虚拟机。 仿真的实现方法直接用A机器的一段微程序解释执行B机器的每条指令。A机器称为宿主机,B机称为目标机。, 优缺点比较模拟方法速度低,仿真方法速度高仿真需要较多的硬件(包括控制存储器)系统结构差别大的机器难于完全用仿真方法来实现除了解释方法之外,也可以通过编译方法实现,方法3:统一高级语言 方法:采用同一种不依赖于任何具体机器的高级语言编写各种系统软件和应用软件。 短期内很难实现。, 三种方法比较: 采用统一高级语言最好,是努力的目标 系列机是暂时性方法,也是目前最好的方法仿真的速度低,芯片设计的负担重,1.3.4 计算机系统设计过程方法1:由上向下(Top-Down) 设计过程:由上向下 面向应用的数学模型面向应用的高级语言面向这种应用的操作系统面向操作系统和高级语言的机器语言面向机器语言的微指令系统和硬件实现 应用场合: 专用计算机的设计(早期计算机的设计) 特点: 对于所面向的应用领域,性能(性能价格比)很高 随着通用计算机价格降低,目前已经很少采用,方法2:由下向上(Bottom-Up) 设计过程:1)根据当时的器件水平,设计微程序机器级和传统机器2)根据不同的应用领域设计多种操作系统、汇编语言、高级语言编译器等3)最后设计面向应用的虚拟机器级。 应用场合:在计算机早期设计中(6070年代)广为采用 特点:容易使软件和硬件脱节,整个计算机系统的效率降低。,方法3:中间开始(Middle-Out)用于系列计算机的设计过程中应用虚拟机高级语言虚拟机汇编语言虚拟机 向上操作系统虚拟机 从中间开始传统机器级微程序级 向下硬联逻辑级,1.4 计算机系统结构的发展,1.4.1 冯诺依曼结构1.4.2 器件发展的影响, 于1936年1946年形成,冯诺依曼等人于1946年提出,1.4.1 冯诺依曼结构,1、特点:存储程序,运算器为中心1)存储器是字长固定的、顺序线性编址的一维结构。2)存储器提供可按地址访问的一级地址空间,每个地址是唯一定义的。3)由指令形式的低级机器语言驱动。4)指令顺序执行,即一般按照指令在存储器中存放的顺序执行,程序分支由转移指令实现。5)运算器为中心,输入输出设备与存储器之间的数据传送都途经运算器。运算器、存储器、输入输出设备的操作以及它们之间的联系都由控制器集中控制。,不变的:存储程序 改变的:存储器为中心1) 从基于串行算法变为适应并行算法,出现了向量计算机,并行计算机、多处理机等。2) 高级语言与机器语言的语义距离缩小。3) 硬件子系统与操作系统和数据库管理系统软件相适应,出现了面向操作系统机器和数据库计算机等。4) 从传统的指令驱动型改变为数据驱动型和需求驱动型,出现了数据流机器和归约机。,2、现代处理机对冯诺依曼结构的改进,5) 为适应特定应用环境而出现了各种专用计算机,如过程控制计算机等。6) 为获得高可靠性而研制容错计算机。7) 功能分散化、专业化,出现了各种功能分布计算机,包含外围处理机、通信处理机等。8) 出现了与大规模、超大规模集成电路相适应的计算机系统结构。9) 出现了处理非数值化信息的智能计算机,例如自然语言、声音、图形和图象处理等。,1.4.2 器件发展对系统结构的影响第1代至第4代计算机以器件来划分: 第一代:电子管(Valve) 第二代:晶体管(Transistor) 第三代:集成电路(LSI) 第四代:大规模集成电路(VLSI)在相当长时间内,是提高计算机速度的主要途径,1、器件发展的特点:1) 集成度迅速提高摩尔定律,可从系统结构的两个方面提高处理机速度: 提高IPC,提高到8以上, 采用更深度的流水线和并行处理技术,2) 提高速度空间不大器件速度提高的余地已经很小,将来提高处理机速度更多依靠系统结构、组成和实现技术的发展,(3) 价格直线下降 CPU芯片的价格每年要下降80%(4) 可靠性越来越高 芯片可靠性达到108小时。, 器件速度与处理机工作主频,2、器件发展对组成技术的影响, 器件速度与指令执行时间40多年来,器件速度提高小于104;指令执行加快108。,3、器件发展对设计方法的影响 计算机组成技术下移原来只有在巨型机、大型机种采用的技术,已经用到微型机中 计算机设计方法下移第1代计算机,几乎全部由硬件人员设计第2、3、4代,由软件、硬件人员共同设计将来:除器件设计之外,主要是软件设计 逻辑设计方法改变过去逻辑设计很重要,尽量节省每一个芯片,每一个门目前的设计主要考虑:了解市场,尽量选择通用芯片、标准芯片结构化设计,规整、易读、易诊断,1.5.1 常见分类方法1.5.2 三种通用分类方法,1.5 计算机系统的分类,1.5 计算机系统的分类,1.5.1 常见分类方法1、按规模划分 种类:巨型机、大型机、中型机、小型机、微型机等。 划分原则:以性能为表征,按价格来划分 存在问题:划分的标准是随时间而变化,每年左右降低一个等级,2、按用途划分 种类:科学计算、事务处理、实时控制、工作站、服务器、家用计算机等。 发展方向:具备上述所有功能的通用处理机,3、按数据类型划分 种类:定点机、浮点机、向量机等。,4、按处理机个数和种类划分 种类:单处理机、并行处理机、多处理机、分布处理机、关联处理机、超标量处理机、超流水线处理机、SMP(对称多处理机)、MPP(大规模并行处理机)、机群(Cluster)系统等。,5、按所使用的器件划分 种类:第一代(Valve)、第二代(Transitor)、第三代(SSI和MSI)、第四代(LSI和VLSI)等。,1、佛林(Flynn)分类法1966年Michael J Flynn提出按指令流和数据流的多倍性特征对计算机系统进行分类指令流:机器执行的指令序列数据流:指令流调用的数据序列,包括输入数据和中间结果多倍性(multiplicity):在系统性能瓶颈部件上同时处于同一执行阶段的指令或数据的最大可能个数,1.5.2 三种通用分类方法,1)单指令流单数据流SISD(Single Instruction Single Datastream),MM,PU,CU,DS,IS,IS,2)单指令流多数据流SIMD(Single Instruction Multiple Datastream),SIMD 并行处理机多个PU按一定方式互连,在同一个CU控制下,多数据完成同一条指令规定的操作;从CU看,指令顺序(串行)执行,从PU看,数据并行执行,3)多指令流单数据流MISD(Single Instruction Multiple Datastream),MISD 几条指令对同一数据进行不同处理,4)多指令流多数据流MIMD(Single Instruction Multiple Datastream),PU2,CU1,.,IS3,IS1,PUn,PU1,MM1,DS1,CU2,CUn,.,IS2,MM2,DS2,MM2,DS2,IS1,IS2,IS3,多处理机, 主要缺点: (1) 分类太粗例如:在SIMD中包括有多种处理机对流水线处理机的划分不明确,标量流水线为SISD,向量流水线为SIMD,Flynn分类法得到广泛应用,(2) 根本问题是把两个不同等级的功能并列对待通常,数据流受指令流控制,从而造成MISD不存在,1972年美籍华人冯泽云提出, 用最大并行度来对计算机系统进行分类。最大并行度:系统在单位时间内能处理的最大二进制位数字宽n,一个字中同时处理的二进制的位数;位宽m,一个位中能同时处理的字数。则最大并行度定义: Pm m ,2、冯泽云分类法,(1)字串位串WSBS(Word Serial and Bit Serial) 串行计算机; m1,1;如:EDVAC(1, 1)(2)字并位串WPBS(Word Parallel and Bit Serial) 传统单处理机; m1, 1;(3)字串位并WSBP(Word Serial and Bit Parallel) 并行计算机、MPP、m 1,1; (4)字并位并WPBP(Word Parallel and Bit Parallel) 全并行计算机;m 1, 1;如:ASC(64, 32), IILIAC IV(64, 64) 。 主要缺点: 仅考虑数据并行,没有考虑指令, 任务, 作业的并行,4种类型,本章重点:1、计算机系统结构的定义及研究对象2、计算机系统的层次结构3、评价计算机系统的常用方法4、冯 诺依曼结构及其发展5、透明性、系列机、兼容性、模拟与仿真等基本概念6、了解计算机系统的分类方法,习题,1、有一台计算机系统可以按功能分为四级,自下向上表示为、。每一级的功能各不相同,每一级的指令都比其下一级的指令在功能上强M倍,即第i级的一条指令能够完成第i1级的M条指令的计算量。现若需第i级的N条指令解释第i1级的一条指令,而有一段第级的程序需要运行Ks,问在第、各级一段功能等效的程序各需多长时间?,2.设将系统某一部件的处理速度加快到原来的10倍,改进后整个系统的性能提高为原来的1.5倍,则该部件未改进前占原来总执行时间的比例是多少?按照这种改进方式,该系统性能提高的极限是多少?,3、将某一执行部件的执行速度提高到原来的10倍,改进后被改进部件执行时间占系统总运行时间的50。问:(1)改进前该部件的执行时间占总执行时间的百分比是多少?(2)改进后获得的加速比是多少?,Amdahl定律(加快经常性事件原理),其中:Sn 全局加速比; To 原执行时间(old); Tn 新执行时间(new); Se 被改进部分的局部加速比; Fe 被改进部分原执行时间占原来总时间的百分比。,3、Amdahl定律公式,Fe=10/11Sn=11/2,1、4:(N/M)3Ks3:(N/M)2Ks2:(N/M)Ks1:Ks,被改进部件原执行时间为t,