处理器结构与原理.ppt
《处理器结构与原理.ppt》由会员分享,可在线阅读,更多相关《处理器结构与原理.ppt(69页珍藏版)》请在三一办公上搜索。
1、1,第2章 Intel IA-32处理器结构与原理,2,2.1.1 基本概念,1.流水线,把一条指令的操作分成多个更小的步骤,每个步骤的操作由专门的电路完成。利用各电路间可并行执行的特点,让各个步骤的执行在时间上重叠起来。,2.1 Pentium处理器,3,2.CISC与RISC技术,复杂指令集计算机(CISC):指令格式比较复杂,通常采用不等长指令设计,指令的寻址方式丰富,绝大多数指令的执行需要多个时钟周期。缺点:,随着计算机结构的改进,指令的功能和指令条数增加,指令系统变得异常庞大。复杂的指令格式和众多的寻址方式使得组合逻辑电路设计更为复杂,采用微程序又会降低执行速度。复杂不规整的指令会降
2、低流水线的性能 随着指令条数的增加,完成同一任务的指令组合变多,编译系统在最后优化的时候分析就变得更加困难,4,简单指令集计算机(RISC):通过简化指令,使得计算机的结构变得简单、合理,从而提高CPU的执行速度。,优化指令系统,只选用使用频率高的指令,减少指令条数。采用简单的指令格式和寻址方式,指令的长度固定,大多数指令能在一个时钟周期内完成。除了Load/Store指令能访问存储器外外,其他任何指令的操作数或者为立即数或者存放在寄存器中,因此,进行的是寄存器与寄存器之间从操作。通常RISC处理器设计了大量的寄存器临时存放数据。由于计算机结构简单,所以主要采用硬布线逻辑,较少使用或者不用微程
3、序控制。,5,3.高速缓冲存储器(Cache),主机,主存,高速缓冲存储器,Cache的设立依据是程序访问的局部性原理:,for(int i;i100;i+)ai=i*i;,6,2.1.2 Pentium处理器的特性,80 x86系列微处理器兼容有64位数据总线、32位地址总线,寻址空间4GB。RISC型超标量结构-两个5级整数指令流水线,一个8级浮点流水线。具有超级流水线技术的高性能浮点运算器。数据-代码分离式高速缓存,符合MESI协议。增强的错误检测和报告功能。利用片上分支目标缓冲器提高分支指令预测准确性。常用的指令不采用微程序设计,而改用硬件实现。支持64位外部数据总线突发传输方式通过A
4、PIC总线支持多处理器系统,7,=指令预取=首次译码=二次译码=指令执行=写回R,2.1.3 Pentium处理器的内部结构与工作原理,8,指令配对规则,配对的指令必须是简单指令两条指令之间不可存在“写后读”或“写后写”这样的寄存器相关性一条指令不能同时既包含位移量又包含立即数带前缀(JCC指令的OF除外)的指令只能出现在U流水中浮点运算指令不能和任何指令配对(FCXH除外),下面两条指令是否可配对?,MOV AX,200MOV CX,AX,MOV AX,200MOV AX,412,写后读,写后写,9,2.2 P6微结构的处理器,2.2.1 P6微结构概述,采用12级3流水超标量结构多路分支预
5、测-预测分支未来的方向,为处理器预 先译码分支之后的指令提供依据 动态数据流分析-处理器分析几条指令的数据相关性和资源可用性-以优化的执行顺序高效地乱序执行这些指令 推测执行-在假设分支走向基础上,执行其中一路指令流 双独立总线结构-后端总线连接到L2 Cache上-前端总线FSB主要负责主存储器的信息传送操作,10,关于乱序执行技术,为了提高指令流的执行效率,乱序执行核心监视很多条指令,然后在不损失数据完整性的前提下,采用能充分发挥多个处理部件并行工作的指令顺序来执行。这个指令顺序可能和原始程序的不一样。,1)A=B+C2)P=A*23)Q=D-E,1)和3)可配对同时执行,11,2.2.2
6、 Pentium III处理器内部结构及工作原理,12,2.3 NetBurst微结构的处理器,2.3.1 NetBurst微结构概述,1.超级流水线技术,衡量CPU的性能指标是CPU完成应用程序所需的总时间。其计算公式如下:CPU性能=CPU的主频IPC IPC是每时钟执行的指令条数。要提高CPU性能,可采用提高CPU主频和提高IPC。要提高主频减少每个流水级的执行周期要减小每个流水级的任务量将任务再分解增加流水线深度,13,2.快速执行引擎,NetBurst微结构中配置了一种时钟缓冲器电路,可以使该结构下2个执行简单指令的ALU和2个存储地址AGU运行在两倍的CPU核心频率下,3.高级动态
7、执行,一个高达126条指令的超大指令窗口,避免了处理器为了等待配对指令而出现暂时的停顿,也减少了因Cache没命中,到主存中获取数据而产生等待的次数。一个4KB的分支目标缓冲器BTB记录更多的过去分支的历史细节,再配以改进的分支预测算法,使分支预测失误率比Pentium III下降了33。,14,4.执行跟踪Cache(execution trace Cache),放弃L1 指令Cache的设计,采用执行跟踪Cache,它在译码器的后面,按程序流顺序存放已经译码好的最多12,000条微指令,,5.高速系统总线,采用了一种“四倍速”技术quad pumping,使得前端总线能很方便的工作再4倍于
8、系统总线的频率上。,6.高级传输Cache,采用8路相联的片内L2 Cache,与核心同频工作,与CPU核心的专用总线宽度为256位,是过去的4倍,这样主频为2.8GHz的Pentium 4其数据带宽将为89.6GBps。,15,2.3.2 Pentium 4处理器内部结构及工作原理,16,2.3.3 SIMD技术,57条MMX指令操作8个64位长的MMX寄存器内的紧缩字节(8个字节打包成一个64位长的数据)、字或双字整型数上执行SIMD70条SSE指令处理在8个128位的XMM寄存器中的单精度浮点数和在MMX寄存器中的紧缩整数。高速缓存控制指令通过增加主存到Cache和处理器到主存的数据流,
9、改善存储性能,SIMD浮点指令使处理器能同时执行4个浮点操作。144条SSE2指令处理在XMM寄存器中的紧缩双精度浮点数和在MMX与XMM寄存器中的紧缩整数。13条SSE3指令增强SSE,SSE2和x87FPU数学能力的性能。,17,2.3.4 超线程(Hyper-Threading,HT)技术,允许物理上单个的处理器采用共享执行资源的方法同时执行两个或更多的分离代码流(线程)HT技术由单处理器上的2个或者多个逻辑处理器组成,每个逻辑处理器都有自己的IA-32结构状态(AS)每个逻辑处理器都有自己的IA-32通用寄存器、段寄存器、控制寄存器、调试寄存器等逻辑处理器共享的资源包括执行引擎和系统总
10、线接口,18,2.3.5 多核(Dual-Core)技术,通过在一个物理封装中包含两个分离的完整执行核来提供硬件多线程能力每个完整的执行核不仅有自己的AS,还拥有自己的执行引擎,总线接口与L2 Cache。结构上有支持HT技术的和不支持HT技术的双核结构,Pentium D IA-32处理器,AS,AS,执行引擎,执行引擎,Local APIC,Local APIC,L2 Cache,L2 Cache,总线接口,总线接口,Pentium EE IA-32处理器,系统总线,AS,AS,执行引擎,执行引擎,LocalAPIC,L2 Cache,L2 Cache,总线接口,总线接口,系统总线,AS,
11、AS,LocalAPIC,LocalAPIC,LocalAPIC,19,AMD的双核,Intel的双核,20,2.3.6 Intel的EM64T技术,完全兼容现在的IA-32结构具有传统IA-32模式和IA-32e模式,IA-32e模式包括64位模式和兼容模式(允许现有程序无需修改就运行在传统IA-32模式和兼容模式下)64位模式下具有以下特性:64位平板线性地址增加8个新的通用寄存器增加8个新的流SIMD扩展(SSE,SSE2和SSE3)64位宽的通用寄存器和指令指针寄存器,21,2.4 Core微结构的处理器,2.4.1 Core微结构的引入,NetBurst微结构的缺陷:IPC表现不佳,
12、同频情况下Pentium 4有时还不如前代的Pentium III频率提高后,功耗随之上升,功耗过高,影响了主频的进一步提高。Power=Cdynamic电压电压频率 其中Cdynamic是面积与处于活跃状态的数据位翻转的触发器数量的乘积。,22,Core微结构的处理器系列,桌面平台的Conroe 移动平台的Merom 服务器平台的Woodcrest,Core处理器 Core 2处理器,单核的Core Solo 双核的Core Duo,Core 2 Duo 四核的Core 2 Quad,23,2.4.2 Conroe处理器内部结构与特点,Core微结构,24,Conroe处理器内部结构示意图,
13、25,宽位动态执行(Wide Dynamic Execution)着眼点在于提高每时钟周期处理的指令数,改善执行时间和能源效率,同时完整的取、发射、执行4条指令宏融合(macrofusion)技术能够在译码期间将常见的指令对组合到一个单独的微代码中(Micro-op)微代码融合(Micro-op fusion)技术能在微代码执行前将译码自同一个x86指令的几个微代码融合成更少的微代码,26,智能功效管理(Intelligent Power Capability)超细粒度功耗控制能够只对处于工作状态的部件提供电源,而关闭非工作部件的电源供应,从而有效降低功耗。分离总线技术能够使总线宽度动态适应数
14、据宽度的需要,对无效的信息位使其进入低电压状态,从而进一步降低功耗。功效管理平台技术通过调整散热风扇运作模式,从外部降低处理器温度。,27,Intel 智能内存访问(Intel Smart Memory Access)内存消歧技术利用装载(load)数据指令和存储(store)数据指令之间的乱序执行来提高乱序执行部件的效率 高级预取技术解决了确保被使用的数据已经位于最靠近能获得最小内存延迟的地方的问题。,28,Intel高级智能Cache(Intel Advanced Smart Cache)采用了共享L2 Cache的双核结构 可以在两个核心间动态调整L2 Cache的分配,29,2.4.4
15、 45nm的酷睿2处理器Penryn的新特性,英特尔的45nm高K金属栅极制程技术晶体管密度提升近一倍晶体管切换功耗降低近 30%晶体管切换速度提高 20%以上,源极漏极漏电率降低5倍以上晶体管栅极氧化层漏电率降低 10 倍以上,从而实现更低的功耗和更耐久的电池使用时间,30,全新英特尔SSE4.1指令增加对两个不同的 32 位向量整数乘法操作的支持引入 8 位无符号的最小/最大操作,以及 16 位和 32 位有符号和无符号的版本添加高度专用的操作,从而带来显著的应用级增益视频编码加速功能浮点点积操作(对于游戏和 3D 内容创建非常重要)流加载指令(对于视频处理、成像,以及在图形处理器和处理器
16、之间共享数据的应用非常重要),31,增强的大型英特尔 高级智能高速缓存二级高速缓存增大 50%并搭配24路组相联设计,可进一步提高命中率并最大限度提升使用率。增强型英特尔 虚拟化技术通过改进微体系结构而不是虚拟机软件,使虚拟机迁移速度平均提高25-75%。快速 Radix-16 除法器可在每次迭代中计算4位的商(上代是2位),从而使延迟降低了2倍。增强型英特尔 动态加速技术当一个内核处于空闲状态时,该增强特性可利用该内核释放的性能扩展空间(如电能),来提升另一个仍处于激活状态的内核性能。,32,2.5 Nehalem微架构的处理器,Nehalem微架构基本特点原生四核结构采用SMT技术,每核可
17、同时执行2个线程4发射超标量,每核四条16级流水线48位虚拟地址空间,40位物理地址空间45nm芯片工艺,33,Nehalem微架构的新特点更大的并行性增加了乱序考察窗和调度表改进后的更高效的算法加快线程同步原语的执行加快了分支预测失败时的处理速度改进了硬件预取和Load-Store调度提高了分支预测的性能新增加了2级分支目标缓冲器,增大了对指令流历史的记录新增加了重命名式返回栈缓冲,存放CALL指令的返回地址,并防止返回栈缓冲溢出,34,Nehalem微架构的新特点采用SMT(同时多线程)技术同一个执行核能同时执行两个线程新的缓存结构与Core微架构一样的L1 Cache(32KB指令Cac
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 处理器 结构 原理
链接地址:https://www.31ppt.com/p-6461758.html