【教学课件】第2章ARM微处理器硬件结构.ppt
1,第2章 ARM微处理器硬件结构,本章主要内容:计算机体系结构分类ARM版本及系列ARM处理器结构存储系统机制,2,计算机体系结构,1.冯诺依曼结构,3,计算机体系结构,2.哈佛体系结构,4,ARM简介,ARM(Advanced RISC Machines)系列微处理器,采用的ARM技术知识产权(IP)核都是由ARM公司提供的。ARM公司本身不生产芯片,转让设计许可,由合作公司生产各具特色的芯片。ARM32位体系结构目前被公认为是嵌入式应用领域领先的32位嵌入式RISC微处理器结构。从版本1到版本6,ARM体系的指令集功能不断扩大。,5,ARM版本,1V1版架构 该版架构只在原型机ARM1出现过,没有用于商业产品。其基本性能有:基本的数据处理指令(无乘法);基于字节、半字和字的Load/Store指令;转移指令,包括子程序调用及链接指令;供操作系统使用的软件中断指令SWI;寻址空间:64MB(226)。,6,ARM版本,2V2版架构 该版架构对V1版进行了扩展,例如ARM2和ARM3(V2a)架构,版本2a是版本2的变种,ARM3芯片采用了版本2a。V2版架构与版本V1相比,增加了以下功能:乘法和乘加指令;支持协处理器操作指令;快速中断模式;SWP/SWPB的最基本存储器与寄存器交换指令;寻址空间:64MB。,7,ARM版本,3V3版架构 V3版架构对ARM体系结构作了较大的改动:寻址空间增至32位(4GB);当前程序状态信息从原来的R15寄存器移到当前程序状态寄存器CPSR中(Current Program Status Register);增加了程序状态保存寄存器SPSR(Saved Program Status Register);增加了中止(Abort)和未定义2种处理器模式;增加了MRS/MSR指令,以访问新增的CPSR/SPSR寄存器;增加了从异常处理返回的指令功能。,8,ARM版本,4V4版架构 V4版架构在V3版上作了进一步扩充,V4版架构是目前应用最广的ARM体系结构,ARM7、ARM8、ARM9和StrongARM都采用该架构。指令集中增加了以下功能:符号化和非符号化半字及符号化字节的存/取指令;增加了16位Thumb指令集;完善了软件中断SWI指令的功能;处理器系统模式引进特权方式时使用用户寄存器操作;把一些未使用的指令空间捕获为未定义指令。,9,ARM版本,5V5版架构 V5版架构是在V4版基础上增加了一些新的指令,ARM10和Xscale都采用该版架构。这些新增命令有:带有链接和交换的转移BLX指令;计数前导零CLZ指令;BRK中断指令;增加了数字信号处理指令(V5TE版);为协处理器增加更多可选择的指令。,10,ARM版本,6V6版架构 V6版架构是2001年发布的,首先在2002年春季发布的ARM11处理器中使用。此架构在V5版基础上增加了以下功能:THUMBTM:35%代码压缩;DSP扩充:高性能定点DSP功能;JazelleTM:Jova性能优化,可提高8倍;Media扩充:音/视频性能优化,可提高4倍。,11,ARM处理器系列,ARM7系列ARM9系列ARM9E系列ARM10E系列SecurCore系列Inter的XscaleInter的StrongARM,12,ARM处理器结构,从一下四个方面介绍:ARM和Thumb状态 RISC技术流水线技术超标量执行,13,ARM和Thumb状态,V4版以后有:32位ARM指令集16位Thumb指令集,功能是ARM指令集的功能子集。ARM7TDMI核以后,T变种的ARM微处理器有两种工作状态:ARM状态Thumb状态。,14,ARM与Thumb状态转换,在程序的执行过程中,微处理器可以随时在两种工作状态之间切换,并且该转变不影响处理器的工作模式和相应寄存器中的内容。进入Thumb状态:当操作数寄存器的状态位(位0)为1时,执行BX指令。进入ARM状态:当操作数寄存器的状态位(位0)为0时,执行BX指令。,15,RISC技术,RISC体系结构基本特点:大多数指令只需要执行简单和基本的功能,其执行过程在一个机器周期内完成。只保留加载/存储指令。操作数由加载/存储指令从存储器取出放寄存器内操作。芯片逻辑不采用或少采用微码技术,而采用硬布线逻辑。减少指令数和寻址方式。指令格式固定,指令译码简化。优化编译。,16,RISC技术,ARM体系结构还采用了一些特别的技术:所有的指令都可根据前面的执行结果决定是否被执行,提高了指令的执行效率。可用Load/Store指令批量传输数据,以提高数据的传输效率。可在一条数据处理指令中同时完成逻辑处理和移位处理。,17,流水线技术,1ARM的3级流水线,18,流水线技术,多周期ARM指令的3级流水线操作,19,流水线技术,2ARM的流水线设计问题(1)缩短程序执行时间:提高时钟频率fclk减少每条指令的平均时钟周期数CPI(2)解决流水线相关:结构相关 数据相关 控制相关,20,流水线技术,3ARM的5级流水线 ARM9和StrongARM架构都采用了5级流水线.增加了I-Cache和D-Cache,把存储器的取指与数据存取分开;增加了数据写回的专门通路和寄存器;把指令的执行过程分割为5部分:取指-指令译码-执行-数据缓存-写回,21,超标量执行,通过重复设置多套指令执行部件,同时处理并完成多条指令,实现并行操作,来达到提高处理速度的目的。所有ARM内核,包括流行的ARM7、ARM9和ARM11等,都是单周期指令机。ARM公司下一代处理器将是每周期能处理多重指令的超标量机。但是:超标量处理器在执行的过程中必须动态地检查指令相关性;必须将分支被执行和分支不被执行这两种情况分开考虑。,22,存储器部件的分类,按在系统中的地位分类:“主存储器”(Main Memory,简称内存或主存)“辅助存储器”(Auxiliary Memory,Secondary Memory,简称辅存或外存)按存储介质分类:磁存储器(Magnetic Memory),半导体集成电路存储器(通常称为半导体存储器),光存储器(Optical Memory),激光光盘存储器(Laser Optical Disk)按信息存取方式分类:随机存取存储器RAM只读存储器ROM,23,存储器的组织和结构,嵌入式存储器一般采用存储密度较大的存储器芯片,典型的嵌入式存储器系统由ROM、RAM、EPROM等组成。,24,常用的存储器,随机存储器(RAM)静态随机存储器(SRAM)动态随机存储器(DRAM)只读存储器(ROM),它在嵌入式系统中非常有用,因为许多代码或数据不随时间改变。工厂编程的只读存储器现场可编程只读存储器,25,存储器的性能,大容量、高速度、低价格是评价存储器性能的三个主要指标,也是存储体系设计的主要目标。容量:SwWlm。其中W为存储体的字长(单位为位或字节),l为单个存储体的字数,m为并行工作的存储体个数。速度:m个存储体并行工作时,可达到的最大频率宽度为BmWmTM。其中TM是连续起动一个存储器所必要的时间间隔,TMTA。Bm是连续提供数据的速率。价格:具有SM位的存储器,每位价格表示为c=CSm。其中C是总价格。,26,存储体系的组成,单体单字存储器单体多字存储器 多体单字交叉存取存储器多体多字交叉存取存储器一般把这些能并行读出多个CPU字的单体多字和多体单字及多体多字的交叉存取系统,统称为并行主存系统。,27,存储体系的形式,(a)两级存储器层次结构,(b)三级存储器层次结构,28,总线结构,1.总线协议:四周期握手协议,29,总线结构,2.总线读写,30,总线结构,3总线的时序图,31,总线结构,4直接内存访问(DMA),32,总线结构,5系统总线配置 多总线系统,33,ARM存储数据类型,ARM处理器支持以下六种数据类型:8位有符号和无符号字节。16位有符号和无符号半字,以2字节的边界对齐。32位有符号和无符号字,以4字节的边界对齐。,34,ARM存储格式,大端存储模式,小端存储模式(缺省),35,存储器接口,1.存储周期的基本类型:空闲周期非顺序周期顺序周期协处理器寄存器传送周期,36,存储器接口,2.ARM的总线接口信号分成4类(以ARM7TDMI为例说明):时钟和时钟控制信号:MCLK、ECLK、nRESET、nWAIT。地址类信号:A31.0、nRW、MAS1.0、nOPC、nTRANS、LOCK、TBIT。存储器请求信号:nMREQ、SEQ。数据时序信号:D31.0、DIN31.0、DOUT31.0、ABORT、BL3.0。,37,存储器接口,3.ARM的总线接口可以实现4种不同类型的总线周期。,38,高速缓冲存储器,1.分类:统一Cache VS 独立的数据/程序Cache写通cache VS 写回cache读操作分配cache VS 写操作分配cache,39,高速缓冲存储器,2.工作原理:,40,高速缓冲存储器,3.地址映像和变换方式:全相联地址映像和变换组相联地址映像和变换直接映像和变换,41,高速缓冲存储器,4.Cache的替换算法:轮转法随机替换算法,42,存储管理单元MMU,1.在ARM系统中,存储管理单元MMU主要完成工作:虚拟存储空间到物理存储空间的映射。在ARM中采用了页式虚拟存储管理。存储器访问权限的控制。设置虚拟存储空间的缓冲的特性。,43,存储管理单元MMU(1),2.存储访问过程使能MMU时存储访问过程:,44,存储管理单元MMU(2),禁止MMU时存储访问过程:先要确定芯片是否支持cache和write buffer。如果芯片规定当禁止MMU时禁止cache和write buffer,则存储访问将不考虑C和B控制位。如果芯片规定当禁止MMU时可以使能cache和write buffer,则数据访问时,C=0,B=0;指令读取时,如果使用分开的TLB,那么C=1,如果使用统一的TLB,那么C=0。存储访问不进行权限控制,MMU也不会产生存储访问中止信号。所有的物理地址和虚拟地址相等,即使用平板存储模式。,45,存储管理单元MMU(1),3.MMU中的地址变换过程:通过两级页表实现。a)一级页表中包含有以段为单位的地址变换条目以及指向二级页表的指针。一级页表是实现的地址映射粒度较大。以段为单位的地址变换过程只需要一级页表。b)二级页表中包含有以大页和小页为单位的地址变换条目。有一种类型的二级页表还包含有以极小页为单位的地址变换条目。以页为单位的地址变换过程需要二级页表。,46,存储管理单元MMU(2),一级页表的地址变换过程:,47,存储管理单元MMU(1),4.一级描述符:从页表中得到的相应地址变换条目称为一级描述符。它定义了与之相应的1M存储空间是如何映射的。一级描述符的位1:0定义了该一级描述符的类型,共有4种格式的一级描述符:,48,存储管理单元MMU(2),1)粗粒度页表描述符:当一级描述符的位1.0为0b01(0b代表二进制)时,该一级描述符中包含了粗粒度的二级页表的物理地址,这种一级描述符称为粗粒度页表描述符。它的格式和各个字段的含义如下:,49,存储管理单元MMU(3),由粗粒度页表描述符获取二级描述符的过程:,50,存储管理单元MMU(4),2)段描述符:当一级描述符的位1:0为0b10时,该一级描述符为段描述符,它的格式和各个字段的含义如下:,51,存储管理单元MMU(5),基于段的地址变换过程:,52,存储管理单元MMU(6),3)细粒度页表描述符:当一级描述符的位1:0为0b11时,该一级描述符中包含了细粒度的二级页表的物理地址,称为细粒度页表描述符。它的格式和各个字段的含义如下:,53,存储管理单元MMU(7),由细粒度页表描述符获取二级描述符的过程,54,存储管理单元MMU,5.MMU中的存储访问权限控制,55,存储管理单元MMU,6.MMU中的域(Domain)MMU中的域指的是一些段、大页或者小页的集合。ARM支持最多16个域,每个域的访问控制特性都是由CP15中的寄存器C3中的两位来控制的。这两位的字段编码和含义:,56,存储管理单元MMU,7.快速上下文切换技术 快速上下文切换技术FCSE(Fast Context Switch Extension)通过修改系统中不同进程的虚拟地址,避免在进行进程间切换时造成的虚拟地址到物理地址的重映射,从而提高系统的性能。FCSE位于CPU和MMU之间,其责任就是将不同进程使用的相同虚拟地址映射为不同的虚拟空间,使得在上下文切换时无需重建TLB等。,57,存储管理单元MMU,8.存储器映射的输入/输出 在ARM系统中,I/O操作通常被映射成存储器操作,即输入/输出是通过存储器映射的可寻址外围寄存器和中断输入的组合来实现的。但是,对于存储器映射的I/O空间的操作,不能使用Cache技术。,58,思考题,1.哈佛体系结构和冯诺依曼体系结构有何不同?2.回答下列关于ARM编程模式的问题:a.在该模式中有多少通用寄存器?b.CPSR的作用是什么?c.Z位的作用是什么?d.程序计数器保存在何处?3.下列操作完成后,ARM的状态字将如何设置?a.2-3b.-23 2+1-1c.-4+5,59,思考题,4.下列ARM条件码的含义是什么?a.E Qb.N Ec.M Id.V Se.G Ef.LT5.编写ARM汇编代码来先读然后再写映射到0 x2100位置的设备存储器。6.用ARM汇编语言编写一个中断处理程序,该程序从位于0 x2200处的设备中读取一个字符。7.为什么大多数计算机系统使用存储器映射I/O?,60,思考题,8.在何时你会更愿意使用忙等I/O方式而不使用中断驱动I/O?9.三个设备与一个微处理器相连:设备1有最高优先级,设备3有最低优先级,每一个设备的中断处理程序需要运行5个时间单元。展示在每次指定下面显示的设备中断序列时,执行什么样的中断处理程序(如果有的话)。10.如果一个机器的命中率为93%,具有5ns的高速缓存访问时间和80ns的主存的访问时间,那么它的平均内存访问时间是多少呢?11.如果我们希望得到一个6.5ns的主存平均访问时间,而我们的高速缓存访问时间为5ns,并且主存访问时间为80ns,那么需要达到多高的高速缓存命中率才能可以实现我们的目标呢?,61,思考题,12.假设一个系统有一个两级高速缓存:一级高速缓存有90%的命中率,二级高速缓存有97%的命中率;一级高速缓存访问时间为4ns,二级高速缓存访问时间为15ns,三级高速缓存访问时间为80ns,那平均内存访问时间是多少呢?13.下面的代码由ARM处理器执行,每条指令执行一次。展示用于下列这些配置的指令高速缓存的内容,假设每条线持有一个ARM指令:a.直接映射,四线。b.直接映射,八线。c.双路组相联,每组四线。14.写一个使你熟悉高速缓存的简单的循环,通过更改循环体中语句的数量,你可以在执行时改变这个循环的高速缓存命中率。如果你的微处理器从片外存储器中取出指令,那么通过观察微处理器总线你应该能够观察到执行速度的改变。,