TMS320C55x的硬件结构.ppt
《TMS320C55x的硬件结构.ppt》由会员分享,可在线阅读,更多相关《TMS320C55x的硬件结构.ppt(58页珍藏版)》请在三一办公上搜索。
1、第2章 TMS320C55x的硬件结构,内容提要 本章详细介绍TMS320C55x的硬件结构,包括C55x处理器的CPU体系结构、指令流水线、存储空间结构及TMS320VC5509A的主要特性等。,知识要点,TMS320C55x DSP的基本结构,TMS320VC5509A的主要特性,TMS320C55x 存储空间结构,第2章 TMS320C55x的硬件结构,2.1 TMS320C55x DSP的基本结构 2.2 TMS320VC5509A的主要特性 2.3 TMS320C55x 存储空间结构,第2章 TMS320C55x的硬件结构,2.1 TMS320C55x DSP的基本结构,TMS320
2、C55x数字信号处理器是在C54x的基础上发展起来的新一代低功耗、高性能数字信号处理器,其软件具有C54兼容模式,极大地节省了C54x向C55x的转化时间。C55x采用了新的半导体工艺,其工作时钟大大超过了C54x系列处理器,CPU内部通过增加功能单元增强了DSP的运算能力,与 C54x相比具有更高的性能和更低的功耗。这些特点使之在无线通信、便携式个人数字系统及高效率的多通道数字压缩语音电话系统中得到广泛应用。,第2章 TMS320C55x的硬件结构,C55x与C54x相比,C55x在硬件方面做了许多扩展,具体如表2-1所示。,表2-1 C55x与C54x的比较,1(40位),第2章 TMS3
3、20C55x的硬件结构,C55x的一系列特征使它具有处理效率高、低功耗和使用方便的等优点。,第2章 TMS320C55x的硬件结构,表2-2 C55x的特征及优点,2.1.1 C55x 的CPU体系结构,在通用计算机(PC机)上用软件(如Fortran、C语言)实现,但速度慢,不适合实时数字信号处理,只用于算法的模拟;,在通用计算机系统中加入专用的加速处理机实现,用以增强运算能力和提高运算速度。不适合于嵌入式应用,专用性强,应用受到限制;,用单片机实现,用于不太复杂的数字信号处理。不适合于以乘法-累加运算为主的密集型DSP算法;,用通用的可编程DSP芯片实现,具有可编程性和强大的处理能力,可完
4、成复杂的数字信号处理的算法,在实时DSP领域中处于主导地位;,第2章 TMS320C55x的硬件结构,C55x有1条32位的程序数据总线(PB),5条16位数据总线(BB、CB、DB、EB、FB)和1条24位的程序地址总线及5条23位的数据地址总线,这些总线分别与CPU相连。总线通过存储器接口单元(M)与外部程序总线和数据总线相连,实现CPU对外部存储器的访问。这种并行的多总线结构,使CPU能在一个CPU周期内完成1次32位程序代码读、3次16位数据读和两次16位数据写。C55x根据功能的不同将CPU分为4个单元,即指令缓冲单元(I)、程序流程单元(P)、地址流程单元(A)和数据计算单元(D)
5、。,第2章 TMS320C55x的硬件结构,TMS320C55x CPU结构图,读程序地址总线(PAB)上传送24位的程序代码地址,由读程序数据总线(PB)将32位的程序代码送入指令缓冲单元I进行译码。,第2章 TMS320C55x的硬件结构,3条读数据地址总线(BAB、CAB、DAB)与3条读数据数据总线(BB、CB、DB)配合使用,即BAB对应BB、CAB对应CB和DAB对应DB。地址总线指定数据空间或I/O空间地址,通过数据总线将16位数据传送到CPU的各个功能单元。其中,BB只与D单元相连,用于实现从存储器到D单元乘法累加器(MAC)的数据传送。特殊的指令也可以同时使用BB、DB和CB
6、来读取三个操作数。,2条写数据地址总线(EAB、FAB)与两条写数据数据总线(EB、FB)配合使用,即EAB对应EB、FAB对应FB。地址总线指定数据空间或I/O空间地址,通过数据总线,将数据从CPU的功能单元传送到数据空间或I/O空间。所有数据空间地址由A单元产生。EB和FB从P单元、A单元和D单元接收数据,对于同时向存储器写两个16位数据的指令要使用EB和FB,而对于完成单写操作的指令只使用EB。,2.1.2 指令缓冲单元(I),C55x的指令缓冲单元由指令缓冲队列IBQ(Instruction Buffer Queue)和指令译码器组成。在每个CPU周期内,I单元将从读程序数据总线接收的
7、4B程序代码放入指令缓冲队列,指令译码器从队列中取6B程序代码,根据指令的长度可对8位、16位、24位、32位和48位的变长指令进行译码,然后把译码数据送入P单元、A单元和D单元去执行。,第2章 TMS320C55x的硬件结构,指令缓冲单元结构图,2.1.3 程序流程单元(P),程序流程单元由程序地址产生电路和寄存器组构成。程序流程单元产生所有程序空间的地址,并控制指令的读取顺序。程序地址产生逻辑电路的任务是产生读取程序空间的24位地址。一般情况下,它产生的是连续地址,如果指令要求读取非连续地址的程序代码时,程序地址产生逻辑电路能够接收来自I单元的立即数和来自D单元的寄存器值,并将产生的地址传
8、送到PAB。,第2章 TMS320C55x的硬件结构,在P单元中使用的寄存器分为5种类型。(1)程序流寄存器:包括程序计数器(PC)、返回地址寄存器(RETA)和控制流程关系寄存器(CFCT)。(2)块重复寄存器:包括块重复寄存器0和1(BRC0,BRC1)、BRC1的保存寄存器(BRS1)、块重复起始地址寄存器0和1(RSA0,RSA1)以及块重复结束地址寄存器0和1(REA0,REA1)。(3)单重复寄存器:包括单重复计数器(RPTC)和计算单重复寄存器(CSR)。(4)中断寄存器:包括中断标志寄存器0和1(IFR0,IFR1)、中断使能寄存器0和1(IER0,IER1)以及调试中断使能寄
9、存器0和1(DBIER0,DBIER1);(5)状态寄存器:包括状态寄存器0,1,2和3(ST0-55,ST1-55,ST2-55和ST3-55)。,第2章 TMS320C55x的硬件结构,程序流程单元结构图,第2章 TMS320C55x的硬件结构,2.1.4 地址流程单元(A),地址流程单元包括数据地址产生电路、算术逻辑电路和寄存器组构成。数据地址产生电路(DAGEN)能够接收来自I单元的立即数和来自A单元的寄存器产生读取数据空间的地址。对于使用间接寻址模式的指令,由P单元向DAGEN说明采用的寻址模式。A单元包括一个16位的算术逻辑电路(ALU),它既可以接收来自I单元的立即数,也可以与存
10、储器、I/O空间、A单元寄存器、D单元寄存器和P单元寄存器进行双向通信。ALU可以完成算术运算、逻辑运算、位操作、移位、测试等操作。,第2章 TMS320C55x的硬件结构,A单元包括的寄存器有以下几种类型。,(1)数据页寄存器:包括数据页寄存器(DPH,DP)和接口数据页寄存器(PDP);(2)指针:包括系数数据指针寄存器(CDPH,CDP)、栈指针寄存器(SPH,SP,SSP)和8个辅助寄存器(XAR0XAR7);(3)循环缓冲寄存器:包括循环缓冲大小寄存器(BK03,BK47,BKC)、循环缓冲起始地址寄存器(BSA01,BSA23,BSA45,BSA67,BSAC);(4)临时寄存器:
11、包括临时寄存器(T0T3)。,第2章 TMS320C55x的硬件结构,第2章 TMS320C55x的硬件结构,地址流程单元结构图,2.1.5 数据计算单元(D),数据计算单元由移位器、算术逻辑电路、乘法累加器和寄存器组构成。D单元包含了CPU的主要运算部件。D单元移位器能够接收来自I单元的立即数,能够与存储器、I/O空间、A单元寄存器、D单元寄存器和P单元寄存器进行双向通信,此外,还可以向D单元的ALU和A单元的ALU提供移位后的数据。移位器可完成以下操作:(1)对40位的累加器可完成向左最多31位和向右最多32位的移位操作,移位数可从临时寄存器(T0T3)读取或由指令中的常数提供;(2)对于
12、16位寄存器、存储器或I/O空间数据可完成左移31位或右移32位的移位操作;(3)对于16位立即数可完成向左最多15位的移位操作。,第2章 TMS320C55x的硬件结构,D单元的40位算术逻辑电路可完成以下操作:(1)完成加、减、比较、布尔逻辑运算和绝对值运算等操作;(2)能够在执行一个双16位算术指令时同时完成两个算术操作;(3)能够对D单元的寄存器进行设置、清除等位操作。,第2章 TMS320C55x的硬件结构,每条指令可通过片内多功能单元完成取指、译码、取操作数和执行等多个步骤,实现多条指令的并行执行,从而在不提高系统时钟频率的条件下减少每条指令的执行时间。其过程如图1.2.3所示。,
13、第2章 TMS320C55x的硬件结构,数据计数单元结构图,2.1.6 指令流水线,C55x CPU采用指令流水线工作方式,C55x的指令流水线包括两个阶段:第一阶段是取流水线,即从内存中取出32位的指令包,放入指令缓冲队(IBQ)中,然后为流水线的第二阶段提供48位的指令包。,第2章 TMS320C55x的硬件结构,流水线的第一阶段(取流水线),其中PF1表示向存储器提供的程序地址,PF2表示等待存储器的响应,F表示从存储器取一个指令包并放入指令缓冲队列中,PD表示对指令缓冲队列中的指令预解码(确定指令的起始和结束位置;确定并行指令)。,第二阶段是指执行流水线,这部分的功能是对指令进行解码,
14、完成数据的存取和计算。,第2章 TMS320C55x的硬件结构,流水线的第二阶段(执行流水线),第2章 TMS320C55x的硬件结构,流水线第二分段各阶段的执行情况,从指令缓冲队列中读6个字节的指令,对一个指令对或一个单指令进行解码,给对应的CPU功能单元分配指令,读取STx_中55种与数据地址产生相关的位,流水线第二分段各阶段的执行情况(续),第2章 TMS320C55x的硬件结构,如果DSP芯片在某时钟频率范围内的任何频率上都能正常工作,除计算速度有变化外,没有性能的下降,这类DSP芯片一般称之为静态DSP芯片。例如,TI公司的TMS320系列芯片、日本OKI电气公司的DSP芯片都属于这
15、一类芯片。,第2章 TMS320C55x的硬件结构,下面通过举例来说明流水线的工作方式。,AMOV#k23,XARx:在AD节拍用一个立即数对XARx初始化;MOV#k,ARx:ARx不是通过存储器映射方式寻址的,在X节拍用一个立即数初始化ARx;MOV#k,mmap(ARx):ARx是通过存储器映射方式寻址的,在W节拍用一个立即数初始化ARx;AADD#k,ARx:对于这个特殊指令,在AD节拍用一个立即数对ARx初始化;MOV#k,*ARx+:在W+节拍对存储器进行写操作;MOV*ARx+,AC0:在AD节拍对ARx 进行读和更新操作,在X节拍载入AC0;ADD#k,ARx:在X节拍的开始时
16、刻读ARx,在X节拍的结束时刻修改ARx;ADD ACy,ACx:在X节拍读/写ACx和ACy;,第2章 TMS320C55x的硬件结构,MOV mmap(ARx),ACx:ARx是通过存储器映射方式寻址的,在R节拍读取ARx,在X节拍修改ACx;MOV ARx,ACx:ARx 不是通过存储器映射方式寻址的,在X节拍读取ARx,在X节拍修改ACx;BSET CPL:在X节拍设置CPL位;PUSH,POP,RET或AADD#K8,SP:在AD节拍读取和修改SP,如果选择32位栈模式,SSP会发生变化;XCCPART overflow(ACx):在X节拍判断条件,但是不管条件是否满足,AR1都会加
17、1;|MOV*AR1+,AC1XCCPART overflow(ACx):在R节拍判断条件,满足条件向存储器完成写操作,但是不|MOV AC1,*AR1+管条件是否满足,AR1都会加1XCC overflow(ACx):在AD节拍判断条件,只有满足条件时,AR1加1|MOV*AR1+,AC1,2.2 TMS320VC5509A的主要特性,第2章 TMS320C55x的硬件结构,2.2.1 VC5509A的主要特性,VC5509A是C55x系列一款典型的处理器,在VC5509A中集成了一个C55x内核,128KB16位片上RAM存储器,并具有最大8MB16位的外部寻址空间,片上还集成了USB总线
18、、McBSP和I2C等外部接口。,1CPU,第2章 TMS320C55x的硬件结构,两个乘法累加单元(MAC):每个乘法累加单元可在一个周期内处理17位17位的乘法运算。40位的算术逻辑单元(ALU)和一个16位的算术逻辑单元:算术逻辑单元具有并行处理能力,采用并行处理可以降低系统处理时钟从而降低功耗。这些资源由CPU中的地址单元(AU)和数据单元(DU)进行管理。采用先进的多总线结构:通过三条内部数据/操作数来读总线和两条内部数据/操作数来写总线,从而完成对指令和数据的访问。,2存储器,有128KB16位的片上RAM,其中包括64KB的双存取RAM(DARAM)和192KB的单存取RAM(S
19、ARAM)。8MB16位的最大可访问外部寻址空间(同步DRAM)。外部存储器接口(EMIF)与通用输入/输出(GPIO)共用引脚,当不使用外部存储器接口时,这些引脚可以当作通用输入/输出接口来使用,EMIF接口可以实现与异步静态RAM(SRAM)、异步(EPROM)和同步DRAM(SDRAM)的无缝连接。,第2章 TMS320C55x的硬件结构,3片上外设,两个20位的定时器。一个看门狗定时器。6通道直接存储器存取控制器(DMA),DMA控制器在不需要CPU干预的情况下可以提供6路独立的通道用于数据传输,并且可达每周期两个16位数据的吞吐量。外部存储器接口(EMIF),它提供与异步存储器如EP
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- TMS320C55x 硬件 结构
链接地址:https://www.31ppt.com/p-5450928.html