|
高性能定/浮点ADSP Tiger
SHARC 101S 数字信号处理器 |
High Performance DSP Tiger SHARC 101S
|
■ 空军雷达学院科研部 任磊 王永良
|
Tiger SHARC系列是基于AD2106x的下一代高性能芯片,其内部集成的更大容量SRAM,单周期执行4条指令,且可以很方便实现多片并行处理系统扩展,这些优点增加了高速实时信号处理的可行性。
本文着重介绍Tiger SHARC系列中的TS101S芯片,并给出由其构成的带外部SDRAM系统结构。
ADSP TS101S主要优点和性能
TS101S是AD公司最新推出的高性能静态超标量处理器,且专为大的信号处理任务和通信结构进行了优化。因为TS101S在运行期间并不重新排列指令顺序,所以用户可以在运行以前选择哪几条指令并行执行,故程序指令执行的顺序是静态的。TS101S的静态超标量结构能通过两个运算单元同时执行1到4条从超长指令行中译出的指令,即每周期能够执行多达4条指令,24个16
bit定点运算和6个浮点运算。
TS101S运行在250MHz时,其内核的指令周期为4ns。利用单指令多数据(SIMD) TS101S可以提供20亿次40 bit
乘累加(MAC)运算或者500百万次80 bit MAC运算。TS101S的主要性能指标如表1所示。
另外还有一些重要的性能指标如下:
1、供峰值8个16 bit MAC每周期,可持续7.1个16 bit MAC每周期的运算性能,
或峰值2个32 bit MAC每周期,可持续1.8个32 bit MAC每周期的运算性能(基于FIR);
2、每周期执行6个单精度浮点运算或者24个16 bit定点操作,提供1500 MIPS或6.0 GOPS的性能;
3、每周期执行2个复数16 bit MAC;
4、每周期执行8次Trellis蝶形运算。
ADSP TS101S结构特点
图1为ADSP TS101S的系统主要结构框图,由图中可见ADSP TS101S主要包括程序控制器,I/O端口,片内SRAM存储器,整数ALU,双运算模块,另外还有内部数据总线,内部总线仲裁和调试模块等。下面对其进行逐一介绍。
程序控制器带有指令对齐缓冲器和分支目标缓冲器。指令对齐缓冲器(IAB)缓存最多5条预取并等待执行的指令,程序控制器从IAB中提取出指令行,并将指令分发给响应内核模块来执行。分支目标缓冲器(BTB)用来减小分支跳转延迟,用以实现条件和无条件跳转指令的高效执行和零消耗循环;正确的预测跳转需要0到2个消耗周期,性能远好于3到6个周期跳转消耗。另外程序控制器还支持如下功能:完全可中断的编程模式,灵活地使用汇编语言和C/C++编程,高吞吐量的中断处理不存在中止周期;八周期指令流水,即三个周期取指流水五个周期执行流水,运算结果将会在操作数可用两个周期后得到。
表1 250MHz运行时通用算法性能(略)
图1 ADSP TS101S的系统主要结构框图(略)
表2 TS101S时钟与SDRAM控制器主要引脚定义(略)
图2 带有外部SDRAM的单处理器系统(略)
I/O端口可提供与主机处理器、多处理器、片外存储器映射外设、外部SRAM和SDRAM相连。为了能和各种主机处理器配合工作,主机接口支持流水线或慢速的协议,用来被主机当作从机访问。每种协议带有可编程的传输参数,例如空闲状态、流水深度、插入等待状态等。主机接口能够直接读写TS101S的片内存储器,能够访问TS101S的大多数寄存器,包括DMA控制(TCB)寄存器。
TS101S通过外部端口和链路口提供为多处理器DSP 系统定制的强大功能。外部端口支持统一的寻址空间,能够对每个TS101S的内部存储器和寄存器进行处理器间的直接访问。TS101S的片内分布式总线仲裁逻辑能够为由多达8个TS101S和一个主机处理器组成的系统提供简单无缝连接。TS101S
的4个链路口为处理器间的通讯提供了又一种途径,其吞吐量高达每秒1Gbytes。簇型总线提供每秒800Mbytes的吞吐量,这就使处理器间的带宽总和达到每秒1.8Gbytes。TS101S拥有14个DMA通道,提供处理器不干预的零开销数据传输。其按不同的操作分配如下:4个专用双向DMA通道用于在片内存储器和任何外部存储器和存储器映射的外设之间传输数据,这些传输支持主模式和握手模式协议;8个专用DMA(4个发送,4个接收)传输4
word的数据,这些传输只使用握手模式协议且只能在链路口之间,及链路口与片内和外部的存储器之间传输;2个专用的单项DMA通道从外部的主处理器到片内存储器或到链路口传输接受到的数据,这些传输只使用从模式协议。
TS101S拥有6M bit 片内SRAM存储器,改存储器被分为三个2M bit的块M0,M1,M2(每个块为64K word 32
bit),他们都能存储程序、数据或者同时存储程序和数据。在具体应用时通过配置LDF文件将程序和数据存储在不同的存储块中(超级哈佛结构的特点),使得TS101S可以在取指的同时访问数据。每个片内存储块都分别连接到128
bit宽的内部总线,这种连接使得TS101S能够在一个周期内完成3个存储器传输。
TS101S用两个整数算术逻辑单元(IALU)来提供强大的地址产生能力和通用的整数操作,每个IALU包含一个由31 word构成的寄存器组。作为地址产生器,IALU实现了立即或间接寻址(提前或滞后修改),以及对于存储器地址没有限制的取模和位反序操作。IALU通过硬件支持来实现环形缓冲、位反序和零耗循环。其中的环形缓冲为在数字信号处理中经常用到的延迟线和其他数据结构的编程提供了便利,其经常被用在数字滤波器和傅立叶变换中。
TS101S的运算模块能够通过相互独立或一起工作执行通用运算来实现SIMD引擎。在汇编语言中双运算模块被标识为CBX和CBY,每个运算模块包含三个运算单元,一个算术逻辑单元(ALU),一个乘法器,一个移位器和一个由32个寄存器构成的全正交寄存器组。ALU执行标准的定点/浮点算术操作和逻辑操作;乘法器用于执行定点/浮点乘法和定点乘加运算;64
bit移位器完成算术和逻辑移位,比特和比特流控制,域存储和提取操作;寄存器组能够用于运算单元和数据总线之间的数据传输和存储中间结果。
ADSP TS101S主要管脚定义
目前DSP主要采用四边引出扁平封装(QFP)和球栅阵列封装(BGA)两种封装方式。TS101S提供19 19mm(484-ball)和27
27mm(625-ball)两种BGA封装。BGA封装方式与QFP方式比较而言有组装成品率高、电热性能好、信号传输延迟小、重量轻、可靠性高等优点。
如图2所示,本节给出TS101S带有外部SDRAM的单处理器系统结构示例。下面我们对照该图给出TS101S时钟与SDRAM控制器主要引脚的定义,如表2所示,其他引脚定义请参照芯片datasheet说明。其中类型I代表输入,O代表输出,A代表异步,T代表三态,pu代表内部上拉100kW,pd代表内部下拉100kW,G代表地。
结束语
TS101S芯片处理器是美国AD公司最新推出的高性能定/浮点信号处理器,其表现出的高性能必将在对实时处理要求高的场合得到广泛的应用,如通信基站建设、机载雷达预警、阵列信号处理等。本文详细介绍了其主要性能及结构特点,在最后给出由其构成的带外部SDRAM系统结构,并说明相应的管脚定义供读者参考。
|
|