|
语音识别技术新热点--语音识别专用芯片
|
Voice ASIC:Hotspot In Voice Recognition
|
■清华大学电子工程系 朱璇 刘加 刘润生
|
引言
语音识别技术的应用可以分为两个发展方向:一个方向是大词汇量连续语音识别系统,主要应用于计算机的听写机,以及与电话网或者互联网相结合的语音信息查询服务系统,这些系统都是在计算机平台上实现的;另外一个重要的发展方向是小型化、便携式语音产品的应用,如无线手机上的拨号、汽车设备的语音控制、智能玩具、家电遥控等方面的应用,这些应用系统大都使用专门的硬件系统实现。
功能特点
语音识别专用芯片的中心运算处理器只是一片低功耗、低价位的智能芯片,与一台甚至多台PC机相比起来,其运算速度、存储容量都非常有限,因而这些由专用芯片实现的语音识别系统有如下几个特点:
1.多为中、小词汇量的语音识别系统,即只能够识别10~100词条。
2.一般仅限于特定人语音识别的实现,即需要让使用者对所识别的词条先进行学习或训练,这一类识别功能对语种、方言和词条没有限制。
3.由此芯片组成一个完整的语音识别系统。因此,除了语音识别功能以外,为了有一个好的人机界面和识别正确与否的验证,该系统还必须具备语音提示(语音合成)及语音回放(语音编解码记录)功能。
4.多为实时系统,即当用户说完待识别的词条后,系统立即完成识别功能并有所回应,这就对电路的运算速度有较高的要求。
5.除了要求有尽可能好的识别性能外,还要求体积尽可能小、可靠性高、耗电省、价钱低等特点。
语音识别专用芯片的类型
根据识别性能及语音识别算法的不同,语音识别专用芯片大致有以下几种类型:
1.由多带通滤波器及线性匹配电路构成。这是在二十世纪80年代初期的产品,也是最早期的语音识别专用集成电路。它是由一组带通滤波器组成特征提取电路,然后用线性匹配电路进行模式匹配。这种电路的语音识别性能低,现已很少应用。
2.由单片微控器(MCU)组成的语音识别专用IC。用8位机或16位机为计算核心,外加A/D变换,D/A变换以及存储器组成。由于MCU的运算能力有限,因而其识别算法不可能复杂,精度也低,故一般识别率不会太高。典型芯片是1996年美国Sensory公司生产的RSC-146。
3.由数字信号处理器( DSP)组成的语音识别系统。一般由定点16位DSP组成,外加A/D变换、D/A变换,以及ROM、RAM、FLASH等存储器组成。由于DSP包含用作数字信号处理运算的专用部件,因而运算能力强,精度高,适于组成较高性能的语音识别系统。最常用的DSP芯片有TI公司的TMS320AC54XX系列,AD公司的ADSP218X系列,以及DSPG公司开发的OAK系列。用DSP组成的语音识别系统可以实现孤立词特定人和非特定人语音识别功能,其识别词条可以达到中等词汇量。此外,还可以实现说话人识别以及高质量高压缩率语音编解码功能,因而同时可以产生高品质的语音合成和语音回放功能,这是当前语音识别专用芯片的主流组成。
4.由人工神经网络构成的语音识别专用芯片。由于语音信号是一个时间区间动态变化的信号,一般采用的多层前向感知机算法。但是,由于人工神经网络很难达到和语音信号的最佳匹配,因此用人工神经网络实现的语音识别系统的识别性能很不理想。而如果采用时延单元神经网络,并且与其他方法配合,则可以实现较高性能的语音识别。例如1991年GMResLab利用时延单元神经网络(Time
Delay Neural Network, TDNN)模拟芯片实现了特定人英语数字串的识别,8个数字串的识别率达到了98%以上。
5.语音识别系统级芯片(System on Circuit, SOC)。将MCU或DSP、A/D、D/A、RAM、ROM以及预放、功放等电路集成在一个芯片上,只要加上极少的电源供电等单元就可以实现语音识别、语音合成以及语音回放等功能。这是最近两年出现的最先进的语音识别芯片,其性能价格比较高,功耗省。最有代表性的是Sensory公司的RSC-364及Infineon公司的UniSpeech-SDA80D51。
算法特点
语音识别系统的基本流程如图1所示。
语音信号输入后首先经过滤波器,去除干扰及可能造成混淆的成分,然后由前端处理模块提取语音识别所需的特征参数。当前语音识别所用的特征参数主要有两种类型:线性预测倒谱系数(LPCC)和MEL频标倒谱系数(MFCC)。
LPCC系数主要是模拟人的发声模型,未考虑人耳的听觉特性。它对元音有较好的描述能力,对辅音描述能力及抗噪性能比较差,而其优点为计算量小,易于实现。
MFCC系数则考虑到了人耳的听觉特性,具有较好的识别性能。但是,由于它需要进行快速傅立叶变换,将语音信号由时域变换到频域上处理,因此其计算量和计算精度要求高,必须在DSP上完成。
语音识别模块的作用是将输入信号的特征与模板库中已训练好的语音模板进行比较识别,找到最好的识别结果。现在应用较为广泛的语音识别的算法主要有以下几种:动态时间规整、离散隐马尔可夫模型、连续隐马尔可夫模型、人工神经网。
典型语音识别专用芯片举例
从20世纪六七十年代以来,语音识别的研究人员一直致力于语音识别专用芯片的研究,但是,大多数的语音识别专用芯片识别性能差,不具备实用的要求。直到近十年以来,随着语音识别算法的深入研究和集成电路技术的发展,才出现了一些具有实用价值和市场前景的语音识别专用芯片。其中,较为成功的两个芯片详细介绍如下:
1.RSC-364
由美国Sensory Integrated Circuit公司开发,2000年开始生产,是一颗为消费类电子产品应用的低价位的语音识别专用芯片,其结构图如图2所示。
RSC-364使用预先学习好的人工神经网络进行非特定人语音识别,不需要经过训练就可以识别"Yes"、"No"、"Ok"等简单语句,其Data
Book上称其识别率为97%。此外,RSC-364可以识别特定人、孤立词命令语句,约60条左右,其Data Book上称其识别率为99%以上。
RSC-364还具有5~15kb/s的语音合成,其语音合成由Sensory专门设计,其音质较好。它还具有改进的ADPCM(自适应差分脉冲调制)语音编解码功能,用作语音回放。
2.UniSpeech-SDA80D51
德国Infineon公司2000年开始生产的产品,它是一颗高性能的语音专用芯片,其基本结构如图3所示。
这样的设计能够满足立体声处理或者消除外界干扰等功能要求,例如在汽车上使用时,可以消除发动机和轮胎转动产生的噪声干扰等。
UniSpeech-SDA80D51的语音处理软件包括:利用DTW算法的特定人语音识别,能够识别100条语句;利用HMM算法的非特定人语音识别,词汇量可以达到100条语句;高质量、低码率(2.4~13kb/s)的语音编解码,用作语音提示和语音回放;回声消除技术,降低外界的噪声干扰;说话人识别功能等等。
国内语音识别专用芯片的现况
国内在语音识别专用芯片的开发与研究方面起步较晚。本实验室是国内最早专门从事语音技术与专用芯片设计研究单位之一,承担了国家863项目,以及国际合作项目"语音识别专用芯片研究开发"课题,研究开发了国内第一个具有自主知识产权的语音识别专用芯片的软件部分。该芯片能够识别约20
30条特定人语音命令,同时具有语音合成(提示)与语音编解码(回放)功能。语音识别率达到98%以上,性能达到国际先进水平。
目前正在研发新一代基于16位定点DSP的语音识别专用芯片,其性能将更加强大。该芯片可以用于汽车电子系统,实现语音控制和语音拨号,语音PDA,高档语音智能玩具,语音监录器,智能语音遥控器,高档电话伴侣等。
|
|