第六章智能机器人的语音合成与识别ppt课件.ppt
第6章 智能机器人的语音合成与识别,语言是人类最重要的交流工具,自然方便、准确高效。让机器与人之间进行自然语言交流是智能机器人领域的一个重要研究方向。语音识别和语音合成技术、自然语言理解是建立一个能听会讲的口语系统,从而实现人机语音通信所必需的关键技术。 语音合成与识别技术涉及语音声学、数字信号处理、人工智能、微机原理、模式识别、语言学和认知科学等众多前沿科学,是一个涉及面很广的综合性科学,其研究成果对人类的应用领域和学术领域都具有重要的价值。近年来,语音合成与识别取得显著进步,逐渐从实验室走向市场,应用于工业、消费电子产品、医疗、家庭服务、机器人等各个领域。,图6.1 语音合成技术原理示意图,6.1 语音合成的基础理论,语音合成是指由人工通过一定的机器设备产生出语音。具体方法是利用计算机将任意组合的文本转化为声音文件,并通过声卡等多媒体设备将声音输出。简单的说,就是让机器把文本资料“读”出来。,由图6.1可知,语音合成系统完成文本到语音数据的转化过程中可以简单分为两个步骤: (1) 文本经过前端的语法分析,通过词典和规则的处理,得到格式规范,携带语法层次的信息,传送到后端。 (2) 后端在前端分析的结果基础上,经过韵律方面的分析处理,得到语音的时长、音高等韵律信息,再根据这些信息在音库中挑选最合适的语音单元,语音单元再经过调整和拼接,就能得到最终的语音数据。6.1.1 语音合成分类 1. 波形合成法 波形合成法是一种相对简单的语音合成技术,它把人发音的语音数据直接存储或进行波形编码后存储,根据需要进行编辑组合输出。这种语音合成系统只是语音存储和重放的器件,往往需要大容量的存储空间来存储语音数据。波形合成法适用于小词汇量的语音合成应用场合,如自动报时、报站和报警等。,2. 参数合成法 参数合成法也称为分析合成法,只在谱特性的基础上来模拟声道的输出语音,而不考虑内部发音器官是如何运动的。参数合成方法采用声码器技术,以高效的编码来减少存储空间,是以牺牲音质为代价的,合成的音质欠佳。 3. 规则合成方法 规则合成方法通过语音学规则产生语音,可以合成无限词汇的语句。合成的词汇表不是事先确定,系统中存储的是最小的语音单位的声学参数,以及由音素组成音节、由音节组成词、由词组成句子和控制音调、轻重音等韵律的各种规则。,6.1.2 常用语音合成技术 1、共振峰合成法 习惯上,把声道传输频率响应上的极点称之为共振峰。语音的共振峰频率(极点频率)的分布特性决定着语音的音色。 共振峰合成涉及共振峰的频率、带宽、幅度参数和基音周期等相关参数。要产生可理解的语音信号,至少要三个共振峰;要产生高质量合成语音信号,至少要由五个共振峰。 基于共振峰合成方法主要有以下三种实用模型: 1)级联型共振峰模型 在该模型中,声道被认为是一组串联的二阶谐振器,共振峰滤波器首尾相接,其传递函数为各个共振峰的传递函数相乘的结果。五个极点的共振峰级联模型传递函数为:,(6.1),即: (6.2) 式中,G为增益因子。一个五个极点的共振峰级联模型如图6.2所示:图6.2 共振峰级联模型,2)并联型共振峰模型 在并联型模型中,输入信号先分别进行幅度调节,再加到每一个共振峰滤波器上,然后将各路的输出叠加起来。其传递函数为: (6.3) 上式可分解成以下部分分式之和 (6.4)其中, 为各路的增益因子。,下图就是一个M=5的并联型共振峰模型。 图6.3 并联型共振峰模型 3)混合型共振峰模型 比较以上两种模型,对于大多数的元音,级联型合乎语音产生的声学理论,并且无需为每一个滤波器分设幅度调节;而对于大多数清擦音和塞音,并联型则比较合适,但是其幅度调节很复杂。如下图所示,混和型共振峰模型将两者进行了结合。,图6.4 混和型共振峰模型 对于共振峰合成器的激励,简单地将其分为浊音和清音两种类型是有缺陷的,为了得到高质量的合成语音,激励源应具备多种选择,以适应不同的发音情况。混和型共振峰模型中激励源有三种类型:合成浊音语音时用周期冲激序列;合成清音语音时用伪随机噪声;合成浊擦音语音时用周期冲激调制的噪声。,2、LPC(线性预测)参数合成 LPC合成技术本质上是一种时间波形的编码技术,目的是为了降低时间域信号的传输速率。LPC合成技术的优点是简单直观,其合成过程实质上只是一种简单的译码和拼接的过程。另外,由于波形拼接技术的合成基元是语音的波形资料,保存了语音的全部信息,因而对于单个合成基元来说能够获得较高的自然度。 3、PSOLA 算法合成语音 早期的波形编辑技术只能回放音库中保存的东西。然而,任何一个语言单元在实际语流中都会随着语言环境的变化而变化。20世纪80年代末,F. Charpentier和E.Moulines 等提出了基音同步叠加技术(PSOLA)。PSOLA算法和早期波形编辑有原则性的差别,它既能保持原始语音的主要音段特征,又能在音节拼接时灵活调整其基音、能量和音长等韵律特征,因而很适合于汉语语音的规则合成。由于韵律修改所针对的侧面不同,PSOLA算法的实现目前有3种方式: (1)时域基音同步叠加TD-PSOLA; (2)线性预测基音同步叠加LPC-PSOLA; (3) 频域基音同步叠加FD-PSOLA。,其中TD-PSOLA算法计算效率较高,已被广泛应用,是一种经典算法,这里只介绍TD-PSOLA算法原理。信号x(n)的短时傅里叶变换为: (6.5) 其中w(n)是长度为N的窗序列,Z表示全体整数集合。 是变量n和的二维时频函数,对于n的每个取值都对应有一个连续的频谱函数,显然存在较大的信息冗余,所以可以在时域每隔若干个(例如R个)样本取一个频谱函数来重构原信号x(n)。 令 (6.6),其傅里叶逆变换为: (6.7) 然后将叠接相加便可得到: (6.8) 通常选w(n)是对称的窗函数,所以有 (6.9),可以证明,对于汉明窗来说,当时,无论m为何值都有 (6.10) 所以 (6.11) 其中 为w(n)的傅里叶变换。上式说明,用叠接相加法重构的信号y(n)与原信号x(n)只相差一个常数因子。 这里采用原始信号谱与合成信号谱均方误差最小的叠接相加合成公式。定义两信号x(n)和y(n)之间谱距离测度:,(6.12) 上式可改写为: (6.13) 要求合成信号y(n)满足谱距离最小,可以令: (6.14),解得 (6.15) 窗函数 和 可以是两种不同的窗函数,长度也可以不相等。上式就是在谱均方误差最小意义下的时域基音同步叠接相加合成公式。 实际合成时 和 可以用完全相同的窗,分母可视为常数,而且可以加一个短时幅度因子来调整短时能量,即: (6.16),概括起来说,用PSOLA算法实现语音合成时主要有三个步骤: 1) 基音同步分析同步标记是与合成单元浊音段的基音保持同步的一系列位置点,用它们来准确反映各基音周期的起始位置。同步分析的功能主要是对语音合成单元进行同步标记设置。PSOLA技术中,短时信号的截取和叠加,时间长度的选择,均是依据同步标记进行的。对于浊音段有基音周期,而清音段信号则属于白噪声,所以这两种类型需要区别对待。 2)基音同步修改 同步修改通过对合成单元同步标记的插入、删除来改变合成语音的时长;通过对合成单元标记间隔的增加、减小来改变合成语音的基频等。 若短时分析信号为 ,短时合成信号为 ,则有:,(6.17) 式中 为分析基音标记, 为合成基音标记。 3)基音同步合成 基音同步合成是利用短时合成信号进行叠加合成。如果合成信号仅仅在时长上有变化,则增加或减少相应的短时合成信号;如果是基频上有变化,则首先将短时合成信号变换成符合要求的短时合成信号再进行合成。,6.2 语音识别的基础理论,6.2.1语音识别基本原理 语音识别系统本质上是一个模式识别系统,其原理如图6.5所示。,图6.5 语音识别结构图,外界的模拟语音信号经由麦克风输入到计算机,计算机平台利用其A/D转换器将模拟信号转换成计算机能处理的语音信号。然后将该语音信号送入语音识别系统前端进行预处理。 预处理会过滤语音信息中不重要的信息与背景噪声等,以方便后期的特征提取与训练识别。预处理主要包括语音信号的预加重,分帧加窗和端点检测等工作。 特征提取主要是为了提取语音信号中反映语音特征的声学参数,除掉相对无用的信息。语音识别中常用的特征参数有短时平均能量或幅度、短时自相关函数、短时平均过零率、线性预测系数(LPC)、线性预测倒谱系数(LPCC)等。,(1)语音训练 语音训练是在语音识别之前进行的,用户将训练语音多次从系统前端输入,系统的前端语音处理部分会对训练语音进行预处理和特征提取,在此之后利用特征提取得到的特征参数可以组建起一个训练语音的参考模型库,或者是对此模型库中的己经存在的参考模型作适当的修改。 (2) 语音识别 语音识别是指将待识别语音经过特征提取后的特征参数与参考模型库中的各个模式一一进行比较,将相似度最高的模式作为识别的结果输出,完成模式的匹配过程。模式匹配是整个语音识别系统的核心。6.2.2 语音识别预处理 一般而言,语音信号在进行分析和处理之前,首先要将语音信号进行预处理。语音信号预处理包括:采样量化、分帧加窗和端点检测等。1采样量化 采样就是在时间域上,等间隔地抽取模拟信号,得到序列模拟音频后,并将其转化成数字音频的过程,实际上就是将模拟音频的电信号转换成二进制码0和1。0和1便构成了数字音频文件,采样频率越大音质越有保证。,如图6.6所示,采样过程可表达如下:如图6.6所示,采样过程可表达如下: (6.18) 其中n为整数,T为采样周期, 为采样频率。,图6.6 语音信号采样示意图,根据采样定理:如果n信号 的频谱是带宽有限的,即: (6.19) 当采样频率大于信号的两倍带宽时,采样过程就不会信息丢失,即: (6.20) 从 可精确重构原始波形,即 能够唯一从样本序列重构为: (6.21),当 时为Nyquist频率。量化实际上是将时间上离散、幅度依然连续的波形幅度值进行离散化。量化时先将整个幅度值分割成有限个区间,然后把落入同一区间的样本赋予相同的幅度值,这个过程取决于采样精度。量化决定了声音的动态范围,以位为单位,例如8位可以把声波分成256级。 (6.22)汉明窗 (6.23),3. 端点检测 端点检测就是通过准确地判断输入语音段的起点和终点,来减少运算量、数据量以及时间,进而得到真正的语音数据。资料表明在安静环境下,语音识别错误原因的一半来自端点检测。 比较常用的端点检测方法有两种:多门限端点检测法和双门限端点检测法。由于在语音信号检测过程中多门限检测算法有较长的时间延时,不利于进行语音过程实时控制,所以大多采用双门限端点检测方法。 双门限端点检测方法是通过利用语音信号的短时能量和平均过零率的性质来进行端点检测的,其步骤为:(1) 设定阈值。预先设定高能量阈值EH,低能量阈值EL及过零率阈值Zth。由于最初采集的语音信号中短时段大多数是无声或背景噪声,因此采用已知的最初几帧(一般取 10 帧)是“静态”的语音信号计算其高、低能量阈值和及过零率阈值。,(2) 寻找语音信号端点检测的起点。假设第n帧的语音能量为若E(n),若E(n) EH,则进入语音段。之后在0到n间再次继续寻找准确语音起点。则精确起点A为: (6.24) (3) 寻找语音信号端点检测的终点。 假设第m帧的语音能量为Em,若EmEH (mn),确定检测点还在语音段中。则在m帧到该语音段的总帧数N间寻找终点B。 (4) 语音端点结果检测。首先设语音长度为L=A-B,若L很小,则为噪声,那么继续对下一个语音段进行检测。此外,语音的端点检测中门限值设置都比较高,对实际采集的语音信号的位置可能存在一定的偏后性,因此为弥补这些不足,在得到检测位置以后,对数据进行追朔。,6.2.3 语音识别的特征参数提取 在语音识别中,我们不能将原始波形直接用于识别,必须通过一定的变换,提取语音特征参数来进行识别,而提取的特征必须满足特征参数应当反映语音的本质特征。特征参数各分量之间的耦合应尽可能地小。特征参数要计算方便。 语音特征参数可以是共振峰值、基本频率、能量等语音参数,目前在语音识别中比较有效的特征参数为线性预测倒谱系数(LPCC)与Mel倒谱系数(MFCC ) 。 1.线性预测系数 线性预测分析的基本思想是:每个语音信号采样值,都可以用它过去取样值的加权和来表示,各加权系数应使实际语音采样值与线性预测采样值之间的误差的平方和达到最小,即进行最小均方误差的逼近。这里的加权系数就是线性预测系数。线性预测是将被分析信号用一个模型来表示,即将语音信号看作是某一模型的输出。因此,它可以用简单的模型参数来描述。如图6.7所示。,图6.7 信号模型图 表示模型的输入, 表示模型的输出。模型的系统函数可以表示为: (6.25) 式中: 系数; 预测模型的阶数。 和 的关系可用差分方程表示: (6.26),即用信号的前 个样本预测当前样本,定义预测器: (6.27) 由于线性预测系数a在预测过程中可看作常数,所以它是一种线性预测器。此线性预测器的系统函数可表示为: (6.28) 短时平均误差能量定义为: (6.29) 式中, 宽度为N的语音数据帧。,使 到达最小值的 必定满足 ,可得 (6.30) 2.线性预测倒谱系数(LPCC) 线性预测倒谱系数(LPCC)是线性预测系数在倒谱中的表示。该特征是基于语音信号为自回归信号的假设,利用线性预测分析获得倒谱系数。LPCC参数的优点是计算量小,易于实现,对元音有较好的描述能力,其缺点在于对辅音的描述能力较差,抗噪声性能较差。倒谱系数是利用同态处理方法,对语音信号求离散傅立叶变换DFT后取对数,再求反变量IDFT就可以得到。基于LPC分析的倒谱在获得线性预测系数后,可以用一个递推公式计算得出:,(6.31) 公式中: 倒谱系数; 预测系数; n倒谱系数的阶数(n=1,2, ,p) p预测系数的阶数。,3. Mel倒谱系数(MFCC) 基于语音信号产生模型的特征参数强烈地依赖于模型的精度,模型所假设的语音信号的平稳性并不能随时满足。现在常用的另一个语音特征参数为基于人的听觉模型的特征参数。 Mel倒谱系数MFCC是受人的听觉系统研究成果推动而导出的声学特征,采用Mel频率倒谱参数(Mel Frequency Cepstrum Coefficients ,MFCC)运算特征提取方法,己经在语音识别中得到广泛的应用。人耳所听到的声音的高低与声音的频率并不成线形正比关系,与普通实际频率倒谱分析不同,MFCC的分析着眼于人耳的听觉特性。MFCC的具体步骤: 运用下式将实际频率尺度转化为Mel频率尺度: (6.32),在Mel频率轴上配置L个通道的三角形滤波器组,每个三角形滤波器的中心频率c(l)在Mel频率轴上等间隔分配。设 , 和 分别是第1个三角形滤波器的上限、中心和下限并满足: (6.33) 根据语音信号幅度谱 求每个三角形滤波器的输出: (6.34) 式中, =1,2,L (6.35),对所有滤波器输出进行对数运算,再进一步做离散余弦变换(DCT)即可得到MFCC: (6.36)6.2.4 模型训练和模式匹配 语音识别核心部分的作用是实现参数化的语音特征矢量到语音文字符号的映射,一般包括模型训练和模式匹配技术。模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。 从本质上讲,语音识别过程就是一个模式匹配的过程,模板训练的好坏直接关系到语音识别系统识别率的高低。为了得到一个好的模板,往往需要有大量的原始语音数据来训练这个语音模型。因此,首先要建立起一个具有代表性的语音数据库,利用语音数据库中的数据来训练模板,训练过程不断调整模板参数,进行参数重估,使系统的性能不断向最佳状态逼近。,近几十年比较成功的识别方法有隐马尔可夫模型(HMM )、动态时间规整(DTW)技术、人工神经网络(ANN)等。 1. 隐马尔可夫模型 隐马尔可夫模型是20世纪70年代引入语音识别理论的,它的出现使得自然语音识别系统取得了实质性的突破。HMM方法现已成为语音识别的主流技术,目前,大多数大词汇量、连续语音的非特定人语音识别系统都是基于HMM模型的。 HMM是对语音信号的时间序列结构建立统计模型,将之看作一个数学上的双重随机过程:一个是用具有有限状态数的Markov链来模拟语音信号统计特性变化的随机过程;另一个是与Markov链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来,但前者的具体参数是不可测的。人的言语过程实际上就是一个双重随机过程,语音信号本身是一个可观测的时变序列,是由大脑根据语法知识和言语需要(不可观测的状态)发出音素的参数流。,1) HMM语音模型 HMM语音模型M=( ,A,B)由起始状态概率( )、状态转移概率(A)和观测序列概率(B)三个参数决定。其中, 揭示了HMM的拓扑结构,A描述了语音信号随时间的变化情况,B给出了观测序列的统计特性。 2) HMM语音识别过程 经典HMM语音识别的一般过程是: 首先,用前向后向算法(Forward-Backward ,F-B)计算当给定一个观察值序列 ,以及一个模型 时,模型M产生的O的概率 。 然后,用维特比算法解决当给定一个观察值序列 和一个模型 时 ,在最佳意义上确定一个状态序列 的问题。这里的最佳意义上的状态序列是指使 最大时确定的状态序列。 最后,用Baum-Welch算法解决当给定一个观察值序列 ,确定一个 ,使得 最大。 3) 几种不同HMM模型 根据随机函数的不同特点,HMM模型分为离散DHMM、连续CHMM和半连续SCHMM以及基于段长分布的DDBHMM等类型。,(1)DHMM识别率略低些,但计算量最小,IBM公司的ViaVoice中文语音识别系统,就是该技术的成功典范。 (2)CHMM的识别率虽高,但计算量大,其典型就是Bell Lab的语音识别系统。 (3)SCHMM的识别率和计算量则居中,其典型产品就是美国著名的Sphinx语音识别系统。 (4)DDBHMM是对上述经典HMM方法的修正,计算量虽大,但识别率最高。 2. 动态时间规整 动态时间规整(DTW)是语音识别中较为经典的一种算法,通过将待识别语音信号的时间轴进行不均匀地弯曲,使其特征与模板特征对齐,并在两者之间不断地进行两个矢量距离最小的匹配路径计算,从而获得这两个矢量匹配时累积距离最小的规整函数。 设测试语音参数共有N帧矢量,而参考模板共有M帧矢量,且NAM。要找时间规整函数j=w(i),使测试矢量的时间轴i非线性地映射到模板的时间轴j上,并满足:,(6.37) 式中: 表示第i帧测试矢量T(i)和第j帧模板矢量R(j)之间的距离测度;D为在最优情况下的两矢量之间的匹配路径。 3. 矢量量化 传统的量化方法是标量量化。标量量化中整个动态范围被分成若干个小区间,每个小区间有一个代表值,对于一个输入标量信号,量化时落入小区间的值就要用这个代表值代替。随着对数据压缩的要求越来越高,矢量量化迅速发展起来。与HMM相比,矢量量化主要适用于小词汇量、孤立词的语音识别中。 在实际的应用过程中,人们还研究了多种降低复杂度的方法,这些方法大致可以分为两类: (1)无记忆的矢量量化。无记忆的矢量量化包括树形搜索的矢量量化和多级矢量量化。 (2)和有记忆的矢量量化。,6.3 智能机器人的语音定向与导航,与视觉一样,听觉是也是智能机器人的重要标志之一,是实现人机交互、与环境交互的重要手段。由于声音具有绕过障碍物的特性,在机器人多信息采集系统中,听觉可以与机器人视觉相配合弥补其视觉有限性及不能穿过非透光障碍物的局限性。 机器人听觉定位跟踪声源的研究主要分为基于麦克风阵列和基于人耳听觉机理的声源定位系统研究。基于麦克风阵列的声源定位系统具有算法多样、技术成熟、历史悠久、定位准确、抗干扰能力强等优点。但是,该方法也具有计算量大,实时性差等不足,尤其是当麦克风数量很大时不足显得更加突出。随着DSP硬件的发展,这些问题逐渐会得到解决。基于人耳听觉机理的声源定位系统研究是当前国际上前沿研究课题。它是从人的听觉生理和心理特性出发,研究人在声音识别过程中的规律,寻找人听觉表达的各种线索,建立数学模型用计算机来实现它,即计算听觉场景分析(CASA)所要研究的内容。该方法符合人的听觉机理,是智能科学研究的成果。由于人耳听觉机理尚未完全被人类认识,所以该系统研究还处在低级阶段。,6.3.1 基于麦克风阵列的声源定位系统 麦克风阵列声源定位是指用麦克风阵列采集声音信号,通过对多道声音信号进行分析和处理在空间中定出一个或多个声源的平面或空间坐标,得到声源的位置。 现有声源定位技术可分为3类。 (1)基于最大输出功率的可控波束形成技术。它的基本思想是将各阵元采集来的信号进行加权求和形成波束,通过搜索声源的可能位置来引导该波束,修改权值使得麦克风阵列的输出信号功率最大。在传统的波束形成器中,权值取决于各阵元上信号的相位延迟,相位延迟与声达时间延迟有关,因此称为延时求和波束形成器。 (2)基于高分辨率谱估计技术。高分辨率谱估计主要有自回归模型、最大熵法、最小方差估计法和特征值分解方法等方法。该定位的方法一般都具有很高的定位精度,但这类方法的计算量往往都比前类大的多。 (3)基于声达时间差的定位技术。基于麦克风阵列声源定位研究国内外开发出多种不同系统。,6.3.2 基于人耳听觉机理的声源定位系统 人耳听觉系统能够同时定位和分离多个声源,这种特性经常被称作鸡尾酒会效应。通过这一效应,一个人在嘈杂声音的环境中能集中一个特定的声音或语音。一般认为,声音的空间定位主要依靠声源的时相差和强度差确定。 从人类听觉生理和心理特性出发,研究人在声音或语音识别过程中的规律,被称为听觉场景分析,而用计算机模仿人类听觉生理和心理机制建立听觉模型的研究范畴称为计算听觉场景析。,6.4 智能机器人的语音系统实例,安徽科大讯飞信息科技股份有限公司是一所专业从事智能语音及语言技术研究,软件及芯片产品开发公司。也是作为中国最大的智能语音技术提供商,在智能语音技术领域有着长期的研究积累,并在语音合成、语音识别、口语评测等多项技术上拥有国际领先的成果,其语音合成核心技术实现了人机语音交互,使人与机器之间沟通变得像人与人沟通一样简单。,6.4.1 Inter Phonic 6.5语音合成系统 Inter Phonic语音合成系统是由安徽科大讯飞信息科技股份有限公司自主研发的中英文语音合成系统,以先进的大语料和Trainable TTS这两种语音合成技术为基础,能提供可比拟真人发音的高自然度、高流畅性、面向任意文本篇章的连续合成语音合成系统。Inter Phonic 6.5语音合成系统致力于建立和改善人机语音界面,为大容量语音服务提供高效稳定的语音合成功能,并提供从电信级、企业级到桌面级的全套应用解决方案,是新概念声讯服务、语音网站、多媒体办公教学的核心动力。 1主要功能 Inter Phonic 语音合成系统具有的主要功能有: (1) 高质量语音; (2)多语种服务; (3)多音色服务; (4)高精度文本分析技术;,(5)多字符集支持; (6)多种数据输出格式; (7)提供预录音合成模板; (8)灵活的接口; (9)语音调整功能; (10)配置和管理工具; (11)效果优化; (12)一致的访问方式; (13)背景音和预录音。 2. 产品特点 (1)独创的语料信息统计模型; (2)前后端一致性的语料库设计方法、和语料库的自动构建方法; (3)听感量化思想指导下,以变长韵律模板为基础的高精度韵律模型;,(4)高鲁棒性的智能化文本分析处理技术; (5)基于听感损失最小的语料库裁减技术; (6)特定语种知识和系统建模方法分离的多语种语音合成系统框架; (7)面向特定领域应用的定制语音合成技术; (8)Hmm-based波形拼接技术。 3. 产品应用语音合成技术是一种能够在任何时间、任何地点向任何人提供语音信息服务的高效便捷手段,非常符合信息时代海量数据、动态更新和个性化查询的需求。 Inter Phonic6.5 语音合成系统提供高效、灵活的服务,可以在多种领域内使用,如:PC语音互动式娱乐和教学;电信级、企业级呼叫中心平台United Message Service (UMS)和Voice Portal 等新兴语音服务系统。,6.4.2嵌入式语音合成解决方案 目前,科大讯飞推出的一款高性价比的中文语音合成芯片已成功应用于车载调度仪、信息机、气象预警机、考勤机、排队机、手持智能仪表、税控机等各类信息终端产品上,极大满足了各行业服务需求,在为客户创造了巨大价值的同时,赢得了广大用户的高度评价和极佳的市场口碑。中文语音合成芯片XFS3031CNP 、XFS5152CE、XFS4243C、 XF-S4240等。 下面以入门级语音合成芯片XFS3031CNP进行介绍: 1主要功能 XFS3031CNP讯飞公司新推出的一款单芯片语音合成芯片,如图6.8所示,是业界最好的入门级语音合成芯片,合成的语音具有音色甜美、音质优异、顺畅自然等突出优势,芯片采用LQFP64封装,方便集成。,图6.8 XFS3031CNP 语音合成系统构成框图 系统包括:控制器模块、XFS3031CNP 语音合成模块、功放模块和喇叭。 主控制器和XFS3031CNP 芯片之间通过UART 接口连接,控制器可通过通讯接口向XFS3031CNP 芯片发送控制命令和文本,XFS3031CNP芯片把接收到的文本合成为语音信号输出,输出的信号信号经功率放大器进行放大后连接到喇叭进行播放。,2. 产品特点 (1)相对于之前的入门级芯片,采用了全新发音人,柔和甜美的音色,带来舒适的听觉感受; (2)采用了高效的压缩编码方式,合成音频的音质完美; (3)采用智能的文本韵律处理方法,文本朗读顺畅; (4)具备较强的多音字处理和中文姓氏处理能力; (5)支持GB2312、GBK、BIG5、UNICODE四种编码方式的文本; (6)芯片支持多种文本控制标记, 具有智能文本分析处理算法。6.4.3 Inter Reco 语音识别系统 Inter Reco是一款与说话人无关的语音识别系统,为自助语音服务提供关键字语音识别和呼叫导航功能。该产品具备优秀的识别率,提供全面的开发支持,丰富的工具易于使用,采用合理的分布式架构,符合电信级应用的高效、稳定要求。,1主要功能 前端语音处理指利用信号处理的方法对说话人语音进行检测、降噪等预处理,以便得到最适合识别引擎处理的语音。主要功能包括: 1) 端点检测 端点检测是对输入的音频流进行分析,确定用户说话的起始和终止的处理过程。一旦检测到用户开始说话,语音开始流向识别引擎,直到检测到用户说话结束。这种方式使识别引擎在用户在说话的同时即开始进行识别处理。 2) 噪音消除 在实际应用中,背景噪声对于语音识别应用是一个现实的挑战,即便说话人处于安静的办公室环境,在电话语音通话过程中也难以避免会有一定的噪声。Inter Reco语音识别系统具备高效的噪音消除能力,以适应用户在千差万别的环境中应用的要求。,3) 智能打断 智能打断功能使用户可以在自助语音服务的提示语播放过程中随时说出自己的需求,而无需等待播放结束,系统能够自动进行判断,立即停止提示语的播放,对用户的语音指示做出响应。该功能使人机交互更加高效、快捷、自然,有助于增强客户体验。 后端识别处理对说话人语音进行识别,得到最适合的结果,主要特性有: (1)大词汇量、独立于说话人的健壮识别功能,Inter Reco满足大词汇量、与说话人无关的识别要求。 (2)语音识别引擎可以在返回识别结果时会携带该识别结果的置信度,应用程序可以通过置信度的值进行分析和后续处理。 (3)多识别结果,又称多候选技术,在某些识别过程中,识别引擎可以通过置信度判决的结果向应用程序返回满足条件的多个识别结果,供用户进行二次选择。 (4)说话人自适应,当用户与语音识别系统进行多次会话过程中,系统能够在线提取通话的语音特征,自动调整识别参数,使识别效果得到持续优化。,(5)多槽识别,语音识别的槽(Slot)代表一个关键字,即在一次会话过程中可以识别说话人语音中包含的多个关键字,这可以提高语音识别应用的效率,增强用户体验。 (6)DTMF识别,DTMF(Dual Tone Multi-Frequency),即双音多频。配合语法设计,Inter Reco可以识别用户进行电话按键产生的DTMF信号,并向应用程序返回按键识别结果。 (7)热词识别。 (8)智能调整识别策略,充分利用系统的计算资源,保障稳定运行。 (9)语音录入,动态增加识别语法,提高识别系统对用户语音的适应能力,从而提高准确率。 (10)呼叫日志。,2. 产品特点 Inter Reco语音识别系统主要包括应用接口(Inter Reco Programming Interface)、识别引擎(Recognizer Engine)和操作系统适配(OS Adapters)三个层次,这三个逻辑层共同构成了完整的Inter Reco 系统架构。 应用接口是Inter Reco系统提供的开发接口,集成开发人员应关注这些接口的定义、功能和使用方法。识别引擎提供核心的语音识别功能,并作为应用接口的功能实现者;同时为了便于开发和使用,系统在这一层提供了一系列高效、易用的工具。操作系统适配层屏蔽了多操作系统的复杂性,为识别引擎提供操作系统相关的底层支持。 Inter Reco语音识别系统按照逻辑组成可以分为识别语法(Grammar)、识别引擎核心(Recognizer Core)、语音端点检测(Voice Activation Detector)、音频输入(Audio Source)四个子系统,系统的主要设计和开发将按照这些子系统进行。,6.4.4嵌入式轻量级语音识别软件Aitalk 科大讯飞最新推出的轻量级智能语音识别系统Aitalk3.0,能够方便的应用在嵌入式设备上,让用户解放双手,通过语音命令操作设备、检索信息。可广泛应用于手机、MP3/MP4、导航仪、机器人等嵌入式设备上。 Aitalk 3.0提供的新功能包括:电话号码输入、FM调频输入、非特定人语音标签。Aitalk 3.0对车载环境优化,相对识别率提升30%以上。Aitalk 3.0对中国人说英文的发音习惯,收集了大量数据并开展了专题研究,是为中国人设计的英文识别引擎。实验表明,相对识别率提升50%以上。 Aitalk 3.0支持结构化的语法描述文件输入,可以使交互设计工程师独立于研发工程师工作,优化语音交互;独立的语法描述还可以分离程序逻辑与描述数据,工程的可维护性得到提高。,