语音合成的原理及分类.ppt
《语音合成的原理及分类.ppt》由会员分享,可在线阅读,更多相关《语音合成的原理及分类.ppt(51页珍藏版)》请在三一办公上搜索。
1、第九章 语音合成,9.1 概述,1,9.2 语音合成的原理及分类,9.3 共振峰合成法,3,9.4 线性预测参数合成法,4,9.5 基音同步叠加法,5,9.6 文语转换系统,6,2,9.1 概述,语音合成是人机语声通信的一个重要组成部分,解决让机器像人那样说话的问题。最早的合成器是1835年由W.von Kempelen发明,经Weston改进的机械式会讲话的机器。而最早的电子式语音合成器也是1939年Homer Dudley发明的声码器,它不是简单的模拟人的生理过程,而是通过电子线路来实现基于语音产生的源-滤波器理论。,在语音合成技术发展中,早期研究主要是采用参数合成方法。1990年提出的基
2、音同步叠加PSOLA方法,使基于时域波形拼接方法合成的语音音色和自然度大大提高。我国的汉语语音合成研究从80年代初就基本上与国际研究同步发展。大致也经历了共振峰合成、LPC合成到应用PSOLA技术的过程。,9.2 语音合成的原理及分类,9.2.1 波形合成法 波形编码合成法是一种波形合成法,类似于语音编码中的波形编解码方法,该方法直接把要合成的语音的发音波形进行存储或者进行波形编码压缩后存储,合成重放时再解码组合输出。特点:所需的存储容量太大,词汇量不能很大;相对简单,通常只能合成有限词汇的语音段。目前用于自动报时、报站和报警等。,另一种波形合成法是波形编辑合成,它把波形编辑技术用于语音合成,
3、通过选取音库中采取自然语言的合成单元的波形,对这些波形进行编辑拼接后输出。它采用语音编码技术,存储适当的语音基元,合成时,经解码、波形编辑拼接、平滑处理等输出所需的短语、语句或段落。,9.2.2 参数合成法,参数合成法也称为分析合成法。参数合成法有:发音器官参数合成和声道模型参数合成。发音器官参数合成法:是对人的发音过程直接进行模拟。它定义了唇、舌、声带的相关参数,如唇开口度、舌高度、舌位置、声带张力等,由发音参数估计声道截面积函数,进而计算声波。缺点:合成语音的质量不理想。,参数合成方法的优点:音库一般较小,并且整个系统能适应的韵律特征的范围较宽,这类合成器比特率低,音质适中。缺点:算法复杂
4、,参数多,并且在压缩比较大时,信息丢失亦大,合成出的语音总是不够自然、清晰。为了改善音质,近几年发展了混合编码技术,以改善激励信号的质量。,9.2.3 规则合成法,规则合成方法:一种高级的合成方法,通过语音学规则产生语音,可以合成无限词汇的语句。合成的词汇表不是事先确定,系统中存储的是最小的语音单位的声学参数,以及由音素组成音节、由音节组成词、由词组成句子和控制音调、轻重音等韵律的各种规则。算法中,用于波形拼接和韵律控制的较有代表性的算法是基音同步叠加PSOLA技术。,9.2.3 规则合成法,基音同步叠加PSOLA技术主要特点:在语音波形片断拼接之前,首先根据语义,用PSOLA算法对拼接单元的
5、韵律特征进行调整,使合成波形既保持了原始语音基元的主要音段特征,又使拼接单元的韵律特征符合语义,从而获得很高的可懂度和自然度。,表9.1 三种语音合成方式的比较,9.3 共振峰合成法,共振峰合成理论中声道参数、声道谐振特性一直是研究的重点。共振峰合成模型是把声道视为一个谐振腔,利用腔体的谐振特性,如共振峰频率及带宽,以此为参数构成一个共振峰滤波器。因为音色各异的语音有不同的共振峰模式,以每个共振峰频率及其宽带为参数,可以构成一个共振峰滤波器。,9.3 共振峰合成法,共振峰语音合成器的构成原理:将多个共振峰滤波器组合起来模拟声道的传输特性,对激励声源发生的信号进行调制,经过辐射得到合成语音。基于
6、共振峰的理论有三种实用模型。,9.3.1 级联型共振峰模型,在该模型中,声道被认为是一组串联的二阶谐振器,共振峰滤波器首尾相接,其传递函数为各个共振峰的传递函数相乘的结果。,五个极点的共振峰级联模型传递函数为:,9.3.2 并联型共振峰模型,在并联型模型中,输入信号先分别进行幅度调节,再加到每一个共振峰滤波器上,然后将各路的输出叠加起来。,其传递函数为:,上式可分解成以下部分分式之和:其中Al为各路的增益因子。,下图就是一个M=5的并联型共振峰模型。,图9.3 并联型共振峰模型,9.3.3 混合型共振峰模型,比较以上两种模型,对于大多数的元音,级联型合乎语音产生的声学理论,并且无需为每一个滤波
7、器分设幅度调节;而对于大多数清擦音和塞音,并联型则比较合适,但是其幅度调节很复杂。于是考虑将两者结合在一起,提出了混和型共振峰模型。,混和型共振峰模型如下图所示:,图9.4 混和型共振峰模型,对于共振峰合成器的激励,简单地将其分为浊音和清音两种类型是有缺陷的,为了得到高质量的合成语音,激励源应具备多种选择,以适应不同的发音情况。混和型共振峰模型中激励源有三种类型:合成浊音语音时用周期冲激序列;合成清音语音时用伪随机噪声;合成浊擦音语音时用周期冲激调制的噪声。,共振峰合成技术弱点:(1)由于它是建立在对声道的模拟上,因此,声道模型的不精确势必会影响其合成质量。(2)实际工作中共振峰模型并不能表征
8、影响语音自然度的其他许多细微的语音成分,从而影响了合成语音的自然度。(3)共振峰合成器控制十分复杂,实现起来十分困难。,9.4 线性预测参数合成法,是一种“源滤波器”模型,由白噪声序列和周期脉冲序列构成的激励信号,经过选通、放大并通过时变数字滤波器,就可以再获得原语音信号。,图9.5 LPC语音合成器的框图,线性预测合成的形式有两种:一种是直接用预测器系数构成的递归型合成滤波器,用这种方法定期地改变激励参数u(n)和预测系数,就能合成出语音。它合成的语音样本由下式决定:其中:ai为预测系数;G为模型增益;u(n)为激励;合成样本为s(n);p为预测器阶数。,图9.6 直接用预测器系数ai构成的
9、合成滤波器,另一种合成的形式是采用反射系数构成的格型合成滤波器。它的合成语音样本由下式决定:,其中:G为模型增益;u(n)为激励;ki为反射系数;bi(n)为后向预测误差;p为预测器阶数。,LPC语音合成和共振峰语音合成比较:(1)LPC语音合成有比较简单和完全自动的分析步骤,合成器结构也比较简单,采用格形滤波器时,量化特性和稳定性都比较好,硬件实现容易;而共振峰合成需要较多的参数调整,合成器结构相对讲要复杂些。(2)共振峰合成原理和实际发声原理联系紧密,它的模型控制参数对合成语音谱特性的影响比较直观。LPC合成中,控制LPC系数的变化轨迹十分有限。,(3)共振峰语音合成比较灵活,允许简单地变
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 合成 原理 分类
链接地址:https://www.31ppt.com/p-5603327.html