语音信号处理第八章.ppt
《语音信号处理第八章.ppt》由会员分享,可在线阅读,更多相关《语音信号处理第八章.ppt(120页珍藏版)》请在三一办公上搜索。
1、,8.1 概述,1,8.2 语音编码的分类及特性,8.3 语音编码性能的评价指标,3,8.4 语音信号波形编码,4,8.5 语音信号参数编码,5,2,第8章 语音编码,6,8.7 语音信号宽带变速率编码,7,8.6 语音信号混合编码,8.1 概述,语音数字通信的优越性主要体现在:更好的话音质量;更强的抗干扰性,易于进行加密;节省带宽,更有效地利用网络资源;更易于存储和处理。最简单的数字化方法是直接对语音信号进行模/数转换,只要满足一定的采样率和量化要求,就能够得到高质量的数字语音。但这时语音的数据量仍旧非常大,因此在进行传输和存储之前,往往要对其进行进行压缩编码,以减少其传输码率或存储量。,传
2、输码率也称为数码率或编码速率,表示传输每秒钟语音信号所需的比特数。语音编码的目的:在保证语音音质和可懂度的条件下,采用尽可能少的比特数来表示语音。通常所说的“话音编码”,是特指通信传输系统中代表口语发声的300Hz3400Hz的信号。本章以前面学习过的语音信号处理技术和方法为基础,介绍语音编码基本原理和常用的编码方法。,8.2 语音编码的分类及特性,按编码方式语音编码分为三种:波形编码 参数编码 混合编码,波形编码是将时间域或变换域信号直接变换为数字信号,力求使重建语音波形保持原始语音信号的波形形状。要求重建语音信号 的各个样本尽可能地接近原始语音信号s(n)的样本值,因此在波形编码中,信噪比
3、总是一个有用的性能评定标准。,8.2.1 波形编码,波形编码优点:适应能力强,算法简单,易于实现,语音质量好。波形编码缺点:编码速率高,一般在16kbit/s64kbit/s之间。传统的波形编码方法分类:脉冲编码调制(PCM)自适应增量调制(ADM)自适应差分脉冲编码调制(ADPCM),脉冲编码调制PCM编码速率:64kbit/s自适应增量调制ADM编码速率:32kbit/s-16kbit/s 自适应差分脉冲编码调制ADPCM编码速率:32kbit/s,8.2.2 参数编码 参数编码又称声码器编码,是将信源信号在频域或其它变换域提取特征参数,然后对这些特征参数进行编码和传输,在译码端再将接收到
4、的数字信号译成特征参数,根据这些特征参数重建语音信号。这种编码方法重建语音信号与原始语音信号样本之间没有一一对应关系。合成语音的音质好坏需要借助于主观评定,缺少客观的评定标准。,参数编码优点:编码速率低,且这类编码器对讲话环境噪声较敏感,需要安静环境才能给出较高的可懂度。参数编码器有:共振峰声码器 线性预测声码器 余弦声码器。,8.2.3 混合编码 二十世纪80年代产生混合编码。优点:保留参数编码技术精华,并引用波形编码准则去优化激励源信号,克服了原有波形和参数编码的弱点,而吸取了它们各自的长处。缺点:算法复杂、运算量很大。编码速率:4kbit/s16kbit/s 包括:多脉冲激励线性预测编码
5、(MPELP)码本激励线性预测编码(CELP),8.2.4 语音压缩编码的依据,语音编码的目的:在给定的编码速率下,使编解码后恢复出的重构语音的质量尽可能高。提高语音编码效率的基本途径:充分利用语音信号冗余度和人耳的听觉特性。语音的冗余度主要来源于两个方面:语音信号幅度分布的非均匀性;语音样点之间的相关性。,语音信号幅度统计特性:具有动态的、时变的、多维的暂态概率密度分布的随机过程。统计时间长度不同,它表现的概率密度分布形式不同。一般长时(几十秒以上)统计幅度特性接近于gamma分布,短时(几到几十毫秒)统计幅度特性接近于高斯分布。但无论哪种统计特性,语音信号总是小幅度出现概率大,大幅度出现概
6、率小。,语音信号具有冗余度的另一原因:语音样点之间存在相关性。利用语音信号的相关性,在时域上采用短时和长时预测,在频域上采用谱平整方法,可以达到压缩编码比特率的目的。,语音压缩编码的第二个途径是利用人耳的听觉特性。人类听觉有一个特点:“听觉掩蔽效应”,是指一个强音能抑制一个同时存在的弱音的听觉。听觉掩蔽效应在语音压缩编码中有非常重要的作用。,8.3 语音编码性能的评价指标 评价一个语音编码算法性能的基本指标包括:编码速率、语音质量评价、编解码延时以及算法复杂度。这四个因素之间有着密切的联系,在具体评价一种语音编码算法的优劣时,需要根据具体的实际情况,综合考虑四个因素进行性能评价。,8.3.1
7、编码速率,编码速率直接反映了语音编码对语音信息的压缩程度。度量方法有:“比特/秒”(bit/s):代表编码的总速率,一般用I表示;“比特/样点”(bit/p):代表平均每个语音样点编码时所用的比特数,用R表示。平均每样点比特数R越高,语音质量越容易提高,对传输带宽或存储容量要求也就越高。,降低编码速率是语音编码的首要目标,根据编码速率和输入语音的关系可将编码器分成两类:固定速率编码器和可变速率编码器。现在大部分编码标准都是固定速率编码,其范围为0.8kbit/s64kbit/s。其中:保密电话的编码速率为:0.8kbit/s4.8kbit/s 数字蜂窝移动电话和卫星电话编码器编码速率为:3kb
8、it/s13kbit/s 蜂窝系统总的编码速率达到:20kbit/s30kbit/s 普通电话网的编码速率为:16kbit/s64kbit/s 宽带编码器编码速率为:48/56/64kbit/s,可变速率编码是近年来出现的新技术。根据统计,两方通话大约只有40%的时间是真正有声音的,因此一个自然的想法是采用通、断状态编码。通状态对应有声期,采用固定编码速率;断状态对应无声期,传送极低速率信息(如背景噪声特征等),甚至不传送任何信息。更复杂的多状态编码还可以根据网络负荷、剩余存储容量等外部因素调节其码率。,可变速率编码主要包括两个算法:一是话音激活检测(VAD),主要用于确定输入信号是语音还是背
9、景噪声;二是舒适噪声的生成(CNG),主要用于接收端重建背景噪声。除以上两种算法外,可变速率编码还包括以下两个关键技术:速率判决技术(RDA,Rate Decision Algorithm)以及差错隐藏。,8.3.2 编码质量,编码质量评价是语音编码性能的最根本指标,分为两类:主观评价方法和客观评价方法。1语音质量主观评价方法 方法实现:在一组测试者对原始语音和合成语音进行对比试听的基础上,根据某种事先约定的尺度来对语音质量划分等级。常用的方法包括:平均意见得分MOS:Mean Opinion Score 判断韵字测试DRT:Diagnostic Rhyme Test 判断满意度测量DAM:D
10、iagnostic Acceptability Measure,主观评价方法符合人听话时对语音质量的感觉,目前得到了广泛应用。常用方法是平均意见得分(Mean Opinion Score,简称MOS得分)等。MOS得分为五级评分标准,如表8.1所示,多人收听完测试语音后打分,求出平均值,为MOS分。主观评价方法一般都是由较大的通信组织来完成,个人很少采用。,表8.1 MOS分五级标准及对应语音质量,2语音质量客观评价方法,该方法建立在原始语音和合成语音的数学对比之上,分为时域客观评价和频域客观评价两类。时域客观评价方法有信噪比、加权信噪比、平均分段信噪比等。频域客观评价方法有巴克谱失真测度BS
11、D和MEL谱测度等。特点:计算简单、结果客观、不受个人主观因素的影响。缺陷:不能完全反映人类对语音的听觉效果。,分段SNR(SNRseg)评价法:是把每隔(10ms30ms)短时间所测定的SNR的dB值在长时间声音区间取平均而得到的值来表示的方法,能够反映出量化器对不同电平输入段的量化质量,具有与主观值对应比较好的特征。SNR是经常采用的一种客观评价方法。,设 为第m段的输入语音信号,为第m段的合成语音信号,每段中有M个语音样点,则第m段的语音分段信噪比定义为:(dB)如果输入语音共有N段,平均分段信噪比为:,(dB),3PESQ语音质量评价法,2001年2月,感知语音质量评价PESQ方法被I
12、TU-T确定为P.862建议,成为了窄带电话网络和语音编解码器端到端语音质量的客观评价方法。P.862建议提供了(-0.5,4.5)内的原始输出评分PESQ值,同时又给出一个“映射函数”将P.862的输出结果转换成一个MOS-LQO评分,以便于将P.862的结果和MOS的结果进行线性比较。,8.3.3 编解码延时,编解码延时一般用单次编解码所需时间表示。公用电话网编解码延时通常要求:不超过510ms 移动蜂窝通信系统允许最大延时:不超过100ms,8.3.4 算法复杂度 算法复杂度主要影响到语音编解码器的硬件实现,它决定了硬件实现的复杂程度、体积、功耗及成本等。对一些复杂的语音编码算法,一般编
13、码算法的复杂程度与话音质量有密切关系。在同样速率的情况下,复杂一些的算法将会获得更好一些的话音质量。算法的复杂程度与硬件实时实现也有密切关系。,算法复杂度运算能力衡量方法:每秒钟信号样本所需的数字信号处理器(DSP)指令条数、单位“百万次操作/秒”MOPS或“百万条指令/秒”MIPS等来对算法复杂度进行描述。存储器容量衡量方法:通常用千字kwords或千字节kb的数量来衡量。算法越复杂则运算量越大,需要一片或多片DSP芯片以及较大容量的存储区方可实现。,8.4 语音信号波形编码8.4.1 脉冲编码调制PCM(Pulse Code ModulationPCM)PCM是最简单的波形编码方法,它把语
14、音信号样本幅值量化到N=2B 个码字中的一个,这样每个样本需用B比特来表示。假定信号带宽是WHz,根据取样定理,总的比特率(每秒钟比特数)将是2WB比特/秒。,1均匀量化PCM 均匀量化PCM:输入信号x(n)幅值的范围被分成N个相同宽度的区间,所有落入同一区间的样本都编码成相同的二进制码字。只要N足够大,可以合理地假定,量化误差e(n)在各个宽度为的区间里是均匀分布的。,量化误差e(n)在各个宽度为的区间里均匀分布,信号对量化噪声的功率比(简称信噪比)可近似地写成:用分贝表示时,有,式中,和 是输入信号和量化噪声的方差或平均能量,是输入信号的峰值,B是量化的比特数。,那么有:,和 这表明,量
15、化器每增加一个比特,信号量化噪声比增加6dB。量化比特数B的选择要考虑到输入信号已有的信噪比。当要求60dB的SNR时,B至少应取11。此时,对于带宽为4kHz的电话语音信号,若采样率为8kHz,则PCM要求的速率为88kbit/s。这样的比特率是比较高的。,均匀量化PCM在下列两个假设条件下效果是很好的:(1)输入信号幅度变化范围是已知的;(2)信号幅度值在已知的范围内是均匀分布的。,2对数PCM 非均匀量化:即让量化间隔大小不相等。对小的输入信号值量化间隔较小,对大的信号值量化间隔较大。这样,可以对任何输入信号电平保持近似相同的信噪比。常用的-律或A-律量化器就是非均匀量化器。非均匀量化可
16、以等效于把信号幅度非线性地压缩后再进行线性量化,对数压缩是比较理想的。-律压缩就是最常用的一种。,-律压缩的定义是:式中 是信号 的最大幅值,是参变量,控制压缩程度,=0表示没有压缩,值愈大压缩越厉害,故称之为-律压缩。,在-律量化情况下,可推导出其信号量化噪声比公式为:,与-律量化具有相同效果的还有A-律量化,A-律压缩特性可表示成:,A-律压缩的动态范围略小些,在小信号时质量要较-律差些,A-律最小量化间隔是2/4096,而-律是2/8159,事实上这二者的差别是不易觉察到的。无论是A-律或-律,其特性在x值小时都是线性的,在x值大时则呈现对数压缩特性。采用A-律或-律量化的脉冲编码调制系
17、统统称为对数PCM系统,是目前最为成熟的一种语音压缩编码方法。,3 自适应量化PCM 自适应量化是指量化器的特性自适应于输入信号的幅度的变化,即(a)量化间隔可变:一个自适应量化器的量化间隔应自适应地改变,并与输入信号的幅度方差保持相匹配。(b)增益可变:在一个固定的量化器前,加一个自适应的增益控制,使进入量化器的输入信号方差保持为固定的常数。采用自适应量化器的PCM 就称为“自适应脉冲编码调制”(APCM)。,这两种方法,都需要随时估计输入信号的时变幅值,以修正量化间隔(n)或增益 G(n)的值。如果传输信道没有引入误码,那么有 根据 和G(n)的估计方法不同,自适应方案又可分为“前馈自适应
18、”和“反馈自适应”两种.,(1)前馈自适应 前馈自适应是指信号的能量或方差是由输入信号本身估算出来的,一般是先估算出信号的方差后,令两种系统输出为:即 正比于,G(n)反比于,它们除了在发送端使用外,还作为边信息,随同语音样本码值一起传送到接收端去。,通常认为,时变方差正比于语音信号的短时能量,而我们知道,短时能量可定义为经低通滤波器后的输出,因此有:式中h(n)为低通滤波器的单位冲激响应,,可由采用的窗函数求出。,则 显然,也满足差分方程:为保证稳定性,要求,参数的取值影 响 的变化速度。,例如,设窗函数为:,(2)反馈自适应 反馈系统如图8.3所示,其特点是输入信号的方差是由量化器输出估算
19、出来的,如同前馈系统一样,量化间隔(n)和增益G(n)也按式(8.15)那样比例于方差 变化。,反馈自适应优点:(n)或G(n)无需保存或传送,因为编码端可以如同解码端那样直接从码序列中估算出来。由于不涉及数码率增加的问题,反馈自适应中的(n)或G(n)总是逐点自适应修正,以求得较好的自适应效果。反馈自适应缺点:对码序列中由于传输产生的误差比较敏感,因为误码还将影响到(n)或G(n)的自适应,并且这一影响会不断地传播下去。,前馈自适应和反馈自适应的比较,8.4.2 自适应预测编码(Adaptive Predictive CodingAPC)1.基本的自适应预测编码系统 一、定义:我们在讨论语音
20、信号的线性预测分析原理时,假定一个语音样本可以近似地被它过去的p个样本的线性组合所预测,预测样本值:式中,(1ip)称为预测系数,p是预测阶数。,令e(n)表示实际值与预测值之间的误差:e(n)即线性预测误差,也被称作线性预测残差。对上式两边取变换后有,如果对残差序列e(n)作量化和编码,在同样信号量化噪声比条件下,所需的量化比特数就可以减少,从而达到压缩编码的目的。基于这一原理的方法称作预测编码,当预测系数是自适应地随语音信号变化时,又称自适应预测编码。,(8.20),二、自适应预测编码系统如何提高信噪比,从图8.4可以看到,不考虑传输信道的误码,系统解码后输出为:,式中q(n)是残差信号e
21、(n)的量化误差:注意重构的信号在编码端和解码端都可以得到。,、和 分别是信号、残差和量化噪声的平均能量,是量化器的信噪比,是自适应预测增益。图8.5给出了固定预测和自适应预测两种情况下预测增益 和预测阶数p的关系。,根据信号量化噪声比的定义有:,由图可见,阶数p4时,固定预测有10dB的增益,自适应预测有约14dB的增益。,三、自适应预测编码的三个特性:(1)对同样比特数的量化器,APC信噪比总是大于非预测编码,即 总是大于1。(2)增益 是随时间变化的,因为它事实上是信号频谱的函数,谱的动态范围越大,信号样本之间相关性就越强,预测增益就越高。因此我们又把这种预测器称为基于频谱包络的预测。(
22、3)量化噪声近似于白噪声,所以输出噪声的谱是平坦的。,2 前馈与反馈自适应预测 自适应预测器也可分成前馈自适应和反馈自适应。前馈自适应预测器计算预测系数是通过误差 最小来求得。ai是按帧时变的,即按1030ms为一帧来决定求和的样本点数N和系数。预测器系数必须作为边信息传输到接收端。,对反馈自适应,预测器系数是从 序列出发,使误差 最小求得。从图8.4看到,在发送端与接收端都是可以得到,因此除了传送,无需任何附加的边信息传给接收端。,前馈和反馈自适应预测方法的简单比较,(1)前馈自适应预测的效果,一般讲略优于反馈自适应预测;但前馈预测的问题是必须传送预测系数到接收端。(2)传输误码对反馈自适应
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 信号 处理 第八
链接地址:https://www.31ppt.com/p-6609270.html