《语音编码汇总》PPT课件.ppt
《《语音编码汇总》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《语音编码汇总》PPT课件.ppt(120页珍藏版)》请在三一办公上搜索。
1、第7章 语音编码(speech coding),概述语音信号压缩编码的原理及其评价系统语音信号的波形编码语音信号的参数编码语音信号的混合编码,概述,一、编码(压缩)的重要性二、编码速率(信息容量)三、编码的分类四、已经标准化的语音编码,编码、传输、存储和译码是语音数字传输和数字存储的必要过程。随着语音通信技术的发展,压缩语音信号的传输带宽,降低信道的传输速率,一直是人们追求的目标。语音编码在实现这一目标的过程中担当重要的角色。语音编码就是使表达语音信号的比特数目最小。,一、编码(压缩)的重要性,数字传输系统模型,信源,信源编码,信道编码,调制,传输通道,用户,信源解码,信道解码,解调,语音编码
2、应用实例(IP电话),接收器,模数转换,压缩编码,IP封装,网络,IP解包,解码,数模转换,播放器,二、编码速率(信息容量),用比特/秒(b/s或bps)来度量,用I表示,有:I=R fs,R代表每个语音采样值编码所需的比特数;fs是采样频率。当fs=8kHz,每个采样值用8比特位来编码,则编码速率为64kb/s。,三、编码的分类,1.波形编码(waveform coding):基本原理是在时间轴上对模拟话音信号按照一定的速率来抽样,然后将幅度样本分层量化,并使用代码来表示。在接收端将收到的数字序列经过解码恢复到原模拟信号,保持原始语音的波形形状。话音质量高,编码速率高。如PCM编码类(a率或
3、u率PCM、ADPCM、ADM),编码速率为6416kb/s,语音质量好。,2.参数编码(声源编码 parametric coding):根据语音信号产生的数学模型,通过对语音信号特征参数的提取后进行编码(将特征参数变换成数字代码进行传输)。在接收端将特征参数,结合数学模型,恢复语音,力图使重建语音保持尽可能高的可懂度,重建语音信号的波形同原始语音信号的波形可能会有相当大的区别。如线性预测(LPC)编码类。编码速率低,自然度低,对环境噪声敏感。,3.混合编码(Hybrid coding):将波形编码与参数编码相结合,在速率上能够得到高质量的合成语音。规则码激励长时预测编码RPELPT即为混合编
4、码技术。混合编码包括若干语音特征参量又包括部分波形编码信息,以达到波形编码的高质量和参量编码的低速率的优点。,四、已经标准化的语音编码 指定组织:国际电信联盟 ITU-T,http:/,(5)RPE-LTP:长时预测的规则脉冲激励的线性预测Regular-Pulse Excited LPC with a Long-Term Predictor,(1)ADPCM:自适应差分脉冲编码 adaptive difference pulse code modulation,(2)CELP:码本激励线性预测(code excited linear prediction),(3)ACELP:代数码本激励线性
5、预测Algebraic-Code-Excited Linear-Prediction,(4)CS-ACELP:共轭结构的代数码本激励线性预测Conjugate Structure Algebraic-Code-Excited Linear-Prediction,语音信号压缩编码的原理及其评价系统,一、语音压缩的基本依据二、语音编码的关键技术三、语音压缩系统的性能指标和评测方法,一、语音压缩的基本依据,是语音信号的冗余度和人的听觉感知机理。,1.存在的时域冗余度:(1)幅度非均匀分布(2)语音信号样本间的相关性很强(3)浊音具有准周期(4)声道的形状及其变化缓慢(5)语音间隙(静止系数),2.存
6、在的频域冗余度:(1)非均匀的长时功率谱密度(2)短时功率谱密度,女声英文a的功率谱,3.人的听觉感知机理(1)人类的听觉特性具有掩蔽效应(2)人耳对不同频段声音的敏感程度不同(3)人耳对语音相位不敏感,4.语音编码的极限速率 语音中最基本的元素是音素,大约有128256个,如果按通常的说话速度,每秒平均发出10个音素,则信息率为:I=log2(256)10bps=80bps把发音看成是以语音速率来传送,则语音编码的极限速率为80bps,从数字化标准的编码速率64kbps,到极限速率80bps,之间的距离,对于理论研究和实践有着极大的吸引力。,二、语音编码的关键技术,语音信号中存在两种类型的相
7、关性:(1)样点间的短时相关性(2)相邻基音周期之间的长时相关性,e(n),x(n),短时预测滤波器,语音信号的短时预测模型,D为基音周期,长时预测系数bi的个数取1(q=r=0)或3(q=r=1)。D、bi 从语音信号中直接提取。语音信号通过长时预测,得出基音周期、增益(振幅大小)。,2.语音信号的长时预测,长时 线性预测,x(n-p),x(n-p+1),.x(n-1),x(n),长时预测滤波器,x(n),e(n),激励发生器,完整的语音信号的预测模型,3.感觉加权滤波器,由于掩蔽效应,在语音频谱中,能量较高的频段(共振峰处)的噪声相对于能量较低的频段的噪声不易被感觉。在度量原始语音和合成语
8、音之间的误差时,在高能量段允许误差大,因此引入一个频域的感觉加权滤波器W(z)来衡量语音之间的误差。加权因子在01之间,控制共振峰区域的误差增加。,输入语音x(n),线性预测分析,感觉加权滤波器,后继处理,三、语音压缩系统的性能指标和评测方法,1.语音压缩系统的性能指标(1)编码速率(2)编码器的顽健性(3)编码器的时延(4)算法的复杂度和可扩展性,编码延时,一般地,编解码算法越复杂,延时越大,会明显感觉到通话对方反映“迟钝”,甚至造成正常通信困难。另外一方面,延时造成回声,传统的电话系统中,在2-4 线的转换处(混合线圈)因阻抗不匹配,导致接收者的收话音信号泄露到其发送路径上,返回给发送者,
9、形成了回声。当延时小时,回声同房间交混,因此感觉不到;当延迟超过了25ms,能明显感觉到,从而严重影响通信。一般地,要求编解码延时不超过510ms。,A端的信号B端经混合线圈的回传信号,B端的信号A端经混合线圈的回传信号,A端,B端,2.语音压缩系统的性能指标和评测方法,语音质量是衡量语音编码算法优劣的关键性能之一。语音质量通常分为四类:(1)广播级(2)网络或电话级(3)通信级(4)合成级 语音质量有主观和客观两种评价方法。,评价指标:清晰度或可懂度、音质。前者是指语音是否容易听清楚;后者指语音听起来有多自然。(1)可懂度评价 DRT:Diagnostic Rhymer Test(2)音质评
10、价:MOS:Mean Opinion Score 平均意见得分和DAM:Diagnostic Acceptability Measure 判断满意度得分。,主观评价方法,MOS得分为五级:优、良、可、差和坏。满分为5分,相当调频广播质量;4分以上是长途电话网标准;3.5分为通信标准;3.0分仍有较好的可懂度,保持自然度;2.5分只维持可懂度,是战术通信标准。,(1)波形失真度,用信噪比来度量(2)频谱失真测量(3)谱包络失真测量,客观评价方法,语音信号的波形编码,一、非均匀量化的PCM编码二、增量调制编码三、自适应增量调制编码四、自适应差分脉冲编码ADPCM五、自适应预测器六、自适应量化器七、
11、ADPCM的总结,均匀量化时,无论大的输入信号还是小的输入信号一律采用相同的量化间隔,为了适应大的输入信号,同时又要满足精度要求,就需要增加样本的位数。=2V/L=2V/2R,但是对话音信号来说,大信号出现的机会并不多,增加的样本数就没有充分利用。因此采用非均匀量化。,一、非均匀量化的PCM编码,其基本思想是:大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔。在满足精度要求的情况下用较少的位数来表示。译码时,采用相同的规则。也可视为将信号进行非线性变换后再作均匀量化,如对信号进行对数压缩,微弱的信号被放大,强的信号被压缩。译码时,指数扩张。,非线性压缩,均匀量化,编码,xa(nT),
12、解码,非线性扩张,x(nT),现在的非均匀量化中,一般采用两种压缩扩张非均匀量化方法。采样后信号幅度和量化数据之间有两种对应关系,一种称为u 律压扩(companding)算法,另一种称为A 律压扩算法。u 律压扩主要用于北美和日本等地区的电话通信中。A 律压扩主要用在欧洲和中国的地区的电话通信中。,u 律压扩,(1)输入xa(nT)的范围归一化为(11);(2)输出FA(x(n)的范围为(11);(3)A为压扩参数,它反映最大量化间隔和最小量化间隔的比值。A=87.56,A 律压扩,我国的PCM30/32路基群也采用A律13折线压缩特性。律15折线主要用于美国、加拿大和日本等国的PCM 24
13、路基群中。CCITT建议G.711规定上述两种折线近似压缩律为国际标准,且在国际间数字系统相互连接时,要以A律为标准。因此这里重点介绍A律13折线。,FA(x),0,1,1,7/8,6/8,5/8,4/8,3/8,2/8,1/8,xa(nT),A律压扩编码,采用8位二进制编码:C7C6C5C4C3C2C1C0C7:表示信号的极性,称为极性码。0为正,1为负。,C3C2C1C0:表示每一段落的16个均匀划分的量化级,称为段内码。0000 0001 0010 0011 0100 0101 0110 0111 1000 1001 1010 1011 1100 1101 1110 1111,C6C5C
14、4:表示段落序号,称为段落码。000 001 010 011 100 101 110 111,对输入动态范围为(-5v,+5v),用A律压扩编码,有:,1/128 0.0390625v,76543210,1 5v,1/2 2.5v,1/4 1.25v,1/8 0.625v,1/16 0.3125v,1/32 0.15625v,1/64 0.078125v,0 0v,输入信号为1.05v,则编码为:极性码:0 段落码:101段内码:=(1.25-0.625)/16=0.0390625(1.05-0.625)/=10.88取整数10,对应第10量化间隔,编码为1010最后完整的码字为:010110
15、10,I=8kHz*8bit=64kbit/s 实际中,麦克风采集信号,量化为12/13/14/15/16位的输入信号,使用A律压扩编码,每个样本的量化位为8。,A律压扩编码的速率:,对输入信号范围(-1,1):A律压扩编码的最小量阶为 min=(1/128)/16=1/2048;在同样的输入信号范围,均匀量化的线性PCM以A律压扩编码的最小量阶为量阶进行量化,得到线性PCM需要12比特编码;=2V/L=2V/2R2/2R=1/2048 2R2*2048 R=12 A律压扩编码则只需要8个比特位。,A律压扩编码与线性PCM编码的对比,A律压扩编码与其他线性PCM编码的快速转换,时分复用Time
16、 Division Multiplexing,原理:把时间分割成小的时间片,每个时间片分为若干个通道(时隙),每个用户占用一个通道传输数据。,A2,A1,A3,原始信号,D2,D1,D3,数字化信号,复用后数据,时隙,1,2,3,4,D3,D2,D1,适用于数字信号传输,时间片,复用概念:利用不同时隙在同一信道上同时传输各路不同信号,且互不干扰,这就是时分复用(TDM)。,(a)第1路;(b)第2路;(c)第3路;(d)3路合成的波形,PCM 30/32路介绍,1.基本特性话路数目:30抽样频率:8kHz 压扩特性:A=87.6/13折线压扩律,编码位数为8每帧时隙数:32 总数码率:8328
17、000=2048kb/s,2 时隙分配:在PCM 30/32路的制式中,抽样周期为1/8000=125s,它被称为一个帧周期,即125s为一帧。一帧内要时分复用32路,每路占用的时隙为125/32=3.9s,称为一个时隙。因此一帧有32个时隙,按顺序编号为TS0、TS1、TS31。时隙的使用分配为:TS1TS15,TS17 TS31为30个话路时隙;TS0为帧同步码,监视码时隙;TS16为信令(振铃、占线、摘机等各种标志信号)时隙。,E1-帧格式,125 ms=32 时隙=2.048 Mbps,帧同步,信令信道,30 路话音数据信道+2 路控制信道,话路比特的安排:每个话路时隙内要将样值编为8
18、位二元码,每个码元占3.9 s/8=488ns,复接等级和速率系列,二、增量调制编码,1.增量调制的定义:增量调制(DM)也称为调制,是对输入样本s(k)和预测样本值se(k)的差值d(k)量化的最简单的一种情况,只有两种编码输出:0或1。一般情况下,如果差值大于0,则编码为“0”,若差值小于0,则编码为“1”。由于增量编码只须用1位对语音信号进行编码,所以对增量调制编码系统称为“1位系统”。,2.增量调制(DM)的结构,se(k)-,DM 发送端,s(k)+,量化器,预测器,I(k),sr(k),+,+,编码,d(k),s(k)输入样本se(k)预测样本值d(k)差值sr(k)重建样本值I(
19、k)已量化的差值,3.增量调制(DM)的编码,预测器采取简单的一阶固定预测器。se(k)=asr(k-1)a为一个常数,一般情况下取,即a=1。用重建信号的前一时刻来预测当前时刻的预测样本值。se(k)=sr(k-1)sr(k)=se(k)+I(k)=sr(k-1)+I(k)d(k)=s(k)-se(k)I(k)=Qd(k)=,d(k),I(k),-,0,1,se(k)=sr(k-1)se(k)=sr(k-1)d(k)=s(k)-se(k)0 d(k)=s(k)-se(k)0I(k)=Qd(k)=+I(k)=Qd(k)=-sr(k)=se(k)+I(k)sr(k)=se(k)+I(k)码字为0
20、 码字为1,s(k),sr(0),se(1),sr(1),se(2),0,0,sr(2),0,0,4.增量调制(DM)的译码,预测器,I(k),sr(k),+,+,译码,se(k),se(k)=sr(k-1)sr(k)=se(k)+I(k)I(k)=,5.量阶固定的增量调制(线性增量调制LDM)的缺点,(1)当输入信号变化快,用固定的量阶量化,可能造成量化波形跟不上实际波形,这种现象称为“斜率过载”。,(2)当输入信号波形较平坦时,编码为0和1的交替序列,类似随机噪声的特性,这种现象称为“颗粒噪声”。,1,0,1,0,1 0,三、自适应增量调制编码,采用自适应的方法使量阶的大小随输入信号的统计
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音编码汇总 语音 编码 汇总 PPT 课件
链接地址:https://www.31ppt.com/p-5606822.html