《语音压缩编码.ppt》由会员分享,可在线阅读,更多相关《语音压缩编码.ppt(50页珍藏版)》请在三一办公上搜索。
1、语音压缩编码-1、概述,课程安排,背景介绍DPCM和ADPCMSBC子带编码VQ量化,背景介绍,课题背景国内外研究现状常用编码算法简介,语音编码发展方向,极低速率语音编码比特率低于2400bps的编码保密通信、语音邮件、网络通信、IP电话变速率语音编码在合成语音质量和系统容量中灵活折中CDMA通信系统中,且前景广阔不压缩语音编码压缩费用超过传输费用光纤通信、微波通信,压缩的意义,为什么需要压缩编码技术PCM编码占用带宽大8000Hz采样速率,每样本8位码数码率:64kbps有线传输中可以找到大容量传输介质:光纤无线接入侧的频谱资源相当紧张,GSM频点分配,理论基础,定义:低于64kbps的编码
2、方案称为语音压缩编码压缩依据语音信号中存在的冗余人类的听觉感知机理,信号冗余,采样数据之间的相关8kHz速率时,相邻样值相关系数高达0.85周期相关:浊音的准周期性幅度的非均匀分布小幅度概率高,信息集中在低功率语音间隙的存在声道的形状及其变化速率有限,听觉感知机理,人耳对不同频段的声音敏感度不同低频比高频更敏感人耳对语音信号的相位不敏感人耳有掩蔽效应(masking effect)强音抑制弱音,语音编码的极限速率,语音最基本元素-音素:大约128256个通常说话速度:每秒平均发10个音素信息率:I=log2(256)10bps=80bps把发音看成是以语音速率传送,则语音编码的极限速率为80b
3、ps从数字化标准的编码速率64kbps,到极限速率80bps之间的距离,压缩比可达64kbps/80bps=800对于理论研究和实践有着极大的吸引力,压缩编码方法分类,波形编码原理简单,失真小数码率高参数编码数码率低音质较差,复杂度高混合编码较低的比特率上获得较高的语音质量,语音信号压缩编码的评价系统,语音质量(1)广播级:宽带(0-7000Hz)高质量的语音,感觉不出噪声存在(2)网络或电话级:200Hz-3200Hz,信噪比大于30db。(3)通信级:完全可以听懂,但和长途电话相比,有明显失真。(4)合成级:80%-90%可懂度,音质较差,听起来像机器讲话,失去了讲话者的个人特征。,语音信
4、号压缩编码的评价指标,编码质量MOS(Mean Opinion Score)编码速率适当选取编解码复杂度不影响实时处理编解码时延不能超过100ms若超过必须采取回声抵消或回声抑制等措施,内容提要,课题背景国内外研究现状常用编码算法简介,ITU-T的正式标准,G.711(1972)64kbps PCM 用于固网G.721(1984)32kbps ADPCM 用于卫星、海缆、VRCG.728(1992)16kbps LD-CELP 低延迟-码激励线性预测无绳电话、SCSC卫星、海事卫星、DSI设备、录音、移动系统等G.729(1996)8kbps CS-ACELP(共轭结构-代数数码激励线性预测技
5、术)可与32kbps的ADPCM同质量用于个人移动通信、低C/N卫星、高质量移动无线通信,分组语音AMR-ACELP(自适应多速率)用于WCDMA和TD-SCDMA系统,现状,主流:CELP(码激励线性预测)4.8kbps的数码率上获得较高质量的语音,发展方向,中低速率的语音编码的实用化降低复杂度减少时延提高抗干扰、抗噪声能力进一步降低编码速率目前5-6kbps的速率-较高质量重建语音目标4kbps得到短时延、高质语音,发展方向,中长延时编码400-1200bps得到高质语音新算法正弦变换编码(STC)混合激励线性预测编码(MELPC)时频域插值编码(TFI)基音同步激励线性预测编码(PSEL
6、P)新分析技术非线性预测多精度时频分析高阶统计分析,内容提要,课题背景国内外研究现状常用编码算法简介波形编码技术参数编码技术,一、PCM编码,PCM:Pulse Coded Modulation抽样:8000Hz量化:非均匀A律87.6/13折线压扩特性编码:8位码极性码:第1位段落码:第2-3位段内码:第4-7位,二、DPCM编码,差分PCM编码对相邻样本的差进行PCM编码由于样本差值的动态范围远小于样本动态范围,因此达到相似性能可以减小编码位数技术实现关键问题编码位数的选取预测器系数选取:LMS,DPCM框图,三、ADPCM,自适应DPCM自适应预测系数调整自适应编码位数调整技术实现关键自
7、适应预测器:指预测器的预测系数能随话音瞬时变化作自适应调整,从而得到高预测增益自适应量化器:指量化器的量化级(阶距)能随话音瞬时变化作自适应调整,从而得到高的量化信噪比。,3.子带编码(Subband Code;SBC)子带编码(SBC)是首先用带通滤波器将语音信号分割成几个不同的频带分量(子带),再分别对每个子带进行抽样和编码。编码后的码流通过复接器复接,送到信道上传输。接收端再将它们分接、译码,并组合起来重建原始的输入信号。下图就是子带编码的原理方框图。,在语音信号的子带划分上,应考虑到各频段对主观听觉贡献相等的原则做合理的分配,使低频段的子带宽度较窄,高频段的子带宽度较宽。通常语音信号经
8、带通滤波器组滤波后分成4 6个子带,子带之间允许有小的间隙,如图所示。,子带编码原理,在子带编码器的设计中,必须考虑子带数目、子带划分、编码的参数、子带中的比特分配以及带宽等主要参数。设一个子带编码系统包括m个子带,各子带带宽为Bk(k=1,m),每个子带信号经过频率为fsk=2Bk的抽样后,使用Rk个比特来进行量化和编码,那么该系统总的编码速率I应为式(3-3),各子带带宽相等,即等带宽子带编码,有式(3-4),式(3-3)可化简为式(3-5),例:一个4子带的SBC系统,子带分别为(0800Hz),(800Hz1600Hz),(1600Hz2400Hz),(2400Hz3200Hz),如果
9、忽略同步的边带信息,子带的比特分配分别为3、2、1、0比特/样值,则SBC编码系统总的传输速率为,设B=3200Hz,m=4,R1=3,R2=2,R3=1,R4=0,代入上式,全带抽样编码的平均比特数为,矢量量化,标量量化和矢量量化矢量量化(Vector Quantization;VQ)应用很广:语音压缩编码;参数编码;图像压缩编码,例:在矢量量化器的设计中,设抽样频率为16kHz,码本由256个4维矢量组成,1)求矢量量化器输出的数码率?2)系统满意工作的最大消息带宽是多少?,内容提要,课题背景国内外研究现状常用编码算法简介波形编码技术参数编码技术,语音生成机构,声源:声带共鸣机构:声道(鼻
10、腔、口腔与舌头)放射机构:嘴唇或鼻孔,语音产生机理,浊音气流通过声门时,声带的张力刚好使声带产生张弛振荡式振动,产生一股准周期脉冲气流,激励声道产生浊音轻音声带不振动,而在某处收缩,迫使气流高速通过这一收缩部分产生湍流就产生清音 爆破音声道完全闭合的情况下突然释放产生爆破音,语音信号产生模型,清音/浊音示意图:,a1,语音输出x(n),线性预测分析基音频率清/浊音判别,参数合成,a2,ap,基音频率,输入语音x(n),清/浊音标志,G,模型中的参数,清浊音判决基音周期时变滤波器增益常数G数字滤波器参数ai特点:随时间缓慢变化,优点,能够用线性预测分析方法对滤波器参数ai和增益常数G进行非常直接
11、和高效的计算,LPC模型阶数p的选择,保证有足够的极点模型化声道响应的谐振结构通常10kHz时有5个共振峰,一对极点对应一个共振峰,取p=10弥补鼻音中存在的零极点和其他因素的偏差取p=1214,二、,LPC-10编码器,美国确定LPC-10作为2.4kb/s速率上的推荐编码形式,用于第三代保密电话中发送端,原始语音信号采用8kHz采样,然后每180个采样值分为一帧(22.5ms),提取语音特征参数并加以编码传送。每帧总共编码为54bits,每秒传输44.4帧,因此总传输速率为2.4kb/s,s(n),采样(8kHz),基音检测(AMDF),清/浊音检测,预加重,线性预测分析,反射系数,增益G,参数编码,c(n),LPC-10编码器发送端,预加重:,提高语音谱中的高频共振峰,使语音频谱较为平滑,从而提高谱参数估计的精确度预加重滤波器的传递函数为:,基音周期,利用短时平均幅度差函数(AMDF)计算,增益G,S(i)为经过预加重的数字语音N为分析帧的长度,c(n),解码,清/浊音开关,反射系数转换为预测系数,基音,增益G,合成器,去加重,噪声产生,s(n),LPC-10编码器接收端,课后需要自学补充的知识,ADPCMLMS算法语音信号产生模型LPC-10编码器,
链接地址:https://www.31ppt.com/p-5841479.html