第13章语音的压缩编码.ppt
《第13章语音的压缩编码.ppt》由会员分享,可在线阅读,更多相关《第13章语音的压缩编码.ppt(48页珍藏版)》请在三一办公上搜索。
1、第13章 语音的压缩编码,内容,一、引言二、数字语音的波形编码三、数字语音的参数编码 四、数字语音的混合编码,一、引 言,数字语音压缩编码的可能性,声音信号中包含有大量的冗余信息邻近样本之间有很大的相关性周期之间的相关性基音之间的相关性长时(几十秒)自相关性话音间歇(静音)可以利用人的听觉感知特性进行压缩,可以利用语音信号的生成机理进行数据压缩。,语音压缩编码方法分类,波形编码(Perception model-based compression)优点:通用、音频质量较高缺点:很难获得较大的压缩比示例:PCM,ADPCM,SBC参数编码,源编码(Production model-based c
2、ompression)优点:压缩比较大缺点:信号源必须已知示例:LPC混合编码(Hybrid compression)示例:CELP,三类语音编码器性能比较,数字语音编码标准,标准方法比特率质量时间应用G.711PCM644.41972PSTNANSI 1015LPC-102.42.71976保密通信G.721ADPCM324.11984PSTNGSM(欧洲蜂窝通信)RPE-CELP133.61991ANSI 1016CELP4.83.21991G.728低延时CD-CELP164.01992IS 54(北美TDMA)VSELP83.51992IS 96(北美CDMA)QCELP1-83.41
3、993日本蜂窝通信 VSELP6.83.31993G.729A CS-ACELP84.21995IP电话G.723.1(H.323,H.324)ACELP6.33.981995IP电话半速率GSM(欧洲蜂窝通信)AMR5-63.41995新的低速率ANSI标准 MELP2.43.31996,二、数字语音的波形编码,波形编译码器,算法比较简单,容易实现,低延迟,压缩效率不高,数据速率在16 kbps以上,声音质量相当好,通用性好,适用于任意类型的数字声音,很成熟,有一系列国际标准:CCITT G.711 PCM 64kb/s CCITT G.721 ADPCM 32Kb/s CCITT G.72
4、6 ADPCM 48,32,24,16 Kb/s已广泛应用于电话语音的中继线传输,CCITT G.711(脉冲编码调制)Pulse Code Modulation(PCM)of Voice Frequency,编码过程:,分析:方法简单,易实时处理,语音质量好,压缩效率不高,码率为64kbps。,码率104 kbps,码率 8位 x 8k64 kbps,对数变换 F=ln(x),目的:适应听觉的非线性特性;压缩数据。,北美和日本等地区(律压扩算法),压扩算法的实现,x(n):线性码(1+12位)F(n):PCM码(1+7位)0 0 0 0 0 0 0 W X Y Z a 0 0 0 W X Y
5、 Z 0 0 0 0 0 0 1 W X Y Z a 0 0 1 W X Y Z 0 0 0 0 0 1 W X Y Z a b 0 1 0 W X Y Z 0 0 0 0 1 W X Y Z a b c 0 1 1 W X Y Z 0 0 0 1 W X Y Z a b c d 1 0 0 W X Y Z 0 0 1 W X Y Z a b c d e 1 0 1 W X Y Z 0 1 W X Y Z a b c d e f 1 1 0 W X Y Z 1 W X Y Z a b c d e f g 1 1 1 W X Y Z,PCM 的应用,应用于数字声音的编辑处理(多媒体计算机)应用于
6、声音的传输(通信):长途电话(8 KHz x 8 bit x 1),时分多路复用TDM(time-division multiplexing)应用于全频带数字声音的表示/存储:CD-DA(CD唱片),DAT(44.1 KHz x 16 bit x 2),ADPCM自适应差分脉冲编码调制(Adaptive Differential PCM),原理:声音信号具有很强的相关性,可从已知信号来预测未知信号,即使用前面的样本预测当前的样本,实际样本值与预测值之间的误差往往很小。利用自适应的思想改变量化阶的大小,即使用小的量化阶(step-size)去编码小的差值,使用大的量化阶去编码大的差值,效果:量化
7、位数可以显著减少,从而降低了总的码率。,增量调制(DM),量化器 Q,(m阶线性预测,A1,A2,.,Am可自动修正。),实际样本值,线性预测公式:Xn=A1*Xn-1+A2*Xn-2+.+Am*Xn-m,利用样本与样本之间存在的相关性进行编码,即根据前面的样本估算当前样本的大小,然后对预测误差进行量化编码。,差分脉冲编码调制 DPCM,130,150,140,200,230f 130,130,142,144,167e 0,20,-2,56,63e 0,24,-8,56,56f 130,154,134,200,223,举例,自适应脉冲编码调制(APCM),根据输入样本幅度的大小来改变量化阶大小
8、。可以是瞬时自适应,即量化阶的大小每隔几个样本就改变,也可以是音节自适应,即量化阶的大小在较长时间周期里发生变化。,量化器 Q,样本值,量化器 Q,13位自然码的数字语音样本,CCITT G.721 ADPCM编码器,6阶自适应线性预测,4位的自适应量化器,输出码率:8k x 4=32 kbps,ADPCM 小结,PCM话音质量 4.5级ADPCM话音质量 4.34级,码率降低一倍(32 kbps)。ADPCM应用:数字语音通信多媒体应用中的语音(解说词),Sub-band coding(子带编码),基本原理:利用带通滤波器(BPF)把声音信号按频率范围划分成几个组成部分(子频带,子带)低频部
9、分能量较集中,量化精度要高,取样频率可稍低。高频部分是摩擦音、噪音,量化精度可低些,但取样频率要稍高。不同子频带作不同的ADPCM编码处理,然后再复合在一起。,模式1:声音64kbps;辅助数据 0 模式2:声音56kbps;辅助数据 8 kbps模式3:声音48kbps;辅助数据 16kbps,G.722:64 kbps的声音子带编码,二、数字语音的参数编码,参数编码(源编码)的设计思想,分析人的发声器官的结构及语音生成的原理,建立语音生成的物理(数学)模型,编码时:从话音波形信号中提取生成该话音的参数;解码时:根据语音生成模型,使用这些参数合成原始话音。,语音生成过程(1),空气由肺部呼出
10、,经过声带,送入声道,最后从嘴唇呼出,产生声音。声音信号具有短期相关性(持续时间1 ms左右)声道是一个谐振腔,说话时,声道形状不断变化,引起谐振频率改变,大约10 100 ms改变一次;声道可以看作为具有共振特性的一个滤波器,由于声道形状变化比较慢,因此该滤波器的转移函数(transfer function)只需要每20ms左右时间修改一次。,语音生成过程(2),声道滤波器由肺部空气经过声带而激励,根据激励的模式,语音可分成2类:,浊音(时间域),浊音Voiced sounds(声带震动,产生准周期的空气脉冲激励信号,送入声道),清音(时间域),清音Unvoiced sounds(声带不振动
11、,声门始终处于“开”状态,送入声道的空气激励信号是一种无周期性的噪音信号),语音生成的声道滤波器模型(1),语音生成的声道滤波器模型(2),LPC模型=(a1,a2,a3,a4,a5,a6,a7,a8,a9,a10,G,V/UV,T),语音是一个近似的短时(1030ms)平稳随机过程,LPC模型的参数A=(a1,a2,a3,a4,a5,a6,a7,a8,a9,a10,G,V/UV,T)变化比较慢,大约每20ms变化一次;假设语音信号的取样频率为8kHz,将每秒钟分成50帧,每帧 20ms(其中有20 x8=160个样本),每一帧的所有信号近似地满足同一模型,即每一帧语音可以使用同一组参数来表示
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 13 语音 压缩 编码
链接地址:https://www.31ppt.com/p-6614674.html