多媒体技术基础第3讲话音编码课件.ppt
《多媒体技术基础第3讲话音编码课件.ppt》由会员分享,可在线阅读,更多相关《多媒体技术基础第3讲话音编码课件.ppt(65页珍藏版)》请在三一办公上搜索。
1、多媒体技术基础(第3版)第3讲话音编码,2010年3月,随着数字电话和数据通信容量日益增长的迫切要求,而又不希望明显降低传送话音信号的质量。除了提高通信带宽之外,对话音信号进行压缩是提高通信容量的重要措施。本章将重点介绍话音编码的基本思想,2023年3月30日,第3章 数字声音编码,2 of 46,2023年3月30日,第3章 数字声音编码,3 of 46,第3讲 目录,3.1 话音类型3.1.1 话音波形的特性3.1.2 话音类型3.2 话音编译码器3.2.1 波形编译码器3.2.2 音源编译码器3.2.3 混合编译码器3.4 脉冲编码调制(PCM)3.4.1 PCM的概念3.4.2 均匀量
2、化3.4.3 非均匀量化3.5 PCM在通信中的应用3.5.1 频分多路复用3.5.2 时分多路复用3.5.3 数字通信线路的数据传输率3.6 增量调制与自适应增量调制3.6.1 增量调制(DM)3.6.2 自适应增量调制(ADM),3.1 话音类型,话音波形的特性话音的产生:肺部中的受压空气沿着声道通过声门发出。短期相关(short-term correlation):普通人的声道从声门到嘴的平均长度约为17厘米,反映在声音信号中就相当于在1ms数量级内的数据具有相关性(声速约为340m/s)。声道也被认为是一个滤波器,有许多共振峰,其频率受随时间变化的声道形状所控制,例如舌的移动就会改变声
3、道的形状。许多话音编码器用一个短期滤波器(short term filter)来模拟声道。但由于声道形状的变化比较慢,模拟滤波器的传递函数的修改不需要那么频繁,典型值在20ms左右。,2023年3月30日,第3讲 话音编码,4 of 46,3.1 话音类型,话音类型浊音,清音和爆破音。根据压缩空气通过声门对声道滤波器的激励方式区分。按发音方法为:爆破音:/p/b/t/d/k/g/鼻音:/m/n/摩擦音:/f/v/d/t/s/z/f/v/r/h/w/j/破擦音:/tF/dV/ts/dz/tr/dr/舌侧音:/l/按声带震动与否为:清音:/p/t/k/f/W/h/s/F/tF/浊音:/b/d/g/
4、m/n/N/v/T/z/V/dV/r/w/j/l/,2023年3月30日,第3讲 话音编码,5 of 46,3.1 话音类型,1.浊音(voiced sounds)浊音是一种称为准周期脉冲(quasi-periodic pulses)激励所发出的音,这种准周期脉冲是在声门打开然后关闭时中断肺部到声道的气流所产生的脉冲。声门打开和关闭的速率呈现为音节(pitch)的大小(音节是听觉能感受到的最自然的语音单位,一个汉字就是一个音节),它的速率可通过改变声道的形状和空气的压力来调整。浊音表现出在音节上有高度的周期性,其值在220ms之间,这个周期性称为长期周期性(long-term periodic
5、ity)。,2023年3月30日,第3讲 话音编码,6 of 46,3.1 话音类型,2023年3月30日,第3讲 话音编码,7 of 46,图3-02 浊音段的功率谱密度(power spectral density,PSD),3.1 话音类型,清音是由不稳定气流激励所产生的,这种气流是在声门处在打开状态下强制空气在声道里高速收缩产生的。,2023年3月30日,第3讲 话音编码,图3-03 清音段的波形举例,图3-04 清音段的功率谱密度举例,3.1 话音类型,爆破音(plosive sounds)爆破音是在声道关闭之后产生压缩空气然后突然打开声道所发出的音。某些音不能归属到上述三种音中的任
6、何一种,例如在声门振动和声道收缩同时出现的情况下产生的摩擦音,这种音称为混合音。声道的形状和激励方式的变化相对比较慢,话音在短时间周期(1030ms)里可以被认为是准定态(quasi-stationary)的短时平稳随机过程。话音信号具有高度周期性,这是由于声门的准周期性的振动和声道的谐振引起的。话音编码器就是企图揭示这种周期性,减少数据率又尽可能不牺牲声音的质量。,2023年3月30日,第3讲 话音编码,9 of 46,3.2 话音编译码器,三种话音编译码器 波形编译码器:话音质量高,数据率高 音源编译码器:数据率很低,合成话音音质有待提高 混合编译码器:使用音源编译码技术和波形编译码技术,
7、数据率和音质介于之间,2023年3月30日,第3讲 话音编码,10 of 46,图3-05 普通编译码器的音质与数据率,3.2 话音编译码器,2023年3月30日,第3讲 话音编码,11 of 46,3.2 话音编译码器,音源编译码器音源编译码的思想:从话音波形信号中提取生成话音的参数,使用这些参数通过话音生成模型重构出话音。声码器(vocoder):针对话音的音源编译码器。在话音生成模型中,声道被等效成一个随时间变化的滤波器,叫做时变滤波器(time-varying filter),它由白噪声(无声话音段)激励,或者由脉冲串(有声话音段)激励。需要传送给解码器的信息就是滤波器的规格、发声或者
8、不发声的标志和有声话音的音节周期,并且每隔1020ms更新一次。声码器的模型参数既可使用时域的方法也可以使用频域的方法确定,这项任务由编码器完成。,2023年3月30日,第3讲 话音编码,12 of 46,3.2 话音编译码器,这种声码器的数据率在2.4kb/s左右,产生的语音虽然可以听懂,但其质量远远低于自然话音。增加数据率对提高合成话音的质量无济于事,这是因为受到话音生成模型的限制。尽管它的音质比较低,但它的保密性能好,因此这种编译码器一直用在军事上。,2023年3月30日,第3讲 话音编码,13 of 46,3.2 话音编译码器,混合编译码混合编译码的思想:企图填补波形编译码和音源编译码
9、之间的间隔。波形编译码器虽然可提供高质量的话音,但数据率低于16kb/s的情况下,在技术上还没有解决音质的问题;声码器的数据率虽然可降到2.4kb/s甚至更低,但它的音质根本不能与自然话音相提并论。,2023年3月30日,第3讲 话音编码,14 of 46,2023年3月30日,第3章 数字声音编码,15 of 46,3.4 脉冲编码调制(PCM),脉冲编码调制(PCM)的概念 PCM是pulse code modulation的缩写概念上最简单、理论上最完善、最早研制成功、使用最为广泛、数据量最大的编码系统,图3-3 PCM编码原理框图,2023年3月30日,第3章 数字声音编码,16 of
10、 46,3.4 脉冲编码调制(续1),在图3-3中输入是模拟信号,输出是PCM样本。防失真滤波器:低通滤波器,用来滤除声音频带以外的信号波形编码器:可理解为采样器量化器:可理解为“量化阶大小(step-size)”生成器或者称为“量化间隔”生成器PCM实际上是模拟信号数字化 模拟声音数字化的两个步骤:第一步是采样,就是每隔一段时间间隔读一次声音的幅度第二步是量化,就是把采样得到的声音信号幅度转换成数字值,2023年3月30日,第3章 数字声音编码,17 of 46,3.4 脉冲编码调制(续2),量化的方法主要有均匀量化和非均匀量化均匀量化采用相等的量化间隔/等分尺度量采样得到的信号幅度,也称为
11、线性量化。量化后的样本值Y和原始值X的差E=Y-X称为量化误差或量化噪声,图3-4 均匀量化,2023年3月30日,第3章 数字声音编码,3.4 脉冲编码调制(续3),非均匀量化大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔可在满足精度要求的情况下用较少的位数来表示声音数据还原时,采用相同的规则采样输入信号幅度和量化输出数据之间定义了两种对应关系律压扩算法A律压扩算法注:压扩(companding),图3-5 非均匀量化,3.4 脉冲编码调制,2023年3月30日,第3讲 话音编码,19 of 46,3.4 脉冲编码调制,A律压扩A律(A-Law)压扩(G.711)主要用在欧洲和中
12、国大陆等地区的数字电话通信中,按下式确定量化输入和输出的关系:0|x|1/A 1/A|x|1x为输入信号幅度,规格化成-1x1;sgn(x)为x的极性。A为确定压缩量的参数,它反映最大量化间隔和最小量化间隔之比。,2023年3月30日,第3讲 话音编码,20 of 46,3.5 PCM在通信中的应用,PCM编码早期主要用于话音通信中的多路复用。一般来说,在电信网中传输媒体线路费用约占总成本的65%,设备费用约占成本的35%,因此提高线路利用率是一个重要课题,2023年3月30日,第3讲 话音编码,21 of 46,3.5 PCM在通信中的应用,2023年3月30日,第3讲 话音编码,22 of
13、 46,2023年3月30日,第3章 数字声音编码,23 of 46,3.5 PCM在通信中的应用,2023年3月30日,第3章 数字声音编码,24 of 46,3.5 PCM在通信中的应用(续1),图3-6 24路PCM的帧结构,2023年3月30日,第3章 数字声音编码,25 of 46,3.5 PCM在通信中的应用(续2),2023年3月30日,第3章 数字声音编码,26 of 46,3.5 PCM在通信中的应用(续3),2023年3月30日,第3章 数字声音编码,27 of 46,3.5 PCM在通信中的应用(续4),时分多路复用示意图,图3-7 二次复用示意图,2023年3月30日,
14、第3章 数字声音编码,3.5 PCM在通信中的应用(续5),T1/E1,T2/E2,T3/E3,T4/E4和T5/E5的数据传输率,注:在ITU的文件中,数据率用kb/s和Mb/s做单位,因此该表没有用kbps和Mbps做单位,2023年3月30日,第3章 数字声音编码,29 of 46,3.6 增量调制与自适应增量调制,增量调制也称调制(delta modulation,DM),是一种预测编码技术对实际的采样信号与预测的采样信号之差的极性进行编码。如果实际的采样信号与预测的采样信号之差的极性为“正”,则用“1”表示;相反则用“0”表示,或者相反由于DM编码只须用1位对话音信号进行编码,所以D
15、M编码系统又称为“1位系统”比较:PCM是对每个采样信号的整个幅度进行量化编码,?,3.6 增量调制与自适应增量调制,采样点i0处,输入信号y0=0,预测值y0=0,编码输出x0=1。采样点i=1处,预测值y1=,实际输入信号大于预测值,x1=1采样点i=4处,预测值y4=4,实际输入信号大于预测值,x4=1,2023年3月30日,第3讲 话音编码,30 of 46,2023年3月30日,第3章 数字声音编码,31 of 46,3.6 增量调制与自适应增量调制(续),2023年3月30日,第3章 数字声音编码,32 of 46,3.7 自适应差分脉冲编码调制,APCM的概念APCM是什么ada
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多媒体技术 基础 话音 编码 课件
链接地址:https://www.31ppt.com/p-3968952.html