多媒体技术基础第3版第3讲话音编码.ppt
《多媒体技术基础第3版第3讲话音编码.ppt》由会员分享,可在线阅读,更多相关《多媒体技术基础第3版第3讲话音编码.ppt(53页珍藏版)》请在三一办公上搜索。
1、多媒体技术基础(第3版)第3讲 话音编码,张奇复旦大学 计算机科学技术学院2010年3月,随着数字电话和数据通信容量日益增长的迫切要求,而又不希望明显降低传送话音信号的质量。除了提高通信带宽之外,对话音信号进行压缩是提高通信容量的重要措施。本章将重点介绍话音编码的基本思想,2023年11月2日,第3章 数字声音编码,2 of 46,2023年11月2日,第3章 数字声音编码,3 of 46,第3讲 目录,3.1 话音类型3.1.1 话音波形的特性3.1.2 话音类型3.2 话音编译码器3.2.1 波形编译码器3.2.2 音源编译码器3.2.3 混合编译码器3.4 脉冲编码调制(PCM)3.4.
2、1 PCM的概念3.4.2 均匀量化3.4.3 非均匀量化3.5 PCM在通信中的应用3.5.1 频分多路复用3.5.2 时分多路复用3.5.3 数字通信线路的数据传输率3.6 增量调制与自适应增量调制3.6.1 增量调制(DM)3.6.2 自适应增量调制(ADM),3.7 自适应差分脉冲编码调制3.7.1 自适应脉冲编码调制(APCM)的概念3.7.2 差分脉冲编码调制(DPCM)的概念3.7.3 自适应差分脉冲编码调制(ADPCM)3.7.4 G.726 ADPCM编译码器3.8 G.722 SB-ADPCM编译码器3.8.1 子带编码(SBC)3.8.2 子带-自适应差分脉冲编码调制(S
3、B-ADPCM)3.9 线性预测编码(LPC)的概念3.10 GSM声音简介3.11 话音编码标准摘要3.11.1 编码算法的性能3.11.2 话音编码标准参考文献和站点,3.1 话音类型,话音波形的特性话音的产生:肺部中的受压空气沿着声道通过声门发出。短期相关(short-term correlation):普通人的声道从声门到嘴的平均长度约为17厘米,反映在声音信号中就相当于在1ms数量级内的数据具有相关性(声速约为340m/s)。声道也被认为是一个滤波器,有许多共振峰,其频率受随时间变化的声道形状所控制,例如舌的移动就会改变声道的形状。许多话音编码器用一个短期滤波器(short term
4、 filter)来模拟声道。但由于声道形状的变化比较慢,模拟滤波器的传递函数的修改不需要那么频繁,典型值在20ms左右。,2023年11月2日,第3讲 话音编码,4 of 46,3.1 话音类型,话音类型浊音,清音和爆破音。根据压缩空气通过声门对声道滤波器的激励方式区分。按发音方法为:爆破音:/p/b/t/d/k/g/鼻音:/m/n/摩擦音:/f/v/d/t/s/z/f/v/r/h/w/j/破擦音:/tF/dV/ts/dz/tr/dr/舌侧音:/l/按声带震动与否为:清音:/p/t/k/f/W/h/s/F/tF/浊音:/b/d/g/m/n/N/v/T/z/V/dV/r/w/j/l/,2023年
5、11月2日,第3讲 话音编码,5 of 46,3.1 话音类型,1.浊音(voiced sounds)浊音是一种称为准周期脉冲(quasi-periodic pulses)激励所发出的音,这种准周期脉冲是在声门打开然后关闭时中断肺部到声道的气流所产生的脉冲。声门打开和关闭的速率呈现为音节(pitch)的大小(音节是听觉能感受到的最自然的语音单位,一个汉字就是一个音节),它的速率可通过改变声道的形状和空气的压力来调整。浊音表现出在音节上有高度的周期性,其值在220ms之间,这个周期性称为长期周期性(long-term periodicity)。,2023年11月2日,第3讲 话音编码,6 of
6、46,3.1 话音类型,2023年11月2日,第3讲 话音编码,7 of 46,图3-01 浊音段的波形举例,音节周期大约8ms,图3-02 浊音段的功率谱密度(power spectral density,PSD),3.1 话音类型,清音是由不稳定气流激励所产生的,这种气流是在声门处在打开状态下强制空气在声道里高速收缩产生的。,2023年11月2日,第3讲 话音编码,8 of 46,图3-03 清音段的波形举例,图3-04 清音段的功率谱密度举例,3.1 话音类型,爆破音(plosive sounds)爆破音是在声道关闭之后产生压缩空气然后突然打开声道所发出的音。某些音不能归属到上述三种音中
7、的任何一种,例如在声门振动和声道收缩同时出现的情况下产生的摩擦音,这种音称为混合音。声道的形状和激励方式的变化相对比较慢,话音在短时间周期(1030ms)里可以被认为是准定态(quasi-stationary)的短时平稳随机过程。话音信号具有高度周期性,这是由于声门的准周期性的振动和声道的谐振引起的。话音编码器就是企图揭示这种周期性,减少数据率又尽可能不牺牲声音的质量。,2023年11月2日,第3讲 话音编码,9 of 46,3.2 话音编译码器,三种话音编译码器 波形编译码器:话音质量高,数据率高 音源编译码器:数据率很低,合成话音音质有待提高 混合编译码器:使用音源编译码技术和波形编译码技
8、术,数据率和音质介于之间,2023年11月2日,第3讲 话音编码,10 of 46,图3-05 普通编译码器的音质与数据率,3.2 话音编译码器,波形编译码器波形编译码的想法:不利用生成话音信号的任何知识而试图产生一种重构信号,波形与原始话音波形尽可能一致。这种编译码器的复杂程度比较低,数据速率在16kb/s以上,质量相当高。低于这个数据速率时,音质急剧下降。脉冲编码调制(pulse code modulation,PCM):最简单的波形编码,仅仅是对输入信号进行采样和量化。典型的窄带话音带宽限制在4kHz,采样频率是8kHz。如果要获得高一点的音质,样本精度要用12位,它的数据率就等于96k
9、b/s,这个数据率可以使用非线性量化来降低,2023年11月2日,第3讲 话音编码,11 of 46,3.2 话音编译码器,音源编译码器音源编译码的思想:从话音波形信号中提取生成话音的参数,使用这些参数通过话音生成模型重构出话音。声码器(vocoder):针对话音的音源编译码器。在话音生成模型中,声道被等效成一个随时间变化的滤波器,叫做时变滤波器(time-varying filter),它由白噪声(无声话音段)激励,或者由脉冲串(有声话音段)激励。需要传送给解码器的信息就是滤波器的规格、发声或者不发声的标志和有声话音的音节周期,并且每隔1020ms更新一次。声码器的模型参数既可使用时域的方法
10、也可以使用频域的方法确定,这项任务由编码器完成。,2023年11月2日,第3讲 话音编码,12 of 46,3.2 话音编译码器,这种声码器的数据率在2.4kb/s左右,产生的语音虽然可以听懂,但其质量远远低于自然话音。增加数据率对提高合成话音的质量无济于事,这是因为受到话音生成模型的限制。尽管它的音质比较低,但它的保密性能好,因此这种编译码器一直用在军事上。,2023年11月2日,第3讲 话音编码,13 of 46,3.2 话音编译码器,混合编译码混合编译码的思想:企图填补波形编译码和音源编译码之间的间隔。波形编译码器虽然可提供高质量的话音,但数据率低于16kb/s的情况下,在技术上还没有解
11、决音质的问题;声码器的数据率虽然可降到2.4kb/s甚至更低,但它的音质根本不能与自然话音相提并论。,2023年11月2日,第3讲 话音编码,14 of 46,2023年11月2日,第3章 数字声音编码,15 of 46,3.4 脉冲编码调制(PCM),脉冲编码调制(PCM)的概念 PCM是pulse code modulation的缩写概念上最简单、理论上最完善、最早研制成功、使用最为广泛、数据量最大的编码系统,图3-3 PCM编码原理框图,2023年11月2日,第3章 数字声音编码,16 of 46,3.4 脉冲编码调制(续1),在图3-3中输入是模拟信号,输出是PCM样本。防失真滤波器:
12、低通滤波器,用来滤除声音频带以外的信号波形编码器:可理解为采样器量化器:可理解为“量化阶大小(step-size)”生成器或者称为“量化间隔”生成器PCM实际上是模拟信号数字化 模拟声音数字化的两个步骤:第一步是采样,就是每隔一段时间间隔读一次声音的幅度第二步是量化,就是把采样得到的声音信号幅度转换成数字值,2023年11月2日,第3章 数字声音编码,17 of 46,3.4 脉冲编码调制(续2),量化的方法主要有均匀量化和非均匀量化均匀量化采用相等的量化间隔/等分尺度量采样得到的信号幅度,也称为线性量化。量化后的样本值Y和原始值X的差E=Y-X称为量化误差或量化噪声,图3-4 均匀量化,20
13、23年11月2日,第3章 数字声音编码,18 of 46,3.4 脉冲编码调制(续3),非均匀量化大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔可在满足精度要求的情况下用较少的位数来表示声音数据还原时,采用相同的规则采样输入信号幅度和量化输出数据之间定义了两种对应关系律压扩算法A律压扩算法注:压扩(companding),图3-5 非均匀量化,3.4 脉冲编码调制,律压扩律(-Law)压扩(G.711)主要用在北美和日本等地区的数字电话通信中,按下式确定量化输入和输出的关系:x为输入信号幅度,规格化成;sgn(x)为x的极性;u 为确定压缩量的参数,它反映最大量化间隔和最小量化间隔
14、之比,取100u500。由于u 律压扩的输入和输出关系是对数关系,所以这种编码又称为对数PCM。具体计算时,用u255,把对数曲线变成8条折线以简化计算过程。,2023年11月2日,第3讲 话音编码,19 of 46,3.4 脉冲编码调制,A律压扩A律(A-Law)压扩(G.711)主要用在欧洲和中国大陆等地区的数字电话通信中,按下式确定量化输入和输出的关系:0|x|1/A 1/A|x|1x为输入信号幅度,规格化成-1x1;sgn(x)为x的极性。A为确定压缩量的参数,它反映最大量化间隔和最小量化间隔之比。,2023年11月2日,第3讲 话音编码,20 of 46,3.5 PCM在通信中的应用
15、,PCM编码早期主要用于话音通信中的多路复用。一般来说,在电信网中传输媒体线路费用约占总成本的65%,设备费用约占成本的35%,因此提高线路利用率是一个重要课题,2023年11月2日,第3讲 话音编码,21 of 46,3.5 PCM在通信中的应用,频分多路复用(frequency-division multiplexing,FDM)把传输信道的频带分成几个窄带,每个窄带传送一路信号。【例】一个信道的频带为1400Hz,把这个信道分成4个子信道(subchannels):820990 Hz,12301400 Hz,16401810 Hz和20502220Hz,相邻子信道间相距240Hz,用于确
16、保子信道之间不相互干扰。每对用户仅占用其中的一个子信道。这是模拟载波通信的主要手段。,2023年11月2日,第3讲 话音编码,22 of 46,2023年11月2日,第3章 数字声音编码,23 of 46,3.5 PCM在通信中的应用,时分多路复用 PCM编码早期主要用于话音通信中的多路复用时分多路复用是在同一条通信线路上使用不同时段“同时”传送多个独立信号的通信方法时分多路复用的核心思想是将时间分成等间隔的时段,为每对用户指定一个时间间隔,每个间隔传输信号的一部分例如,话音信号的采样频率f8000 Hz/s,它的采样周期125 s,这个时间称为1帧(frame)。在这个时间里可容纳的话路数有
17、两种规格24路制30路制,2023年11月2日,第3章 数字声音编码,24 of 46,3.5 PCM在通信中的应用(续1),24路制的重要参数如下:每秒钟传送8000帧,每帧125s12帧组成1复帧(用于同步)。每帧由24个时间片(信道)和1位同步位组成每个信道每次传送8位代码,1帧有24 8 1193位(位)数据传输率R80001931544 kb/s每一个话路的数据传输率80008=64 kb/s,图3-6 24路PCM的帧结构,2023年11月2日,第3章 数字声音编码,25 of 46,3.5 PCM在通信中的应用(续2),30路制的重要参数如下:每秒钟传送8000帧,每帧125 s
18、16帧组成1复帧(用于同步)每帧由32个时间片(信道)组成每个信道每次传送8位代码数据传输率:R80003282048 kb/s每一个话路的数据传输率80008=64 kb/s 线路利用率使用时分多路复用技术时,由于当信道无数据传输时仍给那个信道分配时间槽,因此线路利用率较低为解决这个问题,开发了统计时分多路复用技术(statistical time division multiplexing,STDM)。STDM是按照每个传输信道的传输需要来分配时间间隔的时分多路复用技术,可提高传输线路的效率,2023年11月2日,第3章 数字声音编码,26 of 46,3.5 PCM在通信中的应用(续3)
19、,数字通信线路的数据传输率 为反映PCM信号复用的复杂程度,通常用“群(group)”这个术语来表示,也称为数字网络的等级传输容量由一次群(基群)的30路(或24路),增加到二次群的120路(或96路),三次群的480路(或384路),图3-7表示二次复用的示意图。图中的N表示话路数,无论N30还是N24,每个信道的数据率都是64 kb/s,经过一次复用后的数据率就变成2048 kb/s(N30)或1544 kb/s(N24)在数字通信中在北美,具有1544 kb/s数据率的线路叫做“T1远距离数字通信线路”,提供这种数据率的服务级别称为T1等级在欧洲,具有2048 kb/s数据率的线路叫做“
20、E1远距离数字通信线路”,提供这种数据率的服务级别称为E1等级T1/E1,T2/E2,T3/E3,T4/E4和T5/E5的数据传输率见表3-3,2023年11月2日,第3章 数字声音编码,27 of 46,3.5 PCM在通信中的应用(续4),时分多路复用示意图,图3-7 二次复用示意图,2023年11月2日,第3章 数字声音编码,28 of 46,3.5 PCM在通信中的应用(续5),T1/E1,T2/E2,T3/E3,T4/E4和T5/E5的数据传输率,注:在ITU的文件中,数据率用kb/s和Mb/s做单位,因此该表没有用kbps和Mbps做单位,2023年11月2日,第3章 数字声音编码
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多媒体技术 基础 话音 编码
链接地址:https://www.31ppt.com/p-6461945.html