数字音频压缩及标准解读课件.ppt
《数字音频压缩及标准解读课件.ppt》由会员分享,可在线阅读,更多相关《数字音频压缩及标准解读课件.ppt(130页珍藏版)》请在三一办公上搜索。
1、2010年秋,北京信息科技大学,第3章 音频压缩编解码,2010年秋,北京信息科技大学,学习目标,了解音频压缩的可行性掌握波形编码、参数编码和混合编码的基本知识熟悉MPEG音频标准全面掌握音频压缩编解码技术。,2010年秋,北京信息科技大学,3.1 音频压缩概述,3.1.1 音频压缩的可行性根据统计分析结果,音频信号中存在着多种冗余,其主要部分可分别从时域和频域来考虑。由于音频主要是给人听的,所以考虑人的听觉机理,也能对音频信号实行压缩。,2010年秋,北京信息科技大学,1时域冗余,幅度分布的非均匀性样值间的相关性周期之间的相关性基音之间的相关性静止系数长时自相关函数,2010年秋,北京信息科
2、技大学,2频域冗余,长时功率谱密度的非均匀性。语音特有的短时功率谱密度。,2010年秋,北京信息科技大学,3听觉冗余,掩蔽效应对不同频段的敏感性对音频信号相位变化不敏感,2010年秋,北京信息科技大学,基于音频数据的统计特性进行编码,典型技术是波形编码。 基于音频的声学参数,进行参数编码,可进一步降低数据率。 基于人的听觉特性进行编码。,3.1.2 音频压缩编码技术分类,2010年秋,北京信息科技大学,1按裁抑声音信号的冗余度不同分类,时域编码、频域编码和统计编码。原理:依据声音信号的冗余度以及人耳听觉的声掩蔽,将人耳听觉觉察不到的分量去掉,降低编码后的数据比特率。,2010年秋,北京信息科技
3、大学,2按压缩品质不同分类,按解码后数据与原始数据是否完全一致、质量有无损失的标准无损压缩编码(无失真)有损压缩编码(有失真),2010年秋,北京信息科技大学,3按压缩编码算法不同分类,统计编码波形编码参数编码混合编码感知编码,2010年秋,北京信息科技大学,表3-1编码的分类及标准,2010年秋,北京信息科技大学,3.2 波形编码,将时间域信号直接变换为数字代码由于保留了信号原始样值的细节变化,从而保留了信号的各种过渡特征,所以解码音频信号质量一般较高。不足之处:传输码率比较高,压缩比不大。,2010年秋,北京信息科技大学,3.2.1 脉冲编码调制,Pulse Code Modulation
4、,PCM,简称脉码调制。PCM是各种数字编码系统中最规范的方法,也是应用最广泛的系统。除了增量调制外,各种波形编码器都包含有PCM的编码与译码部分。,2010年秋,北京信息科技大学,PCM是“数字化”的最基本的技术通过抽样、量化和编码3个步骤,用若干代码表示模拟形式的信息信号(如图像、声音信号),再用脉冲信号表示这些代码来进行传输/存储。,3.2.1 脉冲编码调制,2010年秋,北京信息科技大学,3.2.2 差分脉冲编码调制,PCM编码是一种最通用的无压缩编码。优点:保真度高,解码速度快缺点:编码后的数据量大。CD-DA采用的就是这种编码方式。若利用样值之间的相关性,即记录取样值之间的差值,就
5、称为差分PCM(DPCM)。DPCM方式是非常适合自然界规律的。,2010年秋,北京信息科技大学,图3-7 DPCM编码,2010年秋,北京信息科技大学,图3-8 DPCM解码,2010年秋,北京信息科技大学,图3-9 PCM与DPCM的电平分布,2010年秋,北京信息科技大学,3.2.3 自适应差分脉冲编码调制,1自适应PCM自适应PCM(APCM):根据邻近信号的性质使量化步长改变的编码。准瞬时压扩和动态加重就可以看做是一种APCM。,2010年秋,北京信息科技大学,图3-11 APCM组成框图,2010年秋,北京信息科技大学,表3-23位APCM的系数法,2010年秋,北京信息科技大学,
6、2自适应差分PCM,把自适应型量化步长引入差分PCM(DPCM)。不是把信号x(n)直接量化而是把它和预测值x(n)的差d(n)进行量化比前述的APCM效率高,中等质量的高效率编码。,2010年秋,北京信息科技大学,应用:多功能电话机的留言录音等短时间录音不同磁带的固体录音机和向导广播自动售货机多媒体技术应用领域的CD-I中,也采用48位的ADPCM。,2自适应差分PCM,2010年秋,北京信息科技大学,图3-12 ADPCM原理框图,2010年秋,北京信息科技大学,表3-3 自适应量化法中的量化级系数,2010年秋,北京信息科技大学,3.2.4 增量调制和自适应增量调制,增量调制(M)Del
7、ta Modulation是用一位二进制码表示相邻模拟抽样值相对大小的A/D转换方式量化只限于正和负两个电平,只用一比特传输一个样值。M是增量调制方式的代号。,2010年秋,北京信息科技大学,图3-13 简单增量调制原理图,图中x(t)是一模拟信号,x(t)为本地译码器输出的前一时刻的量化信号。,2010年秋,北京信息科技大学,图3-14 M编码原理,2010年秋,北京信息科技大学,2译码的基本思想,收到l码后产生一个正斜率电压,在TS=T时间内均匀上升一个量阶,收到一个0码产生一个负的斜变电压,在TS时间内均匀下降一个量阶这样把二进制代码经过译码后变为锯齿波。,2010年秋,北京信息科技大学
8、,3PCM和M系统性能比较,传码率及信号带宽量化信噪比误码信噪比设备复杂性,2010年秋,北京信息科技大学,4自适应增量调制(自适应M),是一种改进型的增量调制方式它的量化级随着音节时间间隔(520ms)中信号平均斜率而变化。这里的音节相当于语音浊音准周期信号的基音周期。由于信号的平均斜率是根据检测码流中连“1”或连“0”的个数确定的,所以又称数字检测、连续可变斜率增量调制(CVSD),简称数字压扩增量调制。,2010年秋,北京信息科技大学,图3-15 数字检测音节压扩M组成框图,2010年秋,北京信息科技大学,自适应M与简单M相比,编码器能正常工作的动态范围有很大提高,信噪比比简单M优越。这
9、种优越性与两个参数有关,数字检测的连码数m,其值越大,改善越大;脉冲压缩比=0/max,其中max为最大量化级,0是最小量化级(无控制的),越小改善越大。,4自适应增量调制(自适应M),2010年秋,北京信息科技大学,3.2.5 子带编码,SBC是将一个短周期内的连续时间取样信号送入滤波器中,滤波器组将信号分成多个(最多32个)限带信号,以近似人耳的临界频段响应。,2010年秋,北京信息科技大学,由滤波器组的锐截止频率来仿效临界频段响应,并在带宽内限制量化噪声。子带编码要求处理延迟必须足够小,以使量化噪声不超出人耳的瞬时限制。子带编码通过分析每个子带的取样值并与心理声学模型进行比较,编码器基于
10、每个子带的掩蔽阈值能自适应地量化取样值。,3.2.5 子带编码,2010年秋,北京信息科技大学,子带编码中,每个子带都要根据所分配的不同比特数来独立进行编码。在任何情况下,每个子带的量化噪声都会增加。当重建信号时,每个子带的量化噪声被限制在该子带内。由于每个子带的信号会对噪声进行掩蔽,所以子带内的量化噪声是可以容忍的。,3.2.5 子带编码,2010年秋,北京信息科技大学,图3-16 生成窄带高分辨率的子带编码,2010年秋,北京信息科技大学,子带编码的主要特点:每个子带对每一块新的数据都要重新计算,并根据信号和噪声的可听度对取样值进行动态量化。子带感知编码器利用数字滤波器组将短时的音频信号分
11、成多个子带(对于时间取样值可以采用多种优化编码方法)。,3.2.5 子带编码,2010年秋,北京信息科技大学,子带编码的主要特点:每个子带的峰值功率与掩蔽级的比率由所做的运算来决定,即根据信号振幅高于可听曲线的程度来分配量化所需的比特数。给每一个子带分配足够的位数来保证量化噪声处于掩蔽级以下。,3.2.5 子带编码,2010年秋,北京信息科技大学,图3-17 SB-ADPCM编、译码方框图,2010年秋,北京信息科技大学,3.2.6 矢量编码,标量量化(SQ)独立地对一个样值量化编码的方式。由于对每一个样值单独编码处理,使系统码率不可能低于取样频率。矢量量化(VQ)对若干个音频样值一起量化编码
12、,2010年秋,北京信息科技大学,图3-18 VQ的基本原理,2010年秋,北京信息科技大学,图3-19 最优码字搜索算法一例,2010年秋,北京信息科技大学,参数编码技术以语音信号产生的数学模型为基础,根据输入语音信号分析出表征声门振动的激励参数和表征声道特性的声道参数,然后在解码端根据这些模型参数来恢复语音。这种编码算法并不忠实地反映输入语音的原始波形,而是着眼于人耳的听觉特性,确保解码语音的可懂度和清晰度。,3.3 参数编码,2010年秋,北京信息科技大学,基于参数编码技术的编码系统一般称之为声码器,主要用在窄带信道上提供4.8kbit/s以下的低速率语音通信和一些对时延要求较宽的场合。
13、当前参数编码技术主要的研究方向是线性预测(Linear Predictive Coder,LPC)声码器和余弦声码器。,3.3 参数编码,2010年秋,北京信息科技大学,3.3.1 语音生成模型,参数编码的基础是人类语音的生成模型。语音学和医学的研究结果表明,人类发音器官产生声音的过程可以用一个数学模型来逼近。人的语音发声过程是:气流从肺呼出后经过声门时受声带作用,形成激励气流,再经过由口腔、鼻腔和嘴组成的声道的作用而发出语音。从声门出来的气流相当于激励信号,而声道可以等效成一个全极点滤波器,称为声道滤波器或合成滤波器。在讲话过程中激励信号和滤波器系数不断地变化,从而发出不同的声音。,2010
14、年秋,北京信息科技大学,通常认为激励信号和滤波器系数540 ms更新一次。人们在发声母时,声带不振动,激励信号类似白噪声,将这类声音称做清音;发韵母时,声带振动,激励信号呈周期性,这类声音称作浊音。因此,用白噪声或周期性脉冲信号激励声道滤波器就能合成出语音,这就是LPC声码器的工作原理,3.3.1 语音生成模型,2010年秋,北京信息科技大学,这个模型的物理含义是:人类通过嘴讲出来的话,也可以用它来再生,条件是要合理地选择模型中的参数。很显然,讲话随着时间而变化,那么,模型的参数也是变化的。此模型用模型参数代替原语音波形进行传输/存储的系统就是声码器。对该发声模型的参数进行编码传输称为参数编码
15、。人的发声是很复杂的,上面的模型只是一种近似,忽略了不少因素,这个模型也叫简化发声模型它合成出的语音质量不高,后来又有许多改进。,2010年秋,北京信息科技大学,图3-20 人类发音模型,2010年秋,北京信息科技大学,3.3.2 线性预测编码,线性预测编码(LPC)是一种非常重要的编码方法线性预测方法在于分析和模拟人的发音器官,不是利用人发出声音的波形合成,而是从人的语音信号中提取与语音模型有关的特征参数。在语音合成过程中,通过相应的数学模型计算去控制相应的参数来合成语音,这种方法对语音信息的压缩是很有效的,用此方法压缩的语音数据所占用的存储空间只有波形编码的十至几十分之一。,2010年秋,
16、北京信息科技大学,LPC声码器是一种低比特率和传输有限个语音参数的语音编码器,它较好地解决了传输数码率与所得到的语音质量之间的矛盾。广泛地应用在电话通信、语音通信自动装置、语音学及医学研究、机械操作、自动翻译、身份鉴别、盲人阅读等方面。,3.3.2 线性预测编码,2010年秋,北京信息科技大学,线性预测(LPC)声码器在众多的声码器中是最为成功的,也是应用最为广泛的属于时间域声码器类。从时间波形中提取重要的语音特征。,3.3.2 线性预测编码,2010年秋,北京信息科技大学,图3-21 LPC声码器的原理图,2010年秋,北京信息科技大学,3.4 混合编码,是波形编码和参数编码的综合:既利用了
17、语音生成模型,通过模型中的参数(主要是声道参数)进行编码,减少波形编码中被编码对象的动态范围或数目;又使编码的过程,产生接近原始语音波形的合成语音,保留说话人的各种自然特征,提高了合成语音质量。目前得到广泛研究和应用的CELP编码法,以及它的各种改进算法,是混合编码法的典型代表。,2010年秋,北京信息科技大学,分析/合成(A/S)编码编码的过程是一个分析加合成的过程即编码系统大都是先“分析”输入语音提取发声模型中的声道模型参数,然后选择激励信号去激励声道模型产生“合成”语音,通过比较合成语音与原始语音的差别选择最佳激励,追求最逼近原始语音的效果。,3.4 混合编码,2010年秋,北京信息科技
18、大学,图3-22 分析合成编码原理框图,2010年秋,北京信息科技大学,3.4.1 多脉冲线性预测编码,语音模型中的激励信号,可以从分析A/S编码系统产生的预测误差来获得。 这个预测误差序列可由大约只占其个数十分之一的另一组脉冲序列来替代,由新脉冲序列激励H(z)产生的合成语音仍具有较好的听觉质量。,2010年秋,北京信息科技大学,这个预测误差序列,尽管在大多数位置上都不等于零,但它激励合成滤波器所得的合成语音,与另一组绝大多数位置上都是零的脉冲序列,激励同样的合成滤波器所得的合成语音具有类似的听觉。由于后者形成的激励信号序列,不为零的脉冲个数占序列总长的极小部分,所以编码时,仅处理和传输不为
19、零的激励脉冲的位置与幅度参数,就可以大大压缩码率了。这种编码方法称为多脉冲线性预测编码(MPLPC)。,2010年秋,北京信息科技大学,MPLPC主要任务就是寻找该脉冲序列中每个脉冲的位置和幅度大小,并对其编码。一般采用序贯方法,一个一个脉冲求解,寻求次优的解。,2010年秋,北京信息科技大学,图3-23 MPLPC编码原理框图,2010年秋,北京信息科技大学,3.4.2 规则脉冲激励/长项预测编码,RPE/LTP是欧洲数字蜂窝移动通信GSM标准中采用的语音压缩编码算法标准码率为13kbit/s,也叫移动通信的全速率编码标准。,2010年秋,北京信息科技大学,人们为进一步提高信道利用率,正在制
20、定码率为67kbit/s、与RPE/LTP方案相当的语音压缩编码标准。新方案称为移动通信中的半速率语音编码算法。,3.4.2 规则脉冲激励/长项预测编码,2010年秋,北京信息科技大学,RPE/LTP语音压缩编码属于分析/合成编码方式,系统先分析,得到合成滤波器参数,再通过选择不同激励,判别它们的合成语音与原始语音的差别,得到最优的激励的信号。RPE/LTP采用了感觉加权滤波器。PRE/LTP的各个非零激励脉冲,呈现等间隔的规则排列。只需使收方知道第一个脉冲的位置在何处(n取什么值),其他激励脉冲的位置也就可以得知了。而且第一个脉冲的位置也是有限的几个可能性。所以这种方案,脉冲位置的编码所需码
21、率非常少,非零激励脉冲个数可以增加许多。在一个编码帧内,GSM方案的非零激励脉冲比MPLPC方案多了3倍,有利于提高合成语音质量。,2010年秋,北京信息科技大学,RPE/LTP编码算法设置了基音预测系统以及相应的基音合成系统。线性预测处理语音信号可以去除语音信号样值间的相关性,大大降低信号的动态范围。,3.4.2 规则脉冲激励/长项预测编码,2010年秋,北京信息科技大学,图3-24 预测误差波形,2010年秋,北京信息科技大学,图3-25 GSM语音压缩编解码器中的语音生成模型,2010年秋,北京信息科技大学,3.4.3 码激励线性预测编码,码激励线性预测编码(CELP)系统是中低速率编码
22、领域最成功的方案。基本CELP算法不对预测误差序列个数及位置作任何强制假设,认为必须用全部误差序列编码传送以获得高质量的合成语音。为了达到压低传码率的目的,对误差序列的编码采用了大压缩比的矢量量化技术VQ,也就是对误差序列不是一个一个样值分别量化,而是将一段误差序列当做一个矢量进行整体量化。,2010年秋,北京信息科技大学,由于误差序列对应着语音生成模型的激励部分,现在经VQ量化后,用码字代替,故称码激励。,图3-26 典型的CELP系统,2010年秋,北京信息科技大学,图3-27 采用两个码本CELP编码系统,2010年秋,北京信息科技大学,基于CELP的LD-CELP方案,已作为干线电话网
23、16kbit/s速率编码标准。与CELP基本算法相比较,它的主要不同有如下两个方面。,2010年秋,北京信息科技大学,(1)它不是从输入语音中提取合成滤波器参数的,而是从以前的合成语音中提取的,这样不必等待一段语音输入后再进行计算,所以编码时延很低,故名低时延编码系统。并且,由于预测和合成系统的系数取决于合成后的语音而非原始语音,因此,合成系统系数不必编码传送。,2010年秋,北京信息科技大学,(2)考虑到用前面部分的合成语音,来估计本时刻的合成系统参数,可能会估计精度差,降低线性预测效果,为了提高预测性能,G.728标准中采用了一个高达50阶的线性预测滤波器,代替一般CELP系统中的基音和声
24、道两个预测滤波器,合成滤波器同样也是50阶的。提高滤波器阶数,只是增加了计算量,因为滤波器系数不传送,所以不增加传码率。,2010年秋,北京信息科技大学,3.4.4 矢量和激励线性预测编码,矢量和激励线性预测编码(VSELP)作为北美第一代数字蜂窝移动通信网语音编码标准由Motorola公司首先提出,其码率为8kbit/s。图3-28是VSELP编码系统结构图。,2010年秋,北京信息科技大学,图3-28 VSELP编码系统,2010年秋,北京信息科技大学,3.4.5 多带激励语音编码,语音短时谱分析表明,大多数语音段都含有周期和非周期两种成分,因此很难说某段语音是清音还是浊音。 传统声码器,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数字音频 压缩 标准 解读 课件

链接地址:https://www.31ppt.com/p-1520048.html