欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    声音和语音编码.ppt

    • 资源ID:5254703       资源大小:540KB        全文页数:98页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    声音和语音编码.ppt

    南通大学计算机应用教研室,1,第二章 声音和语音编码,2,南通大学计算机应用教研室,本章主要内容,声音概述声音的数字化电子合成音乐语音编码脉冲编码调制(PCM)PCM应用其它编码方法,3,南通大学计算机应用教研室,2.1 声音概述,声音是一种连续的波,具有普通波的一切特性:反射、折射、衍射等。声音信号是由许多频率不同的信号组成声波的分类(按频率)次声波(0 20 Hz)声波(20 20 KHz)人类听觉范围超声波(20KHz)强的方向性应用:B超、探测仪、主动声纳,4,南通大学计算机应用教研室,2.1 声音概述(续),声音的幅度人类能够感知的范围是:0120dB之间超出120dB人耳可能会感动疼痛补充:什么是dB(分贝)数?,5,南通大学计算机应用教研室,什么是dB(分贝)数?,一种相对量单位,在专业音响设备的调节刻度上经常会遇到,例如增益大小、衰减量、提升量、电平量等。其定义是:dB数=20lgA/B但在功率级、声强级及能量级中,其定义是:dB数=10lgA/B式中,A是被比较的绝对量,例如电压、电流等;B为比较的标准量。采用dB数表示量值的优点是缩小了数值大小,使量值表示更简单更具体,使运算简化。同时,对一些变化范围很宽的物理量作图表示或刻度与非常方便,一目了然。,6,南通大学计算机应用教研室,2.1 声音概述(续),音宽与频带:频带宽度或称为带宽,它是描述组成复合信号的频率范围。,图2.1 声音的频带,7,南通大学计算机应用教研室,2.1.1 音频信号的指标,一.频带宽度:音频信号的频带越宽,所包含的音频信号分量越丰富,音质越好。,图2.2 声音的频带宽度,8,南通大学计算机应用教研室,2.1.1 音频信号的指标(续),二动态范围:动态范围越大,信号强度的相对变化范围越大,音响效果越好。,动态范围20log(信号的最大强度/信号的最小强度)单位:(dB),表2.1 声音的动态范围,抑扬顿挫,9,南通大学计算机应用教研室,2.1.1 音频信号的指标(续),三信噪比:信噪比SNR(Signal to Noise Ratio)是有用信号与噪声之比的简称。噪音可分为环境噪音和设备噪音。信噪比越大,声音质量越好,10,南通大学计算机应用教研室,本章主要内容,声音概述声音的数字化电子合成音乐语音编码脉冲编码调制(PCM)PCM应用其它编码方法,11,南通大学计算机应用教研室,2.2 声音的数字化,模拟信号与数字信号声音信号的数字化采样频率采样精度声音质量与数据率,12,南通大学计算机应用教研室,2.2.1 模拟信号与数字信号,模拟信号时间上、幅度上均连续的 信号。采样 在某一时刻对模拟信号的幅度进行测量,将其时间上离散化量化 将采样得到的信号幅度的取值离散化。如采样得到的幅度为0,255,一种离散化的方法是取值0,1,2,255采样和量化后得到的信号就是数字信号,13,南通大学计算机应用教研室,2.2.1 模拟信号到数字信号,为什么要从模拟信号过渡到数字信号?以前声音长途传输用电信号来模拟声波,对电信号的处理,采用模拟电气元件,受环境影响很大(温度、电磁场干扰),难以纠错。采用数字信号,采用数字信号处理器(DSP)进行数学运算,受环境影响较小,可以实现容错处理。,14,南通大学计算机应用教研室,2.2.1 数字信号处理的优点,数字信号计算是一种精确的计算方法,不受时间和环境变化的影响;用数学运算来实现(模拟)原来的物理部件的功能相对比较容易可以通过改变数学运算的方法,实现不同的功能,而不需更换物理部件(DSP)。即只需对DSP编程。,15,南通大学计算机应用教研室,2.2.2 声音信号的数字化,声音信号的数字化步骤:采样 得到一个个时间上离散的幅度值量化 得到一个个离散的幅度值连续时间的离散化通过采样,一般采用均匀采样(uniform sampling)连续幅度的离散化通过量化,可采用线性量化,或非线性量化,16,南通大学计算机应用教研室,2.2.2 声音信号的数字化(图),图2.3 声音信号的数字化,17,南通大学计算机应用教研室,采样和量化示例,如有一声音信号,对其进行采样和量化。量化表用 1,2,3,4,5,6,7,8,四舍五入方法。结果如下表2.2,18,南通大学计算机应用教研室,声音信号的数字化,目前应用较为广泛的采样方式:奈奎斯特(Nyquist)采样正交采样带通采样Sigma-Delta()采样等,19,南通大学计算机应用教研室,2.2.2 声音信号的数字化,需要解决的两个问题:采样频率应该是多少?量化的精度?bps(bit per sample),20,南通大学计算机应用教研室,2.2.3 采样频率,采样频率是指一秒钟内采样的次数。奈奎斯特采样定理(Nyquist theory):如果对某一模拟信号进行采样,则采样后可还原的最高信号频率只有采样频率的一半;或者说只要采样频率高于输入信号最高频率的两倍,就能从采样信号系列重构原始信号。,21,南通大学计算机应用教研室,2.2.3 采样频率,奈奎斯特采样定理:fs=2 fmax fs为采样频率,fmax为信号最高频率对声音信号而言,fmax为声音信号的最高频率。在实际应用中,为了使前级抗混叠滤波器易于实现,提高输入信号的信噪比,一般fs取fmax的2.5倍以上。,22,南通大学计算机应用教研室,2.2.3 采样频率,根据斯特采样定理,CD 激光唱盘采样频率为44KHz,可记录的最高音频为22KHz,这样的音质与原始声音相差无几,也就是我们常说的超级高保真音质。声音采样的三个标准频率分别为:44.1KHz22.05KHz 11.025KHz。,23,南通大学计算机应用教研室,2.2.3 采样频率,人耳听觉上限是20KHz,根据奈奎斯特的理论,数码音频的取样频率应当是40 KHz,可为何定了44.1 KHz这么一个特殊的标准?对模拟声音信号进行处理时,20KHz处有比较明显的衰减,因此把信号截止频率提高到22 KHz 为使交流电纹波的负面影响降到最低,需要取一个既大于44 KHz,又为50Hz和60Hz(国际通行的两种交流电频率)公倍数的数据。,24,南通大学计算机应用教研室,2.2.4 量化精度 量化位数,量化位数是对模拟音频信号的幅度轴进行数字化,它决定了模拟信号数字化以后的动态范围。由于计算机按字节运算,一般的量化位数为8位和16位。量化位越高,信号的动态范围越大,数字化后的音频信号就越可能接近原始信号,但所需要的存贮空间也越大。,类似于你银行的存款位数,25,南通大学计算机应用教研室,2.2.4 量化精度 量化位数,例如用8位表示一个声音采样的样本,则样本值是0到255之间的256个整数值,此时采样精度就是1/256.量化精度、存储空间、声音质量、处理速度之间的矛盾。(理解),26,南通大学计算机应用教研室,2.2.4 量化精度 信噪比表示,信噪比SNR(signal-to-noise ratio)公式:SNR=10 log(Vsignal)2/(Vnoise)2=20 log(Vsignal/Vnoise)说明:Vsignal表示信号电压Vnoise表示噪声电压SNR的单位为分贝(dB),如何理解信噪比公式(思考题),27,南通大学计算机应用教研室,2.2.4 量化精度 信噪比计算,举例:假设Vnoise=1;采样精度为1bit时,Vsignal21,此时它的信噪比:SNR=20 log(Vsignal/Vnoise)=20 log(21/1)=20 log 2=20*0.3=6 dB,28,南通大学计算机应用教研室,2.2.4 量化精度 信噪比计算,举例:假设Vnoise=1;采样精度为8bit时,Vsignal28,此时它的信噪比:SNR=20 log(Vsignal/Vnoise)=20 log(28/1)=20*8*log 2=20*8*0.3=48 dB,29,南通大学计算机应用教研室,2.2.4 采样精度(表),表2-3 采样位数与信噪比对照表,30,南通大学计算机应用教研室,2.2.5 声音质量与数据率,声道数:有单声道和双声道之分。双声道又称为立体声,在硬件中要占两条线路,音质、音色好,但立体声数字化后所占空间比单声道多一倍。数据率:为每秒bit数,(bps).数据率是计算机处理时要掌握的基本技术参数。声音质量与数据率的对应 参见教材表2-1 p11,31,南通大学计算机应用教研室,本章主要内容,声音概述声音的数字化电子合成音乐语音编码脉冲编码调制PCM应用其它编码方法,32,南通大学计算机应用教研室,2.3 电子合成音乐 MIDI,乐器数字接口MIDI(Musical Instrument Digital Interface),泛指数字音乐的国际标准,它是音乐与计算机结合的产物。MIDI不是把音乐的波形进行数字化采样和编码,而是将数字式电子乐器的弹奏过程记录下来,如按了哪一个键、力度多大、时间多长等等。当需要播放这首乐曲时,根据记录的乐谱指令,通过音乐合成器生成音乐声波,经放大后由扬声器播出。,33,南通大学计算机应用教研室,2.3.1 MIDI术语,一、音乐合成器(Musical Synthesizer):用来产生并修改正弦波形的叠加,然后通过声音产生器和扬声器发出特定的声音。泛音的合成决定声音音质。二、复调声音:简称为复音(Polyphony),指合成器同时演奏若干音符时发出的声音。它着重于同时演奏的音符数。,34,南通大学计算机应用教研室,2.3.1 MIDI术语,三、多音色(Timbre):指同时演奏几种不同乐器时发出的声音。它着重于同时演奏的乐器数。四、MIDI标准1、MIDI电子乐器:能产生特定声音的合成器,其数据传送符合MIDI通信约定。,35,南通大学计算机应用教研室,2.3.1 MIDI术语,2、MIDI消息(message)或指令:乐谱的一种记录格式,相当于乐谱语言。3、MIDI接口(interface):MIDI硬件通信协议4、MIDI通道(channel):共16个通道,每种通道对应一种逻辑的合成器,36,南通大学计算机应用教研室,2.3.1 MIDI术语,5、MIDI文件:由控制数据和乐谱信息数据构成6、音序器(Sequencer):用来记录、编辑和播放MIDI文件的软件。,37,南通大学计算机应用教研室,2.3.2 计算机上MIDI的产生过程,MIDI电子乐器通过MIDI接口与计算机相连。计算机可通过音序器软件来采集MIDI电子乐器发出的一系列指令。这一系列指令可记录到MIDI文件中。在计算机上音序器可对MIDI文件进行编辑和修改。最后,将MIDI指令送往音乐合成器,由合成器将MIDI指令符号进行解释并产生波形,然后通过声音发生器送往扬声器播放出来。,38,南通大学计算机应用教研室,2.3.2 计算机上MIDI的产生过程,图2.4 MIDI的产生过程,39,南通大学计算机应用教研室,2.3.3 MIDI合成的产生方式,1、频率调制合成(Frequency Modulation)通过硬件产生正弦信号,再经处理合成音乐。合成的方式是将波形组合在一起,理论上可以有无限多组波形,但实际上做不到。其泛音的合成与模拟比较困难,实际的质量不高。2、波形表(Wavetable)合成 其原理是在ROM中已存储各种实际乐器的声音样本,需要时,调用相应样本来合成该乐器的乐音。ROM的容量越大,合成效果越好,价格也越贵。,40,南通大学计算机应用教研室,2.3.4 两种音频文件的比较,表2-4 MIDI和WAVE文件的比较,41,南通大学计算机应用教研室,本章主要内容,声音概述声音的数字化电子合成音乐语音编码(教材第三章)脉冲编码调制PCM 应用其它编码方法,42,南通大学计算机应用教研室,2.4 语音编码实现方法,波形编码将波形直接变换成数字码流。特点:比特率较高、解码后质量较高、延时较小。可以分为:时域波形编码,如PCM、ADPCM、M等;频域波形编码,如子带编码(SBC)、自适应变换编码等。参数编码 从信源信号的某个域中提取特征参数,并变换成数字码流。特点:比特率较低、解码后质量较低、延时较大。如:各种声码器。线性预测编码(LPC),43,南通大学计算机应用教研室,2.4 语音编码实现方法,混合编码将以上二种方法混合,特点:以较低的比特率获得较高的质量,延时适中,复杂。如:GSM的语音编码。,44,南通大学计算机应用教研室,语音编码历史:数字电话(1),波形编码 PCM原理(37年,法Alec Reeres)电子管PCM(46年,Bell实验室)晶体管PCM(62年,市话扩容,64kb/s)单片IC PCM(70年代,微波、卫星、光纤)增量编码原理(46年,法De Loraine)自适应增量 CVSD(60年代末,军用,32、16kb/s)Continuously Variable Slope Delta Modulator 连续变化斜率增量调制器 其他编码(70年代,ADPCM、SubBand、ATC、APC等)在16kb/s以上得到较好的话音质量。特点:话音质量好,且编码速率高。,45,南通大学计算机应用教研室,语音编码历史:数字电话(2),参数编码 波形编码通道声码器(39年,Dudly,二次大战保密电话)LPC声码器(67年,Atal、Schroeder)共振峰声码器(71年,Rabiner、Schafer、Elanagan)波形插值(91年,W.B.Kleijn)特点:编码速率低,自然度差。混合编码器利用线性预测、VQ、A-B-S、感觉加权、后滤波等技术。规则脉冲激励线性预测(RPELP 1985 Deprettere、Kroon)码本激励线性预测(CELP 1985 Manfred、Schroeder、Atal)特点:话音质量高、编码速率低,但算法复杂。,46,南通大学计算机应用教研室,语音编码的优点,提高传输的质量 便于处理使用灵活,便于多种媒体(视频、音频、文字、数据)相结合应用 易于加密 适合大规模集成 可靠性高、体积功耗小 价格便宜,47,南通大学计算机应用教研室,表2.2 语音编码的应用,48,南通大学计算机应用教研室,压缩的必要性,表2.3 几种类型信号的参数,88.125KB/s,(一般了解),49,南通大学计算机应用教研室,语音压缩依据,1)冗余度时域样点之间相关(短时、长时)频域谱的非平坦性(谱包络、谱离散)统计特性2)人耳听觉特性人耳分辨能力人耳对不同频段声音的敏感程度不同,通常对低频比对高频更敏感人耳对语音信号的相位不敏感人耳掩蔽效应 Masking Effect,(一般了解),50,南通大学计算机应用教研室,语音压缩依据,说明:对人耳听不到或感知极不灵敏的声音分量都不妨视为冗余。利用听觉心理特性、感觉加权、量化、去除多余分量、后滤波、。,(一般了解),51,南通大学计算机应用教研室,语音编码性能评价(1),1)编码速率:(Kbps、Kb/s)信号带宽:可懂度、自然度、透明度。2003400Hz,507000Hz,1020000HZ 采样速率:8KHz,16KHz,32KHz,44.1/48KHz。编码位数:R(b/样点),总速率I(kb/s)。,(一般了解),52,南通大学计算机应用教研室,语音编码性能评价(2),2)重建语音质量客观评价:信噪比 分段信噪比(一般15dB以上较好,20dB以上相当好)主观评价:MOS分(Mean Opinion Score)51分:Excellent、Good、Fair、Poor、Bad如:4分:长途通信质量,(一般了解),53,南通大学计算机应用教研室,语音编码性能评价(3),3)编解码延时(ms)公众网(25ms)回声控制或回声抵消 正常通话秩序 与重建质量关系4)算法复杂度 硬件、成本 浮点、定点 5)其他 抗随机误码和突发误码能力 抗丢包和丢帧能力 对不同信号编码能力 级联或转接能力,(一般了解),54,南通大学计算机应用教研室,本章主要内容,声音概述声音的数字化电子合成音乐语音编码脉冲编码调制PCM应用其它编码方法,55,南通大学计算机应用教研室,2.5 脉冲编码调制 PCM,概念:在一定的时间间隔内,连续测量信号的幅度值,并对测量值编码。原理:(见下图),56,南通大学计算机应用教研室,2.5 脉冲编码调制 PCM步骤,三个步骤:抽 样 即采样量 化 测量采样值编 码 对量化值进行处理并记录,57,南通大学计算机应用教研室,2.5.1 PCM 量化概念,1、定义:将幅度连续变化的信号变成幅度离散信号的处理过程称为量化。2、量化器的基本参数 1)量化范围 如V1,V2,语音信号为双极性对称信号,通常量化范围是-V,+V2)量化级数N,在V1,V2内分N个段落。,58,南通大学计算机应用教研室,2.5.2 PCM 量化参数,3)量化间隔i,也称量阶,量化级 4)量化值 5)编码位数n,二进制编码时,需满足 2n N 6)量化方法 均匀量化:量化间隔相等;非均匀量化:量化间隔不相等。,59,南通大学计算机应用教研室,2.5.3 量化器特性,1)量化器特性曲线:量化器的输入和输出之 间的关系曲线2)量化器误差特性曲线:量化器的输入与量化误差之间的关系曲线。,60,南通大学计算机应用教研室,2.5.3 均匀量化器的特性曲线和误差曲线,61,南通大学计算机应用教研室,2.5.3 均匀量化的特点及其应用,特点:1)量化信噪比与信号功率成正比 2)编码位数多。应用:用于信号分布范围小且较均匀的场合。如遥测、遥控、仪表等方面。结论:在通信系统中,语音信号不适合采用均匀量化编码改进方法:采用非均匀量化。,62,南通大学计算机应用教研室,2.5.4 非均匀量化,非均匀量化 基本思想:在对输入信号进行量化时候,大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔。非均匀量化有两种方法:1.律压扩 2.A 律压扩,63,南通大学计算机应用教研室,2.5.4 压扩压缩与扩展,压缩与扩张的过程如下:1.f(x)压缩器均匀量化编码2.译码扩张器f(x),64,南通大学计算机应用教研室,2.5 律压缩律,1.律压缩律 律曲线为 越大,小信号的压缩律越高。,65,南通大学计算机应用教研室,2.5 A律压缩律,2.A律压缩律 A律压缩曲线为,66,南通大学计算机应用教研室,2.5 分段量化折线压缩律,由于连续曲线的压缩律电路实现较为困难,通常用折线来近似。常用的有A13折线和15折线。,67,南通大学计算机应用教研室,2.5 A13折线画法,A13折线画法如下:1)x轴采用对折方式分16份2)y轴均匀分割16份3)将x,y轴对应的坐标点连接起来,得到16段折线。简称为A13折线。应用:中国,欧洲等,68,南通大学计算机应用教研室,2.5 A13折线画法(图),82条 线段,69,南通大学计算机应用教研室,2.5 15折线压缩律,15折线压缩律是在曲线上取坐标点,然后连成折线而得。,70,南通大学计算机应用教研室,2.5 15折线画法,画法如下:1)x轴坐标点为,非均匀分割16份2)y轴均匀分割16份3)将x,y轴对应的坐标点连接起来,得到16段折线。称为15折线。应用:日本,美国,加拿大等。,71,南通大学计算机应用教研室,本章主要内容,声音概述声音的数字化电子合成音乐语音编码脉冲编码调制(PCM)PCM应用其它编码方法,72,南通大学计算机应用教研室,2.6 PCM在通信中的应用,PCM编码早期的最重要应用就是话音通信中的多路复用。一般来说,电信网中传输媒体费用约占总成本的65%,设备费用约占成本的35%,因此提高线路利用率是一个重要课题.提高线路利用率通常用下面两种方法:(1)频分多路复用FDM(frequency-division multiplexing)(2)时分多路复用TDM(time-division multiplexing),73,南通大学计算机应用教研室,频分多路复用FDM,把传输信道的频带分成好几个窄带,每个窄带传送一路信号:例如,一个信道的频带为1400 Hz,把这个信道分成4个子信道:820-990 Hz,1230-1400 Hz,1640-1810 Hz和2050-2220 Hz,相邻子信道间相距240 Hz,用于确保子信道之间不相互干扰。每对用户仅占用其中的一个子信道。这是模拟载波通信的主要手段。,74,南通大学计算机应用教研室,2.6.2 时分多路复用TDM,把传输信道按时间来分割,为每个用户指定一个时间间隔,每个间隔里传输信号的一部分,这样就可以使许多用户同时使用一条传输线路。这是数字通信的主要手段。例如,话音信号的采样频率f8000 Hz,它的采样周期125 m s,这个时间称为1帧(frame)。在这个时间里可容纳的话路数有两种规格:24路制和30/32路制。,75,南通大学计算机应用教研室,24路制的重要参数如下,每秒钟传送8000帧,每帧125 m s。12帧组成1复帧(用于同步)。每帧由24个时间片(信道)和1位同步位组成。每个信道每次传送8位代码,1帧有24 8 1193位(比特)。数据传输率R80001931544 kbps。每一个话路的数据传输率80008=64 kbps。律参看:教材P32 图 310,76,南通大学计算机应用教研室,30路制的重要参数如下,每秒钟传送8000帧,每帧125 m s。16帧组成1复帧(用于同步)。每帧由32个时间片(信道)组成。每个信道每次传送8位代码。数据传输率:R80003282048 kbps。每一个话路的数据传输率80008=64 kbps。A律,77,南通大学计算机应用教研室,应 用,时分多路复用(TDM)技术已广泛用在数字电话网中,为反映PCM信号复用的复杂程度,通常用“群(group)”这个术语来表示,也称为数字网络的等级。PCM通信方式发展很快,传输容量已由一次群(基群)的30路(或24路),增加到二次群的120路(或96路),三次群的480路(或384路),。,78,南通大学计算机应用教研室,本章主要内容,声音概述声音的数字化电子合成音乐语音编码(教材第三章)脉冲编码调制PCM 应用其它编码方法,79,南通大学计算机应用教研室,7.其它编码方法,DM/ADMAPCM/DPCM/ADPCM LPCRPE-LTP,80,南通大学计算机应用教研室,增量调制与自适应增量调制,由于DM编码的简单性,使它成为数字通信和压缩存储的一种重要方法,它鼓励了很多人对最早发明的DM系统做了大量的改进和提高工作。最早的DM系统是在1946年发明的。后来的自适应增量调制ADM系统采用十分简单的算法就能实现32 kbps至48 kbps的数据率,而且可提供高质量的重构话音,它的MOS评分可达到4.3分左右。,81,南通大学计算机应用教研室,增量调制(DM),增量调制也称调制DM(delta modulation),它是一种预测编码技术,是PCM编码的一种变形。DM是对实际的采样信号与预测的采样信号之差的极性进行编码,将极性变成“0”和“1”这两种可能的取值之一。如果实际的采样信号与预测的采样信号之差的极性为“正”,则用“1”表示;相反则用“0”表示,或者相反。由于DM编码只须用1比特对话音信号进行编码,所以DM编码系统又称为“1比特系统”,82,南通大学计算机应用教研室,增量调制(DM)(图),83,南通大学计算机应用教研室,2.7.1 自适应增量调制ADM,ADM定义:一种自动调节量阶的增量调制。当信号斜率大时,量阶大,当信号斜率小时,量阶小。ADM具有动态范围大的特点。,84,南通大学计算机应用教研室,2.7.2 差值脉冲编码调制(DPCM),DPCM:根据前些时刻的样值来预测现时刻的样值,只要传递预测值和实际值之差,而不需每个样值的编码都传。举例说明DPCM过程:,85,南通大学计算机应用教研室,2.7.2 DPCM 框图,86,南通大学计算机应用教研室,差值脉冲编码调制(DPCM)(图),87,南通大学计算机应用教研室,差值脉冲编码调制(说明),由于差值序列信息可以代替原始序列中的有效信息,二差值信号的能量远小于原样值,这就可以使量化电平数减小,从而大大地压缩了数码率。在接收端,只要把差值序列叠加在预测序列之上,即可以恢复原始信号。,88,南通大学计算机应用教研室,2.7.2 自适应DPCM系统-ADPCM,由于DPCM系统的输入信号是随机变化的,要使DPCM系统有最好的性能,需采用自适应的方法。自适应:语音信号的动态范围较大,只有采用自适应系统,才能得到最佳的性能。,89,南通大学计算机应用教研室,2.7.2 ADPCM,ADPCM系统的自适应包含两个方面:自适应预测:预测系数能匹配于语音信号瞬时变化最自适应调整,得到较高的预测增益G的过程。自适应量化:量化器的量化量化间隔能随着信号的瞬时值变化做自适应调整,得到较高的信噪比。,90,南通大学计算机应用教研室,2.7.2 ADPCM 框图,91,南通大学计算机应用教研室,线性预测编码(LPC),基本原理:LPC通过分析话音波形来产生声道激 励和转移函数的参数。对这些参数进行编码。在接收端 使用这些参数重构话音。,92,南通大学计算机应用教研室,2.7.4 LPC的基本原理图,93,南通大学计算机应用教研室,2.7.4 LPC主要缺点,1)损失了语音的自然度2)抗噪声能力下降3)谱包络的估值可能产生很大的失真。原因:主要是未将编码端的余数(误差)信号发送到接收端。,94,南通大学计算机应用教研室,2.7.4 改善方法,采用较复杂的激励模型代替简单的清/浊音判决模型;另一种方法是利用一部分余数信息。,95,南通大学计算机应用教研室,2.7.5 规则脉冲激励长期预测 LPC编码(RPELTP),RPELTC-LPC编译码系统框图:,96,南通大学计算机应用教研室,2.7.5 RPE-LTP 与 LPC比较,LPC编码器在保证一定可懂度条件下,使编码速率在2.44.8Kb/sRPELTC在编码速率为13Kb/s,有相当好的语音质量。应用:目前GSM采用13Kb/s的RPELTC编码方案。本章介绍的编码算法主要应用于话音编码。对于声音的编码可以应用MPEG Audio的子带编码(SBC),97,南通大学计算机应用教研室,思考题(1),1、用自己的语言说出下面3种话音编译码器的基本想法。波形编译码器,音源编译码器,混合编译码器2、什么叫做均匀量化?什么叫做非均匀量化?3、什么叫做 率压扩?什么叫做A率压扩?,98,南通大学计算机应用教研室,思考题(2),4、自适应脉冲编码调制(APCM)的基本思想是什么?5、差分脉冲编码调制(DPCM)的基本思想是什么?6、自适应差分脉冲编码调制(ADPCM)的两个基本思想是什么?,

    注意事项

    本文(声音和语音编码.ppt)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开