《语音编码汇总》PPT课件.ppt
第7章 语音编码(speech coding),概述语音信号压缩编码的原理及其评价系统语音信号的波形编码语音信号的参数编码语音信号的混合编码,概述,一、编码(压缩)的重要性二、编码速率(信息容量)三、编码的分类四、已经标准化的语音编码,编码、传输、存储和译码是语音数字传输和数字存储的必要过程。随着语音通信技术的发展,压缩语音信号的传输带宽,降低信道的传输速率,一直是人们追求的目标。语音编码在实现这一目标的过程中担当重要的角色。语音编码就是使表达语音信号的比特数目最小。,一、编码(压缩)的重要性,数字传输系统模型,信源,信源编码,信道编码,调制,传输通道,用户,信源解码,信道解码,解调,语音编码应用实例(IP电话),接收器,模数转换,压缩编码,IP封装,网络,IP解包,解码,数模转换,播放器,二、编码速率(信息容量),用比特/秒(b/s或bps)来度量,用I表示,有:I=R fs,R代表每个语音采样值编码所需的比特数;fs是采样频率。当fs=8kHz,每个采样值用8比特位来编码,则编码速率为64kb/s。,三、编码的分类,1.波形编码(waveform coding):基本原理是在时间轴上对模拟话音信号按照一定的速率来抽样,然后将幅度样本分层量化,并使用代码来表示。在接收端将收到的数字序列经过解码恢复到原模拟信号,保持原始语音的波形形状。话音质量高,编码速率高。如PCM编码类(a率或u率PCM、ADPCM、ADM),编码速率为6416kb/s,语音质量好。,2.参数编码(声源编码 parametric coding):根据语音信号产生的数学模型,通过对语音信号特征参数的提取后进行编码(将特征参数变换成数字代码进行传输)。在接收端将特征参数,结合数学模型,恢复语音,力图使重建语音保持尽可能高的可懂度,重建语音信号的波形同原始语音信号的波形可能会有相当大的区别。如线性预测(LPC)编码类。编码速率低,自然度低,对环境噪声敏感。,3.混合编码(Hybrid coding):将波形编码与参数编码相结合,在速率上能够得到高质量的合成语音。规则码激励长时预测编码RPELPT即为混合编码技术。混合编码包括若干语音特征参量又包括部分波形编码信息,以达到波形编码的高质量和参量编码的低速率的优点。,四、已经标准化的语音编码 指定组织:国际电信联盟 ITU-T,http:/,(5)RPE-LTP:长时预测的规则脉冲激励的线性预测Regular-Pulse Excited LPC with a Long-Term Predictor,(1)ADPCM:自适应差分脉冲编码 adaptive difference pulse code modulation,(2)CELP:码本激励线性预测(code excited linear prediction),(3)ACELP:代数码本激励线性预测Algebraic-Code-Excited Linear-Prediction,(4)CS-ACELP:共轭结构的代数码本激励线性预测Conjugate Structure Algebraic-Code-Excited Linear-Prediction,语音信号压缩编码的原理及其评价系统,一、语音压缩的基本依据二、语音编码的关键技术三、语音压缩系统的性能指标和评测方法,一、语音压缩的基本依据,是语音信号的冗余度和人的听觉感知机理。,1.存在的时域冗余度:(1)幅度非均匀分布(2)语音信号样本间的相关性很强(3)浊音具有准周期(4)声道的形状及其变化缓慢(5)语音间隙(静止系数),2.存在的频域冗余度:(1)非均匀的长时功率谱密度(2)短时功率谱密度,女声英文a的功率谱,3.人的听觉感知机理(1)人类的听觉特性具有掩蔽效应(2)人耳对不同频段声音的敏感程度不同(3)人耳对语音相位不敏感,4.语音编码的极限速率 语音中最基本的元素是音素,大约有128256个,如果按通常的说话速度,每秒平均发出10个音素,则信息率为:I=log2(256)10bps=80bps把发音看成是以语音速率来传送,则语音编码的极限速率为80bps,从数字化标准的编码速率64kbps,到极限速率80bps,之间的距离,对于理论研究和实践有着极大的吸引力。,二、语音编码的关键技术,语音信号中存在两种类型的相关性:(1)样点间的短时相关性(2)相邻基音周期之间的长时相关性,e(n),x(n),短时预测滤波器,语音信号的短时预测模型,D为基音周期,长时预测系数bi的个数取1(q=r=0)或3(q=r=1)。D、bi 从语音信号中直接提取。语音信号通过长时预测,得出基音周期、增益(振幅大小)。,2.语音信号的长时预测,长时 线性预测,x(n-p),x(n-p+1),.x(n-1),x(n),长时预测滤波器,x(n),e(n),激励发生器,完整的语音信号的预测模型,3.感觉加权滤波器,由于掩蔽效应,在语音频谱中,能量较高的频段(共振峰处)的噪声相对于能量较低的频段的噪声不易被感觉。在度量原始语音和合成语音之间的误差时,在高能量段允许误差大,因此引入一个频域的感觉加权滤波器W(z)来衡量语音之间的误差。加权因子在01之间,控制共振峰区域的误差增加。,输入语音x(n),线性预测分析,感觉加权滤波器,后继处理,三、语音压缩系统的性能指标和评测方法,1.语音压缩系统的性能指标(1)编码速率(2)编码器的顽健性(3)编码器的时延(4)算法的复杂度和可扩展性,编码延时,一般地,编解码算法越复杂,延时越大,会明显感觉到通话对方反映“迟钝”,甚至造成正常通信困难。另外一方面,延时造成回声,传统的电话系统中,在2-4 线的转换处(混合线圈)因阻抗不匹配,导致接收者的收话音信号泄露到其发送路径上,返回给发送者,形成了回声。当延时小时,回声同房间交混,因此感觉不到;当延迟超过了25ms,能明显感觉到,从而严重影响通信。一般地,要求编解码延时不超过510ms。,A端的信号B端经混合线圈的回传信号,B端的信号A端经混合线圈的回传信号,A端,B端,2.语音压缩系统的性能指标和评测方法,语音质量是衡量语音编码算法优劣的关键性能之一。语音质量通常分为四类:(1)广播级(2)网络或电话级(3)通信级(4)合成级 语音质量有主观和客观两种评价方法。,评价指标:清晰度或可懂度、音质。前者是指语音是否容易听清楚;后者指语音听起来有多自然。(1)可懂度评价 DRT:Diagnostic Rhymer Test(2)音质评价:MOS:Mean Opinion Score 平均意见得分和DAM:Diagnostic Acceptability Measure 判断满意度得分。,主观评价方法,MOS得分为五级:优、良、可、差和坏。满分为5分,相当调频广播质量;4分以上是长途电话网标准;3.5分为通信标准;3.0分仍有较好的可懂度,保持自然度;2.5分只维持可懂度,是战术通信标准。,(1)波形失真度,用信噪比来度量(2)频谱失真测量(3)谱包络失真测量,客观评价方法,语音信号的波形编码,一、非均匀量化的PCM编码二、增量调制编码三、自适应增量调制编码四、自适应差分脉冲编码ADPCM五、自适应预测器六、自适应量化器七、ADPCM的总结,均匀量化时,无论大的输入信号还是小的输入信号一律采用相同的量化间隔,为了适应大的输入信号,同时又要满足精度要求,就需要增加样本的位数。=2V/L=2V/2R,但是对话音信号来说,大信号出现的机会并不多,增加的样本数就没有充分利用。因此采用非均匀量化。,一、非均匀量化的PCM编码,其基本思想是:大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔。在满足精度要求的情况下用较少的位数来表示。译码时,采用相同的规则。也可视为将信号进行非线性变换后再作均匀量化,如对信号进行对数压缩,微弱的信号被放大,强的信号被压缩。译码时,指数扩张。,非线性压缩,均匀量化,编码,xa(nT),解码,非线性扩张,x(nT),现在的非均匀量化中,一般采用两种压缩扩张非均匀量化方法。采样后信号幅度和量化数据之间有两种对应关系,一种称为u 律压扩(companding)算法,另一种称为A 律压扩算法。u 律压扩主要用于北美和日本等地区的电话通信中。A 律压扩主要用在欧洲和中国的地区的电话通信中。,u 律压扩,(1)输入xa(nT)的范围归一化为(11);(2)输出FA(x(n)的范围为(11);(3)A为压扩参数,它反映最大量化间隔和最小量化间隔的比值。A=87.56,A 律压扩,我国的PCM30/32路基群也采用A律13折线压缩特性。律15折线主要用于美国、加拿大和日本等国的PCM 24路基群中。CCITT建议G.711规定上述两种折线近似压缩律为国际标准,且在国际间数字系统相互连接时,要以A律为标准。因此这里重点介绍A律13折线。,FA(x),0,1,1,7/8,6/8,5/8,4/8,3/8,2/8,1/8,xa(nT),A律压扩编码,采用8位二进制编码:C7C6C5C4C3C2C1C0C7:表示信号的极性,称为极性码。0为正,1为负。,C3C2C1C0:表示每一段落的16个均匀划分的量化级,称为段内码。0000 0001 0010 0011 0100 0101 0110 0111 1000 1001 1010 1011 1100 1101 1110 1111,C6C5C4:表示段落序号,称为段落码。000 001 010 011 100 101 110 111,对输入动态范围为(-5v,+5v),用A律压扩编码,有:,1/128 0.0390625v,76543210,1 5v,1/2 2.5v,1/4 1.25v,1/8 0.625v,1/16 0.3125v,1/32 0.15625v,1/64 0.078125v,0 0v,输入信号为1.05v,则编码为:极性码:0 段落码:101段内码:=(1.25-0.625)/16=0.0390625(1.05-0.625)/=10.88取整数10,对应第10量化间隔,编码为1010最后完整的码字为:01011010,I=8kHz*8bit=64kbit/s 实际中,麦克风采集信号,量化为12/13/14/15/16位的输入信号,使用A律压扩编码,每个样本的量化位为8。,A律压扩编码的速率:,对输入信号范围(-1,1):A律压扩编码的最小量阶为 min=(1/128)/16=1/2048;在同样的输入信号范围,均匀量化的线性PCM以A律压扩编码的最小量阶为量阶进行量化,得到线性PCM需要12比特编码;=2V/L=2V/2R2/2R=1/2048 2R2*2048 R=12 A律压扩编码则只需要8个比特位。,A律压扩编码与线性PCM编码的对比,A律压扩编码与其他线性PCM编码的快速转换,时分复用Time Division Multiplexing,原理:把时间分割成小的时间片,每个时间片分为若干个通道(时隙),每个用户占用一个通道传输数据。,A2,A1,A3,原始信号,D2,D1,D3,数字化信号,复用后数据,时隙,1,2,3,4,D3,D2,D1,适用于数字信号传输,时间片,复用概念:利用不同时隙在同一信道上同时传输各路不同信号,且互不干扰,这就是时分复用(TDM)。,(a)第1路;(b)第2路;(c)第3路;(d)3路合成的波形,PCM 30/32路介绍,1.基本特性话路数目:30抽样频率:8kHz 压扩特性:A=87.6/13折线压扩律,编码位数为8每帧时隙数:32 总数码率:8328000=2048kb/s,2 时隙分配:在PCM 30/32路的制式中,抽样周期为1/8000=125s,它被称为一个帧周期,即125s为一帧。一帧内要时分复用32路,每路占用的时隙为125/32=3.9s,称为一个时隙。因此一帧有32个时隙,按顺序编号为TS0、TS1、TS31。时隙的使用分配为:TS1TS15,TS17 TS31为30个话路时隙;TS0为帧同步码,监视码时隙;TS16为信令(振铃、占线、摘机等各种标志信号)时隙。,E1-帧格式,125 ms=32 时隙=2.048 Mbps,帧同步,信令信道,30 路话音数据信道+2 路控制信道,话路比特的安排:每个话路时隙内要将样值编为8位二元码,每个码元占3.9 s/8=488ns,复接等级和速率系列,二、增量调制编码,1.增量调制的定义:增量调制(DM)也称为调制,是对输入样本s(k)和预测样本值se(k)的差值d(k)量化的最简单的一种情况,只有两种编码输出:0或1。一般情况下,如果差值大于0,则编码为“0”,若差值小于0,则编码为“1”。由于增量编码只须用1位对语音信号进行编码,所以对增量调制编码系统称为“1位系统”。,2.增量调制(DM)的结构,se(k)-,DM 发送端,s(k)+,量化器,预测器,I(k),sr(k),+,+,编码,d(k),s(k)输入样本se(k)预测样本值d(k)差值sr(k)重建样本值I(k)已量化的差值,3.增量调制(DM)的编码,预测器采取简单的一阶固定预测器。se(k)=asr(k-1)a为一个常数,一般情况下取,即a=1。用重建信号的前一时刻来预测当前时刻的预测样本值。se(k)=sr(k-1)sr(k)=se(k)+I(k)=sr(k-1)+I(k)d(k)=s(k)-se(k)I(k)=Qd(k)=,d(k),I(k),-,0,1,se(k)=sr(k-1)se(k)=sr(k-1)d(k)=s(k)-se(k)0 d(k)=s(k)-se(k)0I(k)=Qd(k)=+I(k)=Qd(k)=-sr(k)=se(k)+I(k)sr(k)=se(k)+I(k)码字为0 码字为1,s(k),sr(0),se(1),sr(1),se(2),0,0,sr(2),0,0,4.增量调制(DM)的译码,预测器,I(k),sr(k),+,+,译码,se(k),se(k)=sr(k-1)sr(k)=se(k)+I(k)I(k)=,5.量阶固定的增量调制(线性增量调制LDM)的缺点,(1)当输入信号变化快,用固定的量阶量化,可能造成量化波形跟不上实际波形,这种现象称为“斜率过载”。,(2)当输入信号波形较平坦时,编码为0和1的交替序列,类似随机噪声的特性,这种现象称为“颗粒噪声”。,1,0,1,0,1 0,三、自适应增量调制编码,采用自适应的方法使量阶的大小随输入信号的统计特性变化。一般都采用后向量化,由量化器输出来自适应地调整量阶。通过推导有:,I(k)=(k)=M(k-1),M是关于码字c(n)的函数,有如下表达式:M=P1 若c(n)=c(n-1)M=Q1 若c(n)c(n-1),P=2 若c(n)=c(n-1)Q=1/2 若c(n)c(n-1),(k)=M(k-1),另一种调整量阶方法是:如果码字中连续出现三个相同的值,量阶就加上一个大的增量,反之,就加一个小的增量。这种方法称为连续可变斜率增量调制(CVSD)。Motorola 公司的集成电路芯片,如MC3417/MC3517、MC3418/MC3518,采用了CVSD,前者检测3位,后者检测4位连续的编码。,在PCM中,每个波形样值都独立编码,与其他样值无关,这样,样值的整个幅值编码需要较多位数,比特率较高,造成数字化的信号带宽大大增加。,然而,大多数以奈奎斯特或更高速率抽样的信源信号在相邻抽样间表现出很强的相关性,有很大的冗余度。利用信源的这种相关性,一种比较简单的解决方法是对相邻样值的差值而不是样值本身进行编码。编码位数显著减少,信号带宽大大压缩。这种利用差值的PCM编码称为差分PCM(DPCM)。如果将样值之差仍用N位编码传送,则DPCM的量化信噪比显然优于PCM系统。,四、自适应差分脉冲编码ADPCM,对于长途传输系统,64kb/s的速率占用的频带太宽,通信的费用昂贵,因此人们寻找能够在更低的速率上获得高质量语音编码的方法,由此提出了G.721 32kb/s ADPCM Adaptive Difference Pulse Code Modulation 编码标准,利用语音信号样点的相关性和非平稳特点,使用了自适应预测和自适应量化。,1.ADPCM的基本思想,利用样本(采样值)与样本之间的冗余信息进行编码。对实际样本值与预测样本值之差进行量化编码,从而减少了每个样本信号的位数。ADPCM包括两部分的功能:APCM和DPCM。APCM主要改变量化间隔;DPCM主要得到预测样本和差值。,运用自适应的思想,用过去的样本值估算下一个输入样本的值,使实际样本值和预测值之间的差值总是最小。这部分功能称为DPCM。,2.DPCM,量化器,自适应预测器,逆量化器,s(k)+,se(k)-,d(k),I(k),sr(k),+dq(k),+,编码,DPCM发送端,s(k)输入样本se(k)预测样本值d(k)差值sr(k)重建样本值dq(k)重建差值I(k)已量化的差值,产生误差,产生误差,e1(n)和e2(n)是量化器和逆量化器的量化噪声。一般情况下,e1(n)和e2(n)的瞬时值不等,在忽略量化噪声的情况下,d(k)=I(k)-e1(n)dq(k)=I(k)-e2(n)dq(k)d(k)d(k)=s(k)-se(k)sr(k)=se(k)+dq(k)se(k)+d(k)=se(k)+s(k)-se(k)=s(k),逆量化器,自适应预测器,I(k),dq(k),sr(k),DPCM接收端,+,se(k)+,发送端和接收端采用相同的预测器,进行信号的重建。发送端和接收端中除了I(k)是数字信号,其余信号均为时间离散,幅度未量化的物理量。,sr(k)=se(k)+dq(k),差值量化系统的信噪比为:,要使SNR增大,可用增大SNRQ和 GP来达到。(1)SNRQ为量化器的信噪比,取决于量化器的性质,一般采用自适应量化和非均匀量化可使其增大。(2)GP为差值结构产生的增益,对于给定的语音信号,s2是固定的,只有减小d2,DPCM采用自适应预测的思想使d2 最小的方法增大SNR。,3.APCM,利用自适应的思想改变量化间隔(量阶)的大小,即用小的量化间隔去编码小的差值,使用大的的量化间隔去编码大的差值,这部分功能称为APCM。,量化器,量阶自适应,d(k),I(k),量阶(k),APCM发送端,逆量化器,量阶自适应,I(k),dq(k),(k),APCM接收端,4.ADPCM的简单框图,ADPCM编码结合了APCM和DPCM两者的特性,量化器和预测器均是自适应。将I(k),已量化的样值编码为4个比特,编码速率为32kb/s。,s(k)+,d(k),量化器,自适应预测器,逆量化器,se(k)-,I(k),sr(k),+dq(k),+,编码,发送端,量阶自适应,(k),ADPCM接收端,逆量化器,自适应预测器,I(k),dq(k),sr(k),+,+se(k),量阶自适应,发送端输入样本:s(k)=se(k)+d(k)接收端输出重建样本值:sr(k)=se(k)+dq(k),ADPCM的总结,1.编码方式,当d(k)的符号为正,则编码的码字最高位b3为0;当d(k)的符号为负,则编码的码字最高位b3为1。码字的b2b1b0由表中码字决定。例如:一个负的d(k)值,归一化后落在3.16+,则编码为1111,归一化量化输出为3.34;若一个正的d(k)值,归一化后落在3.16,+,则编码为0111,归一化量化输出为3.34。,ADPCM发送端,2.ADPCM发送端工作过程:,输入样本s(k),与预测样本值se(k)相减后产生差值d(k),对d(k)进行自适应量化,对量化器输出I(k)进行4个比特位的编码。(1)码字送给接收端的解码器;(2)对其进行本地解码,进行逆量化,得到差值信号dq(k),与预测信号se(k)相加得到本地重建信号sr(k),利用sr(k)、dq(k),对下一时刻输入的s(k1)进行自适应预测,得到se(k1)。自适应预测器采用六阶零点和二阶极点。,逆量化器,I(k),dq(k),sr(k),+,se(k)+,+,+,量阶自适应,(k),ADPCM接收端,3.ADPCM接收端工作过程:,将接收的码字进行解码,进行逆量化,得到重建差值信号dq(k),与预测信号se(k)相加得到重建信号sr(k),利用sr(k)、dq(k)进行自适应预测,得到se(k1)。自适应预测器和自适应量化器采用发送端的同样的对应结构和算法。,根据码字,查表得到编码所对应的In(k),一般地,In(k)dlqn(k)(归一化重建差值)利用:dlqn(k)=In(k)=log2|dq(k)|-log2(k)log2|dq(k)|In(k)+log2(k)log2|dq(k)|的反对数变换就是dq(k),其符号由d(k)与一致。由接收的码字决定。,逆量化过程:,子带自适应差分脉冲编码调制,语音信号的参数编码,一、参数编码的特点二、LPC-10编码器,低速率语音编码的应用:,蜂窝移动电台网;卫星通讯;短波保密通信;ISDN(Integrated Service Digital Network);“语音邮件”、“语音存储”等新型通信业务。,一、参数编码的特点,由于参数编码是针对语音信号的特征参数,所以与波形编码不同,只是适用于语音信号。常用的编码器为线性预测编码器。,时间(样点),x(n),x(n-1),x(n-p),p个点,线性预测:,LPC 语音合成图,清音/浊音示意图:,a1,语音输出x(n),线性预测分析基音频率清/浊音判别,参数合成,a2,ap,基音频率,输入语音x(n),清/浊音标志,G,二、LPC-10编码器,美国确定LPC-10作为2.4kb/s速率上的推荐编码形式,用于第三代保密电话中。在其发送端,原始语音信号采用8kHz采样,然后每180个采样值分为一帧(22.5ms),提取语音特征参数并加以编码传送。每帧总共编码为54bits,每秒传输44.4帧,因此总传输速率为2.4kb/s。,s(n),采样(8kHz),基音检测(AMDF),清/浊音检测,预加重,线性预测分析,反射系数,增益G,参数编码,c(n),LPC-10编码器发送端,预加重:提高语音谱中的高频共振峰,使得语音的频谱较为平滑。,短时平均幅度差函数(AMDF),c(n),解码,清/浊音开关,反射系数转换为预测系数,基音,增益G,合成器,去加重,噪声产生,s(n),LPC-10编码器接收端,语音信号的混合编码,一、混合编码的特点二、CELP的编码原理三、RPE-LPT 编码原理,一、混合编码的特点,混合编码同参数编码一样,依据语音的线性预测模型,使用了与波形编码相匹配的技术,达到低速率上的高质量的语音编码。目前以CELP为基础的多种算法已经成为国际标准。,二、CELP(Code Excited Linear Prediction)编码原理,采用矢量量化技术,对激励信号进行训练得到一个码本,每帧语音信号从码本中选出一个在感觉加权误差最小意义上的最佳码矢量作为激励源。,Hl(z),e(n),x(n),CELP是近10年来最成功的语音编码算法。CELP语音编码算法用线性预测提取声道参数,用一个包含许多典型的激励矢量的码本作为激励参数,每次编码时都在这个码本中搜索一个最佳的激励矢量,这个激励矢量的编码值就是这个序列的码本中的序号。CELP已经被许多语音编码标准所采用,美国联邦标准FS1016就是采用CELP的编码方法,主要用于高质量的窄带语音保密通信。,其基本原理是用一个自适应码本中的码字来逼近语音的长时周期性结构,用一个固定随机码本中的码字来逼近语音经过短时和长时预测后的余量信号,从两个码本中搜索出来的最佳矢量乘以各自的最佳增益后相加,其和即为CELP激励信号源。,将激励信号输入P阶LP综合滤波器1/A(Z),得到合成语音信号,它与原始语音信号s(n)的误差经过感觉加权滤波器W(z),得到感觉加权误差es(n)。CELP就是利用es(n)的最小平方预测误差作为搜索最佳码矢量及其增益的度量准则。由于这种算法能最好地逼近原始语音,语音质量较好,所以它优于脉冲激励线性预测。,CELP 语音编码示意图,s(n),es(n),随机码本,W(z),误差最小化,原始语音s(n),+,-,自适应码本,线性预测滤波器,g1,ga,+,+,感觉加权滤波器,感觉加权滤波器,由于掩蔽效应,在语音频谱中,能量较高的频段(共振峰处)的噪声相对于能量较低的频段的噪声不易被感觉。在度量原始语音和合成语音之间的误差时,在高能量段允许误差大,因此引入一个频域的感觉加权滤波器W(z)来衡量语音之间的误差。加权因子在01之间,控制共振峰区域的误差增加。,CELP有参数编码的特征,另一方面在感觉加权均方误差最小时,实际上是做了波形的最佳匹配,有波形编码的特征,所以CELP又被称为混合编码。,CELP 语音编码的特点,以码本激励线性预测(CELP)原理为基础的G.729、G.723()话音压缩编码技术,是IP电话技术的一个重要组成部分。以G.729为例,它可将经过采样的64kb/s话音以几乎不失真的质量压缩至8kb/s。,CELP 语音编码的应用,CELP,原始语音,Comparison,ITU-T G.729 8kb/s CSACELP简介,G.729是由美国、法国、日本和加拿大的几家著名国际电信实体联合开发的。它需要符合一些严格的要求,比如在良好的信道条件下要达到长话质量,在有随机比特误码、发生帧丢失和多次转接等情况下要有很好的稳健性等。这种语音压缩算法可以应用在很广泛的领域中,包括I电话、无线通信、数字卫星系统和数字专用线路。,G.729算法采用“共轭结构代数码本激励线性预测编码方案”(CS-ACELP)算法。这种算法综合了波形编码和参数编码的优点,以自适应预测编码技术为基础,采用了矢量量化、合成分析和感觉加权等技术。,编码器10ms长的语音帧进行处理,每帧分为两个子帧。输入语音首先要在预处理模块中经过高通滤波和幅度压缩变换,以去除低频干扰及防止在后面运算中出现溢出。每帧进行一次线性预测(LP)分析,并将LPC参数转换到线谱,对(LSP)形式进行预测式二阶段矢量量化(VQ)。然后使用分析合成法,按照合成信号和原始信号间感觉加权失真最小的准则来提取激励参数。,激励参数(包括固定码本和自适应码本参数)要每子帧(5ms)计算一次。每帧要利用感觉加权语音进行一次整数基值基音延时估计,然后进行的分数值基音分析,确定自适应码本的延时和增益,下面再进行固定码本的搜索。固定码本是使用交织单脉冲排列设计的代数码本。在搜索时使用迭代式深度优先树型搜索算法。这种算法的运算量比较小,并且具有固定的运算复杂度,比较有利于使用硬件实现。自适应码本和固定码本的增益使用预测式二阶段共轭结构码本进行矢量量化。,三、GSM中的编码技术RPE-LTP(global system for mobile communication)(Regular Pulse Excited-Long Term Prediction),RPE-LTP是通用分组无线业务所采用的语音编码方案。,W(z),误差最小化,+,-,线性预测滤波器,感觉加权滤波器,原始语音s(n),激励发生器,s(n),es(n),规则脉冲序列,RPE-LTP的原理框图发送端,线性预测滤波器,激励发生器,规则脉冲序列,合成语音s(n),RPE-LTP的原理框图接收端,人们对激励信号的研究表明,激励信号中的小信号对合成语音的质量影响不大。如果对激励信号中低于某一个阈值的所有信号皆为零,这样,适当调整阈值,可以使得激励信号中90%的样点为零,用余下的幅度较大的信号作为声道滤波器的激励信号,其合成语音并未产生明显的畸变。这样提供了一种新的编码方法。,RPE-LTP的原理,规定激励信号序列在一定的时间间隔中只能出现数目有限的非零脉冲,然后每个非零脉冲的位置和幅度用均方误差最小的准则进行优化,用优化后的序列作为激励信号,这样既压缩了编码速率,又能保证合成质量。RPE-LTP就是这类编码方法中的一种。它用一组间距一定的非零的规则脉冲代替激励信号。由于各个非零脉冲的相互位置固定,所以计算量和编码速率都较低。,将一帧语音的激励信号分成若干子帧,用L表示激励子帧的长度,在8kHz的采样频率下,L的典型值为40个样点,相当于5ms,在一个激励子帧内,都采用相同的间隔(间隔为P个样点)。按照这些脉冲串第一个非零脉冲出现的位置分为K中不同相位的后选激励信号,记为vk(n),k=0,1,.,K;n=0,1,.,L-1。在vk(n)中有Q个等间距的非零脉冲,其余样点为零,则非零脉冲的间距P=L/Q。,2.规则脉冲序列的产生,v0(n)(零相位),v1(n)(1相位),v2(n)(2相位),v3(n)(3相位),L=40,Q=13,P=3,K=4,GSM编码方案中的帧长为20ms,每帧编码260bits,故总的编码速率为13kb/s。其中子帧个数为4个,每个子帧的样本个数为L=40,子帧中非零个数为13,则需要13*3=39bits,一帧内共需要4*39=156bits,其余260-156=104bits,用来分配给预测系数(短时和长时)和四种脉冲激励的相位(8bits)等。,3、GSM编码速率,THANKS,