语音信号处理与现代语音通信.ppt

资源ID：6038556 资源大小：2.63MB 全文页数：142页
资源格式： PPT 下载积分：15金币

快捷下载

会员登录下载

三方登录下载：

下载资源需要15金币

邮箱/手机：
温馨提示：	用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）
支付方式：
验证码：	换一换

加入VIP免费专享

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

语音信号处理与现代语音通信.ppt

语音信号处理与现代语音通信杨震博士教授、博导2003.8,授课内容,【1】绪论【2】声音信号的分类与数字化【3】语音的发声模型和人的听觉特性【4】语音信号的时域和频域分析方法【5】语音信号的线性预测编码(LPC)技术【6】演示实验【7】各种语音处理和通信系统的质量评价体系【8】语音信号的数字压缩标准【9】语音波形编码技术-part one(ADPCM系统)【10】语音波形编码技术-part two(VQ、SBC、APC系统)【11】语音参数及混合编码技术-part one,授课内容,【12】语音参数及混合编码技术-part two 移动通信GSM系统中的语音压缩编码技术RPE/LTP 移动通信CDMA系统和多媒体通信系统中的语音编码技术G.723.1 MP-MLQ/ACELP和G.729 CS-ACELP【13】语音信号VBR编码技术【14】人机通信part one语音识别原理【15】人机通信part two语音合成原理【16】实用系统中的语音增强与消噪技术【17】语音压缩编码、消噪、识别与合成演示实验【18】语音在IP和ATM网络中的通信技术part one【19】语音在IP和ATM网络中的通信技术part two【20】语音技术研究热点,参考文献,中文1、王柄锡“语音编码”，西安电子科技大学初步社，20022、杨行峻,迟惠生“语音信号数字处理”电子工业出版社，19953、易克初，田斌，付强“语音信号处理”，国防工业出版社，20004、胡航“语音信号处理”,哈尔滨工业大学出版社,20005、拉宾纳,谢佛“语音信号数字处理”科学出版社，19786、姚天任“数字语音处理”华中理工大学出版社，19927、谢依兰“语音信号数字处理技术”学苑出版社，19938、朱民雄“计算机语音技术”北京航空航天大学出版社，19929、胡光锐“语音处理与识别”上海科学技术出版社，199410、J.D.Markar,A.H.Gray“语音信号线性预测”中国铁道出版社，198711、陈尚勤等“语言信号数字处理”电子科技大学出版社，199112、陈永彬,王仁华“语言信号数字处理”中国科技大学出版社，1990,参考文献,外文1、R.P.Ramachandran,R.Mammane“Modern Methods of Speech Processing”,Kluwer Academic Publishers,19952、Gordon E.Pelton“Voice Processing”Mc-Graw-Hill,Inc.,19933、D.P.Morgen,C.L.Scofield“Neural Networks and Speech Processing”Kluwer Academic Publishers,19914、Claudio Becchetti&Lucio Prina Ricotti“Speech RecognitionTheory and C+Implementation”5、M.R.Schroeder“Computer SpeechRecognition,Compression,Synthesis”,Springer,19996、Robert D.Rodman“Computer Speech Technology”,Artech House,INC,19997、Joel Mambretti,Andrew Schmidt“Next Generation Internet:Creating Advanced Networks and Services”,Wiley,19998、Renato De Mori“Spoken Dialogues with Computers”,Academic Press,1998,参考文献,外文9、Frederick Jelinek“statistical methods for speech recognition”,MIT Press,1997 10、Randy Goldberg,Lance Riek“A Practical Handbook of Speech Coders”,CRC Press,2000 11、John R.Deller,JR.John G.Proakis,John H.L.Hansen“Discrete Time Processing of Speech Signals”,199312、Proceedings of ICASSP(声学、语音、信号处理国际会议录)13、IEEE Transactions on Speech and Audio Processing 14、Rick Beasley,Mike Farley,John Oreilly,Leon Squire“Voice Application Development with VoiceXML”SAMS Publishing,USA,2001,绪论,当今世界正处于工业时代向信息时代的飞速转变时刻，在这个过程中，计算机技术、通信技术和电子信息技术的高速发展，是推动人类社会向信息社会不断进步的基础。因特网络的普及、电子购物的兴起、多媒体通信及其应用的蓬勃发展，无一不是人类社会走向信息社会的标志信息的获取、处理、传输和存储，是信息社会技术发展的一个主要任务人类作为社会的主人，一直是接收和发送信息的主体语音,始终是人类互相交流、互相通信的最主要、最方便、最快捷的信息载体,语音信号处理是一门涉及面很广的交叉学科研究内容包括 1、语音特性分析和建模 2、语音数字压缩编码 3、语音识别 4、语音合成 5、语音增强 6、现代语音通信,第一章声音信号的分类与数字化,1.1 声音信号的分类语音自然语音窄带语音,又叫电话频带语音宽带语音非语声音频信号广播电视质量声音 CD质量声音高保真HiFi(High Fidelity)和环绕(Surrounded Effect)声音,5.1声道音响位置,第一章声音信号的分类与数字化,1.2 声音信号的特征参数1.2.1声音的传播速度、频率、周期和波长1.2.2声压、声功率、声强和声级 1.2.3声音三要素,音高与频率间关系,Fletcher-Munson 人耳听觉等响度级曲线,第一章声音信号的分类与数字化,1.3 声音信号的数字化常见采样频率电话通信领域的8千赫兹和16千赫兹。计算机声音处理系统中的11.025千赫兹,22.05千赫兹和44.1千赫兹。广播,影视,娱乐领域的32千赫兹,44.1千赫兹和48千赫兹。,存储一分钟声音信号所需要的存储容量,第一章声音信号的分类与数字化,1.4 声音信号的数字存储格式WAV：数字音频波形格式，微软公司开发VOC和DAT：多用于声霸卡等一些声音采集程序的DOS软件环境，新加坡创新公司开发AU：工作站的UNIX环境下使用MIDI：数字乐器合成器，多用于合成音乐目前我们遇到的多数为.wav和.mid文件,第一章声音信号的分类与数字化,微软公司与IBM公司共同制定的WAV格式文件的第一个四字节是RIFF，它用来指明文件属于多媒体资源交换文件RIFF(Resource Interactive File Format)的一种.RIFF文件的基本结构是块，第一个块为WAVE类型，指定文件为波形数字音频文件，第二个块为fmt块，定义文件中其它数据的格式。,第一章声音信号的分类与数字化,typedef struct_WaveFmtWORD wFormatTag;/编码方式的标记；PCM时为1WORD nChnnels;/信道数；单声道等于0，立体声等于2WORD nSamplesPerSec;/每秒采样数WORD nAvgBytesPerSec;/每秒平均字节数WORD nBlockAlign;/数据块的偏移量fmt,第二章语音信号的产生、特征与人耳的听觉特性,2.1 语音信号的产生,人类发音器官示意图,第二章语音信号的产生、特征与人耳的听觉特性,发音器官：1)肺和气管 2)咽喉3)声道(包括口腔、鼻腔等)4)嘴唇,男声发音“我的语音”的时域波形和语谱图,第二章语音信号的产生、特征与人耳的听觉特性,第二章语音信号的产生、特征与人耳的听觉特性,2.2 语音信号的分类主要的两大类浊音(voiced speech)，又称为有声语音基音（pitch）清音(unvoiced speech)，又称为无声语音,第二章语音信号的产生、特征与人耳的听觉特性,2.3 语音信号产生的模型语音生成模型常用的有：声管模型：波动方程描述LPC模型：数学模型描述共振峰模型：谐振腔描述,语音信号产生的简化数字模型LPC模型,级联型共振峰模型,并联型共振峰模型,混合型共振峰模型,第二章语音信号的产生、特征与人耳的听觉特性,2.4 临界频带和Bark谱人耳的掩蔽(mask)作用指的是耳朵对一个声音的听觉感受，受到另一个声音影响的现象，Fletcher和Munson 1937年发现，一个音调(tone)可被一个以音调频率为中心频率的宽带噪声掩盖而听不见。并且，如果该宽带噪声能量不变而改变其带宽的话，这种掩盖现象不受噪声带宽变化的影响，除非噪声带宽超过一个临界值，这个临界值即称为临界频带。换言之，人耳对一个临界频带里的音不易分清。,第二章语音信号的产生、特征与人耳的听觉特性,临界频带这个参数提出的意义是可将人耳当作一个并联的滤波器组，各个滤波器有不同的带宽，分别对听觉作出不同的贡献临界频带的单位一般用Bark来表示以纪念科学家Barkhauseu。1 Bark用来指明一个临界频带的频率宽度若记Bark域的频率变量为b,赫兹(Hertz)域频率变量为f，则有：,第二章语音信号的产生、特征与人耳的听觉特性,2.5 人耳的各种听觉效应掩蔽效应,同时掩蔽（频率掩蔽）：纯音的同时掩蔽现象,第二章语音信号的产生、特征与人耳的听觉特性,非同时掩蔽（时间掩蔽）：纯音的非同时掩蔽现象,第二章语音信号的产生、特征与人耳的听觉特性,2.5 人耳的各种听觉效应哈斯（Hass）效应双耳效应鸡尾酒会效应,第三章语音信号的分析方法,3.1语音信号的统计特性一、概率密度函数：近似Gamma分布，可用 Laplace 或 Gauss分布近似二、零均三、非平稳时变信号；短时平稳：1030ms,第三章语音信号的分析方法,3.2语音信号的短时分析方法短时能量短时平均幅度短时平均过零率短时自相关函数短时傅立叶变换,第三章语音信号的分析方法,一、短时能量En和短时平均幅度浊音：大清音：较小静默：最小,第三章语音信号的分析方法,二、短时过零率Zn 浊音：较小清音：大静默：最小（如果没有背景噪声），较大（如果存在背景噪声）一般的经验数据是，对于清音语音，在采样频率为8千赫兹条件下，其过零率为每10ms内Zn49，而对于浊音语音，其过零率为每10ms内Zn14,第三章语音信号的分析方法,三、短时自相关函数Rn 浊音：呈现准周期性、逐渐衰减求基音周期清音：Rn（0）较大，衰减很快静默：Rn（0）小，衰减很快,第三章语音信号的分析方法,四、短时傅立叶变换分析1、反映了短时间内激励和声道的频谱特性，声道特性主要由频谱的包络特性来描述2、浊音：频谱能量集中在低频率区，衰减较快，呈现锯齿状清音：频谱能量分布在整个频率段内，无明显衰减静默：频谱能量很小3、基于可以求基音频率,浊音谱清音谱,第三章语音信号的分析方法,3.3语音信号的分类和词的分割方法某帧分类：浊音、清音、静默分类技术：一、基于能量或过零率硬判决二、基于自相关函数或傅氏变换硬判决三、基于模式分类技术,第三章语音信号的分析方法,用于语音信号帧属性划分的参数选择可用来判决信号帧特性的参数有不少，比如基于各帧信号的能量、过零率、低通滤波后语音能量、高/低通能量比、一阶LPC系数、一阶LPC反射系数、每帧预测误差能量、位于基音周期处的自相关函数比等。文献表明，仅根据单个参数是很难准确判断输入信号特征的，即使是在相对简单的二元语音分类如VAD中，往往也要根据多个参数进行分类，如G.729B标准采用了四种参数。,第三章语音信号的分析方法,对电话语音进行的统计表明，每个话者通话时各种语音信号帧的大致比例(统计帧数3000，帧长20毫秒)为：背景声：55.7%清音:12.5%浊音:32.8%,第三章语音信号的分析方法,词的分割技术：端点检测。多数基于短时能量和过零率，多门限判决能量和过零率检测法双门限法。这种方法也常称为显式法，即端点的确定与以后的判决无关。具体的说，首先用短时能量做第一次判断，然后在此基础上用短时平均过零率做第二次判断。,第四章语音信号的LPC分析方法,信号的预测问题可表述如下:给定P个观测点寻找某个函数：使估计误差序列之均方值最小化若是线性函数,则为众所周知的LP问题：,第四章语音信号的LPC分析方法,基音LP预测分析（长项预测：Long-term）T 是基音周期,M一般取1或2,第四章语音信号的LPC分析方法,4.1 LPC技术是语音信号处理中最成功、最成熟的技术。语音编码国际标准中广泛使用：G.723.1 MP-MLQ/ACELPG.728 LD-CELP(Low Delay CELP)G.729 CS-ACELP(Conjugate Structure-Algebraic CELP)GSM RPE/LTP(Regular Pulse Excited/Long Term Prediction)IS-54 VSELP(Vector Sum Excited Linear Prediction)IS-95 QCELP(Qualcomm CELP)FS(Federal Standards)FS1015 LPC10、FS1016 CELP Inmarsat APC(Adaptive Prediction Coding)MPLPC(Multi-Pulse Linear Prediction Coding)IMBE(Improved Multi-Band Excite),第四章语音信号的LPC分析方法,4.2 语音信号线性预测分析的基本原理1、基于简化语音发声数学模型需要分析提取声道和激励参数,第四章语音信号的LPC分析方法,2、声道用时变数字滤波器代替语音抽样s(n)和激励信号e(n)之间的关系可以用下列的差分方程来表示：A(Z)称作逆滤波器，传输函数为：,第四章语音信号的LPC分析方法,问题：3、如何求解时变滤波器的参数和模型激励参数（1）激励参数主要是清/浊音判断、浊音中基音周期的求解等（2）求取时变滤波器的参数即P 和是关键（3）主要方法自相关法和协方差法,第四章语音信号的LPC分析方法,4.3 语音信号线性预测分析的自相关法和协方差法第n时刻的预测序列：第n时刻的预测误差序列：方程求解出的，即为声道（时变数字滤波器）特性中的参数,第四章语音信号的LPC分析方法,上式的解为：定义相关矩阵,第四章语音信号的LPC分析方法,自相关法：设在区间外等于零,信号范围 0，N-1,第四章语音信号的LPC分析方法,方程解法：迭代运算Levinson、Durbin、Burg、Lattice、Schur等算法,第四章语音信号的LPC分析方法,协方差法：设在区间外等于零,信号范围 P，N-1 方程解法：基于矩阵的Cholesky分解（LU分解）,第四章语音信号的LPC分析方法,4.3.3 时变数字滤波器的增益准则：语音的能量应该和线性预测模型产生的合成语音能量相等,第四章语音信号的LPC分析方法,4.4语音信号线性预测分析各种算法特性的比较,第四章语音信号的LPC分析方法,4.5 语音信号线性预测误差信号1、针对不同语音激励时的形状2、基于求解语音的基音周期3、简单逆滤波器跟踪法SIFT4.6 基于ANN的非线性语音预测技术,第四章语音信号的LPC分析方法,4.7 语音各种参数的特性及其相互转换1、反射系数与2、对数面积比与反射系数3、系统函数H（Z）的极点与4、线谱对LSP系数与5、LPC倒谱系数与Mel倒谱系数,第四章语音信号的LPC分析方法,倒谱和同态信号处理倒谱（对LPC模型的Z变换H（Z）求倒谱）,第四章语音信号的LPC分析方法,MEL倒谱,第五章语音处理和通信系统的质量评价体系,5.1语音处理系统质量评价语音处理系统主要指语音数字压缩编解码系统、语音识别与合成系统、语音增强系统等。5.1.1语音数字压缩编解码系统质量评价对编解码器性能的要求主要包含下列方面:,第五章语音处理和通信系统的质量评价体系,恢复声音的质量即经过编码系统再经过收方解码系统恢复出的声音质量，主要有SNR和MOS两种单项感觉指标还有如可懂度、清晰度、自然度指标等比特率指的是编码器对输入的声音压缩后,每秒送出的二进制码元个数,第五章语音处理和通信系统的质量评价体系,处理的复杂度指实现编译码算法的困难程度。处理时延是完成编译码算法所需的时间。容错能力或鲁棒性(Robustness)指编译码系统抗误差,线路噪声等各种干扰的能力。,第五章语音处理和通信系统的质量评价体系,5.1.2语音识别与合成系统质量评价衡量语音识别系统的质量评价主要是正确识别率处理的复杂度处理时延衡量语音合成系统的质量评价主要是可懂度清晰度自然度,第五章语音处理和通信系统的质量评价体系,5.1.3语音增强系统质量评价衡量语音增强系统的质量评价主要是恢复声音的质量,这与语音编码相似5.2语音通信系统质量评价接收端恢复语音的质量客观质量,即信噪比SNR 主观质量,常用的是 MOS分数,还加上可懂度、清晰度和自然度指标。传输速率或占用信道带宽误码率或分组丢失率传输时延和变化,第六章声音信号的数字压缩标准与技术,6.1 声音信号的压缩标准,位数或,位数,16,16,第六章声音信号的数字压缩标准与技术,第六章声音信号的数字压缩标准与技术,6.2.常用语音信号数字压缩标准:6.2.1 国际标准。1972年制定的G.711PCM标准1984年制定的G.721 ADPCM标准 1990年合并归入G.726。1996年制定的G.723.1 MP-MLQ/ACELP标准1992年制定的G.728 LD-CELP(Low Delay CELP)标准 1996年制定的G.729 CS-ACELP(Conjugate Structure-Algebraic CELP)标准,第六章声音信号的数字压缩标准与技术,1988年制定的G.722SB-ADPCM标准(Sub Band ADPCM)1990年制定的G.727Embeded-ADPCM(又称GEMB)标准 6.2.2 地区和国家标准欧洲GSM移动通信标准,RPE/LTP(Regular Pulse Excited/Long Term Prediction),1987年 IS(Interim Standard)北美移动通信标准 IS-54 标准VSELP(Vector Sum Excited Linear Prediction)，1990年 IS-95 标准QCELP(Qualcomm CELP)，1993年,第六章声音信号的数字压缩标准与技术,FS(Federal Standards)美国联邦标准 FS1015：LPC10 FS1016：CELPInmarsat国际海事卫星组织标准 APC(Adaptive Prediction Coding)MPLPC(Multi-Pulse Linear Prediction Coding)IMBE(Improved Multi-Band Excite)DECT,CT2,CT3,PHP英国,瑞典和日本无绳电话标准 G.726ADPCM CVSDM(Continously Variable Slope Differential Modulation),第六章声音信号的数字压缩标准与技术,6.3常用音频信号数字压缩标准:6.3.1国际标准。红皮书CD激光唱片编码标准，1980年，PCM 黄皮书CD-ROM 盘片标准，1985年 MPEG标准 1992年11月颁布的MPEG1,1994年11月颁布的MPEG2，1999年1月颁布的MPEG4,1997年4月颁布的MPEG27 AAC(Advanced Audio Coding),第六章声音信号的数字压缩标准与技术,6.3.2地区和国家标准 NICAM(Nearly Instantaneous Companding Audio Multiplex)标准 MUSICAM标准 DANCE(DPCM Audio Near-Instantaneous Compressing and Expanding)标准 Dolby AC3 MPC1和MPC2标准 ITU下属的研究小组SG16,目前就在从事4kb/s左右(代号G/XV)语音压缩编码标准制定工作,第六章声音信号的数字压缩标准与技术,6.4 语音信号的压缩技术按照编码系统码率大小,输入信号频带宽度,所采用编码技术,有失真和无失真等进行分类有失真编码：波形编码，参数编码、混合编码6.4.1 波形编码其含义即为编码系统直接对语音时域或频域波形样值进行编码6.4.1.1 PCM编码法6.4.1.2 ADPCM编码法,第六章声音信号的数字压缩标准与技术,基于后向预测的ADPCM语音编码系统,第六章声音信号的数字压缩标准与技术,ADPCM:自适应预测自适应量化,第六章声音信号的数字压缩标准与技术,6.4.1.3 子带编码 SBC(Subband Coding)和自适应变换编码 ATC(Adaptive Transformation Coding)原理：设想将输入信号用某种方法划分成不同频段上的子信号,然后区别对待,根据各子信号的特性,分别编码问题：如何将输入信号划分成不同频带的子信号,并如何能再将子信号无失真地合成出原始语音信号?各子频带如何合理分配码字?根据分配的码字,各子频带采用何种方法进行压缩编码?,第六章声音信号的数字压缩标准与技术,6.4.1.4 矢量量化编码VQ(Vector Quantization)独立地对一个个样值量化编码的方式叫标量量化SQ(Scale Quantization)，而将一个个样值看作一个整体，作为一个矢量，进行整体量化编码称为VQ。,第六章声音信号的数字压缩标准与技术,VQ编码的关键一方面在于矢量码本的构造,其次在于采用何种编码量化准则 1、LBG算法2、MSE准则和IS(板昌斋田)准则,第六章声音信号的数字压缩标准与技术,改进VQ算法之一：二进树VQ,第六章声音信号的数字压缩标准与技术,6.4.2 参数编码基于模型，从输入语音中通过分析提取出相应的模型参数，用对模型参数的编码，代替对原语音波形进行编码和传输，并在接收端根据这些参数和语音发声模型，重新合成出原始语音的系统，称为参数编码系统。通常也称为简单声码器Vocoder(Voice Coder)。整个语音生成模型的参数就有:1(声道模型阶数P)+P(P 个模型系数)+1(调节音量的增益)+2(激励参数)=P+4 个参数参数编码主要追求的是与原始语音具有相同或接近的听觉效果,而不是波形的一致。,第六章声音信号的数字压缩标准与技术,6.4.3 混合编码混合编码是波形编码和参数编码两种系统优点的结合:既利用了语音生成模型,通过对模型中的参数(主要是声道参数)进行编码,减少了波形编码中被编码对象的动态范围或数目;又使编码的过程,产生接近原始语音波形的合成语音,以保留说话人的各种自然特征,提高了合成语音质量。目前得到广泛研究和应用的CELP编码法,以及基于它的各种改进算法,是混合编码法的典型代表。,第六章声音信号的数字压缩标准与技术,分析/合成编码系统原理,第六章声音信号的数字压缩标准与技术,一、多脉冲线性预测编码MPLPC(Multi-Pulse Linear Prediction Coding)；B.S.Atal 1982年提出,第六章声音信号的数字压缩标准与技术,感觉加权滤波器原理基于人耳的听觉有一个特性:在同一频率点上一个较强的信号对其频率附近较弱的信号有屏蔽作用(屏蔽效应)。根据这一点,编码时可以允许在语音频谱分量很强的地方,产生较大的量化误差而不对听觉产生明显影响。所以在编码过程中,寻找好的激励信号源时,先对目标函数进行感觉加权修正。误差最小化一般是采用的最小平方误差MSE准则,这个准则使误差信号的谱趋于平坦化。因此,如果直接将原始语音与合成语音的误差作为目标函数,那么形成的误差将在整个语音频带内趋于平均分布。如果对误差目标函数进行预先畸变,再用MSE准则使之最小化,那么只是使误差在畸变后的信号频带中均匀分布,而合成语音中真正的误差谱,是均匀分布误差谱经反畸变的结果,这样就可以人为地改变误差函数在频域的分布了。,第六章声音信号的数字压缩标准与技术,多脉冲预测编码系统中需要编码传输的参数主要包括 1、LPC参数（供接收方构造合成滤波器）2、多脉冲激励的幅度和位置通常LPC参数采用VQ，多脉冲激励的幅度和位置采用SQ。多脉冲预测编码在9.6kbit/s左右码率时有较好的合成语音质量。二、规则脉冲激励-长项预测压缩编码 RPE/LTP(Regular-Pulse Excitation/Long Term Prediction)这是欧州数字蜂窝移动通信GSM(Group Special Mobile)标准中采用的语音压缩编码算法,它的标准码率为13kbit/s,也叫移动通信的全速率编码标准。,第六章声音信号的数字压缩标准与技术,RPE/LTP语音压缩编码与前面谈到的MPLPC,都属于A/S编码方式 RPE/LTP与MPLPC的不同之处：1、首先在于它的激励脉冲不象后者那样,位置任意放置。而是各个非零激励脉冲,呈现等间隔的规则排列。2、RPE/LTP编码算法与MPLPC编码第二个不同点,正如该方案的名称所示,在于增加了基音预测系统以及相应的基音合成系统。GSM标准中带基音合成滤波器的语音生成模型,第六章声音信号的数字压缩标准与技术,GSM的编码主要有下列五个步骤:1、预处理。包括采样,去直流,高频提升。2、短项线性预测分析。对20毫秒一帧的信号采用Schur递代算法计算八阶LPC系数,并转换成对数面积比参数,进行编码。3、进行短时分析滤波,即求STP系统的预测误差。4、对上一步的误差信号进行基音预测,估计出基音合成系统中的T(基音周期)和（幅度）,并量化编码。5、规则脉冲激励序列编码。,第六章声音信号的数字压缩标准与技术,三、码激励线性预测CELP(Code Excitation Linear Prediction)CELP编码系统是中低速率编码领域最成功的方案,它是1985年由M.R.Schroeder 和B.S.Atal 提出的。,第六章声音信号的数字压缩标准与技术,CELP与多脉冲编码相比,只是激励部分不同。其实,如果将码本中的每个码矢量,看成一个个脉冲组成的激励,那也就与前者无太大区别了。当然,CELP系统中的每个码矢量,是一个整体,并且已经是量化了的结果(通过构造码本时进行训练完成的),所以CELP系统的激励编码时,不是一个个脉冲分别求解,而是一串激励脉冲一起求,求得的每个激励脉冲,位置和幅度也不必进行量化(已完成),只需将整个选中的脉冲串在码本中的位置(即它的下标),传送告知收方即可,因为收方也有同样的一个码本。这一点与MPLPC及RPE/LTP编码原理是不同。,第六章声音信号的数字压缩标准与技术,双码本CELP编码系统,第六章声音信号的数字压缩标准与技术,G.728 LD-CELP 编码系统,第六章声音信号的数字压缩标准与技术,四、矢量和激励线性预测编码VSELP(Vector Sum Excitation Linear Prediction)随机码本中的每个激励码矢量,都是由一组基矢量通过线性组合得到的。若设代表第k 个码本的第m 个基矢量(在IS-54标准中,k=1,2;m=1,2.7),那么,该码本中的任意一个激励矢量,可以表示成:J 是基矢量数目;i=1,2.N;代表该激励矢量在码本中的位置(在IS-54标准中,J=7,N=128)。激励脉冲是基矢量的和构成的,故名矢量和激励。,第六章声音信号的数字压缩标准与技术,五、G.729和编码标准G.729 CS-ACELP编码系统,第六章声音信号的数字压缩标准与技术,五、G.729和编码标准G.729 CS-ACELP编码步骤:1、预处理(高通滤波,定标)。2、对10ms帧长语音段采用Levinson-Durbin法进行LPC分析(阶数10阶),并将LP系数转换成线谱对LSP参数,用VQ技术量化编码。3、将10ms帧分成两个5ms的子帧,分别求子帧语音模型对应的激励信号。4、第二子帧的信号,合成滤波器系数取自第二步运算的结果,而第一子帧合成滤波器系数,通过第二子帧系数与前一帧系数内插得到(这样,第一子帧合成滤波器系数不必传输了)。5、开环基音估计。即根据短项预测产生的预测误差,直接进行估计。,第六章声音信号的数字压缩标准与技术,6、进行自适应码书搜索,得到语音中具有准周期特性的激励。根据第五步的结果,搜索范围可以很小。G.729标准采取了一些措施,使得基音周期,还可以取分数值(三分之一样值精度),提高了合成语音质量。7、具有代数结构的固定码书搜索,得到语音模型的随机激励信号。8、两个码书的增益Gc和Gp,采用具有共轭结构的两级码书进行矢量量化。,G.729 家族,1、G.729(3/96)Coding of speech at 8 kbit/s using Conjugate-Structure Algebraic-Code-Excited Linear-Prediction(CS-ACELP)2、G.729 Annex A(11/96)Reduced complexity 8 kbit/s CS-ACELP speech codec 3、G.729 Annex B(10/96)A silence compression scheme for G.729 optimized for terminals conforming to Recommendation V.70 4、G.729 An.B/Cor1(2/98)5、G.729 Annex C(9/98)Reference floating-point implementation for G.729 CS-ACELP 8 kbit/s speech coding 6、G.729 Annex D(9/98)6.4 kbit/s CS-ACELP speech coding algorithm 7、G.729 Annex E(9/98)11.8 kbit/s CS-ACELP speech coding algorithm,第六章声音信号的数字压缩标准与技术,G.723.1 MP-MLQ编码系统,第六章声音信号的数字压缩标准与技术,G.723.1 CS-ACELP编码步骤:(1)输入为16比特线性PCM信号。(2)编码器每次处理一帧240个语音样点,在抽样频率为8千赫兹时等于30ms时长。(3)每帧语音首先高通滤波,然后被分成四个等长子帧,每子帧含60个样值。(4)每个子帧用Levinson-Durbin法,求取10阶LPC滤波器系数。(5)4个子帧中最后一个子帧的LPC系数,经7.5赫兹带宽扩展,再转换成LSP系数。LSP系数用预测分裂矢量量化器进行量化编码。具体做法是,首先去除LSP系数中直流分量,再与前一帧解码的LSP矢量做预测,以减小动态范围。每个预测误差矢量(10维)分裂成三个维数分别为3,3,4的子矢量,分别用8比特VQ码书量化编码。,第六章声音信号的数字压缩标准与技术,(6)4个子帧的前三个子帧,其量化后LSP(从而LPC)系数的获得,是通过对前一帧的解码LSP系数,与第四帧解码LSP系数的线性内插得到。(7)各子帧得到解码LPC系数后,构成合成滤波器。(8)各子帧用未量化的LPC系数,组成感觉加权滤波器。并对输入语音滤波得加权语音信号。(9)对(8)的输出,每二个子帧做一次开环基音估计。所以一帧语音240个样点产生二个基音估计值。(10)为改进语音质量,对加权语音,进行一次谐波形成滤波。滤波器传递函数为:(11)计算(7)中合成滤波器,(8)中感觉加权滤波器和(10)中谐波噪声滤波器,三者的组合滤波器的脉冲响应。这是经过感觉加权处理的合成滤波器。,第六章声音信号的数字压缩标准与技术,(12)考虑到前后两帧间滤波器的影响,去除(11)中组合滤波器的零输入响应。(13)先进行CELP系统中自适应码书的量化,此处叫基音预测器,它是5阶的FIR系统。根据步骤(9)中求得的开环基音值,进行精细的闭环基音分析。求得的结果进行VQ编码。(14)量化编码的最后一个对象是固定码书的编码（即图中的激励编码框，它是闭环运算的）。高速率采用多脉冲/最大似然量化,与普通多脉冲方案不同的是,各脉冲幅度是一样的,符号可以不同;且所有脉冲位置,要么全在偶数号序列处,要么全在奇数序列位置处,所以它与ACELP的码本,有相似之处。低速率时的固定码书的编码,即是ACELP,比之高速率方案,脉冲个数减少了,且位置限制更严,不同码字间存在简单代数移位关系。,第六章声音信号的数字压缩标准与技术,6.4.4 可变速率VBR编码九十年代以来，VBR编码逐渐引起了人们的广泛注意，(1)语音固定速率的压缩技术，已使编码系统码率降到了4kb/s以下，进一步压缩码率并保持解码语音质量，越来越困难。而未被充分利用的语音信号的突发特性和人类交谈的方式特性，将是导致语音信号压缩码率再次大大下降的主要方法。(2)通信领域的传输体系正发生重大的变革。新一代的计算机网络和通信网络中，信息是分组传输的，并且网络中资源的复用是统计方式，如果信源输出是与信源信息量变化有关的VBR码流，则更能提高网络的有效利用率。(3)不同的通信系统，因网络容量和对通信质量的要求不同，使用许多不同压缩算法和系统，这给不同系统的互相联接、互相通信，带来了很大困难。需要寻找新方法。,第六章声音信号的数字压缩标准与技术,VBR编码器分类：(1)与信源特性相关的VBR编码SCDVBR(Source Characteristic Dependent VBR)(2)与网络容量相关的VBR编码NCDVBR(Network Capacity Dependent VBR)(3)与信道特性相关的VBR编码CCDVBR(Channel Characteristic Dependent VBR)(4)混合控制型VBR编码HCVBR(Hybrid Control VBR),第六章声音信号的数字压缩标准与技术,6.4.4 可变速率VBR编码 NCDVBR：G.727嵌入式编码此类系统指同一只编码器有不同的工作速率,而低速率的码字包含在(嵌入)高速率的码字中,作为高速率工作时的核心码元。,第六章声音信号的数字压缩标准与技术,第六章声音信号的数字压缩标准与技术,6.4.4 可变速率VBR编码 SCDVBR：G.729B 带语音特性检测的VBR编码：浊音、清音、静默（基于四个参数判断：能量、低带能量、过零率、LSF）6.4.4 可变速率VBR编码 CCDVBR：欧洲自适应多速率编码AMR（见 An Adaptive Multi-Rate Speech Codec Based on MP-CELP Coding Algorithm for ETSI AMR Standard,Proceedings of ICASSP,Seattle,Washington,USA,May,1998,Vol.1:137-140.）6.4.4 可变速率VBR编码 HCVBR 杨震新的语音信号统一VBR编码方法,2002,1,Vol.30,No.1,pp4953,第六章声音信号的数字压缩标准与技术,An Adaptive Multi-Rate Speec

注意事项

本文（语音信号处理与现代语音通信.ppt）为本站会员（牧羊曲112）主动上传，三一办公仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三一办公（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。