语音信号处理与现代语音通信.ppt
《语音信号处理与现代语音通信.ppt》由会员分享,可在线阅读,更多相关《语音信号处理与现代语音通信.ppt(142页珍藏版)》请在三一办公上搜索。
1、语音信号处理与 现代语音通信杨震 博士教授、博导2003.8,授 课 内 容,【1】绪论【2】声音信号的分类与数字化【3】语音的发声模型和人的听觉特性【4】语音信号的时域和频域分析方法【5】语音信号的线性预测编码(LPC)技术【6】演示实验【7】各种语音处理和通信系统的质量评价体系【8】语音信号的数字压缩标准【9】语音波形编码技术-part one(ADPCM系统)【10】语音波形编码技术-part two(VQ、SBC、APC系统)【11】语音参数及混合编码技术-part one,授 课 内 容,【12】语音参数及混合编码技术-part two 移动通信GSM系统中的语音压缩编码技术RPE/
2、LTP 移动通信CDMA系统和多媒体通信系统中的语音编码技术G.723.1 MP-MLQ/ACELP和G.729 CS-ACELP【13】语音信号VBR编码技术【14】人机通信part one语音识别原理【15】人机通信part two语音合成原理【16】实用系统中的语音增强与消噪技术【17】语音压缩编码、消噪、识别与合成演示实验【18】语音在IP和ATM网络中的通信技术part one【19】语音在IP和ATM网络中的通信技术part two【20】语音技术研究热点,参考文献,中文1、王柄锡“语音编码”,西安电子科技大学初步社,20022、杨行峻,迟惠生“语音信号数字处理”电子工业出版社,1
3、9953、易克初,田斌,付强“语音信号处理”,国防工业出版社,20004、胡航“语音信号处理”,哈尔滨工业大学出版社,20005、拉宾纳,谢佛“语音信号数字处理”科学出版社,19786、姚天任“数字语音处理”华中理工大学出版社,19927、谢依兰“语音信号数字处理技术”学苑出版社,19938、朱民雄“计算机语音技术”北京航空航天大学出版社,19929、胡光锐“语音处理与识别”上海科学技术出版社,199410、J.D.Markar,A.H.Gray“语音信号线性预测”中国铁道出版社,198711、陈尚勤等“语言信号数字处理”电子科技大学出版社,199112、陈永彬,王仁华“语言信号数字处理”中国
4、科技大学出版社,1990,参 考 文 献,外文1、R.P.Ramachandran,R.Mammane“Modern Methods of Speech Processing”,Kluwer Academic Publishers,19952、Gordon E.Pelton“Voice Processing”Mc-Graw-Hill,Inc.,19933、D.P.Morgen,C.L.Scofield“Neural Networks and Speech Processing”Kluwer Academic Publishers,19914、Claudio Becchetti&Lucio Pr
5、ina Ricotti“Speech RecognitionTheory and C+Implementation”5、M.R.Schroeder“Computer SpeechRecognition,Compression,Synthesis”,Springer,19996、Robert D.Rodman“Computer Speech Technology”,Artech House,INC,19997、Joel Mambretti,Andrew Schmidt“Next Generation Internet:Creating Advanced Networks and Services
6、”,Wiley,19998、Renato De Mori“Spoken Dialogues with Computers”,Academic Press,1998,参 考 文 献,外文9、Frederick Jelinek“statistical methods for speech recognition”,MIT Press,1997 10、Randy Goldberg,Lance Riek“A Practical Handbook of Speech Coders”,CRC Press,2000 11、John R.Deller,JR.John G.Proakis,John H.L.Ha
7、nsen“Discrete Time Processing of Speech Signals”,199312、Proceedings of ICASSP(声学、语音、信号处理国际会议录)13、IEEE Transactions on Speech and Audio Processing 14、Rick Beasley,Mike Farley,John Oreilly,Leon Squire“Voice Application Development with VoiceXML”SAMS Publishing,USA,2001,绪 论,当今世界正处于工业时代向信息时代的飞速转变时刻,在这个过
8、程中,计算机技术、通信技术和电子信息技术的高速发展,是推动人类社会向信息社会不断进步的基础。因特网络的普及、电子购物的兴起、多媒体通信及其应用的蓬勃发展,无一不是人类社会走向信息社会的标志信息的获取、处理、传输和存储,是信息社会技术发展的一个主要任务人类作为社会的主人,一直是接收和发送信息的主体语音,始终是人类互相交流、互相通信的最主要、最方便、最快捷的信息载体,语音信号处理是一门涉及面很广的交叉学科 研究内容包括 1、语音特性分析和建模 2、语音数字压缩编码 3、语音识别 4、语音合成 5、语音增强 6、现代语音通信,第一章 声音信号的分类与数字化,1.1 声音信号的分类语音自然语音窄带语音
9、,又叫电话频带语音 宽带语音 非语声音频信号 广播电视质量声音 CD质量声音 高保真HiFi(High Fidelity)和环绕(Surrounded Effect)声音,5.1声道音响位置,第一章 声音信号的分类与数字化,1.2 声音信号的特征参数1.2.1声音的传播速度、频率、周期和波长1.2.2声压、声功率、声强和声级 1.2.3声音三要素,音高与频率间关系,Fletcher-Munson 人耳听觉等响度级曲线,第一章 声音信号的分类与数字化,1.3 声音信号的数字化 常见采样频率电话通信领域的8千赫兹和16千赫兹。计算机声音处理系统中的11.025千赫兹,22.05千赫兹和44.1千赫
10、兹。广播,影视,娱乐领域的32千赫兹,44.1千赫兹和48千赫兹。,存储一分钟声音信号所需要的存储容量,第一章 声音信号的分类与数字化,1.4 声音信号的数字存储格式WAV:数字音频波形格式,微软公司开发VOC和DAT:多用于声霸卡等一些声音采集 程序的DOS软件环境,新加坡创新公 司开发AU:工作站的UNIX环境下使用MIDI:数字乐器合成器,多用于合成音乐 目前我们遇到的多数为.wav和.mid文件,第一章 声音信号的分类与数字化,微软公司与IBM公司共同制定的WAV格式文件的第一个四字节是RIFF,它用来指明文件属于多媒体资源交换文件RIFF(Resource Interactive F
11、ile Format)的一种.RIFF文件的基本结构是块,第一个块为WAVE类型,指定文件为波形数字音频文件,第二个块为fmt块,定义文件中其它数据的格式。,第一章 声音信号的分类与数字化,typedef struct_WaveFmtWORD wFormatTag;/编码方式的标记;PCM时为1WORD nChnnels;/信道数;单声道等于0,立体声等于2WORD nSamplesPerSec;/每秒采样数WORD nAvgBytesPerSec;/每秒平均字节数WORD nBlockAlign;/数据块的偏移量fmt,第二章 语音信号的产生、特征与人耳的听觉特性,2.1 语音信号的产生,人
12、类发音器官示意图,第二章 语音信号的产生、特征与人耳的听觉特性,发音器官:1)肺和气管 2)咽喉3)声道(包括口腔、鼻腔等)4)嘴唇,男声发音“我的语音”的时域波形和语谱图,第二章 语音信号的产生、特征与人耳的听觉特性,第二章 语音信号的产生、特征与人耳的听觉特性,2.2 语音信号的分类主要的两大类浊音(voiced speech),又称为有声语音 基音(pitch)清音(unvoiced speech),又称为无声语音,第二章 语音信号的产生、特征与人耳的听觉特性,2.3 语音信号产生的模型语音生成模型常用的有:声管模型:波动方程描述LPC模型:数学模型描述共振峰模型:谐振腔描述,语音信号产
13、生的简化数字模型LPC模型,级联型共振峰模型,并联型共振峰模型,混合型共振峰模型,第二章 语音信号的产生、特征与人耳的听觉特性,2.4 临界频带和Bark谱 人耳的掩蔽(mask)作用指的是耳朵对一个声音的听觉感受,受到另一个声音影响的现象,Fletcher和Munson 1937年发现,一个音调(tone)可被一个以音调频率为中心频率的宽带噪声掩盖而听不见。并且,如果该宽带噪声能量不变而改变其带宽的话,这种掩盖现象不受噪声带宽变化的影响,除非噪声带宽超过一个临界值,这个临界值即称为临界频带。换言之,人耳对一个临界频带里的音不易分清。,第二章 语音信号的产生、特征与人耳的听觉特性,临界频带这个
14、参数提出的意义是可将人耳当作一个并联的滤波器组,各个滤波器有不同的带宽,分别对听觉作出不同的贡献 临界频带的单位一般用Bark来表示以纪念科学家Barkhauseu。1 Bark用来指明一个临界频带的频率宽度 若记Bark域的频率变量为b,赫兹(Hertz)域频率变量为f,则有:,第二章 语音信号的产生、特征与人耳的听觉特性,2.5 人耳的各种听觉效应掩蔽效应,同时掩蔽(频率掩蔽):纯音的同时掩蔽现象,第二章 语音信号的产生、特征与人耳的听觉特性,非同时掩蔽(时间掩蔽):纯音的非同时掩蔽现象,第二章 语音信号的产生、特征与人耳的听觉特性,2.5 人耳的各种听觉效应哈斯(Hass)效应双耳效应鸡
15、尾酒会效应,第三章 语音信号的分析方法,3.1语音信号的统计特性一、概率密度函数:近似Gamma分布,可用 Laplace 或 Gauss分布近似二、零均三、非平稳时变信号;短时平稳:1030ms,第三章 语音信号的分析方法,3.2语音信号的短时分析方法 短时能量 短时平均幅度 短时平均过零率 短时自相关函数 短时傅立叶变换,第三章 语音信号的分析方法,一、短时能量En和短时平均幅度 浊音:大 清音:较小 静默:最小,第三章 语音信号的分析方法,二、短时过零率Zn 浊音:较小 清音:大 静默:最小(如果没有背景噪声),较大(如果存在背景噪声)一般的经验数据是,对于清音语音,在采样频率为8千赫兹
16、条件下,其过零率为每10ms内Zn49,而对于浊音语音,其过零率为每10ms内Zn14,第三章 语音信号的分析方法,三、短时自相关函数Rn 浊音:呈现准周期性、逐渐衰减 求基音周期 清音:Rn(0)较大,衰减很快 静默:Rn(0)小,衰减很快,第三章 语音信号的分析方法,四、短时傅立叶变换分析1、反映了短时间内激励和声道的频谱特性,声道特性主要由频谱的包络特性来描述2、浊音:频谱能量集中在低频率区,衰减较快,呈现锯齿状 清音:频谱能量分布在整个频率段内,无明显衰减 静默:频谱能量很小3、基于可以求基音频率,浊音谱清音谱,第三章 语音信号的分析方法,3.3语音信号的分类和词的分割方法 某帧分类:
17、浊音、清音、静默分类技术:一、基于能量或过零率硬判决二、基于自相关函数或傅氏变换硬判决三、基于模式分类技术,第三章 语音信号的分析方法,用于语音信号帧属性划分的参数选择 可用来判决信号帧特性的参数有不少,比如基于各帧信号的能量、过零率、低通滤波后语音能量、高/低通能量比、一阶LPC系数、一阶LPC反射系数、每帧预测误差能量、位于基音周期处的自相关函数比等。文献表明,仅根据单个参数是很难准确判断输入信号特征的,即使是在相对简单的二元语音分类如VAD中,往往也要根据多个参数进行分类,如G.729B标准采用了四种参数。,第三章 语音信号的分析方法,对电话语音进行的统计表明,每个话者通话时各种语音信号
18、帧的大致比例(统计帧数3000,帧长20毫秒)为:背景声:55.7%清 音:12.5%浊 音:32.8%,第三章 语音信号的分析方法,词的分割技术:端点检测。多数基于短时能量和过零率,多门限判决 能量和过零率检测法双门限法。这种方法也常称为显式法,即端点的确定与以后的判决无关。具体的说,首先用短时能量做第一次判断,然后在此基础上用短时平均过零率做第二次判断。,第四章 语音信号的LPC分析方法,信号的预测问题可表述如下:给定P个观测点 寻找某个函数:使估计误差序列之均方值最小化 若 是线性函数,则为众所周知的LP问题:,第四章 语音信号的LPC分析方法,基音LP预测分析(长项预测:Long-te
19、rm)T 是基音周期,M一般取1或2,第四章 语音信号的LPC分析方法,4.1 LPC技术是语音信号处理中最成功、最成熟的技术。语音编码国际标准中广泛使用:G.723.1 MP-MLQ/ACELPG.728 LD-CELP(Low Delay CELP)G.729 CS-ACELP(Conjugate Structure-Algebraic CELP)GSM RPE/LTP(Regular Pulse Excited/Long Term Prediction)IS-54 VSELP(Vector Sum Excited Linear Prediction)IS-95 QCELP(Qualcom
20、m CELP)FS(Federal Standards)FS1015 LPC10、FS1016 CELP Inmarsat APC(Adaptive Prediction Coding)MPLPC(Multi-Pulse Linear Prediction Coding)IMBE(Improved Multi-Band Excite),第四章 语音信号的LPC分析方法,4.2 语音信号线性预测分析的基本原理1、基于简化语音发声数学模型需要分析提取声道和激励参数,第四章 语音信号的LPC分析方法,2、声道用时变数字滤波器代替 语音抽样s(n)和激励信号e(n)之间的关系可以用下列的差分方程来表示
21、:A(Z)称作逆滤波器,传输函数为:,第四章 语音信号的LPC分析方法,问题:3、如何求解时变滤波器的参数和模型激励参数(1)激励参数主要是清/浊音判断、浊音中基音周期的求解等(2)求取时变滤波器的参数即P 和 是关键(3)主要方法自相关法和协方差法,第四章 语音信号的LPC分析方法,4.3 语音信号线性预测分析的自相关法和协方差法第n时刻的预测序列:第n时刻的预测误差序列:方程求解出的,即为声道(时变数字滤波器)特性中的参数,第四章 语音信号的LPC分析方法,上式的解为:定义相关矩阵,第四章 语音信号的LPC分析方法,自相关法:设 在区间 外等于零,信号范围 0,N-1,第四章 语音信号的L
22、PC分析方法,方程解法:迭代运算Levinson、Durbin、Burg、Lattice、Schur等算法,第四章 语音信号的LPC分析方法,协方差法:设 在区间 外等于零,信号范围 P,N-1 方程解法:基于矩阵的Cholesky分解(LU分解),第四章 语音信号的LPC分析方法,4.3.3 时变数字滤波器的增益准则:语音的能量应该和线性预测模型产生的合成语音能量相等,第四章 语音信号的LPC分析方法,4.4语音信号线性预测分析各种算法特性的比较,第四章 语音信号的LPC分析方法,4.5 语音信号线性预测误差信号1、针对不同语音激励时 的形状2、基于 求解语音的基音周期3、简单逆滤波器跟踪法
23、SIFT4.6 基于ANN的非线性语音预测技术,第四章 语音信号的LPC分析方法,4.7 语音各种参数的特性及其相互转换1、反射系数与2、对数面积比与反射系数3、系统函数H(Z)的极点与4、线谱对LSP系数与5、LPC倒谱系数与Mel倒谱系数,第四章 语音信号的LPC分析方法,倒谱和同态信号处理倒谱(对LPC模型的Z变换H(Z)求倒谱),第四章 语音信号的LPC分析方法,MEL倒谱,第五章语音处理和通信系统的质量评价体系,5.1语音处理系统质量评价 语音处理系统主要指语音数字压缩编解码系统、语音识别与合成系统、语音增强系统等。5.1.1语音数字压缩编解码系统质量评价 对编解码器性能的要求主要包
24、含下列方面:,第五章语音处理和通信系统的质量评价体系,恢复声音的质量 即经过编码系统再经过收方解码系统恢复出的声音质量,主要有SNR和MOS两种 单项感觉指标还有如可懂度、清晰度、自然度指标等比特率 指的是编码器对输入的声音压缩后,每秒送出的二进制码元个数,第五章语音处理和通信系统的质量评价体系,处理的复杂度 指实现编译码算法的困难程度。处理时延 是完成编译码算法所需的时间。容错能力或鲁棒性(Robustness)指编译码系统抗误差,线路噪声等各种干扰的能力。,第五章语音处理和通信系统的质量评价体系,5.1.2语音识别与合成系统质量评价 衡量语音识别系统的质量评价主要是正确识别率处理的复杂度处
25、理时延 衡量语音合成系统的质量评价主要是可懂度清晰度自然度,第五章语音处理和通信系统的质量评价体系,5.1.3语音增强系统质量评价 衡量语音增强系统的质量评价主要是恢复声音的质量,这与语音编码相似5.2语音通信系统质量评价接收端恢复语音的质量 客观质量,即信噪比SNR 主观质量,常用的是 MOS分数,还加上可懂度、清晰度和自然度指标。传输速率或占用信道带宽误码率或分组丢失率传输时延和变化,第六章声音信号的数字压缩标准与技术,6.1 声音信号的压缩标准,位数或,位数,16,16,第六章声音信号的数字压缩标准与技术,第六章声音信号的数字压缩标准与技术,6.2.常用语音信号数字压缩标准:6.2.1
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 信号 处理 现代 通信
链接地址:https://www.31ppt.com/p-6038556.html