《语音信号处理复习资料要点课件.ppt》由会员分享,可在线阅读,更多相关《语音信号处理复习资料要点课件.ppt(75页珍藏版)》请在三一办公上搜索。
1、语音信号处理,Speech Signal Processing,中国矿业大学 信息工程系,全书三篇,16章(讲15章),第一篇 语音信号处理基础,第二章 语音信号处理的基础知识,第一章 绪论,第二篇 语音信号分析,第三章 语音信号的时域分析,第四章 语音信号的短时傅里叶分析,第五章 语音信号的同态滤波及倒谱分析,第六章 语音信号的线性预测分析,第七章 语音信号的矢量量化,第八章 隐马尔可夫模型(HMM),第九章 语音检测分析,第三篇 语音信号处理技术与应用,第 十 章 语音编码(一) 波形编码,第十一章 语音编码(二) 声码器技术与混合编码,第十二章 语音合成,第十三章 语音识别,第十四章 说
2、话人识别,第十五章 语音增强,第二章 语音信号处理的基础知识,语音的产生,语音的分类,语音的基本特性,语音的时间波形和频谱特性,语音信号的统计特性,声道模型,语音信号的产生模型,激励模型,辐射模型,声管模型,共振峰模型,级联型,并联型,混合型,语音感知,定义,人耳的听力范围,声音的三要素,掩蔽效应,第二章思考题:什么叫语言?什么叫语音?人类的发音器官包括哪些?在发音时各起了什么作用?解释以下概念:基音频率、共振峰、浊音、清音。语音信号模型包括哪些子模型?激励模型和辐射模型各属于什么性质的滤波器?,第三章语音信号的时域分析,语音处理的目的,语音信号分析方法,短时分析技术,语音信号的数字化和预处理
3、,取样率的选择,量化字长的选择,预处理,短时能量分析,短时平均能量的定义,窗口形状的选择,窗口的长度,主要用途,直角窗和海明窗的频率特性比较,短时平均幅度,短时过零分析,过零分析的概念,短时平均过零数的实现,短时平均过零数的应用,短时相关分析,自相关函数的定义,自相关函数的性质,短时自相关函数的定义,修正的短时自相关函数,短时平均幅度差函数(AMDF),相关分析,第三章思考题:1. 在语音信号参数分析前为什么要进行预处理,有哪些预处理过程?2. 短时平均能量(平均幅度)和短时平均过零率的定义。这两种时域参数的用途。窗口函数的长度和形状对它们有什么影响?3. 短时自相关函数和短时平均幅度差函数定
4、义和用途,它们间有什么差异?,第四章 语音信号的短时傅里叶分析,短时傅里叶变换的定义,短时傅里叶变换的取样率,标准傅里叶变换的解释,滤波器的解释,语音信号的短时综合,滤波器组求和法,语谱图,可同时在时间和频率上显示语音频谱随时间的变化。,第四章思考题:,语音信号的短时谱的定义。如何提高短时谱的频率分辨率?在求语音信号的短时谱时,对窗函数有什么要求? 对语音信号频谱分析采用海明窗和矩形窗各有什么特点?3. 什么是语谱图?它有什么特性?,第五章 语音信号的同态滤波及倒谱分析,同态信号处理也叫同态滤波,它实现了将卷积关系变换为求和关系的分离处理。,复倒谱和倒谱,同态信号处理的基本原理,卷积同态系统模
5、型,特征系统,D* 和D*-1 的三步数学运算,语音信号两个卷积分量的复倒谱,避免相位卷绕的算法,最小相位信号序列:信号的零极点全部在z平面单位圆内。,1.卷积同态系统的组成及意义?特征系统D* 和逆特征系统D*-1 运算的三个步骤是什么?2. 什么是复倒谱?什么是倒谱?清、浊音的复倒谱或倒谱各有什么特点?,第五章思考题:,主要内容6.1概述6.2线性预测分析的基本原理6.3线性预测分析的解法自相关法6.4格型法6.5线性预测分析应用 -LPC谱估计和LPC复倒谱,第六章 语音信号的线性预测分析,线性预测分析就是根据已知信号s(n)对各参数 和增益G进行估计。在这里 为线性预测系数,F(z),
6、s(n),图6-3 线性预测器,1.如何将信号模型化为模型参数?最常用的是什么模型?什么叫线性预测?什么叫逆滤波器?2. 什么叫LPC参数?PARCOR参数?LSP参数?3.什么是LPC谱?LPC谱估计的特点。,第六章思考题:,7.1概述7.2矢量量化的基本原理7.3失真测度7.4最佳矢量量化器和码本设计7.5降低复杂度的矢量量化系统7.6语音参数的矢量量化,第七章 语音信号的矢量量化,矢量量化的定义2.什么是失真测度?常用的失真测度有哪些?3. 矢量量化器最佳设计的两个条件?4. LBG算法,第七章思考题:,第8章隐马尔可夫模型(HMM),8.1 概述8.2 隐马尔可夫模型的引入8.3 隐马
7、尔可夫模型的定义8.4 隐马尔可夫模型三项问题的求解,1.什么叫做隐马尔可夫过程?为什么说语音信号可以看成隐马尔可夫过程?隐马尔可夫模型有哪些模型参数?请叙述这些参数的含义和定义式。 2. HMM模型的结构主要有哪两种?主要用在什么场合? 3.转移概率矩阵的计算。,第八章思考题,第九章 语音检测分析,语音检测分析语音特征参数的提取和分析。主要包括:基音检测和共振峰参数的估值。,简化逆滤波法(SIFT),基音检测,倒谱法,自相关法,共振峰估值,带通滤波器法DFT法倒谱法LPC法,1.基音检测的自相关法中的中心削波处理的思路及实现过程?2.用倒谱法实现基音检测和共振峰检测的原理?,第九章思考题,第
8、十章 语音编码波形编码,语音编码的概念、应用和分类等语音信号的压缩编码原理 对语音进行压缩编码的两个基本依据等 语音通信中的语音质量 脉冲编码调制(PCM)及其自适应 自适应量化分为前馈或反馈两种,预测编码及其自适应APC 自适应预测编码APC系统框图、总量化误差 预测编码可以改善信噪比的原因 短时预测和长时预测自适应差分编码调制(ADPCM),1.在语音通信中,常将语音质量分为哪四等?2.语音信号能进行压缩编码的依据是什么?语音编码的分类?3.自适应的控制量有几个?控制方式有几种,其特点是什么?4.预测编码可以改善信噪比的原因是什么?5.什么是短时预测和长时预测 ?,第十章思考题,参数编码概
9、念、与波形编码的不同声码器的基本结构相位声码器和通道声码器同态声码器线性预测声码器混合编码: MPLPC 、CELP,原理、传输码率计算等,第十一章 语音编码声码器技术及混合编码,第十二章 语音合成,语音合成的概念、目的 语音合成系统与声码器中的语音合成器的区别 语音合成原理 语音合成的方法:波形合成法 、参数合成法规则合成法 语音合成系统的特性共振峰合成线性预测合成:形式有两种 用预测器系数ai直接构成的递归型合成滤波器 采用反射系数构成的格型合成滤波器,第十三章 语音识别,语音识别的概念、目的和分类 语音识别原理:模式匹配原理、语音识别的步骤 框图理解动态时间规整(DTW):目的、原理孤立
10、词识别系统:原理和框图理解 端点检测的作用,1.什么是语音识别?语音识别系统如何分类?当前,语音识别的主流方法是什么?2.语音识别系统由哪几个部分组成?语音识别中常用的语音特征参数有哪些?3.什么是动态时间规整?实际中,它解决了什么问题?4.孤立词识别系统框图?框图中,参考模式库和模式识别的作用是什么?,第十三章思考题,第十四章 说话人识别,说话人识别定义、目的和关键问题说话人识别分类、应用特征提取 说话人识别所用的特征 特征类型的优选准则: F比作为有效性准则 说话人识别系统的结构: 组成、基本结构、说话人识别系统的性能评价 如:说话人确认系统最重要的两个性能指标: 错误拒绝率(FR)、错误
11、接受率(FA),说话人识别中的识别方法 DTW型说话人识别系统:说话人确认系统 应用VQ的说话人识别系统:说话人辨认系统,1.说话人识别和语音识别的区别在什么地方? 2.说话人确认和说话人辨认有什么不同?3.在说话人识别中,应选择哪些可以表征个人特征的识别参数?4.怎样评价说话人识别特征参数选取的好坏?即F比的物理意义?5.说话人确认系统最重要的两个性能指标是什么?含义为什么?6.基于DTW和VQ算法的系统框图理解。,第十四章思考题,人类的语音是由人体发音器官在大脑控制下的生理运动产生的;人的发音器官包括:肺、气管、喉、咽、鼻、口等。,声带开启和闭合使气流形成一系列脉冲。 每开启和闭合一次的时
12、间即振动周期称为基音周期,其倒数为基音频率,简称基频。基频决定了声音频率的高低,频率快则音调高,频率慢则音调低。 基音的范围约为70 - 350Hz,与说话人的性别、年龄等情况有关。,语音由声带振动或不经声带振动来产生,其中: 由声带振动产生的音称为浊音(Voice Speech); 不由声带振动产生的音称为清音(Unvoice Speech) 。,使声道完全闭合,在闭合后建立起气压,然后突然释放,得到爆破音称为爆破音(plosive Speech):,声道可以等效为一个谐振腔,有许多谐振频率。谐振频率由每一瞬间的声道外形来决定。 若声道截面是均匀的,则谐振频率发生在:,c为声速,空气中为35
13、0m/s,L为声道长度,n为序号。,音质:区别与其它声音的基本特征音调:声音的高低;取决于频率音量:声音的强弱;声波振动的幅度音长:声音的长短。发音持续时间的长短,图2-7 Ten above In the suburbs 时域波形,图2-8 元音【】的频谱,图2-9 辅音【S】的语谱,基音周期的计算,清音浊音的判断,学习得到,图26 输出的语音频谱,虚线为谱包络,恢复谱包络是许多语音处理应用中的主要问题,因为谱包络携带了主要的发音信息,根据长时间范围内一段语音信号的大量取样数据的绝对值计算其直方图,方法,概率密度,修正伽玛概率密度,拉普拉斯分布,图210 修正伽玛密度、拉普拉斯密度和高斯密度
14、以及天气预报语音的长期幅度分布,图211 语音幅度的累计频度分布,观察,得到,语音主要集中在幅度较小的区域,语音的动态范围都超过50dB,激励模型,发不同性质的音时,激励的情况是不同的。(1)发浊音时 声带不断张开和关闭,产生间歇的脉冲波。见图2-13。 则激励信号是一个以基音周期为周期的斜三角脉冲串。 从频谱上看,是一个低通型滤波器。可以表示为Z变换的全极点模型形式:,(2)发清音时 声道被阻碍形成湍流,可模拟为随机白噪声。见图2-12。,实际中使用均值为0、方差为1,并在时间或幅度上为白色分布的序列,声道模型,(1)声管模型,声道的数学模型目前有两种观点:,将声道看为由多个不同截面积的管子
15、串联而成的系统。 在“短时”期间,声道可表示为形状稳定的管道。,(2)共振峰模型,将声道看为一个谐振腔。共振峰就是腔体的谐振频率。 一般,用前三个共振峰来代表一个元音就足够了。而辅音需要五个以上,图215 级联型共振峰模型,级联型比较简单,用于描述一般的元音。级联的级数取决于声道的长度。,图216 并联型共振峰模型,当鼻化元音或鼻腔参与共振以及发阻塞音或摩擦音时,此时腔体具有反谐振特性,必须考虑加入零点,成为极零点模型,每个谐振器的幅度都要独立控制。,幅度独立控制何调节,用来模拟辅音频谱特性中能量集中区,专为一些频谱特性比较平坦的因素而考虑的,图217,辐射模型,一阶类高通滤波器形式,从声道输
16、出的是速度波,而语音信号是声压波,二者之比为辐射阻抗ZL。它表征口唇的辐射效应,也包括圆形头部的绕射效应。,研究表明,口唇端在高频端比较显著,而在低频端时影响比较小。所以辐射模型为,嘴唇的辐射影响引起的输出信号高频提升作用大约有每倍频程6dB,4. 完整的语音信号数字模型,语音取样值,激励模型,声道模型,辐射模型,注意,一、这种模型是“短时模型”,其中U(Z)、R(Z)保持不变,而基音频率、清音浊音的幅度、清/浊音判决,声道参数ak、P是时变的,二、声道参数030ms内近似不变,激励参数在5ms左右近似不变,H(Z)是一个参数随时间缓慢变化的模型,可以假定1020ms内固定不变。,三、对于某些
17、音,需要用一些修正的或更精确的模型来模型,四、模型对语音产生的模拟得是否成功,主要考察它所产生得语音信号听上去是否合乎预期得结果,对于它是否能准确得描述发音器官产生语音得物理过程并不重要。,五、语音分析和语音合成都是基于这个模型来实现的。,六、模型的思想起源于30年代发明的声码器。其基本思想是将激励和系统相分离,使语音信号解体来分别描述,而不是直接研究信号波形本身的特性,人的耳朵接收声音并转换成神经刺激。人耳听到声音后,还要经过大脑处理变成确定的含义,这就是对语音的感知。,人耳能听到的频率范围大约为16Hz16kHz,年轻人上限频率可达20kHz,老年人则衰退为10kHz,对于人耳的感觉,用声
18、音三要素来描述: 响度:人耳对声音强弱程度的反映。取决于声音的幅度,并和频率有关。如:对30004000Hz最敏感。 音调:也叫音高。人耳对声音频率高低的感受。如:对频率高的声音感觉音调“高”,对频率低的声音感觉音调“低”。 音色:也叫音质。反映了声音属性。每个声音具有特殊的音色。,掩蔽效应,当两个响度不同的声音作用于人耳时,则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易觉察,这就是掩蔽效应。,对于中等掩蔽强度,纯音最有效的掩蔽出现在它的频率附近,低频的纯音可以有效地掩蔽高频地纯音,而高频的纯音对低频的纯音掩蔽作用很小。掩蔽效应会造成因一个声音的存在而使另一个声音的
19、听阈上升。,当声音的强度小到人耳刚刚能够听见时,一、对语音信号进行分析,提取特征参数。二、加工语音信号。总之,在于方便有效地提取并表示语音信号所携带的信息。,语音处理的目的:,语音信号分析方法: 时域分析: 频域分析:倒谱域分析:,语音信号具有时变特性,是一个非平稳的随机过程; 但是,语音信号又具有“短时平稳性”,即在一个短时间范围内其特性基本保持不变。这是语音信号处理的一个重要出发点。即“短时分析”。 “短时分析” 对语音信号采用分段或叫分帧来处理。,短时分析技术:,注:语音通常在1030ms内保持相对平稳,所以帧长取为: 1030ms,模拟语音 数字语音,须经过取样、量化,语音信号:频率范
20、围可高达10KHz。 电话带宽语音: 3003400Hz 通信系统中,数字化取样率一般为8KHz, 语音信号处理中,取样率 为 10KHz,取样率的选择,2. 量化字长的选择,量化过程:将整个幅度值分割为有限个区间,落入同一个区间的样本都赋予相同的幅度值 。 量化过程不可避免会产生量化误差。 可以证明量化信噪比为:,量化字长,输入语音信号的方差,噪声序列的方差,信号的峰值,若语音信号服从拉普拉斯(Laplacian)分布,则:,可见,每比特对SNR贡献6dB。,B=7Bit时,SNR=35dB,可满足一般通信系统要求;实际中,因语音波形变化的动态范围可达55dB,所以,应取B 10Bit,二、
21、预处理,预处理:模拟语音的数字化、放大及增益控制、反混叠滤波、预加重等。,反混叠滤波:在取样前,为预防混叠失真和噪声干扰,采用的一个截止性能良好的模拟低通滤波器。反混叠滤波器一般与A/D做在一块集成片内。,预加重:因语音信号高频端800Hz以上按6dB/倍频程下降,所以在A/D前,可以采用预加重方法。即提升高频部分,使信号的频谱变得平坦,便于频谱分析和声道参数分析。,注: 预加重也可在A/D后进行,此时可采用数字滤波器实现:,预加重后的信号在分析后,还需要进行去加重处理还原为原来的语音信号。,一、短时平均能量的定义,注意:En以n为标志。因为窗序列是沿着平方值的序列逐段移动。见图3-6图3-7
22、短时能量序列的计算方法,表明:短时平均能量相当于语音信号平方通过一个单位脉冲响应为h(n)的线性滤波器的输出。,注意 :不同的窗口选择决定不同的短时能量,为此我们要选择合适的窗口,使其平均能量更好地反映语音信号的幅度变化。,窗口的形状,窗函数:直角窗、汉宁窗、海明窗、布莱克曼窗等,窗口的长度, 窗长对能否反映语音信号的幅度变化起决定性作用。若N很大,等效为带宽很窄的低通滤波器, En的变化很小,不能反映语音信号的幅度变化;若N很小,等效为带宽很宽的低通滤波器, En的变化很剧烈,不能得到语音信号的平滑能量函数。, 窗口的长短是相对语音信号的基音周期而言。通常认为:一个语音帧内应含有17个基音周
23、期。但不同人的基音周期变化很大;折中选取:在取样频率为10KHz时,N=100-200 即1020ms持续时间,见图3-9,二、短时平均能量的主要用途,可以区分清音段和浊音段。 浊音的En比清音En大的多 可以区分声母和韵母的分界,无声和有声的分界,连字的分界。 可以用于语音识别,“短时平均幅度Mn” ,其定义为:,短时平均幅度的动态范围(最大值与最小值之比)比短时平均能量小。,过零分析的概念,过零就是信号通过零值。 对于离散信号,相邻的取样值改变符号则称为过零。 过零数就是样本改变符号的次数。 单位时间内的过零数为平均过零数。,对于窄带信号,可以精确地计算出平均过零数。例如:一个频率为f0的正弦信号,取样频率为fs,则平均过零数为:,过零/样本,但语音信号是宽带信号,不能简单用上述公式。,语音信号x(n)的短时平均过零数定义为,符号函数,窗口序列,短时平均过零数的应用,用于语音信号分析,2. 用于从背景噪声中找出语音信号,清音和浊音的过零分布是不同的:清音具有较高的过零数,而浊音则具有较低的过零数。,见图3-13 、3-14,
链接地址:https://www.31ppt.com/p-1546977.html