语音信号的时域分析.ppt
《语音信号的时域分析.ppt》由会员分享,可在线阅读,更多相关《语音信号的时域分析.ppt(46页珍藏版)》请在三一办公上搜索。
1、第4章语音信号的时域分析4.1概述语音信号携带各种信息:男声、女声,喜、怒,中、英等。不同场合感兴趣的信息不同;判断信号是否为语音,只需人类语音信号的一般特征;区分语音为清、浊音,需语音能量谱和基频;数字传输或数字存储时,目的不同,保留信息精度不同;语音信号处理的任务:去除与应用目的不相干或影响不大的语音信息 需要的信息不仅应当提取出来,有时还需要加强。以上涉及语音信号中,各种信息的表示问题。表示方法的原则:最方便、最有效。短时分析技术贯穿于语音分析的全过程。,整体的语音信号来讲,分析出的是由每一帧特征参数组成的特征参数时间序列。语音信号分析:时域分析、频域分析、倒频域分析等;语音信号分析:模
2、型分析、非模型分析;模型分析法是指依据语音信号产生的数学模型,来分析和提取表征这些模型的特征参数,模型分析:共振峰分析、无损级联声管分析法非模型分析:不进行模型化的分析语音的预处理:语音信号的数字化、语音信号的端点检测、预加重、加窗、分帧等,本章重点:语音信号的各种时域分析技术,是语音处理技术 的基础知识。,第4章语音信号的时域分析4.2语音信号的数字化和预处理 信号数字化:放大、增益控制、反混叠滤波、取样、A/D变换及编码(PCM编码);预处理:预加重、加窗、分帧、端点检测等;图4.1:语音信号数字分析或处理的系统框图。,预滤波、取样、A/D变换 预滤波:带通滤波器(上、下截止频率为fH、f
3、L)防混叠滤波,抑制fs/2的输入信号分量(fs为取样频率)抑制工频干扰(50 Hz电源)。多数语音编/译码器:fH=3.4kHz,fL=60100Hz,fs=8kHz。语音识别:对电话用户指标与语音编/译码器时相同;要求较高或很高:fH=4.5 or 8kHz,fL=60Hz,fs=10 or 20kHz。A/D变换需对信号量化,编码为二进制,产生量化误差。量化误差(量化噪声):量化信号值与原信号值之差;信号波形的变化足够大或量化间隔足够小时,量化噪声符合具有下列特征的统计模型:量化噪声是平稳的白噪声过程;量化噪声与输入信号不相关;量化噪声在量化间隔内均匀分布,即具有等概率密度分布。,量化信
4、噪比SNR(信号与量化噪声的功率比)为:式中,输入语音信号序列的方差,噪声序列的方差,信号的峰-峰值,B量化字长,设语音信号的幅度服从Laplace分布,则 取,上式改写为:B=7 bit,SNR=35 dB,能满足一般通信系统的要求。语音波形的动态范围达55 dB,故B应取10 bit以上。为保持35 dB的信噪比,常用12 bit量化,附加的5 bit用于补偿30 dB左右的输入动态的变化。,表明量化器中每bit字长对SNR的贡献约为6 dB,A/D变换器:分为线性和非线性两类。目前采用绝大部分的线性A/D变换器是12 bit。非线性A/D变换器一般是8 bit,它与12 bit线性变换器
5、等效。有时需要将非线性的8 bit码转换为线性的12 bit码。数字化的反过程是从数字化语音中重构语音波形。必须在D/A后加平滑滤波器,对重构的语音波形的高次谐波起平滑作用,以去除高次谐波失真。预滤波、取样、A/D和D/A变换、平滑滤波等许多功能可以用一块芯片完成,在市场上有多种这样的集成芯片供选用。,预处理 预处理:预加重、加窗、分帧、端点检测等;语音的一个特征:约8 kHz高频端按-6 dB/倍频程跌落。预加重:提升语音的高频部分,使信号的频谱变得平坦,可在反混叠滤波前,可压缩动态范围,提高信噪比。也可在数字化后、参数分析之前。预加重用6 dB/倍频程的提升高频特性的预加重数字滤波器:式中
6、,为常系数,值接近于1,通常取=0.920.94。恢复原信号,对测量值进行去加重处理,即加上-6 dB/倍频程的下降的频率特性来还原成原来的特性。,窗函数的作用 采用连续分段或交叠分段的方法分帧,33 100帧/秒。图4.2:帧移与帧长示例。帧与帧之间的信号平滑过渡,保持其连续性。帧移:前后帧的交叠部分。帧移与帧长的比值一般为01/2。移动窗函数加权实现:x(n)为语音信号,w(n)为窗函数,sw(n)为窗选语音信号。,理想窗函数的频率响应有一个很窄的主瓣,它增加了频率的分辨度,而没有旁瓣。,讨论窗函数的形状和长度的影响。1.窗函数的形状好的窗函数的标准:时域:减小时间窗两端的坡度,使窗口两端
7、边缘平滑过渡到到零,减小语音帧的截断效应;频域:较宽的3 dB带宽和较小的边带最大值。常用的窗函数(窗长为N):(1)矩形(rectangular)窗:(2)Hamming(汉明)窗:(3)Hanning(汉宁)窗:,(4)Bartlett(巴特雷特)窗:(5)Blackman(布累克曼)窗:(6)Kaiser(凯散)窗:式中,零阶贝塞尔函数,,图4.3、4.4:窗函数的波形矩形窗主瓣最窄,频率分辨度 最高,频率泄漏最大;Blackman窗频率分辨度最低,频率泄漏最小。常用矩形窗、Hamming窗。,2.窗口的长度 取样周期Ts=fs、窗口长度N、频率分辨率f 的关系为:Ts一定时,f 随窗口
8、N增加而减小,即f 提高,时间分辨率降低。如果窗口取短,频率分辨率下降,时间分辨率提高。取样周期和频率分辨率矛盾,应根据需要选择合适的窗长。时域分析:N 很大,语音高频受阻,短时能量变化很小,不能反映幅度变化;N 太小,滤波器通带宽,短时能量急剧变化,不能平滑能量函数。通常一帧内应含有1 7个基音周期。基音周期变化大,从女性和儿童的2 ms到老年男子的14 ms10 kHz取样时,N 折衷选择为100 200点(10 20 ms)。分析条件:(通常需标明,以提供性能评价参考依据)取样频率、精度、预加重方式、窗函数、帧长、帧移等。,第4章语音信号的时域分析4.3短时能量和短时平均幅度 短时能量语
9、音的清音能量较小,浊音能量较大。语音的能量分析主要短时能量和短时平均幅度。n时刻语音信号的短时能量En为:或 式中,h(n)=w2(n),可以看做滤波器的冲激响应函数。En反映语音振幅或能量随时间缓慢变化的规律。窗函数或滤波器的函数形式和宽度对能量序列影响很大。选择合适的窗函数或滤波器的冲激响应函数和它们的宽度。用得较多的是矩形窗和Hamming窗。,窗宽的影响:窗函数很宽或冲激响应很长,平滑作用显著,使En变化不大,反映不出语音能量的时变特性。窗函数过窄,平滑作用有限,仍然保留瞬时快变化,使En反映语音振幅细节,表现不出振幅平方包络的变化规律。当N小于语音基音周期时,将按照基音周期内语音振幅
10、平方波形的细节瞬时变化;当N比基音周期的若干倍还要大时,各段语音的短时能量差别不大,不能跟随语音能量的时变特性。这两种情况都不能准确描述语音能量自身的实际变化规律。必须选择合适的窗宽,兼顾男声和女声,10 kHz取样时,选窗宽10 20 ms。,图4.5:语音的短时能量序列的包络曲线。,矩形窗比Hamming窗的平滑效果显著;随着窗宽的增加,平滑效果越显著;从的包络曲线可以清楚看出清音和浊音之间的区别和分界点,,短时平均幅度En的计算是平方求和,计算量大;平方运算扩大了样本间差别,选窗宽择带来附加的困难。须选择较宽的窗,才能较好地平滑平方幅度的起伏。为此,提出语音能量时变性质的另一个重要参数。
11、n时刻语音信号的短时平均幅度Mn为:或 式中,h(n)=w(n)通常窗函数w(n)0,所以h(n)=w(n)。依据定义式可导出多种的计算方法(略)。共三种。,图4.6:语音的平均幅度序列的包络曲线。,语音的平均幅度与短时能量具有相似的一些性质矩形窗比Hamming窗的平滑效果显著;随着窗宽的增加,平滑效果越显著;从的包络曲线可以清楚看出清音和浊音之间的区别和分界点,,比较En和Mn(比较图4.6与4.5):短时平均幅度的差别没有它们的短时能量的差别那么显著;清音的短时平均幅度比短时能量有所提高。En和Mn的主要用途:区分语音的清音段与浊音段;区分声母与韵母;无声与有声的分界;作为一种超音段信息
12、用于语音识别。,例:现有单词“one”和“four”的英文发音的语音信号,下图为检 测信号的相应短时能量脉冲分布,分析哪个为“one”的短时 能量谱,哪个为“four”的短时能量谱,并说明理由,答:(a)为“one”的短时能量谱,(b)为“four”的短时能量谱。这是因为浊音信号的短时能量谱相对要大,而清音的短时能量谱相对较小。图(4-b)中在开始段明显有一段能量较小,为清音“f”的能量谱,因此可以判定(4-b)为“four”的短时能量谱,同理可以判定图(4-a)为“one”的短时能量谱。,第4章语音信号的时域分析4.4短时平均过零率和上升过零间隔 短时平均过零率离散信号相邻样本取不同符号时,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 信号 时域 分析

链接地址:https://www.31ppt.com/p-5841477.html