欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    基于小波变换的说话人语音特征参数研究.ppt

    • 资源ID:6042980       资源大小:274KB        全文页数:15页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    基于小波变换的说话人语音特征参数研究.ppt

    基于小波变换的说话人语音特征参数研究,西安电子科技大学硕士学位论文宋丽亚,摘要 说话人识别是利用说话人的语音特征对说话人的身份进行辨认或确认。在说话人识别系统中,最重要的是能够从语音片断中提取代表说话人独有特征的稳定参数。针对短时傅立叶分析在提取说话人特征参数时的缺陷,本文通过对小波理论和说话人识别技术的研究,借鉴了一种传统的基于听觉机理的特征参数MFCC(Mel频域倒谱系数),利用小波变换、小波多分辨分析和小波包变换,构造出了两种基于小波变换的说话人识别特征参数:IWPTC(不完全小波包变换系数)和WPTC(小波包变换系数)。,通过在Matlab平台上构建的说话人识别系统(包括文本有关和文本无关),验证了这两种参数的有效性:它们的识别率均高于MFCC参数。理论和实验证明,利用小波变换提取的说话人识别特征参数相比于传统的短时分析方法确实具有更好的识别特性。关键词:说话人识别 小波变换 MFCC参数,论文摘读,绪论部分,说话人识别技术虽然在近二十年得到了迅速发展,但仍然有许多问题需要解决,其中最关键的问题是,究竟用语音信号的哪些特征或特征变换来表征说话人才是有效而可靠的?语音信号是一种典型的非平稳时变信号,但是在1030ms的短时段内,语音信号是近似平稳的,这是由于人的发音器官不可能是毫无规律地快速变化,因此其频谱特性和某些物理特征参量可以近似看作是不变的,这样我们就可以用平稳过程的分析方法来处理语音信号了。传统意义上的特征参数构造就是基于短时平稳的假设,需要,将原始信号分成1030ms的短时帧,主要采用短时傅立叶变换的分析手段。由于短时傅立叶变换只具有单一分辨率的分析,所以本质上并不适合对语音信号这种非平稳时变信号的分析,用它提取的特征参数必是不完善的。时频分布理论和小波理论的兴起为非平稳信号的分析和表示提供了新的手段,并已经在语音信号的分析和表示方面取得了一定的成功,有很大的发展潜力。小波变换采用多分辨分析的思想,非均匀的划分时频空间,在低频时有高的频率分辨率和低的时间分辨率,在高频时有低的频率分辨率和高的时间分辨率。这样对于频率成分复杂的语音信号,在服从不确定性原理的前提下,使,不同的时频区都可以获得比较合适的时一频分辨率。目前,小波分析应用于端点检测、基音提取、语音编码等方面都有较成功的应用,但是对于说话人识别的特征参数提取方面涉及较少。用小波变换构造新的语音识别特征参数,不必受短时平稳假设的限制,所以作者希望借助于小波分析工具能够得到更高效的说话人识别特征参数。在这个过程中,作者借鉴了MFCC参数的提取过程,提取出了两种基于小波变换的特征参数:IWPTC(不完全小波包变换参数)、WPTC(小波包变换参数),在Matlab平台上进行了测试,结果表明,采用这两种参数的说话人识别系统的识别率均高于MFCC参数。,第四章 基于小波变换的新参数(部分),41倒谱分析和MFCC参数,倒谱特征是用于说话人个性特征表征和说话人识别的最有效的特征之一。语音信号是声道频率特性和激励信号源二者的共同结果,后者对于某帧而言常带有一定的随机性,而说话人的个性特征很大程度上取决于说话人的发音声道,即声道频率特性,因此,需要将二者进行有效地分离。由于语音信号是由激励信号与声道频率相卷积的结果,可以把信号作适当的同态滤波将卷积的两个部分分离,滤波的关键是先将卷积处理化为乘积,然后作对数处理,使之化为可分离的相加成份。人耳对声音的感知在频域是非线性的,经验证明,在信号处理中考虑到非线性特性,能够使提取出来的特征参数更加强壮。Mel标度描述了人耳对频率感知的非线性特性。,MFCC就是基于听觉系统的临界带效应、在Mel标度频率域提取出来的一种倒谱参数。许多实验表明,大部分情况下,MFCC优于其它倒谱系数。,42基于小波变换的新参数,1新参数的提出 通过对MFCC参数的提取原理和提取过程的分析,可以看到这种参数的提取还是基于短时平稳的假设条件:人为地将语音信号分割成10-20ms的帧序列以满足短时平稳的要求,为了减少截断误差又采用了帧叠的方法,这些手段都会导致计算误差的产生,影响语音处理的稳定性和准确性。提取MFCC参数的核心是利用短时傅立叶变换,在第四章我们已经提到过短时傅立叶变换的缺陷:因其固定的窗口形状导致了对信号分析只能采用一定的时频分辨率,而不能兼顾二者,所以不太适合对语音信号这种非平稳信号进行分析。小波变换具有可变的时频分辨率,即在低频时有高的频率分辨率和低的时阃分辨率,在高频时有低的频率分辨率和高的时间分辨率,被称为“数学显微镜”,还具有实现简单和无平稳性要求,等诸多优点,可以弥补短时分析的缺憾,能够对信号进行更细致的分析。从理论上讲,凡是传统使用短时分析的地方,在语音信号处理中,都可以用小波分析来代替。目前,小波分析应用于端点检测、基音提取、语音编码等方面都有较成功的应用,但是对于说话人识别的特征参数提取方而涉及较少,所以作者希望借助于小波分析工具得到更高效的说话人识别特征参数。2参数的算法构思 如何将小波系数参数化一直是将小波变换用于识别的一个重要问题,所以很自然地想到可以借鉴短时傅立叶变换提取特征参数的做法,在此方面,最有效的语音参数就是MFCC了。提取MFCC时,对语音信号先作FFT变换进行频率分析,再通过一组三角滤波器进行滤波,这两个步骤可以用小波变换来取代,因为从滤波器的角度来看,对信号f(x)进行小波变换就相当于经过一系列高通和低通滤波器的滤波,从而得到信号在各个尺度的细节信息和剩余信息。在分析了倒谱及MFCC参数的提取过程后,发现可以从两个方面来尝试改进:I用小波变换代替短时傅立叶变换:,A用离散小波变换代替傅立叶变换,其中采用的三角滤波器组不变,尝试由离散小波变换引出新参数;B由第四章可以看到,小波包分解可以对信号以二进制方式进行频率细分,从而达到提高频率分辨率的目的,其实从某种角度来说,小波变换的作用和滤波器类似,那么是否可以用小波包或者近似小波包分析信号代替三角滤波器组的滤波作用?II提取参数的最后阶段,实质上是使用分离器以分离滤波器组能量,MFCC采用的是DCT,那么小波变换是否是比DCT更好的分离器?某些资料曾经证明,在编码应用领域,使用小波变换取代DCT变换,分离效果更好。在说话人识别领域,是否也是这样呢?III如果去掉取对数和进行DCT变换而直接采用小波系数,是否可行?基于以上想法,与MFCC参数的提取相比,经过筛选,构造了两种特征参数:IWPTC(不完全小波包变换参数)和WPTC(小波包变换参数)。,结论(部分),实际信号分析时,对低频信号要求用宽时窗,对高频信号用窄时窗,以提高波形的分辨率,故而希望有一个可调的时间窗。另外,变化激烈的高频信号(如脉冲信号)的频谱较宽,因此要求有宽频窗;反之,低频信号则要求窄频窗,以提高谱线分辨率。小波分析就具有这样优异的特性,可以弥补短时傅立叶分析的缺陷,所以自从被提出之后,就引起了很大的关注,在短短的几年内出现了大量的研究成果,并很快将它应用到图像处理、模式识别等等方面,形成了新一轮的研究热潮。小波分析理论是一门艰深的数学学科,它包含许多专业的数学知识,加上时间紧迫,本人对小波的认识还只是处在一个很肤浅的层面上,许多内容都还不甚了解,目前的工作也只不过是初探而已,尚有许多可待挖掘的地方。通过在撰写;论文期间的研究与思考,作者认为以下几个方面也具有研究价值:1)由于采用了小波包变换,使得其对信号频率细致的分析导致提取参数时的速度较慢,识别时间较长,这是一个缺憾,如果能够提高小波包变换的算法速度将可以提高提取速度;,2)提取参数的最后阶段使用分离器分离滤波器组能量,本论文采用的是离散余弦变换,相信有更好的分离器,如果可以寻求到比离散余弦变换更好的分离器,预计也可以提高特征参数的识别质量;3)在模板匹配的过程中,也可以利用小波变换分层提取的特性,采用两级搜索:先识别信号的低分辨率段,如果匹配不成功就无需继续识别细节部分,这样可以人大减少计算量,从而提高识别速度;4)识别过程采用的是矢量量化的方法,没有对其它识别方法进行测试,神经网络的应用近年来也是语音识别方面的热点,许多文章论证了采用神经网络的优越性,所以可以尝试将神经网络结合小波分析,提取更有效的特征参数;5)许多文献都证明了加权的特征矢量比不加权的特征矢量具有更有效的识别率,特征矢量的每一维对识别率的贡献都应该是有所不同的,即具体参数分量对不同说话人的区分程度是不同的,本文在此方面的研究还未涉及到,希望可以有更进一步的探索与论证;,6)本文采用的小波函数是Daubechies小波,但它是否是提取说话人特征参数的最佳小波函数?是否还有比它更适合于这个领域的小波函数?或者可以对某种小波函数加以适当改进?另外,单纯针对Daubechies小波,由于它是一个小波系,采用其中的哪一种小波如db4小波还是db6小波更好?7)许多人在说话的时候会带有口音,而口音也是人在听声辨人的过程中起到重要作用的因素之一,如果在说话人识别中加入对口音的识别,应该能够提高系统的识别率。但是对口音识别的研究目前也还比较少,因此预料这方面的研究难度会很大。,谢谢!,

    注意事项

    本文(基于小波变换的说话人语音特征参数研究.ppt)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开