欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > DOC文档下载  

    四川方言语音特征分析.doc

    • 资源ID:3927547       资源大小:550KB        全文页数:37页
    • 资源格式: DOC        下载积分:8金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要8金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    四川方言语音特征分析.doc

    2 毕业设计(论文)题 目 四川方言语音特征分析 摘 要语言是人类特有的功能,是交际活动中进行沟通、交流和传递信息最重要的工具。语言是人类最重要、最常用、最方便、最有效的信息交换方式。四川话作为我国方言中的一种,在西南地区有很大的影响,属于汉语北方方言西南官话的一个分支,语音、词汇、语法等和普通话有很大的一致性,也有自己不同的特点。本文以MATLAB为软件平台,对录制好的四川话语音利用MATLAB进行处理,对原始录音提取特征参数、端点检测、浊音基频分析、清音线性预测(LPC)技术等处理来对四川方言进行语音特征分析。关键词:四川话;MATLAB;端点检测;线性预测;清音分析;浊音基频分析AbstractLanguage is the humans unique skill, and it is also the most important tool for communicating, message sending in the social intercourse. Language is also the most important, convenient and effective way of information exchange. Sichuan dialect has a huge impact in the southwest part of China as one of a dialect in all Chinese dialects. Modern Sichuan dialect belongs to the division of southwest official language in northern China. There are great consistency in pronunciation, vocabulary, grammar and mandarin, but they also have their own characteristics.This article is based on the MATLAB software platform, using the MATLAB to dispose the recorded Sichuan dialect, the original recording parameters, endpoint detection and frequency analysis, voiced sounds linear prediction (LPC) rules to such treatment technology in Sichuan dialect speech feature analysis.Keywords: Sichuan dialect; MATLAB; Endpoint detection; Linear forecast; Sounds analysis; The voiced and frequency analysis目 录摘 要IAbstractII第1章 概述11.1 MATLAB概述11.1.1 MATLAB的特点21.1.2 MATLAB在数字语音处理中的应用21.2 汉语语音和语言31.2.1 汉语语音31.2.2 四川话概述4第2章 四川方言语音特征分析原理52.1 语音信号的时域分析52.2 语音短时分析技术62.2.1 语谱图62.2.2 短时能量和短时平均幅度72.2.3 短时过零率82.3 语音端点检测92.4 线性预测(LPC)分析9第3章 系统设计113.1 系统设计的基本原理113.2 系统软件设计113.2.1 时域分析123.2.2 短时能量123.2.3 端点检测和自相关函数133.2.4 清音的线性预测系数和多项式拟合153.3 软件操作18第4章 实验结果与分析194.1 时域波形图194.2 语谱图204.3 短时能量图214.4 短时幅度224.5 端点检测234.6 清音的线性预测系数和多项式拟合25第5章 总结与展望31参考文献32致 谢34第1章 概述语音信号处理是利用计算机对语音信号进行分析和综合,以生理学、心理学、语言学及声学等学科为基础,以信息论、控制论、系统论的理论作指导,通过应用信号处理、统计分析、模式识别等现代技术手段来实现对人类语音的自动理解和处理的一门理论性强、实用面广、内容新、难度大的综合性学科,它是信息科学中一个十分活跃的研究领域,其研究成果具有重要的学术和应用价值。语音信号处理的目的:一是要通过处理得到一些反映语音信号重要特征的语音参数以便高效的传输或储存语音信号信息;二是要通过处理某种运算以达到某种用途的要求,例如人工合成出语音、辨识出讲话者、识别出讲话的内容等等。MATLAB是由美国Math Works公司发布的面向科学计算、数据可视化以及交互式程序设计的高技术计算语言。MATLAB具有强大的作图功能,智能化程度高,功能丰富强大,扩展性强。MATLAB作为编程语言和可视化工具,具有一系列丰富的功能,可解决教学、科学计算和工程应用中的许多问题。本设计就是利用MATLAB强大的作图功能,通过在MATLAB上对语音进行的各项处理后得到的图形和一些参数,来对四川方言的语音特征进行初步的分析。1.1 MATLAB概述MATLAB自1982年推出以来,凭借其高性能的数值计算和可视化开发环境而备受青睐,它集成数值分析、矩阵计算、信号运算、信号处理和图形显示于一体,构成了一个方便且界面友好的用户环境,其强大的扩展功能为各个领域的应用提供了基础。各领域专家学者相继推出了不同工具箱,发展到今天,至今已升级到7.x版本。随着版本的升级对使用环境提出了更高的要求,内容不断扩充,功能更为强大。MATLAB将不同分支的算法以函数的形式分类成库,同时具有可扩展性,通过编写M文件可以组成用户自己的工具箱。MATLAB在语音处理方向得到了广泛的运用,例如语音识别、语音的端点检测、语音的滤波设计等。1.1.1 MATLAB的特点1) MATLAB的基本数据类型是双精度的、无须定义的、下表从1开始的复数矩阵。其中行向量是1×n的矩阵,列向量是n×1的矩阵。2) MATLAB有命令行操作(像一个高级计算器)和编程执行两种使用方法,分别适用于简单的草稿式计算和复杂的应用开发。3) 绝大多数MATLAB函数的输入输出参数个数都是可变的,调用函数时输入输出参数的个数不同,函数完成的功能会有一定的差异。4) MATLAB操作界面友好,编程语言简练,算法高效准确,图形显示和数据可视化功能强大。5) MATLAB的帮助系统非常完善,内容包括各个组件的入门指南、完全用户手册和示例演示等,具有多种获取和使用帮助的简便方法。6) MATLAB采用开放性结构设计。1.1.2 MATLAB在数字语音处理中的应用数字语音处理是数字信号处理的一个重要分支,数字语音处理在语音增强、语音合成、语音识别和说话人识别等方面有着广泛的应用背景和发展前景。数字语音处理涉及到数字语音的短时时域分析、短时频域分析、同态分析、线性预测编码以及语音处理的集成应用等内容。数字语音处理以MATLAB为平台,充分利用MATLAB的快速运算,文字、动态图形、声音及交互式人机交互界面的特点来对语音进行各项处理。MATLAB提供了语音文件的读写函数以及录音和放音功能。同时,MATLAB提供了语音的和、差等线性运算,以及卷积、相关等非线性运算。对于语音处理中常用到的各种窗函数,MATLAB也都提供了相应的函数,比如hamming(n)即长度为n点的汉明窗。MATLAB一个重要的特点是易扩展性。近几年来,有许多科学家、数学家、工程师等开发了一些新的、有价值的应用程序,这些应用程序都可以被纳入MATLAB工具箱。比如voicebox工具箱,其中包含了很多与语音信号处理相关的函数,因此MATLAB在语音信号处理中得到了广泛运用。1.2 汉语语音和语言人们讲话时发出的话语叫语音,它是一种声音,具有称为声学特征的物理特征。然而他又是一种特殊的声音,是人们进行信息交流的声音,是组成语言的声音。因此语音是声音和语言的组合体。语音是由一连串的音组成语言的声音。所以对语音的研究包括两个方面,一个是语音中各个音的排列由一些规则所控制,对这些规则及其含义的研究成为语言学;另一个是对语音中各个音的物理特征和分类的研究称为语音学。1.2.1 汉语语音汉语,又称中文、汉文,汉语,即汉民族共同语,是世界主要语言之一,也是世界上使用人数最多的语言,属于汉藏语系分析语,有声调,以北方官话为基础,东北官话为辅而形成的,它以北京语音为标准音,但是又不等同于北京话,是摒弃了北京语音中不规范的语音现象而形成的,即普通话。汉语的文字系统汉字是一种意音文字,表意的同时也具一定的表音功能。汉语包含书面语以及口语两部分。古代书面汉语称为文言文,现代书面汉语一般指现代标准汉语。现代汉语方言众多,某些方言的口语之间差异较大,而书面语相对统一。汉语语音的基础是汉语拼音,由10个元音和22个辅音组成,共计21个声母和38个韵母。汉语具有单音节的特点,一个汉字对应一个音节。汉语的音节由声母、韵母和声调组成。汉语中一般有五个声调,即阴平、阳平、上声、去声以及轻声。汉语中相同的声母和韵母所构成的音节随声调的不同而具有完全不同的意义,对应不同的汉字,声调在汉语普通话中承担着非常重要的构字辨意作用。汉语语音具有以下特点:1) 音系简单;2) 汉语语音听感上有清亮、高扬和舒服、柔和的感觉;3) 有鲜明的轻重音和儿化韵,所以字词分隔清楚,语言表达准确而丰富。1.2.2 四川话概述四川话,又称四川方言、巴蜀方言,属汉语西南官话,四川话一般被看作西南官话的代表,和云南话、贵州话共同构成一致性较高的西南方言。宋代以前的四川方言和元代至今的四川话截然不同,依据宋代文献显示,当时的学者把四川方言与西北方言合称为“西语”,属同一方音语系。蒙古人和女真人两次北方民族的入侵,给四川地区带来了灾难性的人口剧减。到清朝初年,四川人口甚至不足五十万。从1671年开始大规模移民,到1776年为止,105年内四川合计接纳移民623万人,史称湖广填四川,现代的四川话就是在这次大规模的移民运动中形成的。语言文字工作关系到国家的统一、民族的团结、社会的进步。实现国家通用的语言文字(普通话和汉字)的规范化、标准化,是促进民族间交流、普及文化教育、发展科学技术、适应现代经济和社会发展的需要,是提高工作效率的一项基础工程,因此普通话的普及非常的重要。四川话作为汉语方言中的一种,属于北方语系,跟普通话在语音、词汇、语法等方面相当的接近,所以给那些不了解二者差别的四川人在说好普通话上带来了一定的困扰,因此,找出四川话与普通话之间的差别和共性,了解四川方言的语音特征对说好普通话有着非常重要的作用。第2章 四川方言语音特征分析原理四川话和普通话一样,都是非平稳的信号,但是在短时间范围内(一般在30ms左右)却是平稳的,其特性基本保持不变,所以我们可以采用以一帧为单位对四川方言语音进行短时分析。四川话语音系统共有20个声母、36个韵母、4个声调,还有韵母儿化现象,声母韵母都比普通话少,只有舌尖前音,没有舌尖后音;大部分地区所使用的四川话没有平舌和翘舌之分,基本上把普通话中翘舌音念为平舌音 ;四川话里n和l不分;音节“ing”与“in”跟大部分南方方言一样,完全通读,统一发音为“in”;“eng”与“en”在大部分音节中通读为“en”,但是“eng”和“en”而在声母“b”、“p”、“m”、“f”后能够区分,前者变为“ong”,而后者仍然发“en”的音等。因此在本设计中通过语音特征参数的提取、端点检测、基频检测、清音的线性预测(LPC)分析对四川方言进行语音特征分析。2.1 语音信号的时域分析语音信号处理的各种应用的前提和基础是对语音信号的分析,根据分析的参数不同,语音信号分析可以分为时域、频域、倒谱域等,以上的分析方法中,最简单、物理意义最明确的就是时域分析。语音信号的时域分析就是分析和提取语音信号的时域参数。进行语音分析时,最先接触到并且也是最直观的是它的时域波形。语音信号本身就是时域信号,因而时域分析是最早使用也是应用的最广泛的一种分析方法,这种方法直接利用语音信号的时域波形。时域分析方法的特点:1) 表示语音信号比较直观、物理意义明确。2) 实现起来比较简单、运算最少。3) 可以得到语音的一些重要的参数。4) 只使用示波器等通用设备,使用较为简单等。语音信号的时域参数有短时能量、短时过零率、短时自相关函数和短时平均幅度差函数等,这是语音信号的一组最基本的短时参数,对于不同性质的语音它们具有不同的概率分布,因此在各种语音信号数字处理技术中都要应用。2.2 语音短时分析技术分析是处理的前提和基础,分析的目的是提取需要的信息,获取特征表示参数,分析可分为时域分析、频域分析、同态分析等;模型分析与非模型分析等;从整体来看,语音信号的本质特征参数是随时间而变化的,所以它是一个非平稳态过程,不能用处理平稳信号的数字信号处理技术对其进行分析处理。虽然语音信号具有时变特性,但在一个短时间范围内(一般认为在1030ms的短时间内),其特性基本保持不变,是相对稳定的,因而可将其看作是一个准稳态过程,即语音信号具有短时平稳性,以利于语音信号分析,这是因为语音信号的短时平稳性过于强调了语音的平稳性。任何语音信号的分析和处理必须建立在“短时”的基础上,即进行“短时分析”。将语音信号分段来分析其特征参数,其中每一段称为一帧,帧的长度一般取为1030ms。对于整体的语音信号来讲,分析出的是由每一帧特征参数组成的特征参数时间序列。通常我们采用一个长度有限的窗函数来截取语音信号形成分析帧,窗函数将需要处理区域之外的样点置零来获得当前语音帧。理想窗函数的频率响应要求主瓣无限狭窄且没有旁瓣(即无频谱泄漏),但这种窗函数在实际工程中是无法实现的。根据不同的应用可以采用矩形窗、汉明窗等来逼近理想的频率响应。本设计就是通过采用短时分析技术,获得语音的语谱图、短时能量和短时平均幅度图、短时过零图以及清音的线性预测系数的多项式拟合图,从而完成对四川方言的语音特征分析。2.2.1 语谱图短时谱只能反映语音信号的静态频率特性,不能反映语音信号的动态频率特性。因此人们致力于研究语音的时域分析特性,把和时序相关的傅里叶分析的显示图形称为语谱图。语谱图是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任意一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。语谱图中显示了大量与语音的语句特性有关的信息,它综合了频谱图和时域波形的特点,明显地显示出语音频谱随时间的变化情况,或者说是一种动态的频谱。目前,现代的语谱图的阅读技术已经显示出语谱图中包含有充足的语音学信息,一些语音学家能够用其语音学知识,从语谱图上可见的发声特征来解释语谱图。语谱图中的花纹有横杠、乱纹等。浊音一般对应横杠,横杠所在之处是基音频率的整数倍,而清音从语谱图上看,表现为乱纹。在一个语音段的语谱图中,有没有横杠出现是判断它是否是浊音的重要标志。2.2.2 短时能量和短时平均幅度语音信号的短时能量分析是基于语音信号能量随时间有相当大的变化,特别是清音段的能量比浊音段的小得多。短时平均能量特征主要用途如下:1) 可以作为区分清音段和浊音段的特征参数。浊音段的能量En明显高于清音段。通过设置一个能量门限值,可以大致判定浊音变为清音或者清音变为浊音的时刻,同时也可以大致划为浊音区间和清音区间。2) 在信噪比较高的情况下,可以用来区分声母与韵母的分界,无声与有声的分界,连字(指字之间无间隙)的分界等。3) 作为一种超音短信息,用于语音识别中。短时平均能量定义如下: (2.1)其中N为窗长。短时能量函数的一个主要问题是对信号电平值过于敏感。由于需要计算信号样值的平方和,在定点实现时很容易产生溢出。为了克服这个缺点,可以定义一个平均幅度函数来衡量语音幅度的变化: (2.2)式(2.2)可以理解为对的线性滤波运算,实现框图如图2.1所示。与短时能量比较,短时平均幅度相当于用绝对值之和代替了平方和,简化了运算。图2.1 短时平均幅度实现框图2.2.3 短时过零率过零率可以反映信号的频谱特性。短时过零率表示一帧语音中语音信号波形穿过横轴(零电平)的次数。过零分析是语音时域分析中最简单的一种。对于离散时间信号,如果相邻的取样值改变符号,我们称之为“过零”;而对于连续语音信号,过零即意味着时域波形通过时间轴。统计单位时间内样点值改变符号的次数就可以得到平均过零率。对窄带信号来说,用平均过零率来度量时相当精确的。实际应用时,过零率容易受到A/D转换时的直流偏移、50Hz交流电源干扰以及噪声的影响。减少这些干扰可以有两种方法:一种是采用带通滤波器消除信号中的直流和50Hz低频分量;另一种方法是用过门限率来修改过零率,减少随机噪声的影响。在零电平附近设置正负门限±T,按与短时过零率相似的定义表示平均过门限率为: (2.3)过门限率反映了穿过正负门限的次数,用它来修改过零率就具有了一定的抗噪声能力。因为如果存在随机噪声干扰,只要信号没有超过-T,T的范围,就不可能产生虚假的过零数。所以利用短时平均过零率可以从背景噪声中找出语音信号,可用于判断寂静无声段和有声段的起点和终点位置。短时平均过零率也可以区分清音和浊音。因为在发浊音时,尽管声道有若干个共振峰,但由于声门波引起了谱的高频衰落,其语音能量约集中于3KHz以下;而发清音时,多数能量出现较高频率。即高频率意味着高的平均过零率,低频率意味着低的平均过零率,因此可以利用短时平均过零率从背景噪声中找出语音信号,可以判断无声段和有声段的起点和终点位置。2.3 语音端点检测语音端点检测是语音分析、合成和识别中的一个重要环节。目的是从包含语音的一段信号中找出语音的起始点及结束点,从而只存储和处理有效语音信号。有效的端点检测除了能够减少数据的存储量和处理时间,还能排除无声段的噪声干扰。语音信号一般分为无声段、清音段和浊音段。无声段是背景噪声段,平均能量最低。浊音段为声带振动发出对应的语音信号段,平均能量最高。清音段为空气在口腔中的摩擦、冲击或爆破而发出的语音信号段,平均能量居于两者之间。采用基于能量的算法来检测浊音通常是可行也是可靠的。但对清音而言,除非信号具有极高的信噪比,否则,采用能量算法从背景噪声中鉴别出清音就不够可靠了。清音段与无声段的波形特点有明显不同,无声段信号变化比较缓慢,清音段信号由气流摩擦产生,变化比较剧烈,穿越零电平次数较多。经验表明,通常清音段过零率最大,无声段的过零率的变化范围较大。可见,振幅特性适合检测浊音,过零率适合检测清音,为了同时检测两者,一般综合利用两种特性来进行端点检测。2.4 线性预测(LPC)分析语言信号数字处理技术和方法多种多样,线性预测(LPC)分析法是最有效的语音分析技术之一。在估计基本的语音参数(例如基音、共振峰、功率谱、声道面积函数以及用低速率传输和储存语音)等方面,这种方法已经成为一种主要的技术了。这种方法的重要性既在于它能够极为精确地估计语音参数,又在于它的相应计算速度比较快。语音信号线性预测分析所包含的基本概念是:一个语音抽样能够用过去若干个语音抽样的线性组合来逼近。通过使实际语音抽样和线性预测抽样之间差值的平方(在一个有限间隔上)达到最小值,能够决定唯一的一组预测器系数(预测器系数是线性给合中所用的加权系数)。如果利用P个取样值来进行预测,则称为P阶线性预测。线性预测分析的基本思想是:假设用过去P个取样值,的加权之和来预测信号当前取样值,则预测为 (2.4)式(2.4)中,加权系数用表示,称为预测系数。预测系数就反映了语音信号的特性,可以作为语音信号特征参数用于语音识别、语音合成等。因此本设计运用线性预测(LPC)来提取四川方言语音的线性预测系数,然后进行多项式拟合,通过绘图得到多项式的拟合曲线,并对曲线进行分析,从而完成对四川方言的语音特征分析。将线性预测应用于语音信号处理,不仅是因为它的预测功能,而且更重要的是因为它能提供一个非常好的声道模型及模型参数估计方法。线性预测的基本原理和语音信号数字模型密切相关。第3章 系统设计3.1 系统设计的基本原理语音处理中往往把数字化的语音信号表示为一维或二维(对应于双声道立体声数据)矩阵,因此基于矩阵运算的MATLAB就很自然地应用到语音处理领域。MATLAB为解决复杂的语音处理问题提供了便利,例如语音的端点检测、语音识别、语音的滤波设计等。一个完备的语音信号处理系统不但要具备语音信号的采集功能,而且更重要的是要能完成复杂的语音信号分析和处理算法。通常这些算法运算量大,且又要满足实时或准实时的快速高效处理要求,因此需采用具有强大的作图功能,智能化程度高,功能丰富强大,扩展性强的MATLAB。另外,在要求系统满足较好的通用性的同时,针对不同的应用和不断出现的新处理方法,还要使系统便于功能的改进和扩展。本次设计系统流程图如图3.1所示。图3.1 设计总流程图3.2 系统软件设计本设计以采样频率为8kHz、精度为16比特、单声道的wav音频文件作为声源,以PC机自带的声卡录制自己的几段四川话语音,采集的四川话语音的内容有:“打”和“大”;“陈旧”和“曾经”;“男裤”和“蓝裤”;“中午”和“综合”等4组。本设计是对四川方言进行语音特征分析,主要是从四川话和普通话之间的差异来进行研究,因此会在目前一些语言学的研究基础上找一些比较有代表性的话语进行录制,而对于录制好的每段语音而言,处理方法是相同的,只是在一些处理过程中在一些参数上略有不同,例如语音中每个字的起始点和终点的位置不同。因此在系统软件设计的介绍中以其中一段语音(“打”和“大”)的处理程序为例。3.2.1 时域分析x,Fs,N=wavread('da3.wav');sound(x);subplot(211);plot(x);title('四川话“打”时域波形图');x,Fs,N=wavread('da4.wav');sound(x);subplot(212);plot(x);title('四川话“大”时域波形图');3.2.2 短时能量x,Fs,bits=wavread('da3.wav');save da3,x;x1=x(3500:10000)%第一个音的范围;检测结果是3500:10000wavwrite(x1,8000,16,'da31.wav');sound(x1);%听第一个音figure(1);subplot(211);specgram(x1,2048,Fs,512);title('四川话“打”语谱图');figure(2);subplot(211);y=x(3500:10000);z1=conv(abs(y).2,hamming(40).2);k=3501:length(z1)+3500;plot(k,z1);title('四川话“打”短时平均能量图');x,Fs,bits=wavread('da4.wav');save da4,x;x1=x(3000:12000)%第一个音的范围;检测结果是3000:12000wavwrite(x1,8000,16,'da41.wav');sound(x1);%听第一个音figure(1);subplot(212);specgram(x1,2048,Fs,512);title('四川话“大”语谱图');figure(2);subplot(212);y=x(3000:12000);z1=conv(abs(y).2,hamming(40).2);k=3001:length(z1)+3000;plot(k,z1);title('四川话“大”短时平均能量图');3.2.3 端点检测和自相关函数x,Fs,bits=wavread('da3.wav');save da3,x;T=max(x(3500:5300);%噪声的最大值for i=3500:10000 z2(i)=abs(sign(x(i)-T)-sign(x(i-1)-T)+abs(sign(x(i)+T)-sign(x(i-1)+T);end%确定过0的个数z3=conv(z2(3500:10000),hamming(40);%过零率k=3501:length(z3)+3500;%过零率的变化范围subplot(211);plot(k,z3);%过零率画图figure(1);grid on;title('四川话“打”过零图')N=240x2=x(5701:5940);x2=x2.*boxcar(240);R=zeros(1,240);for k=1:240 for n=1:240-k R(k)=R(k)+x2(n)*(n+k); endendfigure(2);subplot(211);j=1:240;plot(j,R);grid on;title('四川话 “打” 浊音段的自相关函数')x,Fs,bits=wavread('da4.wav');save da4,x;T=max(x(3000:4850);%噪声的最大值for i=3000:12000 z2(i)=abs(sign(x(i)-T)-sign(x(i-1)-T)+abs(sign(x(i)+T)-sign(x(i-1)+T);end%确定过0的个数z3=conv(z2(3000:12000),hamming(40);%过零率k=3001:length(z3)+3000;%过零率的变化范围figure(1);subplot(212);plot(k,z3);%过零率画图grid on;title('四川话“大”过零图');N=240x2=x(5061:5300);x2=x2.*boxcar(240);R=zeros(1,240);for k=1:240 for n=1:240-k R(k)=R(k)+x2(n)*(n+k); endendfigure(2);subplot(212);j=1:240;plot(j,R);grid on;title('四川话 “大” 浊音段的自相关函数'); 语音的取样是从以采样频率为8kHz的语音信号中截取Length(x)(样点数)长个样点值。这段程序主要完成对取样模块中获得的语音进行分帧,算法中分析帧长30ms,即每帧长为240个样点。然后用短时平均能量判断出浊音帧,再对浊音帧进行自相关计算,最后进行基音周期的检测。3.2.4 清音的线性预测系数和多项式拟合x,Fs,bits=wavread('da3.wav');save da3,x;wavwrite(x(5297:5328),Fs,bits,'da31.wav');x,Fs,bits=wavread('da31.wav');xx=filter(1-0.95,1,x);sound(x);x1=real(lpc(xx',10);tmp1=x1(1,:);for i=2:size(x1,1)tmp1=tmp1,x1(i,:);endx=1 2 3 4 5 6 7 8 9 10 11;p1=polyfit(x,x1,13);x3=1:0.1:11;y=polyval(p1,x3);subplot(211);plot(x,x1,'o',x3,y,':');hold on;x,Fs,bits=wavread('da4.wav');save da4,x;wavwrite(x(4850:4855),Fs,bits,'da41.wav');x,Fs,bits=wavread('da41.wav');xx=filter(1-0.95,1,x);sound(x);x1=real(lpc(xx',10);tmp2=x1(1,:);for i=2:size(x1,1)tmp2=tmp2,x1(i,:);endx=1 2 3 4 5 6 7 8 9 10 11;p2=polyfit(x,x1,13);x3=1:0.1:11;y=polyval(p2,x3);subplot(211);plot(x,x1,'o',x3,y,'r');legend(':','打','r','大',2);title('“打”和“大”清音前部')hold off; x,Fs,bits=wavread('da3.wav');save da3,x;wavwrite(x(8500:8689),Fs,bits,'da32.wav');x,Fs,bits=wavread('da32.wav');xx=filter(1-0.95,1,x);sound(x);x2=real(lpc(xx',10);tmp3=x2(1,:);for i=2:size(x2,1)tmp3=tmp3,x2(i,:);endx4=1 2 3 4 5 6 7 8 9 10 11;p3=polyfit(x4,x2,12);x5=1:0.1:11;y1=polyval(p3,x5);subplot(212);plot(x4,x2,'o',x5,y1,'k');hold on;x,Fs,bits=wavread('da4.wav');save da4,x;wavwrite(x(8000:8920),Fs,bits,'da42.wav');x,Fs,bits=wavread('da42.wav');xx=filter(1-0.95,1,x);sound(x);x2=real(lpc(xx',10);tmp4=x2(1,:);for i=2:size(x2,1)tmp4=tmp4,x2(i,:);endx4=1 2 3 4 5 6 7 8 9 10 11;p4=polyfit(x4,x2,12);x5=1:0.1:11;y1=polyval(p4,x5);subplot(212);plot(x4,x2,'o',x5,y1,'r');legend(':','打','r','大',3);title('“打”和“大”清音后部')hold off;3.3 软件操作1) 启动MATLAB软件。2) 将录制的四川方言语音放置目录为C: MATLAB6p5 work。3) 编写源代码并编译程序。4) 运行程序:观察运行后的图像和处理后的结果。5) 退出MATLAB。第4章 实验结果与分析4.1 时域波形图 图4.1 “打”和“大”的时域波形图 图4.2 “陈旧”和“曾经”的时域波形图 图4.3 “男裤”和“蓝裤”的时域波形图 图4.4 “中午”和“综合”的时域波形图本设计第一步就是通过得到所有录音的时域波形图,从而找到每段录音中我们所要研究的单个字的大致声音区间。通过上面四幅时域波形图可得出四川话“打”和“大”、“陈旧”和“曾经”、“男裤”和“蓝裤”、“中午”和“综合”中“打”和“大”、“陈”和“曾”、“男”和“蓝”、“中”和“综”的大概的声音区间(表4.1)。表4.1录制的四川话里研究字大概的声音区间研究字声音区间研究字声音区间打350010000大300012000陈30009500曾400011000男20009000蓝400011000中400010000综400098004.2 语谱图 图4.5 “打”和“大”的语谱图 图4.6 “陈”和“曾”的语谱图 图4.7 “男”和“蓝”的语谱图 图4.8 “中”和“综”的语谱图语谱图是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,从上面四图中可以看出有些地方颜色要深一点,有些地方颜色要浅一些,它显示出语音频谱随时间的变化情况。浊音一般对应横杠,横杠所在之处是基音频率的整数倍,而清音从语谱图上看,表现为乱纹,可以大致的判断语音主要集中在哪些频率上和浊音的大致范围。本设计对语谱图只做初步了解,不做进一步的研究。 4.3 短时能量图 图4.9 “打”和“大”的短时平均能量图 图4.10 “陈”和“曾”的短时平均能量图 图4.11 “男”和“蓝”的短时平均能量图 图4.12 “中”和“综”的短时平均能量图由上面四幅短时平均能量图可知四川话里“打”和“大”、“陈”和“曾”、“男”和“蓝”、“中”和“综”的每个字的短时能量区间(表4.2)。表4.2录制的四川话里研究字的短时能量研究字短时能量研究字短时能量打53288500大48508000陈43408000曾59379000男37507000蓝62009600中53708400综530092004.4 短时幅度 图4.13 “打”和“大”浊音段的自相关函数 图4.14 “陈”和“曾”浊音段的自相关函数 图4.15 “男”和“蓝”浊音段的自相关函数 图4.16 “中”和“综”浊音段的自相关函数从上面四幅浊音段的自相关函数图可以看出,“打”的第一个峰值的位置约出现在22这个点上,“大” 第一个峰值的位置约出现在28这个点上,“陈” 的第一个峰值的位置约出现在22这个点上,“曾” 的第一个峰值的位置约出现在32这个点上,“中” 的第一个峰值的位置约出现在27这个点上,“

    注意事项

    本文(四川方言语音特征分析.doc)为本站会员(仙人指路1688)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开