信息检索论文新疆少数名族语言语音识别技术的研究.doc

上传人：文库蛋蛋多

文档编号：4020886

上传时间：2023-04-01

格式：DOC

页数：12

大小：729KB

《信息检索论文新疆少数名族语言语音识别技术的研究.doc》由会员分享，可在线阅读，更多相关《信息检索论文新疆少数名族语言语音识别技术的研究.doc（12页珍藏版）》请在三一办公上搜索。

1、目录摘要1关键词11 前言21、1语音识别技术概述21、2中国少数民族语言概述32 新疆少数民族语言发音特点分析42、1 中国少数民族语音特性分析42、2 中国少数民族语音识别研究现状53 少数语言研究中的关键技术和模型63、1语音识别技术流程63、2预处理算法63、2、1语音信号的获取63、2、2语音信号的降噪增强73、3端点检测算法73、4 针对语音特征建立语音识别模型83、5少数民族的语言模型84 建立相关的语音库85 结论9致谢9参考文献11新疆少数名族语言语音识别技术的研究摘要：语音识别是当今语音研究的热点，它是一门涉及多领域的交叉学科，也是模式识别和人工智能领域的重要分支。针对新

2、疆有着55个少数民族这一实际情况，不少语言都处于濒临状态，因此，本文主要介绍了语音识别在少数民族语言应用中的技术和概况。希望利用这一数字化技术达到保护少数民族语言文化遗产的目的。在新疆，少数民族尤其是维吾尔族在新疆人口中占有60%的比例。新疆地区官方语言是汉语和维吾尔语由于维吾尔语的语音特性,使得维汉之间的语言差异很大,正是这种少数民族的构成、人口与语言文字状况,使少数民族语言文字信息技术的开发与应用成为新疆信息化建设中不可或缺的一个重要方面,也是国家信息化的基础之一。而研究维吾尔语的语音识别技术是新疆信息化建设的内容之一,自然具有重大的研究意义。到目前为止,国外无一机构(包括微软、IBM等跨

3、国公司)能够实现对维吾尔语的实时识别以及合成。所以目前国际上在此领域的成果还是一片空白。而纵观目前新疆民族语言信息技术研发与应用现状,目前新疆信息业内还没有一个完备的维吾尔语的语音识别软件。随着新疆经济的发展,旅游资源的开发,维吾尔语人机对话系统的开发工作已是一个很紧迫的任务。语音系统广泛的应用市场以及维吾尔族用户所占比例表明维吾尔语语音识别系统研究开发工作的必要性及不可忽视的广阔的市场前景。维吾尔语语音识别研究不仅会给新疆地区语音研究领域建立牢固的基础,也将对促进维吾尔语言文化的繁荣、发展和科技进步具有积极的意义。关键词：语音识别，隐马尔可夫，数字化处理，少数民族语言1 前言：近几年,新疆的

4、语音识别技术趋于成熟,发展迅速,尤其是大词汇表汉语语音识别系统的研究使人们看到了语音技术走向大众化、实用化的愿景。至今为止,汉语的朗读及口语语音识别都已经达到了一个较好的识别性能,声学模型自适应、发音自适应等各种技术被广泛使用。无论是听写机、电话语音识别还是口语对话识别都正处于实验转化阶段。然而,新疆少数名族的语言文字博大精深,中文除汉语外还包含各种少数民族语言。各少数民族语言语音识别技术的研究还处于初期阶段。新疆地处中国西北边陲和亚欧大陆腹地,少数民族人数占新疆总人口的60.13%。这种特殊的地理、文化、环境原因,造成该地区在研究少数民族语音文字方面的优势。近年来,少数民族语言语音文字处理技

5、术的研究已逐步成为热点,在国家自然科学基金、社会科学基金和各部委研究基金的支持下,现代维吾尔语口语语料库建设不断完善,非特定人连续语音识别的研究水平有所提高。研究由固定内容、固定模式的朗读语音,逐步转向灵活性较强的口语对话。研究维吾尔语语音识别中发音变异现象将有助于提高少数民族语言语音基础和应用研究水平,探索和拓宽少数民族语音识别的研究道路,保证科研资源的共享和科学研究的延续性,既加速了推进。 1、1语音识别技术概述语音识别技术，也被称为自动语音识别（Automatic Speech Recognition, ASR），其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编

6、码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。语音识别技术是以语音信号处理为研究对象，让机器接收并识别、理解语音信号，并将其转换为相应数字信号的技术。让机器听懂人类的语言，这是人们长期以来梦寐以求的事情，而语音识别是一门非常复杂的交叉性学科，它涉及语音语言学、计算机科学、信号处理学、生理学、心理学等一系列学科，是模式识别的重要分支。50年代，是语音识别研究工作的开始时期，它以贝尔实验室研制成功可识别十个数字的Audry系统为标志。20世纪80年代语言识别研究进一步走向深入，基于特定人孤立语音技术的系统研制成功。在过去的30年里，隐马尔

7、可夫模型和人工神经元网络在语音识别中得到了成功的应用。语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。并通过算法和计算机技术相结合的方式来实现。目前，这样的系统能够做到识别理解数十万条词汇的连续语音信号。这种现代模式识别系统除了在语音领域的应用外，还可以广泛应用于信号处理和模式识别的其他领域。语音识别一般分为两个步骤:学习和识别阶段。学习阶段的任务是建立识别基本单元的声学模型以及语言模型。识别阶段是将输入的目标语言的特征参数和模型进行比较，得到识别结果。语音识别系统本质上讲是一种模式识别系统，其原理如下图所示：图1语音识别原理示意图该流程简单

8、介绍如下：（1）语音采集设备如话筒、电话等将语音转换成模拟信号。（2）数字化一般包括预滤波、采样和A/D变换。该过程将模拟信号转变成计算机能处理的数字信号。（3）预处理一般包括预加重、加窗分帧。经预处理后的信号被转换成了帧序列的加窗的短时信号。（4）参数分析是对时信号进行分析并提取语音特征参数的过程，如时域、频域分析，矢量量化等。（5）语音识别是目标语音根据特征参数与模型库中的参数进行比较，产生识别结果的过程。一般有模板匹配法、随机模型法和神经网络等。1、2中国少数民族语言概述语言是一种特殊的社会资源, 语言资源由语言本体和语言应用两部分构成。语言本体包括语音、词汇、语法、语义系统,

9、是语言资源的物质基础语言应用包括人类社会对语言的各种使用及其所产生的影响, 是语言资源价值的具体体现。中国是一个统一的多民族国家，已确定民族成分的有56个民族，有55个人口较少的民族。多民族、多语言、多文种（文字和语音）并存是我国的一个基本国情。除回族、满族已全部转用汉语外，其他54个民族都有自己的语言，有30个民族有余自己的语言相一致的文字;分七种语系。由于有的民族使用一种以上的语言或文字，如瑶族使用3种语言，高山族使用13多种语言；傣族使用4种文字，景颇族使用2种文字等，因此，共有73种语言，55多种文字，63多种语言。随着社会开放程度的不断提高 ,民族语言文字的使用有衰退的趋势 ,中国

10、一些使用人口比较少的民族语言已经处于濒临状态 ,民族语言文字的消亡 ,直接危及民族文化的繁荣和发展 ,抢救和保护民族语言文字资源 ,是繁荣和发展民族文化的重要前提 ,而且刻不容缓。2 新疆少数民族语言发音特点分析 2、1 中国少数民族语音特性分析其中由于新疆爱那个是个多民族的省市，个少数民族的语音各有其特点，先统计如下表：表 1 新疆少数民族语言语音情况表表2 新疆少数民族语言语音情况表-续表1表3 新疆少数民族语言语音情况表-续表2表4 新疆少数民族语言语音情况表-续表32、2 中国少数民族语音识别研究现状在语音识别的领域中主要涉及到的研究内容包括：语音信号处理、特征提取和选择；语音识别模型

11、、识别基元及模型研究。目前，句不完全统计，我国在新疆共有36个民族或多或少的开展了语音方面的研究工作，其中研究工作相对比较深入的少数民族语言种类有蒙古语、藏语、维吾尔语、哈萨克语、壮（侗）语等。但是黎族，傈僳族，仫佬族，普米族，京族，塔塔尔族，门巴族，珞巴族，布依族的研究在语言学和音位学上的研究都很少见。3 少数语言研究中的关键技术和模型3、1语音识别技术流程少数民族语言的语音识别与其他语音识别技术类似，可以将流程简单概括为：图2 少数民族语音识别流程图3、2预处理算法语音信号在处理成数字信号的过程中，将受到周围的各环境的影响而使语音产生变形，预处理的任务就是修正这种变形，尽可能的还原人的有效

12、发音。少数民族语音识别预处理包括：信号获取、去除噪声、语音增强三个环节。3、2、1语音信号的获取计算机声卡作为语音信号与计算机的接口卡件，其最基本的一项功能就是A/D转换。声卡是pc的一种多媒体设备，可以用windows的MCI（Media Control Interface)命令来控制声卡。图3信号获取过程中相关函数使用流程示意图3、2、2语音信号的降噪增强在语音采集过程中，都会或多或少的产生背景噪音，设法去除语音信号中的噪声，增强有用信号，提高语音信号的信噪比就成为预处理研究中的一个重要步骤。常用的语音降噪增强算法（1）基于语音频谱特征的谐波增强法（2）基于短时谱估计的增强算法（3）

13、基于信号子空间处理的增强算法（4）于听觉掩蔽效应的语音增强算法（5）基于小波变换的语音增强算法3、3端点检测算法端点检测是指从背景噪声中找出语音的开始点和终止点，是语音处理领域的基本问题，特别是在孤立词语识别中，找出每个单字的语音信号范围是很重要的，确定语音信号的开始和终止可以减少系统的大量计算，使系统运行效率得到很大的提高。少数民族语言的端点检测采用加窗、短时能量、过零率相结合的方法进行。3、4 针对语音特征建立语音识别模型新疆少数民族语言的语音同英语等其他语音一样，原始语音数据量大，且多余信息占很大比例，需要提取的核心特征参数为频幅、频率、和时长，可以将其看为一个三维的数据模型如图：图

14、4原始语音的三维模型3、5少数民族的语言模型语言模型主要分为规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律，其中N-Gram简单有效，被广泛使用。N-Gram：该模型基于这样一种假设，第n个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。由于计算量太大，N一般取值不会很大，常用的是二元的Bi-Gram和三元的Tri-Gram。语言模型的性能通常用交叉熵和复杂度（Perplexity）来衡量。交叉熵的意义是用该模型对文本识别的难度，或者从压缩的角度来看，每个词

15、平均要用几个位来编码。复杂度的意义是用该模型表示这一文本平均的分支数，其倒数可视为每个词的平均概率。平滑是指对没观察到的N元组合赋予一个概率值，以保证词序列总能通过语言模型得到一个概率值。通常使用的平滑技术有图灵估计、删除插值平滑、Katz平滑和Kneser-Ney平滑。4 建立相关的语音库语音数据库是语音识别、语音合成和实验语音学研究的基础。汉语语音是被研究历程告诉我们，实验语音研究和提高识别系统顽健性，离不开大规模、多样化、高质量的语音数据库。因此，迫切需要加强数据库建设。图 5 民族语言中相关库的建立5 结论语言作为一种认知系统、一种思维方式、一种意识形态的直接体现 ,包含着该语言使用者

16、对客观世界和主观世界的认知体系,积淀了该语言使用者对客观世界和主观世界的认知成果。因此 ,对一个民族的语言的研究也是探寻一个民族认知心理机制的重要途径。也正因为如此 ,人们才担心 ,语言多样性的丧失可能会导致人类思维方式的退化和绝对化问。对于人类文明来说,所有的语言都是一笔巨大的财富。而且 ,我们也可以推测,目前所知的 6000多种类语言中,没有哪一种语言在发展过程中没有受到过其他语言的或多或少的影响。从这个意义上说，研究如何保护和利用少数民族语言也是在尝试破译人类社会文化多样性的密码。中国的少数民族语言是人类社会文化的一笔巨大财富,所以主要的研究方法还是通过数字化的技术来对我国个少数民族语

17、言文字等非物质文化进行补救，可利用的数字化技术包括：（1）数字化录音及录像技术（2）动态三维成像技术（3）数字化舞蹈编排与声音驱动技术（4）数字化图案数据库及计算机辅助设计系统因此，希望国内各省份的语言研究工作者应该有所作为，对此展开长期深人的系统研究，保护我们的非物质文化遗产，就是保护中华民族的文化，弘扬民族的传统精神。致谢：经过长时间的学习和时间，我对信息组织与利用有了相应的了解，并且认识到它对我们将来的生活和工作的重要性，学会了专利文献资源，网上标准文献资源，学位论文文献，学术会议文献，科技报告文献，中文电子期刊，中文电子图书与文献数据库及其检索方法。并且使用书目查询，数据库查询

18、，网页查询等查找所需信息的方法，学会了使用一些常用的数据库，如：中国知网、万方数据库等，对他们之间的区别和共同点有所了解，有了一定的了解和实践经历，而且知道查询一些信息，光靠一种方法是不够的，需要不同的方法一起使用才能得到自己想要的信息，所以了解各类方法也是一个必修课程，我一直在努力，但是我深刻的明白，我所学到的只是一部分知识，需要在今后不断学习，强化。实践中就可以看出自己在信息检索方面其实还有很多不会的地方，尤其是对关键字、关键词等掌握的不好，需要多多实践和学习才能够使用的很好。这样才能够将自己所需要的信息定位在一个较小的范围内，才能节约成本和时间，提交效率。还需要对不同的搜索方式作进一步的

19、了解，在搜索信息的时候，我们可以有多种方式来选择，但是不一定每一种方式都行之有效，所以我们必须掌握多种信息搜索方式，才能够在今后生活工作中做的更快更好。虽然还有很长的一段路要走，但是只要下定决心，坚定目标，就一定会做的更好。参考文献：1维基百科.(2011-07-31).2011-10-04.http:/zh.wikipedia.org2尹江艳.基于HMM和ANN语音识别研究J.2007.4:14.3中国少数民族语言M.成都：四川民族出版社，1987：259-2684王昆仑，吐尔洪江阿不都克力木.中国少数民族语音技术研究进展C/第十届全国人机语言通讯学术会议.中国兰州，2009-08-155

20、裴春宝.基于标准拉萨语的藏语语音识别技术研究D.西藏大学，2011：45-476苗苗.基于HMM的语音识别技术的研究D.西安建筑科技大学，2007-05-09：7郑方，吴文虎，方棣棠.CDCMP及其在语音识别中的应用J.软件学报，8蔡群，任荣喜，邱望标.贵州少数民族非物质文化遗产的数字化保护方法研究9 柳春语音识别技术研究进展J 甘肃科技 2008/0910 杨尚国语音识别技术概述J 福建电脑 2006/0811 熊燕抗噪声语音识别技术研究J 中国科技信息 2006/0712 刘筠一种新型语音识别系统J 成都大学学报(自然科学)2008/0313 马斌基于小波变换的DSP语音识别系统J 低压电器 2008/1414 英锋基于SPCE061A的语音识别系统的设计J 微计算机信 2008/1715 曾辉语音识别研究现代商贸工业 2008/216 袁里驰基于改进的隐马尔科夫模型的语音识别方法J中南大学学报自然科学版 2008/617钱盛友许慧燕基于动态时间规整和神经网络的方言辨识研究J 计算机工程与应用 2008/1018李宏言盛利元基于矢量量化和查找表的改进DTW语音识别方法J计算机工程与设计2007/1919张震南人工神经网络技术在语音识别中的应用J 甘肃科技纵横 2008/420刘幺和语音识别与控制应用技术M 北京科学出版社 2008