强背景噪声环境下语音增强算法的研究及应用毕业论文.docx
《强背景噪声环境下语音增强算法的研究及应用毕业论文.docx》由会员分享,可在线阅读,更多相关《强背景噪声环境下语音增强算法的研究及应用毕业论文.docx(100页珍藏版)》请在三一办公上搜索。
1、密级:内部2年强背景噪声环境下语音增强算法的研究及应用ResearchandApplicationofSpeechEnhancementinStrongNoiseEnvironment(申请清华大学工学硕士学位论文)培养单位:学科:研究生:指导教师:关于学位论文使用授权的说明本人完全了解清华大学有关保留、使用学位论文的规定,即:清华大学拥有在著作权法规定范围内学位论文的使用权,其中包括:(1)已获学位的研究生必须按学校规定提交学位论文,学校可以采用影印、缩印或其他复制手段保存研究生上交的学位论文;(2)为教学和科研目的,学校可以将公开的学位论文作为资料在图书馆、资料室等场所供校内师生阅读,或在
2、校园网上供校内师生浏览部分内容;(3)根据中华人民共和国学位条例暂行实施办法,向国家图书馆报送可以公开的学位论文。本人保证遵守上述规定。(保密的论文在解密后遵守此规定)作者签名:导师签名:日 期:日期:摘要摘要人们在语音通信过程中不可避免地会受到各种噪声的干扰,影响了通信质量。同时,噪声的存在也使低速率语音编码以及语音识别等语音处理系统的性能下降。语音增强作为一种预处理手段,不失为解决噪声污染的一种有效途径。在各类语音增强技术中,基于短时谱幅度估计的语音增强算法处于主流位置,得到广泛应用。本文针对短时谱幅度估计在低输入信噪比以及非平稳噪声环境下,性能不够理想这一不足加以研究改进,完成稳健的语音
3、增强算法设计和实时实现。根据对短时谱幅度估计算法进行分析,指出了影响其性能的关键技术:噪声统计特性的估计、语音激活检测算法、先验信噪比估计、增益函数的修正等,为算法改进指明了研究方向。首先,提出了一种快速估计噪声统计特性的算法,减小了噪声估计的跟踪延时,在一定程度上改善了噪声过估计的现象,因而能够在低输入信噪比以及非平稳噪声干扰环境下快速准确地跟踪噪声特性。其次,研究了一种基于高斯模型和一致最大势检验的语音激活检测算法,由于检测门限与噪声估计相适应,因而提高了检测性能,尤其在非平稳噪声干扰环境下得到了良好的检测效果。同时,利用语音激活检测算法中傅里叶变换得到的频谱信息,方便地实现了双音多频信号
4、的检测和生成。再次,对先验信噪比估计的反馈因子进行最优化调整,引入与长时统计信息相关的自适应下限,有效地协调了先验信噪比估计的稳定性和快速跟踪能力。同时,利用软判决信息,即有关语音存在的概率信息,修正增益函数表达式中的先验/后验信噪比,有效地消除了“音乐”噪声,使去噪后的语音更加平滑、自然、易于接受。最后,相关算法已用C语言和TMS320C55xDSP汇编语言在PC机和DSP硬件平台上实现。仿真实验和实时测试均表明改进的语音增强算法在不明显损伤语音可懂度的同时,可以有效地抑制背景噪声、提高信噪比,在低输入信噪比和非平稳噪声环境下性能提高尤为显著。关键词:语音增强非平稳噪声短时谱幅度估计噪声估计
5、语音激活检测先验信噪比AbstractInvoicecommunications,speechsignalscanbecontaminatedbyvariousnoisesinevitably,whichaffectsthecommunicationquality.Furthermore,noiseinterferencedegradestheperformanceofspeechprocessingsystems,suchaslowbit-ratevocoderandspeechrecognition.Speechenhancementisaneffectivepreprocessingme
6、thodtoreducethedisturbanceofnoise.Amongthespeechenhancementtechniques,themethodsbasedonShort-TimeSpectralAmplitude(STSA)Cstimationhavebeenwellinvestigatedandbroughtintowideuse.InthisdissertationslotofresearchworkhasbeendonetoimprovetheperformanceofSTSAestimationagainsttheenvironmentsoflowSignal-to-N
7、oiseRatio(SNR)Jnputandnon-stationarynoise.TheproposedrobustapproachofspeechenhancementhasbeenimplementedontheTMS320C55xDSPplatform.AccordingtotheanalysisoftheSTSA-basedspeechenhancementalgorithm,thekeytechniquesareSummarizedJncludingtheestimationofnoisestatisticcharacteristics,voiceactivitydetection
8、(VAD)algorithm,theestimationofaprioriSNR,andthemodificationofgainfunction,etc.Firstly,afastestimationmethodofnoisestatisticcharacteristicsisproposed.Themethoddecreasestheadaptationtimeoftrackingnoise,avoidstheover-estimationphenomenontosomeextent,thuscantrackthenoisecharacteristicswithhigheraccuracy
9、andlesstimeinlowSNRinputandnon-stationarynoiseenvironments.Secondly,avoiceactivitydetectorbasedonGaussianmodelandUniformlyMostPowerful(UMP)Iestisdesigned.Becauseofdetectionthresholdrelatedtothenoiseestimationjhealgorithmprovideshigherdetectionperfomance,especiallyinnon-stationarynoiseenvironments.Fu
10、rthermore7UtilizingthespectralinformationofDFTintheVADalgorithm,thedualtonemultiplefrequency(DTMF)signaldetectorandgeneratorarerealizedconveniently.Thirdly,tobalancethestabilityandthetrackingabilityintheestimationofaprioriSNR,thefeedbackfactorofaprioriSNRestimationisoptimallyadjustedandtheestimation
11、resultislimitedaboveanadaptivethresholdrelatedtolongtimestatisticinfbrmation.Moreover,thesoft-decisionmodifiedgainfunctionisobtainedbyintroducingspeechpresenceprobabilitytoaprioriSNRandaprioriSNR.Thesemethodseffectivelyeliminatethemusica,noiseandmaketheenhancedspeechsmooth,naturalandacceptable.Final
12、ly,ThealgorithmmentionedabovehasbeenimplementedinbothClanguageandassemblerlanguageonthePCandTMS320C55DSPhardwarelatform.Bothsimulationexperimentsandreal-timetestsshowthattheimprovedspeechenhancementalgorithmiseffectiveinsuppressingbackgroundnoiseandincreasingtheSNRwithoutapparentlyimpairingtheintell
13、igibilityofspeech.TheperfomanceissignificantlyenhancedinlowSNRinputandnon-stationarynoiseenvironments.Keywords:speechenhancementnon-stationarynoiseSTSAnoiseestimationvoiceactivitydetectionaprioriSNR目录第1章引言11.1 语音增强课题背景11.2 带噪语音模型21.2.1 语音的主要特性21.2.2 噪声的主要特性31.2.3 人耳的感知特性41.2.4 背景噪声对于语音的影响41.3 语音增强的发
14、展历史51.4 语音增强算法分类51.5 论文研究工作71.6 论文内容组织71.7 本章小结7第2章基于短时谱幅度估计的语音增强算法概述82.1 本章引论82.2 语音增强算法概述82.2.1 自适应噪声对消法82.2.2 谐波增强法92.2.3 基于语音生成模型的语音增强算法102.2.4 基于短时谱幅度估计的语音增强算法102.2.5 其他几种形式的语音增强算法112.3 基于短时谱幅度估计的语音增强算法112.3.1 谱减法的一般形式122.3.2 谱减法的改进形式142.3.3 维纳滤波法152.3.4 MMSE估计法162.4 基于短时谱幅度估计的语音增强算法的关键技术172.5
15、本章小结19第3章噪声统计特性估计的研究203.1 本章引论203.2 基于语音激活检测的噪声统计特性估计203.3 直接形式的噪声统计特性估计213.3.1 简单的直接噪声统计特性估计213.3.2 基于最小统计的噪声统计特性估计223.4 噪声功率谱的快速估计253.4.1 自适应最优短时谱平滑263.4.2 不依赖窗长的最小值搜索283.4.3 引入语音存在概率283.4.4 噪声功率谱更新293.4.5 语音存在概率的准确估计以及噪声功率谱的迭代更新293.4.6 测试结果及结论303.5 本章小结34第4章语音激活检测算法研究354.1 本章引论354.2 传统语音激活检测算法354
16、.2.1 G729AnnexB标准的语音激活检测算法354.2.2 G723.IAnnexA标准的语音激活检测算法374.2.3 GSM标准的语音激活检测算法394.3 基于高斯模型和一致最大势检验的语音激活检测算法404.3.1 基于高斯模型的似然比检测414.3.2 一致最大势检验准则414.3.3 短时谱最优化平滑以及自适应门限平滑434.3.4 拖尾延迟保护444.3.5 基于高斯模型和UMP检验的VAD算法流程454.3.6 测试结果以及结论464.4 双音多频信号的生成与检测484.4.1 双音多频信号的生成494.4.2 双音多频信号的检测504.4.3 测试结果534.5 本章
17、小结55第5章语音增强算法的研究与实现565.1 本章引论565.2 本文语音增强算法流程565.2.1 分帧和加窗575.2.2 先验/后验信噪比估计595.2.3 长时信噪比估计615.2.4 增益函数的计算615.3 语音增强算法评测标准645.3.1 增强语音的主观评测645.3.2 增强语音的客观评测655.4 语音增强算法测试675.4.1 测试环境675.4.2 测试结果675.5 本章小结73第6章基于TMS320C55xDSP硬件平台的实时实现746.1 本章引论746.2 TMS320C55xDSP的体系结构746.2.1 TMS320C55x内部结构756.2.2 TMS
18、320C55x总线结构766.2.3 TMS320C55x流水线操作776.3 语音增强算法的DSP实现和优化786.3.1 C代码定点化786.3.2 TMS320C55x汇编程序编程796.3.3 算法在TMS320C55xDSP上的资源消耗826.4 本章小结83第7章结论与展望847.1 结论847.2 展望85参考文献86致谢89个人简历、在学期间发表的学术论文与研究成果90BSDDAMDFTDRTDSPDTFTDTMFFFTFIRIDFTIFFTIIRKLTLPCLSFMMSEMOSNMSESDSegSNRSNRSSSTSAUMPVADVLSI主要符号对照表巴克谱距离(BarkSp
19、ectrumDistance)判断满意度测试(DiagnosticAcceptabilityMeasure)离散傅立叶变换(DiSCret6FourierTransform)诊断押韵测试BiagnosticRhymeTest)数字信号处理(DigitalSignalProcessing)序列傅立叶变换(DiSCreteTimeFourierTransform)双音多频UalToneMultipleFrequency)快速傅立叶变换(FaStFourierTransform)有限冲激响应(FiniteImpulseResponse)逆一离散傅立叶变换(InverseDiscreteFourier
20、Transform)逆一快速傅立叶变换(InverseFastFourierTransform)无限冲激响应(InfiniteImpulseResponse)卡一洛变换(KarhUnenLoeveTransform)线形预测系数(LinearPredictionCoefficient)线谱频率(LineSpectralFrequency)最小均方误差(MinimUmMean-SquaredError)平均意见得分(MeanOpinionScore)归一化均方误差(NOITnaliZedMeanSquaredError)谱失真(SpectrumDistortion)分段式信噪比(Segmenta
21、lSignakto-NoiseRatio)信噪比(Signal-to-NoiseRatio)谱减法(SpectralSubtraction)短时谱幅度(Short-TimeSpectralAmplitude)一致最大势(UniformlyMostPow)语音激活检测(VoiceActivityDetection)超大规模集成电路(VeryLargeScaleIntegration)VH第1章引言21世纪的通信是人与人之间、人与机器之间高质量的无缝的信息交换。语言是人类交流的重要手段,它自然方便,准确高效。语音通信也是一种理想的人机通信方式。人们一直梦想着有朝一日可以摆脱键盘或遥控设备的束缚,拥
22、有更为友好、亲切的人机界面,让计算机或家用电器可以听懂人的话语,看懂人的动作,执行人们所希望的任何任务。而语音数字信号处理正是其中一项至关重要的应用技术。应用现代化手段研究语音处理技术,能更有效地产生、传输、存储和获取语音信息,这对促进社会的信息化发展具有十分重要的意义。因此,语音信号处理目前已成为信息科学研究领域中发展最为迅速的的一个分支。语音信号处理是语音学与数字信号处理技术相结合的交叉学科,它和认知科学、心理学、语言学、计算机科学、模式识别和人工智能等学科联系紧密,在数字话音通信,声控打印机,自动语音翻译和多媒体信息处理等许多方面都有非常重要的应用。语音数字信号处理包含的内容十分广泛,如
23、包括语音编码、语音识别、语音合成、语音增强等。其中,语音增强是语音数字信号处理系统进入实用阶段的重要环节。1.1 语音增强课题背景人们在语音通信过程中不可避免地会受到各种噪声的干扰,比如,来自周围环境、传输媒介引入的噪声,通信设备内部电噪声以及其它讲话者的干扰等。这些噪声干扰使接收者接收到的语音已非纯净的原始语音信号,而是受噪声污染的带噪语音信号。例如,室内会议电话的交混回响随同语音广播到每个会议地点,影响收听效果。再如在军用车载通信系统中,尤其是坦克车内的通信系统,所处的噪声环境较一般环境更为恶劣,其噪声强度可达到120分贝左右。如此强度的噪声不仅会对通信质量产生严重影响,而且对通信接收者而
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 背景 噪声 环境 语音 增强 算法 研究 应用 毕业论文

链接地址:https://www.31ppt.com/p-6770233.html