数字语音处理基础.ppt
《数字语音处理基础.ppt》由会员分享,可在线阅读,更多相关《数字语音处理基础.ppt(57页珍藏版)》请在三一办公上搜索。
1、第 2 章数字语音处理基础2.1发音的生理器官与过程语音:由人体发音器官在大脑控制下的生理运动产生。发音器官:由肺和气管、喉(包括声带)、声道(咽腔、鼻腔和口腔)三部分组成。肺和气管:整个语音系统的能源提供者喉:主要的声音生成机构声道:则对生成的声音进行调制肺:胸腔内有弹性的海绵状物质,可存储空气。肺的功能:呼吸功能,进行气体交换 提供能量,将压缩空气供给发音器官气管:连接肺和喉,是肺与声道联系的通道,呼吸:不说话时,通常是规则的、平稳的、节律性的 说话时,为保持语言的连续性,有短暂停顿呼吸特点:吸气短、呼气长,受句子结构控制,无固定规则气流的形成:空气由肺部排入喉部,经过声带进入声道,由嘴(
2、或鼻)辐射出声波,形成了语音图2.1:喉的构造。,喉:由软骨和肌肉组成的复杂系统,含声带(发音器官)声带:是阀门,又是振动部件 声带紧绷在喉头的前后壁上,有折叠 声带的长度约10 14 mm声门:两片声带之间的空间声带的前端由甲状软骨支撑,后端由杓状软骨支撑 杓状软骨与环状软骨的上部相连软骨由一组肌肉控制,可使开启或闭合声带声带启开时,是正常呼吸状态声带闭合时,肺部密封成密室声带的生物学功能:封闭气管,保护肺道 在胸腔和腹腔建立一定的气压声带的声学功能:为语音提供主要的激励源,空气作用:使声带开启/闭合,形成脉动气流(声门脉冲串)基音周期(振动周期):声带每开启/闭合一次的时间基音频率(基频)
3、:基音周期的倒数典型的脉动气流:基频随人性别、年龄而不同基频:通常为50 450 Hz 男性一般为50 250 Hz 女性一般为200 450 Hz老年男性偏低,小孩和青年女性偏高基频高则音调高,基频低则音调低基频与声带的大小、厚薄、松紧程度以及声门上下之间的气压差等有关,声道:从声门至口唇的所有发音器官 包括咽腔、口腔和鼻腔成男声道:长17 cm/面积20 cm2声道可看成非均匀截面的声管,是时间函数。口腔:含上下唇、齿、齿龈、腭、舌和小舌等部分。上腭:分硬腭和软腭舌:分舌尖、舌面和舌根鼻腔:在口腔上面,靠软腭和小舌将其与口腔隔开 小舌下垂时,鼻腔与口腔便耦合起来 小舌上抬时,口腔与鼻腔不相
4、通发音时,口腔和鼻腔都起共鸣作用。,口腔各器官协同动作,空气流通过时形成不同阻碍,并产生振颤,发出不同声音。咽腔:连接喉和食管与鼻腔和口腔的一段管子讲话时,咽腔的形状变化(如图)ei u e aw咽腔与口腔使声道的形状变化增多,能发出较多的声音。鼻腔:从咽腔一直沿伸到鼻孔,约10 cm长。发鼻化语音时软腭下垂。口腔是声道最重要的部分,其大小和形状可以通过调整舌、唇、齿和腭来改变。舌是最活跃的调整发音器官,在发音过程中,肺部与相连的 肌肉相当于声道系统的激励源浊音:声带处于收紧状态时,气流使声带振动产生的声音清音:声带处于放松状态时,不伴有声带振动产生的音两种清音:摩擦音,爆破音摩擦音:舌在声道
5、的某处形成狭窄部位(收紧点)气流经过时产生湍流形成噪声型的声音爆破音:松懈声带,用舌和嘴唇关闭声道,暂时阻止气流。气压升高,突然放开舌与嘴唇,气流释放产生短暂冲音 不同的声道收紧点和声道形状,形成不同的摩擦音 不同的声道闭紧点和声道形状,形成不同的爆破音,调音:发声时,需要调整声道的形状调音运动:声道各部位的运动调音器官:调音涉及声道的各部分器官,包括舌、腭、唇和嘴等可以自由活动的部分。调音点:因调音产生的声道固定部位的狭窄位置不同声道形状有不同声道传递特性,产生不同音色语音共鸣用使能量随频率变化,产生各种差异语音声道是对发音起着决定性作用的器官X光照相可以显示出发音时声道的形状声学观点:声道
6、可拉直而不影响其声学特性,用声管(模型)分析声道的物理学机理,第 2 章数字语音处理基础2.2听觉的生理器官与心理听觉系统1耳的结构图2.6:人的听觉系统。组成:外耳、中耳和内耳。外耳和中耳有导音的作用,合称为导音系;内耳有感音作用,称感音器。其感音作用起始于蜗神经的终端(螺旋器),故内耳的淋巴系统也属于导音系。,外耳:由耳翼、外耳道和鼓膜组成。耳翼:有保护耳孔和定向作用。外耳道:是一条耳管,声音沿其传至鼓膜。有许多共振频率,封闭时最低共振频率约为3060 Hz。共振效应会使声音得到10 dB左右的放大。成年人的外耳道长约2.7 cm,直径约0.7 cm。鼓膜:位于外耳道内端的韧性锥形结构,声
7、音的振动通过鼓膜传到内耳。日常谈话中,鼓膜位移约为108 cm。外耳的作用:有对声源定位和声放大。头部的衍射效应也会增大鼓膜处的声压,系统总放大:20 dB左右。,图2.7:中耳的结构。中耳:为充气腔体,由鼓膜将其与外耳隔离,通过圆形窗和前庭窗两个小孔与内耳相通。通过咽鼓管与外界相连,以平衡气压,保护鼓膜。听骨链:由锤骨、砧骨和镫骨三块听小骨组成,由韧带悬挂在中耳的腔体内(见图2.7)。锤骨一端固定地附着在鼓膜上,镫骨脚端覆盖内耳入口的前庭窗,砧骨将它们连接起来。听骨链将振动传到内耳并放大,起到杠杆的作用。放大30倍左右。,听小骨在不同声强范围内实现声音的线性或非线性传递。中耳的作用:通过听小
8、骨进行声阻抗变换,放大声压;保护内耳。内耳(迷路):在颅骨腔内,由半规管、前庭窗和耳蜗组成。半规管和前庭窗属于本体感受器,与机体的平衡机能有关。半规管内的感受器能感受旋转变速运动的刺激,前庭窗内的感受器能感受静止的位置和直线变速运动。耳蜗:是听觉接受器,把声音经机械变换产生神经发放信号。耳蜗高约2 cm,宽约1.5 cm,呈螺旋状盘旋2.5 2.75圈,拉直后约3 3.2 cm长。,耳蜗:由鼓阶、中阶和前庭阶三个分隔的部分组成。图2.8:耳蜗示意图。前庭阶和鼓阶在耳蜗的尖端部位相通。中阶内充满高粘度的胶状内淋巴液,前庭阶和鼓阶内则充满粘度为水两倍的淋巴液。,中阶的底膜称为基底膜,基底膜之上是柯
9、蒂氏器官,由耳蜗覆膜、外毛细胞(共3列,约20000个)以及内毛细胞(共1列,约3500个)构成。图2.9:柯蒂氏器官示意图。柯蒂氏器官:是一个传感装置。毛细胞上部的微绒毛感受耳蜗内流体速度的变化,从而引起毛细胞膜两边电位的变化,可造成听觉神经的发放或抑制。内耳的作用:感受声音。,2听觉的形成听觉系统的两个重要特性:听觉掩蔽效应;耳蜗对于声信号的时频分析特性(见图2.10)。耳蜗的时频分析特性:声音使镫骨运动,使耳蜗内流体压强变化,引起行波沿基底膜的传播。声频不同,产生的行波不同,峰值 出现在基底膜的位置不同。为对数型分布。频率低,峰值出现在基底膜的顶附近;频率高,峰值出现在基底膜的底附近。振
10、动强度增加,基底膜运动幅度加大,耳蜗:有频谱分析作用。,基底膜上的绒毛细胞的特性:振动使基底膜和耳蜗覆膜之间的毛细胞上的绒毛发生弯曲。绒毛弯向一边,引起毛细胞的去极化,加强传入神经的作用;绒毛弯向另一边,引起毛细胞的超极化,导致抑制效应。基底膜上不同部位的毛细胞具有不同的电学和力学特性。在基部,基底膜窄而劲度强,毛细胞及其绒毛短而有劲度;在顶部,基底膜宽而柔和,毛细胞及其绒毛较长而柔和。这种差异是基底膜有频率选择性和对数分布性的重要因素。人的听觉范围:20 Hz 20 kHz,0 130 dB的声音信号。听觉范围外的信号分量可忽略掉,以节省处理成本。人耳的感觉不是绝对的,随着信号特性的不同而不
11、同。,发音和听音及理解声音都牵涉到人的神经活动。发音时,将观念转换成单词和句子并发出指令,控制发音器官使其作适当运动;听音时,柯蒂氏器官发出脉冲,经神经系统处理,使大脑感知这些编码的神经信号,转换成词汇并得到理解。神经系统的基元是神经元。神经元是一种专职细胞;有细胞体和细胞核。细胞体上伸展出的树形支,称轴突或神经纤维。最小的分支的末端称为神经末梢。由突触实现神经元间的联系。柯蒂氏器官上的纤毛细胞是一种感受细胞,将接受的感觉信息转成电化学脉冲(见图2.11),传达给神经元的突触,并由神经系统处理。,神经受激反应的规律:(1)刺激的强弱。超过门限值的刺激才产生脉冲。脉冲波形并不携带有刺激的强度信息
12、。(2)刺激的时间。存在“绝对不应期”和“相对不应期”。绝对不应期:约1 2 ms,此期间的刺激不产生反应脉冲。相对不应期:约10 ms,此期间需要强刺激才产生反应脉冲。(3)刺激的强度反应在脉冲的个数上,但也有限制。刺激超过门限值并持续10 ms以上,神经元将不断产生脉冲。最高产生1000个脉冲/s左右,再增大刺激强度不起作用;(4)脉冲沿神经纤维传输的速度取决于纤维的粗细。直径越大,传输速度越快。也可利用朗飞节,跳跃传输。此时速度可高达100 m/s左右。朗飞节是大的神经纤维上的脂肪节。,(5)神经元之间的传输机制主要是化学的。是一个脉冲刺激另一个神经元的电化学反应,并产生脉冲,然后在该神
13、经元轴突内按上述方法传输。(6)神经纤维有兴奋和抑制两种状态。在兴奋状态时,神经元之间的传送是无阻的;抑制状态时,受到抑制而不能传送脉冲。若某种神经元同时受到好几个兴奋状态的和抑制状态的联合 刺激,则由其综合效应来决定该神经元的反应。,听觉产生过程 声波 骨膜振动 听小骨传递 耳蜗基底膜振动 产生神经脉冲,语音的产生和理解:与神经系统和大脑有关,是高级活动。搞清大脑产生和理解语音的机理,对语音技术有极重要意义。特别是对语音合成与语音识别两个分支。例,语音合成:目前,按规则合成只能从寻找各种语言的规则入手,尽可能得出较好的人工语言。如果发音时大脑智能活动的机理之迷揭开,就可以获得高度自然的语音合
14、成。例,语音识别:目前,只能从语音信号出发,用“隐过程”(如隐马尔可夫模型)来模拟神经系统的听觉过程,不是按人的听觉过程建立处理模型。不能达到理想的识别和理解效果。这种方法与大脑用的方法并不一致。,语音的听觉心理听觉系统极灵敏。能感觉到接近空气分子热运动产生的声压。两耳的传递速度不同。声音从右耳传至左大脑的速度比较快;声音从左耳传至右大脑的速度比较慢。两耳辨音性能有所不同。辨听元音的能力大体一致;辨听辅音或音调,右耳比左耳强一些。正常人听觉范围:20 Hz 16 kHz;年轻人可以听到20 kHz;老年人可听频率降到10 kHz左右。听觉器官对音高、音强、声波的动态频谱有分析感知能力。人耳对声
15、音的强度和主观感觉是从响度和音调体现出来的,1.人耳的听阈和响度在物理上,客观测量声音强弱的单位:dyn/cm2(声压,达因每平方厘米),或W/cm2(声强)。在心理上,主观测量声音强弱的单位:方(phon)(响度级),或宋(sone)(响度)。客观和主观两种声音强弱的计量单位是完全不同的两种概念,它们之间又有一定关系。国际协议规定,0 dB声强级的1 kHz纯音的响度级定义为 0 方,n dB声强级的1 kHz纯音的响度级定义为 n 方。语音是复合音,含丰富谐波成分。人耳对不同纯音,有不同的听辨灵敏度。,听阈:当声音的强度小到人耳刚刚可听见时的声强。1 kHz纯音,听阈为1016W/cm2声
16、强(0 dB声强度级);0 dB声强级是非常小的单位,仅使鼓膜移动约109 cm。痛阈:当声音的强度大到人耳感到疼痛时的声强。1 kHz纯音,痛阈约为104 W/cm2声强(120 dB声强度级);120 dB使鼓膜的位移约为103cm。“听阈频率”和“痛阈频率”曲线 表征其变化特性(见图2.12)两曲线间为听觉范围。听觉范围相当宽,达1012量级以上。例:1 kHz,10 dB声强级的声音,响度级为10方;与200 Hz,30dB 声强级的声音,感觉响度相同。,响度级不是响度。响度级是心理学家用来表示“渐强”的标度。单位是方)例:响度级为50方比40方的声音响一些,响度级为40方比20方的声
17、音响一些,响多少倍未知。响度是数量的表示(单位是宋)。例:2 宋的响度使人感到比 1 宋的响度响了 2 倍。规定:1 宋响度为1 kHz纯音在其 响度级为40 dB(声强1012 W/cm2)时的响度。图2.13:“响度响度级”曲线。听觉的响度与响度级不是线性的。,2.音调音调:是听觉分辨声音高低时用于描述这种感觉的一种特性。客观上,用频率表示声音的音调,其单位是Hz,主观上,感觉音调的单位采用美(mel)标度。这是两个概念上的不同、既有联系的计量单位 感音范围:20Hz20 kHz,约 1000 倍频程,9 10 个八度音。规定:音调的测量以40 dB声强为基准,由主观感觉定标,且 1 kH
18、z 纯音的音调定为1 000美。例:让听者听两个40 dB声强级的纯音,一纯音频率固定,调节另一个纯音的频率使其感觉音调高 1 倍,标定这两个同声强声音的音调差为 1 倍。实验表明:音调与频率是非线性的,与声强及波形有关。例:1 kHz、1000美纯音的倍音调是2000美(频率4 kHz);其半音调为500美(频率400 Hz)。,图2.14:“音调-频率”曲线。音调和频率 f 的关系可以近似地表示为 人耳可分辨音调约1400个,可分辨响度约280个。若声强和频率皆变化,人可分辨纯音达30 40万个。,第 2 章数字语音处理基础2.3语音和语言语言是从言语历史中概括总结出来的规律性的符号系统语
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数字 语音 处理 基础
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-6294944.html