数字语音处理基础.ppt
第 2 章数字语音处理基础2.1发音的生理器官与过程语音:由人体发音器官在大脑控制下的生理运动产生。发音器官:由肺和气管、喉(包括声带)、声道(咽腔、鼻腔和口腔)三部分组成。肺和气管:整个语音系统的能源提供者喉:主要的声音生成机构声道:则对生成的声音进行调制肺:胸腔内有弹性的海绵状物质,可存储空气。肺的功能:呼吸功能,进行气体交换 提供能量,将压缩空气供给发音器官气管:连接肺和喉,是肺与声道联系的通道,呼吸:不说话时,通常是规则的、平稳的、节律性的 说话时,为保持语言的连续性,有短暂停顿呼吸特点:吸气短、呼气长,受句子结构控制,无固定规则气流的形成:空气由肺部排入喉部,经过声带进入声道,由嘴(或鼻)辐射出声波,形成了语音图2.1:喉的构造。,喉:由软骨和肌肉组成的复杂系统,含声带(发音器官)声带:是阀门,又是振动部件 声带紧绷在喉头的前后壁上,有折叠 声带的长度约10 14 mm声门:两片声带之间的空间声带的前端由甲状软骨支撑,后端由杓状软骨支撑 杓状软骨与环状软骨的上部相连软骨由一组肌肉控制,可使开启或闭合声带声带启开时,是正常呼吸状态声带闭合时,肺部密封成密室声带的生物学功能:封闭气管,保护肺道 在胸腔和腹腔建立一定的气压声带的声学功能:为语音提供主要的激励源,空气作用:使声带开启/闭合,形成脉动气流(声门脉冲串)基音周期(振动周期):声带每开启/闭合一次的时间基音频率(基频):基音周期的倒数典型的脉动气流:基频随人性别、年龄而不同基频:通常为50 450 Hz 男性一般为50 250 Hz 女性一般为200 450 Hz老年男性偏低,小孩和青年女性偏高基频高则音调高,基频低则音调低基频与声带的大小、厚薄、松紧程度以及声门上下之间的气压差等有关,声道:从声门至口唇的所有发音器官 包括咽腔、口腔和鼻腔成男声道:长17 cm/面积20 cm2声道可看成非均匀截面的声管,是时间函数。口腔:含上下唇、齿、齿龈、腭、舌和小舌等部分。上腭:分硬腭和软腭舌:分舌尖、舌面和舌根鼻腔:在口腔上面,靠软腭和小舌将其与口腔隔开 小舌下垂时,鼻腔与口腔便耦合起来 小舌上抬时,口腔与鼻腔不相通发音时,口腔和鼻腔都起共鸣作用。,口腔各器官协同动作,空气流通过时形成不同阻碍,并产生振颤,发出不同声音。咽腔:连接喉和食管与鼻腔和口腔的一段管子讲话时,咽腔的形状变化(如图)ei u e aw咽腔与口腔使声道的形状变化增多,能发出较多的声音。鼻腔:从咽腔一直沿伸到鼻孔,约10 cm长。发鼻化语音时软腭下垂。口腔是声道最重要的部分,其大小和形状可以通过调整舌、唇、齿和腭来改变。舌是最活跃的调整发音器官,在发音过程中,肺部与相连的 肌肉相当于声道系统的激励源浊音:声带处于收紧状态时,气流使声带振动产生的声音清音:声带处于放松状态时,不伴有声带振动产生的音两种清音:摩擦音,爆破音摩擦音:舌在声道的某处形成狭窄部位(收紧点)气流经过时产生湍流形成噪声型的声音爆破音:松懈声带,用舌和嘴唇关闭声道,暂时阻止气流。气压升高,突然放开舌与嘴唇,气流释放产生短暂冲音 不同的声道收紧点和声道形状,形成不同的摩擦音 不同的声道闭紧点和声道形状,形成不同的爆破音,调音:发声时,需要调整声道的形状调音运动:声道各部位的运动调音器官:调音涉及声道的各部分器官,包括舌、腭、唇和嘴等可以自由活动的部分。调音点:因调音产生的声道固定部位的狭窄位置不同声道形状有不同声道传递特性,产生不同音色语音共鸣用使能量随频率变化,产生各种差异语音声道是对发音起着决定性作用的器官X光照相可以显示出发音时声道的形状声学观点:声道可拉直而不影响其声学特性,用声管(模型)分析声道的物理学机理,第 2 章数字语音处理基础2.2听觉的生理器官与心理听觉系统1耳的结构图2.6:人的听觉系统。组成:外耳、中耳和内耳。外耳和中耳有导音的作用,合称为导音系;内耳有感音作用,称感音器。其感音作用起始于蜗神经的终端(螺旋器),故内耳的淋巴系统也属于导音系。,外耳:由耳翼、外耳道和鼓膜组成。耳翼:有保护耳孔和定向作用。外耳道:是一条耳管,声音沿其传至鼓膜。有许多共振频率,封闭时最低共振频率约为3060 Hz。共振效应会使声音得到10 dB左右的放大。成年人的外耳道长约2.7 cm,直径约0.7 cm。鼓膜:位于外耳道内端的韧性锥形结构,声音的振动通过鼓膜传到内耳。日常谈话中,鼓膜位移约为108 cm。外耳的作用:有对声源定位和声放大。头部的衍射效应也会增大鼓膜处的声压,系统总放大:20 dB左右。,图2.7:中耳的结构。中耳:为充气腔体,由鼓膜将其与外耳隔离,通过圆形窗和前庭窗两个小孔与内耳相通。通过咽鼓管与外界相连,以平衡气压,保护鼓膜。听骨链:由锤骨、砧骨和镫骨三块听小骨组成,由韧带悬挂在中耳的腔体内(见图2.7)。锤骨一端固定地附着在鼓膜上,镫骨脚端覆盖内耳入口的前庭窗,砧骨将它们连接起来。听骨链将振动传到内耳并放大,起到杠杆的作用。放大30倍左右。,听小骨在不同声强范围内实现声音的线性或非线性传递。中耳的作用:通过听小骨进行声阻抗变换,放大声压;保护内耳。内耳(迷路):在颅骨腔内,由半规管、前庭窗和耳蜗组成。半规管和前庭窗属于本体感受器,与机体的平衡机能有关。半规管内的感受器能感受旋转变速运动的刺激,前庭窗内的感受器能感受静止的位置和直线变速运动。耳蜗:是听觉接受器,把声音经机械变换产生神经发放信号。耳蜗高约2 cm,宽约1.5 cm,呈螺旋状盘旋2.5 2.75圈,拉直后约3 3.2 cm长。,耳蜗:由鼓阶、中阶和前庭阶三个分隔的部分组成。图2.8:耳蜗示意图。前庭阶和鼓阶在耳蜗的尖端部位相通。中阶内充满高粘度的胶状内淋巴液,前庭阶和鼓阶内则充满粘度为水两倍的淋巴液。,中阶的底膜称为基底膜,基底膜之上是柯蒂氏器官,由耳蜗覆膜、外毛细胞(共3列,约20000个)以及内毛细胞(共1列,约3500个)构成。图2.9:柯蒂氏器官示意图。柯蒂氏器官:是一个传感装置。毛细胞上部的微绒毛感受耳蜗内流体速度的变化,从而引起毛细胞膜两边电位的变化,可造成听觉神经的发放或抑制。内耳的作用:感受声音。,2听觉的形成听觉系统的两个重要特性:听觉掩蔽效应;耳蜗对于声信号的时频分析特性(见图2.10)。耳蜗的时频分析特性:声音使镫骨运动,使耳蜗内流体压强变化,引起行波沿基底膜的传播。声频不同,产生的行波不同,峰值 出现在基底膜的位置不同。为对数型分布。频率低,峰值出现在基底膜的顶附近;频率高,峰值出现在基底膜的底附近。振动强度增加,基底膜运动幅度加大,耳蜗:有频谱分析作用。,基底膜上的绒毛细胞的特性:振动使基底膜和耳蜗覆膜之间的毛细胞上的绒毛发生弯曲。绒毛弯向一边,引起毛细胞的去极化,加强传入神经的作用;绒毛弯向另一边,引起毛细胞的超极化,导致抑制效应。基底膜上不同部位的毛细胞具有不同的电学和力学特性。在基部,基底膜窄而劲度强,毛细胞及其绒毛短而有劲度;在顶部,基底膜宽而柔和,毛细胞及其绒毛较长而柔和。这种差异是基底膜有频率选择性和对数分布性的重要因素。人的听觉范围:20 Hz 20 kHz,0 130 dB的声音信号。听觉范围外的信号分量可忽略掉,以节省处理成本。人耳的感觉不是绝对的,随着信号特性的不同而不同。,发音和听音及理解声音都牵涉到人的神经活动。发音时,将观念转换成单词和句子并发出指令,控制发音器官使其作适当运动;听音时,柯蒂氏器官发出脉冲,经神经系统处理,使大脑感知这些编码的神经信号,转换成词汇并得到理解。神经系统的基元是神经元。神经元是一种专职细胞;有细胞体和细胞核。细胞体上伸展出的树形支,称轴突或神经纤维。最小的分支的末端称为神经末梢。由突触实现神经元间的联系。柯蒂氏器官上的纤毛细胞是一种感受细胞,将接受的感觉信息转成电化学脉冲(见图2.11),传达给神经元的突触,并由神经系统处理。,神经受激反应的规律:(1)刺激的强弱。超过门限值的刺激才产生脉冲。脉冲波形并不携带有刺激的强度信息。(2)刺激的时间。存在“绝对不应期”和“相对不应期”。绝对不应期:约1 2 ms,此期间的刺激不产生反应脉冲。相对不应期:约10 ms,此期间需要强刺激才产生反应脉冲。(3)刺激的强度反应在脉冲的个数上,但也有限制。刺激超过门限值并持续10 ms以上,神经元将不断产生脉冲。最高产生1000个脉冲/s左右,再增大刺激强度不起作用;(4)脉冲沿神经纤维传输的速度取决于纤维的粗细。直径越大,传输速度越快。也可利用朗飞节,跳跃传输。此时速度可高达100 m/s左右。朗飞节是大的神经纤维上的脂肪节。,(5)神经元之间的传输机制主要是化学的。是一个脉冲刺激另一个神经元的电化学反应,并产生脉冲,然后在该神经元轴突内按上述方法传输。(6)神经纤维有兴奋和抑制两种状态。在兴奋状态时,神经元之间的传送是无阻的;抑制状态时,受到抑制而不能传送脉冲。若某种神经元同时受到好几个兴奋状态的和抑制状态的联合 刺激,则由其综合效应来决定该神经元的反应。,听觉产生过程 声波 骨膜振动 听小骨传递 耳蜗基底膜振动 产生神经脉冲,语音的产生和理解:与神经系统和大脑有关,是高级活动。搞清大脑产生和理解语音的机理,对语音技术有极重要意义。特别是对语音合成与语音识别两个分支。例,语音合成:目前,按规则合成只能从寻找各种语言的规则入手,尽可能得出较好的人工语言。如果发音时大脑智能活动的机理之迷揭开,就可以获得高度自然的语音合成。例,语音识别:目前,只能从语音信号出发,用“隐过程”(如隐马尔可夫模型)来模拟神经系统的听觉过程,不是按人的听觉过程建立处理模型。不能达到理想的识别和理解效果。这种方法与大脑用的方法并不一致。,语音的听觉心理听觉系统极灵敏。能感觉到接近空气分子热运动产生的声压。两耳的传递速度不同。声音从右耳传至左大脑的速度比较快;声音从左耳传至右大脑的速度比较慢。两耳辨音性能有所不同。辨听元音的能力大体一致;辨听辅音或音调,右耳比左耳强一些。正常人听觉范围:20 Hz 16 kHz;年轻人可以听到20 kHz;老年人可听频率降到10 kHz左右。听觉器官对音高、音强、声波的动态频谱有分析感知能力。人耳对声音的强度和主观感觉是从响度和音调体现出来的,1.人耳的听阈和响度在物理上,客观测量声音强弱的单位:dyn/cm2(声压,达因每平方厘米),或W/cm2(声强)。在心理上,主观测量声音强弱的单位:方(phon)(响度级),或宋(sone)(响度)。客观和主观两种声音强弱的计量单位是完全不同的两种概念,它们之间又有一定关系。国际协议规定,0 dB声强级的1 kHz纯音的响度级定义为 0 方,n dB声强级的1 kHz纯音的响度级定义为 n 方。语音是复合音,含丰富谐波成分。人耳对不同纯音,有不同的听辨灵敏度。,听阈:当声音的强度小到人耳刚刚可听见时的声强。1 kHz纯音,听阈为1016W/cm2声强(0 dB声强度级);0 dB声强级是非常小的单位,仅使鼓膜移动约109 cm。痛阈:当声音的强度大到人耳感到疼痛时的声强。1 kHz纯音,痛阈约为104 W/cm2声强(120 dB声强度级);120 dB使鼓膜的位移约为103cm。“听阈频率”和“痛阈频率”曲线 表征其变化特性(见图2.12)两曲线间为听觉范围。听觉范围相当宽,达1012量级以上。例:1 kHz,10 dB声强级的声音,响度级为10方;与200 Hz,30dB 声强级的声音,感觉响度相同。,响度级不是响度。响度级是心理学家用来表示“渐强”的标度。单位是方)例:响度级为50方比40方的声音响一些,响度级为40方比20方的声音响一些,响多少倍未知。响度是数量的表示(单位是宋)。例:2 宋的响度使人感到比 1 宋的响度响了 2 倍。规定:1 宋响度为1 kHz纯音在其 响度级为40 dB(声强1012 W/cm2)时的响度。图2.13:“响度响度级”曲线。听觉的响度与响度级不是线性的。,2.音调音调:是听觉分辨声音高低时用于描述这种感觉的一种特性。客观上,用频率表示声音的音调,其单位是Hz,主观上,感觉音调的单位采用美(mel)标度。这是两个概念上的不同、既有联系的计量单位 感音范围:20Hz20 kHz,约 1000 倍频程,9 10 个八度音。规定:音调的测量以40 dB声强为基准,由主观感觉定标,且 1 kHz 纯音的音调定为1 000美。例:让听者听两个40 dB声强级的纯音,一纯音频率固定,调节另一个纯音的频率使其感觉音调高 1 倍,标定这两个同声强声音的音调差为 1 倍。实验表明:音调与频率是非线性的,与声强及波形有关。例:1 kHz、1000美纯音的倍音调是2000美(频率4 kHz);其半音调为500美(频率400 Hz)。,图2.14:“音调-频率”曲线。音调和频率 f 的关系可以近似地表示为 人耳可分辨音调约1400个,可分辨响度约280个。若声强和频率皆变化,人可分辨纯音达30 40万个。,第 2 章数字语音处理基础2.3语音和语言语言是从言语历史中概括总结出来的规律性的符号系统语言是进行思维、交际的形式语音是声音、语言和意义的结合体声音是语音的物质形式;语音是语言的物质外壳、信息载体但是,声音和意义间无必然联系,其意义是约定俗成的语音由一串音组成语言的声音,音间过渡代表信息的符号,音(符号)的排列由语音规则约束。语音的研究:包括语言学、语音学语言学:语音中各个音的排列规则及其含意的研究语音学:语音中各个音的物理特征和分类的研究,说话过程可分五个阶段:想说阶段、说出阶段、传送阶段、接收阶段、理解阶段1、想说阶段:(与大脑中枢的活动有关)大脑决策产生说话动机 讲话神经中枢选单词、短语,按规则组合表达内容和情感2、说出阶段:(与发音器官的活动有关)大脑中枢决策,向发音器官发指令,使舌、唇、颚、声带、肺等协调动作,发出声音 大脑也发指令给其它器官,产生各种动作来配合 根据听觉系统接收的反馈语音信息,来帮助修改语音。3、传送阶段:(传送声波信息的物理过程)声波以空气为媒介传送到听者的耳中,4、接收阶段:(与听觉系统活动有关)外耳收集声波信息,经中耳放大,传到内耳 经内耳基底膜振动,激发柯蒂氏器官内的神经元产生脉冲 将信息以脉冲的形式传送给大脑5、理解阶段:(至今尚未完全了解,机理不很清楚)听觉神经中枢收到脉冲信息,辨认话者及所说信息说话过程相当复杂,有心理、生理、物理及个人和社会因素个人因素:话者口音、用词造句特色 听者的听力、理解力。社会因素:话者、听者的社会基础、环境等语言要素:分语言的语素、词、短语和句子等不同层次 及词法、句法、文脉等语法和语义内容等。句法的最小单位是单词,词法的最小单位是音节。不同语言有不同语言规则,语音学研究语音产生、语音感知等,音的特征和分类等问题语音学与语音信号处理学科有紧密联系。说话交流过程分为“发音传递感知”三个阶段现代语音学分支:发音语音学、声学语音学、听觉语音学发音语音学:从生理的角度研究语音(已相当成熟)直接观察发音器官的动作或借助仪器来研究声学语音学:研究语音传递的声学特性 用声学和非平稳信号分析理论解释各种语音现象 语音的声学物理性质及与发音器官之间的关系。产生声音模拟、语音合成和语音识别等研究方向。听觉语音学和心理语言学:(较新学科,处于探索阶段)探索大脑如何进行语音的发出和接收,语言信息以什么形式在大脑的什么部位存储等,第 2 章数字语音处理基础2.4语音学基础及汉语语音学 声波的物理描述声波从声源向四面八方传播声波的频率:单位时间内声波的周期数声波的波长:声波中两个波峰之间相隔的空间距离 波长=传播速度/频率频率高波长短;频率低波长长声波有频度和振幅两个特点。声频与音调有关,振幅与响度有关。声频高,声音就高(音调高);声频低,声音就低(音调低),声音分:复合音、纯音纯音:仅有基音,没有倍音倍音:频率是基音频率的整倍数的声音成分复合音:除纯音外的声音 一般的声音是包含了复合声波的声音人类发出的元音是复合音大部分声音并非只有一个基频通常,基频的能量最高,力度最强,其它倍音的能量逐渐减低,力度逐渐减弱不同声音的区别是和弦不同(不同乐器的音色因和弦不同)声音的基音与倍音共同组成这个声音的和弦频率最低的和弦是第一和弦,其它和弦依次是第二和弦、第三和弦等等,声音的物理属性:音色、音调、音强、音长音色:也称作音质,一种声音区别于其它声音的基本特征 发音体(音带)振动与不振动,发音的音色不同 用相同发音器官,送气与不送气方式,发音的音色不同 声道的形状和尺寸不同,发的音的音色不同音调:声音的高低,汉语语音学中称为音高,取决于声频 声频与发音体的长短、厚薄、松紧程度有关 语音的声调由语音的基频决定音强:声音的强弱,由声波的振幅(声功率)决定音长:声音的长短,取决于发音的持续时间的长短,语音的声学特性音节:一次发出,有一个响亮中心,被明显感觉的语音片段 音节由一个音素或几个音素构成音素:是语音的最小单位,分元音、辅音,两种音素元音:声带振动的气流经声道辐射,不受阻碍发出的乐音辅音:呼出的气流,由声道的部分封闭或受阻,产生的声音 清辅音(清音):声带不振动发出的辅音 浊辅音(浊音):声带振动发出的辅音 浊音是乐音和清音的混合音 形成阻碍的发音部位和发音方法不同,发出的辅音不同半元音:发音时声道基本畅通,某处比较狭窄,引起轻微的摩擦发出的声音元音:音节的主体,时长和能量在音节中占主要部分辅音:在音节的前端或后端或前后两端,时长和能量很小,元音音色:主要由舌的形状、舌位、口形等决定舌位高度、前后位置与音素关系见图2.22 舌位高度:分高、中、低 舌位前后:分前、中、后 有9种基本组合,加上口唇开放程度、咽宽度,可发十多个不同的单元音,声道的模拟:非均匀截面的声管,发音时起共鸣器作用共振峰:元音激励声道时,引起共振,产生的一组共振频率 称为共振峰频率(共振峰)共振峰是区别元音的重要参数,包括其位置和频带宽度精确描述语音,应该用尽可能多的共振峰工程中,常用前三个共振峰参数 第一共振峰F1、第二共振峰F2、第三共振峰F3元音的共振峰特性与发音机制有关F1与舌位高低有关,舌位高F1低;舌位低F1高舌位越低,嘴张得越大(开口度大);舌位越高开口度越小F2与舌位前后密切相关,舌位靠前F2高,舌位靠后F2低 前元音i的舌位靠前,F2达2000 Hz 后元音u的舌位靠后,F2只有500 Hz,F1和F2和嘴唇的圆展程度也有关系,如圆唇可使F2降低等。F3与舌位有关,并不密切,但受舌尖活动的影响,舌尖抬高卷起时,F3就明显下降图2.23:舌位前后、唇形圆展和开口度大小对F1和F2 的影响情况。,成年女子和儿童的基频高于成年男子。区分语音是男声还女声,是成人声音还是儿童声音,更重要的因素是共振峰频率的高低。表2.2:10个英语单元音前3个共振峰频率的平均值。成年女性和男性的共振峰频率有明显的差别(约高25%),复合元音:由两个或三个元音组合在一起的元音。复合元音分:真性复合元音和假性复合元音。真性复合元音的各单元音有一很长的稳定段,过渡段很短;假性复合元音的单元音很少有稳定段,共振峰图形是 一个滑动和平滑过渡的过程。三复合元音很少有真性的 元音鼻化:是鼻与口耦合作用产生的,是该元音与鼻辅音邻近而发生的现象。元音鼻化作用将在该元音共振峰特性中引起两对极零点,一对极点在 290 Hz 左右,零点在 295 Hz 左右;一对极点在 2240 Hz 左右,零点在 2340 Hz 左右。每对极零点分离得越远鼻音越重。,产生元音有三个条件:声道受到声带振动的激励引起共振;在语音流的持续期,声道不发生极端的狭窄,并维持较稳定的形状;和鼻腔不发生耦合,声音只从口腔辐射。这三个条件中,只要缺少其中之一,该语音就是辅音。辅音:是把呼气流在声道的某一位置用适当的方法进行阻碍而产生的。辅音没有明确的共振峰结构。辅音发音时,阻碍的位置叫调音点,阻碍的方法叫调音方式。根据调音方式等不同可以把辅音分成几类。,一般分为 7 类辅音:塞音、摩擦音、塞擦音、鼻音、边音、颤音、通音。(1)塞音(爆破音、破裂音):把口腔和鼻腔完全封闭,然后急快解除口腔封闭。例:普通话拼音的p,t,k,b,d,g等。(2)摩擦音:持阻阶段阻碍处并不完全闭塞,但将声道变窄到气 流产生(湍流)摩擦噪音的程度。例:普通话拼音的f,s,sh,x,h等。摩擦音可以任意延长。(3)塞擦音:成阻阶段阻碍处闭塞,无气流通过;除阻阶段阻碍 略微放松,让气流挤出去产生摩擦,形成先塞后擦的音。例:普通话拼音的z,zh等。(4)鼻音:封闭口腔,但同时软腭下降,开放鼻腔通路,让气流 从鼻腔出去而形成的音。例:普通话拼音的 m,n 等。鼻音可以任意延长。,(5)边音:舌尖形成阻碍不让气流通过,但舌尖两边有空隙能让气流通过,即封闭口腔中央部分开放两侧通路而形成的音。例:普通话拼音的 l。(6)颤音:气流通过声道时使发音器官调音点受气流冲击 而产生颤动,而发出颤音。例:拉萨语 ra(羊)中的 r。(7)通音(半元音或半辅音):是无擦通音。使声道稍微变窄,但是窄到不至于发出摩擦噪音的程度,然后逐渐向后续元音的过渡调音而产生的;或从先行元音逐渐变窄,但窄到气流通过时只产生极轻微的摩擦,甚至可能没有摩擦,这样的调音方式产生。通音一般都是浊音,性质接近元音。例:普通话拼音的 w,y。,辅音分:浊辅音(声带振动)和清辅音(声带无振动)。辅音分:送气辅音和不送气辅音。根据辅音除阻后是否紧跟着送出一股气流分类。例:普通话拼音的p,t,k是送气辅音,b,d,g是不送气辅音。各音节元音段的基音频率都随时间变化。声调:由基音频率的变化产生,其变化轨迹称为声调轨迹。声调反映语音的韵律,在汉语中声调有辨意作用 重音:是在语流中,发音较重的音节。重音一般分为词重音和语句重音。词重音:以词为考查对象,音位学把词重音划分为正常重音、对比重音和弱重音。语句重音:是指由于句子语法结构、逻辑语义或心理情感表达 的需要而产生的句子中的重读音。语句重音一般分为语音重音、逻辑重音、心理重音。,把握词重音特征对了解语音中蕴涵的情感和情绪信息极重要。词重音的情感效果往往同词义本身有较强的联系。重音的声学特征:主要表现在时长、音高与音强及三者结合。不同语言的重音和语调特点不一样,是一种附加的信息。汉语重音主要表现在时长增加,其次是调域扩大和音高提升。西方语言如英语,重音是辨意的一个重要特点。重音、语调和声调也是构成语音学的一部分。表示一句话中的重要的单词;表示疑问句;表示说话人的感情。超音段特征:语流中由音高、音长和强度等方面的变化所表现 出来的特征。为表现说话人感情的重要特征。超语言学特点:低语表示秘密、高声说话表示愤怒等。同音异义字(词):是指相同发音,有两种或多种意思。,汉语语音基本特性汉语语音:音系简单,音素少,音节少。音节一般由声母、韵母和声调三部分组成。普通话有 6000 多个常用字,每字一个音节;普通话有 1332 个有调音节,其中可以单念的有 1268 个。普通话有阴平、阳平、上声、去声、轻声五个声调。不考虑声调,无调音节共有 407 个。汉字的“声-韵”结构:元音、辅音+元音、元音+鼻辅音、辅音+元音+鼻辅音。汉语标准语音是北京语音,又称为普通话。汉语中清辅音多,且多为弱清音。开口呼的音节占全部音节的一半以上(如用 a 这个音素为主要元音的音节就占40%)。汉语语音听感上有清亮、高扬和舒服、柔和的感觉。,汉语拼音方案:10个元音和22个辅音组成;21个声母(见表2.3)和36个韵母(见表2.4)。声母+韵母组成400个左右的音节,与四声组成1600个左右有调音节,有的音节没有对应的汉字。,浊音段的基音频率是随时间变化。基音频率的轨迹称为声调。普通话的四声对应四种声调:阴平、阳平、上声、去声。汉语中,相同音节随声调的不同,意义可不同。例:da的汉字为搭、达、打、大。声调轨迹始于韵母的起始端,到韵母的终止端结束。图2.25:汉语四种声调的曲线示意图。阴平:几乎与时间轴平行,均值很高。阳平:从较低的频率一直上升到较高 的频率,起始处稍稍下降。上声:先降后升。去声:从较高的频率出发一直下降 到极低的频率。,第 2 章数字语音处理基础2.5语音信号的特性分析语音信号的特性:主要是声学特性、语音时域和频谱特性、语音信号的统计特性等。2.5.1 语音的时间波形特性语音信号可用 其时间波形表示,观察波形可看出语音 信号的一些重要特性。图2.26:汉语“同舟共 济”的时间波形。,结论:清辅音波形类似于白噪声,振幅很小,没有明显的周期性;元音有明显的周期性,且振幅较大。其周期对应声带振动的频率,即基音频率,它是声门脉冲的间隔。元音语音波形携带共振峰特性。语音信号属于短时平稳信号,10 30 ms内其特性基本不变,或者变化很缓慢。可截取一小段语音进行频谱分析,得出语音的频域特性。,图2.27:元音ou的Fourier变换(始于F点,320样点,Hamming窗)由谱图能得看出浊音的基音频率及谐波频率(本例约200 Hz)。频谱中明显的凸起点,它们是共振峰频率。图2.28:清辅音zh的Fourier变换。频谱峰点之间的间隔是随机的,没有周期分量。,语音信号的语谱图时域和频域分析是两种重要方法,但有局限性。时域分析对频率特性没有直观了解;频域分析出的特征中没有随时间的变化关系。语音信号是时变信号,所以其频谱也是随时间变化的。一帧内可以认为语音频谱是不变的,这种频谱又称为短时谱。短时谱只反映静态频率特性,不能反映动态频率特性。改进措施:时变频谱(Fourier谱)图,即语谱图。语谱图是三维频谱图,纵轴为频率,横轴为时间,谱能量用相应点的灰度或色调的浓淡来表示。用语谱图分析语音又称为语谱分析。,语谱仪:记录语谱图的仪器。现代可用计算机完成。语谱图:显示大量与语音特性有关的信息,它综合了频谱图和时域波形的特点,明显地显示出语音频谱随时间的变化情况,或者说是一种动态的频谱。用语谱图可确定语音参数,例如共振峰频率及基音频率。语谱图的纹路,称为“声纹”;因人而异,可用于讲话人识别。图2.26:“同舟共济”的窄带和宽带语谱图。语谱图中的花纹有横杠、乱纹和竖直条等。,图2.26语音“同舟共济”的语谱图,语音信号的统计特性语音信号的统计特性:可用波形振幅概率密度函数和一些统计量如均值和自相关函数来描述。表示语音信号的统计特性的概率密度的估算方法是根据长时间范围内一段话音信号的大量样本数据的幅度绝对值计算出其幅度直方图,然后,根据统计的振幅直方图,寻找近似的概率密度表达式。研究表明,语音信号振幅分布的概率密度有修正伽玛(Gmma)分布和拉普拉斯(Laplace)分布两种逼近方法。其分布概率密度函数为:,式中,k是一个常数,,是一个由标准差决定的常数对于长期统计来说,用拉普拉斯分布描述语音信号的统计特性不及用伽玛分布描述精确,但其函数式却简单逼近效果最差。应当注意,语音信号的振幅通常都趋向于集中在低电平范围内。同时还应注意到,通常语音信号的强度要经过压缩,而振幅的概率分布不仅反映从一个瞬时到另一个瞬时的样本的分布,而且还反映语音强度的总的变化,定性说明:为什么当歌唱家张大他的下颌唱歌时,歌声的第一共振峰频率会得到提升?(4分),答:第一共振峰与舌位的高低密切相关,舌位高低,舌位低高。当歌唱家张大他的下颌时,舌位相对更低,因此第一共振峰频率会提升。,谢 谢!,