《语音编码技术》PPT课件.ppt
《《语音编码技术》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《语音编码技术》PPT课件.ppt(128页珍藏版)》请在三一办公上搜索。
1、第2章语音编码技术,第2章语音编码技术,本章主要内容语音编码方法、性能及标准 语音信号的采样和量化语音模型和LPC声码器数字音频编码标准语音编码器的实时实现,2.1引言,语音、图像采集,语音波形,“象棋是中国古代战争的艺术再现,它的棋盘就象一个古战场”波形,语音波形,“中国”语音波形,语音波形,“国”字语音波形,语音波形,“国”部分语音波形,语音波形,“audio”语音波形,语音、图像属模拟信号范畴。语音、图像通过编码实现数字化是必然趋势。数字化的语音和图像需要用较高的数码率,需占用较大的带宽和存储空间。压缩数字化语音和图像信号的数码率是实现语音和图像通信数字化的关键。编码技术的核心就是研究压
2、缩编码算法用尽可能低的数码率获得尽可能好的语音和图像质量。,压缩编码的3类方法,(1)概率匹配编码:根据编码对象出现的概率分别给予不同长度的代码,以保证总的代码最短.(2)变换编码:将信号从一种信号空间变换到另一种更有利于压缩编码的信号空间,然后进行编码.(3)识别编码:分解文字、话音、图形和图像的基本特征,与汇集这些基本特征的样本集对照识别,选择失真最小的样本编码传送。,变换编码分为两类.一类是预测变换,利用信号的相关性,预测将来的信号,对预测的误差(余量、残差)进行编码。另一类是函数变换,利用信号在不同函数空间分布的不同,选择合适的函数变换后进行编码。有的文献只将函数变换编码称为变换编码,
3、而将预测变换称为预测编码。,本章主要研究的对象是电话语音信号 带宽:300Hz3400Hz宽带语音及声频信号编码方法要求不同,2.2 语音编码方法、性能及标准,221 语音编码的方法 语音信号编码分别沿着两个方向发展:一个方向是从语音信号波形的特点出发,对波形的采样值,或其预测值,或其预测误差值进行编码,称为语音信号的波形编码。另一个方向是从语音信号的产生机理出发,构造语音信号的模型,提取描述语音信号的特征参数,对模型参数或其预测值进行编码、称为参数编码或模型编码。,三类语音编码器,波形编码参数编码混合编码,波形编码,波形编码以重构语音波形为目的,力图使重建语音波形保持原话音信号的波形。编码时
4、用数据表示语音信号的时间波形,在解码端通过重构与原始语音信号相似的波形来得到近似的话音。般具有适应能力强、话音质量好等优点,但所需用的编码速率高。如脉冲编码调制(PCM)。自适增量调制(ADM)、自适差分编码(ADPCM)、自适预测编码(APC)、子带编码(SBC、自适应变换编码(ATC)等都属于这类编码。它们能在64Kbs一16Kbs的速率上获得较高的编码质量。,参数编码,参数编码不以重构原始信号波形为目的它将语音信号分段,提取能表征语音段特征的参数、在解码端重构一个新的有相似声音但波形不尽相同的语音信号。声码器所用的参数,有的表明声音的短时谱、有的描述语音产生的数学模型。编码速率低,可以低
5、到2.4Kbs以下,甚至达到800 bs。传统声码器由于参数较少,难以重新产生与原始语音相近的声音,合成的语音质量差通道声码器、共振蜂声码器以及线性预测声码器是传统的参数编码器。,混合编码,结合了原有波形编码器质量好和声码器速率低的持点克服了它们各自的弱点,称为混合编码算法。最典型的算法都利用线性预测(LP),采用分析合成方法(AnalysisbySyntheie,AbS)构成能在4Kbs一16Kbs的中速率上得到高质量合成语音如多脉冲激励线性预测编码(MPLPS)、规则脉冲激励线性预测编码(RPELPC)、码本激励线性预测编码(CELP)等。,混合编码算法,80年代以来,低速率(1.2Kbs
6、一4Kbs)的参数编码技术也在迅速发展,对传统声码器不断改进,提出了一些新的语音模型和方法,如混合激励线性预测(MELP)声码器、正弦变换编码器(STC)和多带激励(MBE)声码器。有的声码器已经可以在2.4Kb/s速率提供满足通信质量的语音。,2.2.2 语音编码性能的评价,语音编码的性能可以从4个方面来评价 比特率 语音质量 信号延时 复杂度。语音编码质量 数字通信中,语音质量可以分为广播级质量、长途通信质量或称网络质量、通信质量以及合成语音质量等4级。,4 级语音质量,广播级质量是高质量的宽带(8kHz)广播解说语音。长途电话质量或网络质量是指和传统的电话带宽语音信号(300 Hz一34
7、00 Hz)相当的质量。通信质量是指语音质量有点下降,但仍然保证足够高的自然度和可懂度,可满足大多数专用通信要求。合成语音质量是指语音保持足够高的可懂度,但自然度及讲话人辨认等方面不够好,一般当编码速率低于4Kbs或2.4Kbs时,产生合成语音质量,话音编码研究的目标,在4Kbs时达到长途电话质量在2.4Kbs左右达到通信质量,语音质量评定方法,主观评定方法是以人类听话时对语音质量的感觉来评定。客观评定方法有信噪比、加权信噪比、平均分段信噪比等时域的测量方法,还有谱失真测度和LPC倒谱距离测度等频域测量方法。,主观评定:平均意见得分(Mean Opinion score,MOS),2编码速率编
8、码速率可以用“比特秒(bs)”度量,它代表编码的总速率.编码速率也可以用“比特样点(bp)”度量,它代表平均每个语音样点用多少比特编码.平均每样点的比特数越高,语音波形或参数量化越精细,语音质员也就越容易做高,相应地对传输带宽或存储容量的要求也越高.,3编解码的复杂程度采用复杂一些的算法能获得较好的话音质量或较低的编码速率。4编解码延时 有回声的系统中,往返总延时超过约100ms时,回声将干扰正常接收的声音。对于公用电话网,可能会有几次音频转接也就是会有多次语音编解码,因此对单次语音编解码的延时通常要求不超过5ms10 ms。通常允许话音编码延时在几十ms到100 ms之间。当总延时超过100
9、 Ms时,一般需要采取回声抵消或回声抑制。,2.2.3 语音编码技术的发展和语音编码标准,长途通信网语言编码标准数字蜂窝系统的语音编码标准保密电话语音编码标准,现有ITUT语音编码标准,1.长途通信网语言编码标准,2.数字蜂窝系统的语音编码标准,数字蜂窝语音编码标准,3.保密电话语音编码标准,窄带保密电话应用于带宽受限信通,如短波信道、有线模拟话路、中小功率卫星信道等。只有美国公布了所用保密电话的标准。FS1015是美国联邦标准24Kbs LPC声码器,该标准由美国国防部(DOD)制定。对它的研究始于20世纪70年代末期,它采用10阶LPC预测器。,各种语音编码标准的效果,2.3 语音信号的采
10、样和量化,2.3.1 信号采样,理想冲激抽样,矩形脉冲抽样,信号的重建,对于电话带宽的语音信号,其带宽限制为300 Hz一3400 Hz,采样频率均为8000 Hz。,2.3.2 标量量化,量化是把幅度连续的信号转换成幅度离散的信号,对每个离散值分别进行量化称为标量量化。均匀量化器非均匀量化器之一 最佳量化器 非均匀量化器之二 对数量化器 自适应量化器差分量化器,均匀量化曲线,均匀量化器,均匀量化器广泛应用于线性A/D变换接口,例如在计算机的A/D变换中,常用的有 8位、12位、16位等不同精度。另外,在遥测遥控系统、仪表、图像信号的数字化接口等中,也都使用均匀量化器。语音信号数字化通信中,均
11、匀量化则有一个明显的不足:量化噪比随信号电平的减小而下降。产生这一现象的原因是均匀量化的量化间隔为固定值量化电平分布均匀,因而无论信号大小如何,量化噪声功率固定不变,这样,小信号时的量化信噪比就难以达到给定的要求。,最佳量化器,采用非均匀量化器,其量化特性同输入信号的概率密度函数相匹配可降低量化噪声。在P(x)相对比较高的区域内选择较小的量化间隔,在其他区域选择较大的量化间隔,以降低总的噪声水平。,对数量化器,压缩特性,两种对数压缩特性,13折线A律压扩曲线,A律13折线,律15折线,G.7ll关于PCM的建议,常用的N=8位,fs=8kHz,实际应用的B=Nfs=64 kHz,自适应量化器,
12、自适应量化中,量阶不再是固定的,它根据输入信号的短时方差进行调整使量阶的大小和输入信号电平相匹配前向自适应量化(AQF)后向自适应量化(AQB),前向自适应量化(AQF),后向自适应量化(AQB),差分量化器,量化之前预处理。对预测后的残差(或余置)信号进行量化的称为差分量化器可以提高量化精度或减少编码比特数后向自适应差分量化器前向自适应差分量化器,后向自适应差分量化器,前向自适应差分量化器,.矢量量化,矢量量化(vector Quantation)是一种高效的数据压缩技术。它将若干个时间离散幅度连续的采样值分为一组,形成多维空间的一个矢量,再将此矢量进行量化处理。提高量化效率,降低数码率。,
13、矢量量化,简单矢量量化结构,矢量量化,设Xx1,x2,xN T是一个N维实数矢量,其中的元素是幅度连续的随机变量。在矢量量化器中 X矢量用另一个幅度离散的N维实数矢量Y匹配,即用Y表示X,或者说X被量化成Y。Y选自一有限集合S=Y i(1i M),Y i yi1,yi2,yiNT。集合S称为码本(codebook)或参考模板(reference template)。M称为码本容量。相当于标量量化中的量化电平数。设计一个码本,使N维矢量空间划分为M个区域或单元C i(1i M),并且每一个单元C i对应一个矢量Y i如果有一个矢量X在C i中,量化器就以码本矢量Y i表示。,矢量量化的2维空间,
14、一个2维空间划分为18个单元,实现矢量量化的两个原则,一,如何划分M个区域边界。这需要用大量的输入信号矢量经过统计实验确定这个过程称为“训练”或“建立”码本。“最近邻原则”二,设区域内所有输入矢量X的集合为S l 那么该区域的码本矢量Y l应使此集合中所有矢量与Y l之间的畸变平均值最小。Y l应等于S l中所有矢量的“质心”,失真准则,均方误差(MSE),码本设计,根据介绍的两条原则可以形成一种码本设计的递推算法。这种算法是基于SPLloyd的标量量化递推算法,由YLinde、ABuzo和RMGray推广至多维空间后形成的所以常称为LBG算法或GLA(Generalized Lloyd Al
15、gorithm)。,码本类型和码本搜索,树状码本VQ系统 多级VQ 系统 分裂式VQ,树状码本VQ系统,2.4 语音模型和LPC声码器,2.4.1 语音信号的基本特性 语音信号是一个非稳态信号。其特征是随时间变化的,但在一个很短的时间段内,可以认为具有相对稳定的特征,故称为准平稳信号。这个时间段约5ms-50 ms。语音可以分为浊音、清音和混合音。,浊音、清音,浊音语音在时域上具有准周期特性,在频域上具有谐波结构。清音语音类似于随机噪声,其频带较宽。,语音信号波形及其短时谱,浊音声波波形图,浊音段窗取波形及典型频谱,(a)汉明窗取浊音波形;(b)浊音典型频谱,清音波形图,清音典型频谱,浊音的频
16、谱结构,浊音的频谱结构有两个特点:第一,它的精细谱具明显的周期性起伏的谐波特点;第二,它的谱包络具有所谓的共振峰结构即其谱包络中有几个明显的突起点,称为“共振峰(Formant)”,其位置称为共振峰频率。,语音产生的机理,语音信号的特点是由语音产生的机理造成的。发浊音时,气管的气流冲击声带,使声带振动,形成一串周期性的脉冲气流送入声道。脉冲气流叫做声门脉冲。声门脉冲激励声道产生浊音,声门脉冲的频率叫做基音频率。发清音时,声带不振动,声道紧缩成窄通道,气流通过时产生湍流,因而明显地具有随机噪声的特性。,2.4.2 语音信号的线性预测模型,LPC:线性预测编码(Linear Predictive
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音编码技术 语音 编码 技术 PPT 课件

链接地址:https://www.31ppt.com/p-5606820.html