音频信号及其处.ppt

上传人：牧羊曲112

文档编号：4950242

上传时间：2023-05-25

格式：PPT

页数：37

大小：539KB

《音频信号及其处.ppt》由会员分享，可在线阅读，更多相关《音频信号及其处.ppt（37页珍藏版）》请在三一办公上搜索。

1、,第二章音频信号及其处理,2.1声音信号,2.2数据压缩基础,2.3语音编码技术,2.1.1 声音信号的物理特征,2.1.2 声音信号的数字化处理,2.1.3 电子乐器数字接口(MIDI)系统,2.2.1 数据压缩及其必要性2.2.2 数据压缩技术的分类2.2.3 信源的数字化与压缩系统评价2.2.4 压缩的理论极限,第二章音频信号及其处理,2.3语音编码技术话音编码概要2.3.2 脉冲编码调制(PCM)2.3.3 PCM在通信中的应用2.3.4 增量调制与自适应增量调制2.3.5 自适应差分脉冲编码调制2.3.6 子带编码2.3.7 线性预测编码(LPC)2.3.8 GSM编译码器简介

2、,第二章音频信号及其处理,2.1 声音信号2.1.1 声音信号的物理特征,图201 声音是一种连续的波,1频率和振幅声音信号又两个基本的参数：频率和振幅。声音按照频率分为三种类型：次声、可听声、超声。低于20Hz的声音为次声，或称为亚音信号(subsonic)；可听声的声音频率范围为2020000 Hz；高于20000 Hz的声音为超声，或称超声波(ultrasonic)信号。多媒体计算机中处理的声音主要指可听声。频率能反映出声音的声调，我们所听到的声音如果细尖表示频率高，声音粗低表示频率低。,第二章音频信号及其处理,一般情况下人说话的话音信号的频率范围在3003000 Hz，称为话音(s

3、peech)信号，在这种频率范围里感知的声音幅度大约在0120 dB之间。声音信号的另一个基本参数是振幅，它表示声音信号的强弱。声音信号的强度相差很大，从可以听见的最弱声到最强声，其强度相差1万亿倍。声音的强弱采用分贝作为量纲，区别两个强度I和I0的分贝数（dB）是：声音分贝数=10*log(I/I0),在心理上，声音有两个最重要的量纲，即响度和音调，其他还有音色、和谐、不和谐等,第二章音频信号及其处理,振幅和频率不变的声音信号为单音，或称纯音。我们将不同的振幅和频率合成得到的声音信号称为复音。,2单音和复音,复音,基频：是决定声音音调的基本因素,谐音,基频和谐音合成复音，形成了声音的不同音

4、质和音色。,第二章音频信号及其处理,2.1.2 声音信号的数字化处理1模拟信号和数字信号我们把在时间和幅度上都是连续的信号称为模拟信号。在某些特定的时刻对这种模拟信号进行测量叫做采样(sampling)，由这些特定时刻采样得到的信号称为离散时间信号。采样得到的幅值是无穷多个实数值中的一个，因此幅度还是连续的。如果把信号幅度取值的数目加以限定，这种由有限个数值组成的信号就称为离散幅度信号。我们把时间和幅度都用离散的数字表示的信号就称为数字信号。话筒和摄像机产生的信号为模拟信号。模拟信号经过采样可获得离散信号。离散信号经模拟/数字转换变成二进制的数字信号。数字信号就可以直接输入计算机进行处理。,

5、第二章音频信号及其处理,声音进入计算机的第一步就是数字化，数字化实际上就是采样和量化。连续幅度的离散化通过量化(quantization)来实现，就是把信号的强度划分成一小段一小段，如果幅度的划分是等间隔的，就称为线性量化，否则就称为非线性量化。声音数字化需要回答两个问题：每秒钟需要采集多少个声音样本，也就是采样频率(fs)是多少，每个声音样本的位数(bit per sample，bps)应该是多少，也就是量化精度。,图204 声音的采样和量化,第二章音频信号及其处理,3采样定理采样频率的高低是根据奈奎斯特理论(Nyquist theory)和声音信号本身的最高频率决定的。奈奎斯特理论指出

6、，采样频率不应低于声音信号最高频率的两倍，这样就能把以数字表达的声音还原成原来的声音，这叫做无损数字化(lossless digitization)。采样定律用公式表示为fS=2f 或者 Ts=T/2其中f为被采样信号的最高频率。例如，电话话音的信号频率约为3.4 kHz，采样频率就选为8 kHz。如果不遵循采样定理，则必然造成误差，通常称为混叠效应。为了更好地防止混叠效应，一是对信号进行滤波，滤除高频成分，使信号的最高频率限制在fmax之内。其二是严格依据定理，以2*fmax的频率进行采样。,第二章音频信号及其处理,4采样精度、采样位数、声道数采样数据位数（Sampling Data）也称

7、量化精度，是指每个采样点在A/D转换后所表示的数据范围。常用的采样数据位数有：8bit，14bit，16bit。位数越少，声音的质量越低，需要的存储空间越少。采样精度的另一种表示方法是信号噪声比，简称为信噪比(signal-to-noise ratio,SNR)，并用下式计算：SNR 10 log(Vsignal)2/(Vnoise)220 log(Vsignal/Vnoise)其中，Vsignal表示信号电压，Vnoise表示噪声电压；SNR的单位为分贝(dB)。例1：假设Vnoise1，采样精度为1位表示Vsignal21，它的信噪比SNR6分贝。例2：假设Vnoise1，采样精度为16位

8、表示Vsignal216，它的信噪比SNR96分贝。,第二章音频信号及其处理,早期的收录机是以单声道进行录放的。如果同时记录两个声道的信号，即称其为双声道（立体声）录音。立体声技术更能反映人们的听觉效果，现场真实感强，所以得到广泛应用。一个声音文件的数据量可由下列公式推导出来：（采样频率*采样数据位数*声道数）/8=字节数/秒（B/s）如果对每个取样的幅度值用R位二进制编码（R比特）表示，就得到数字信号的传输速率或比特率I，I=fs*R(bit/s 或 b/s)当信号带宽给定从而fs已知且不变时，传输速率就简单地由采样位数R来确定。在有关编码的文献及书本中，比特率（或数码率、码率、速率、数据

9、率）用来表示I和R，具体指哪一个从其量纲即可以确定，不会混淆。一般传输时多用I，存储时多用R。,容量,第二章音频信号及其处理,采样频率,容量,表2-1 采样方式与所需占用的存储容量的关系,第二章音频信号及其处理,5常见的音频信号常见的音频信号主要有：电话音频信号、调频调幅无线电广播音频信号和高保真的立体声音频信号。由于其用途不同，这些音频信号的带宽也各不相同，而且在音响设备中，通常以带宽来衡量声音的质量。,10 20 50 200 3400 7k 15k 20k图2-05音频信号的带宽,第二章音频信号及其处理,6质量的评价客观质量度量：信噪比(signal to niose ratio

10、，SNR)峰值信噪比（PSNR）主观质量度量主观平均(mean opinion score，MOS)分综合法，一般以主观为主。,第二章音频信号及其处理,第二章音频信号及其处理,7音频信号的标准和规范表2-04数字电话的编码标准,第二章音频信号及其处理,2.1.3 电子乐器数字接口(MIDI)系1.MIDI简介MIDI是Musical Instrument Digital Interface的首写字母组合词，可译成“电子乐器数字接口”。用于在音乐合成器(music synthesizers)、乐器(musical instruments)和计算机之间交换音乐信息的一种标准协议。MID

11、I是乐器和计算机使用的标准语言，是一套指令(即命令的约定)。MIDI标准之所以受到欢迎，主要是它有下列几个优点：生成的文件比较小、容易编辑、可以作背景音乐。产生MIDI乐音的方法很多，一种是(frequency modulation，FM)FM合成法，另一种是乐音样本合成法，也称为波形表Wavetable)合成法。,第二章音频信号及其处理,2FM合成,第二章音频信号及其处理,3乐音样本合成,第二章音频信号及其处理,FM合成法：各种不同乐音的产生是通过组合各种波形和各种波形参数并采用各种不同的方法实现的。用什么样的波形作为数字载波波形、用什么样的波形作为调制波形、用什么样的波形参数去组合才

12、能产生所希望的乐音，这就是FM合成器的算法。使用FM合成法来产生各种逼真的乐音是相当困难的，有些乐音几乎不能产生，因此很自然地就转向乐音样本合成法。这种方法就是把真实乐器发出的声音以数字的形式记录下来，播放时改变播放速度，从而改变音调周期，生成各种音阶的音符。乐音样本合成器所需要的输入控制参数比较少，可控的数字音效也不多，大多数采用这种合成方法的声音设备都可以控制声音包络的ADSR参数，产生的声音质量比FM合成方法产生的声音质量要高。,第二章音频信号及其处理,4MIDI系统 MIDI协议提供了一种标准的和有效的方法，用来把演奏信息转换成电子数据。MIDI信息是以“MIDI messages”

13、传输的，它可以被认为是告诉音乐合成器(music synthesizer)如何演奏一小段音乐的一种指令，而合成器把接收到的MIDI数据转换成声音。国际MIDI协会(International MIDI Association)出版的MIDI 1.0规范对MIDI协议作了完整的说明。,第二章音频信号及其处理,图2-11 MIDI的通道概念6,第二章音频信号及其处理,图2-12 复杂MIDI系统,第二章音频信号及其处理,图2-13 使用PC机构成的MIDI系统,第二章音频信号及其处理,2.2 数据压缩基础人类社会已进入信息时代。而信息的本质，则要求交流和传播。于是就产生了“通信”和“存储”

14、。这两个物理过程，均可以采用一个统一的数字传输系统模型来概括，如图2-2-1所示。,图2-2-1 统一的数字传输系统模型,第二章音频信号及其处理,图中信源编码和信源解码即为本课程所要研究的内容，统称为信源解码；而信道编码和信道解码统称为信道编码。信源解码：主要解决有效性问题。通过对信源的压缩、扰乱、加密等一系列处理，力求用最少的数码传递最大的信息量，使信号更适宜传输。信道编码：主要解决可靠性问题。即尽量使处理过的信号在传输过程中不出错或少出错，即使出了错也要能自动检错和尽量纠错。如果信道编码的纠错能力足以保证对数字序列的无误差解码，则图2-2-1中的信道编码、解码器（简写为Codec，即Co

15、der+Decoder），调制、解调器（简写为Modem，即Modulator+Demodulator），以及实际的物理传输通道（模拟信道），有时集中成一个理想的方框，叫作无噪声数字信道，如图2-2-1中的虚线右边部分。而模拟信道加上Modem构成的方框，即为一个实际的数字信道。,第二章音频信号及其处理,2.2.1 数据压缩及其必要性数据压缩，就是以最少的数码表示信源所发的信号，减少容纳给定消息集合或数据采样集合的信号空间。所谓信号空间即被压缩的对象是指：1、物理空间，如硬盘、磁盘、磁带等数据存储介质；2、时间空间，如传输给定消息集合所需要的时间；3、电磁频谱区域，如为传输给定消息集合所要

16、求的带宽等。也就是所信号空间是指某信号集合所占的空域、时域和频域空间。信号空间的这几种形式是相互关联的：存储空间的减少也意味着传输效率的提高和占用带宽的节省。,第二章音频信号及其处理,采用数字技术具有许多优越性，但也使数据量大增。就是取样率最低的数字电话，按每一取样用8 bit压扩量化，通常也需要I=88=64kb/s的数码率（也写作64kbps）；一路PAL制彩色数字电视，若采用3路副载频采样，每像素（pixel，即picture+element，常简写为pel或p）8bit编码，数码率为I=4.4338=106.3Mb/s。若实时传送，需占用上述的数字话路1660个，若能将其压缩到原来的

17、1/3，即可同时增设1100路数字电话；而一路高清晰度电视HDTV（high Definition Television，又称高分辨率电视），数码率更高达I=12807206038=1327Mb/s，相当于13路普通数字电视。,第二章音频信号及其处理,由此可见，信息时代带来了“信息爆炸”。数据压缩的作用及其社会效益、经济效益将越来越明显。反之，不进行数据压缩，则无论传输或存储都很难实用化。而数据压缩的好处就在于：1、较快地传输各种信源（降低信道占有费用）-时间域的压缩；2、在现有通信干线上开通更多的并行业务（如电视、传真、可视电话等）-频率域的压缩；3、降低发射机功率-能量域的压缩；4、紧缩

18、数据存储量（降低存储费用）-空间域的压缩。,第二章音频信号及其处理,2.2.2 数据压缩技术的分类数据压缩的分类方法很多，估计不少于几十种，到目前为止尚未统一。而比较一致的分类方法，是将数据压缩分为在某种程度上可逆的与实际上不可逆的两类，这样更能说明它们的本质区别。1、可逆压缩也叫作无失真编码、无噪声编码（Noiseless Coding）、冗余度压减（Redundancy reduction）、熵编码（Entropy Coding）、数据紧缩（Data compaction）、信息保持编码（Lossless，bit-preserving）,等等。2、不可逆压缩又称有失真（Lossy）编码，

19、信息论中叫熵压缩（Entropy Compression）.,第二章音频信号及其处理,数据压缩,冗余度压缩,熵压缩,统计编码,霍夫曼编码,游程编码,二进制编码,LZW编码,其它,量化,特征提取,零记忆量化,均匀量化,马克斯量化,压扩量化,序列量化,预测编码,分组量化,直接映射,变换编码,分析-合成,增量调制,线性预测,非线性预测,自适应预测,运动补偿预测,矢量量化,神经网络,方块截尾,KLT,DCT,DFT,HAAR,非正交编码,第二章音频信号及其处理,2.2.3 信源的数字化1、量化的概念量化器就是用一组有限的实数集合作为输出，其中每一个数代表一群最接近于它的取样值。假设该集合有J个数，就叫J级量化。若用二进制表示，则需要用R=log2J位二进制符号来代表集合中的每一个数。以有限个离散值近似表示无限个连续值，一定产生误差，称为量化误差，由此而造成的失真称为量化失真。量化失真与噪声是不同的，但是，由于量化失真看起来类似于噪声，所以也常常称之为量化噪声，且用信噪比来度量，每增加一位编码，便可得到6dB的信噪比改善。,第二章音频信号及其处理,第二章音频信号及其处理,第二章音频信号及其处理,第二章音频信号及其处理,第二章音频信号及其处理,第二章音频信号及其处理,