多媒体技术及应用基础.ppt
《多媒体技术及应用基础.ppt》由会员分享,可在线阅读,更多相关《多媒体技术及应用基础.ppt(97页珍藏版)》请在三一办公上搜索。
1、第2章 音频处理技术(二),西安交通大学计算机教学实验中心2007,多媒体技术及应用基础,第2|82页,问题的提出,数字音频信息如何处理?用什么工具可以处理?有哪些处理?我能处理吗?,第3|82页,二、数字音频,数字音频原理回顾,第4|82页,声音的数字化,声音的数字化 数字化就是将连续信号变成离散信号。对音频信号,首先在时间上离散,取有限个时间点,称为采样。然后在幅度上离散,取有限个幅度值,称为量化。再将得到的数据表示成计算机容易识别的格式,称为编码。,第5|82页,声音的A/D与D/A转换,模拟信号很容易受到电子干扰,因此用数字信息代替声音信号成为音频信息处理的一种方法。A/D转换和D/A
2、转换技术便应运而生。A表示Analog”(类比、模拟),D代表“Digital”(数字),A/D转换就是把模拟电信号转换成由“0”和“1”组成数字信号的过程。这样做的好处是显而易见的,声音存储质量得到了加强,数字化的声音信息使计算机能够进行识别、处理和压缩,这也就是为什么如今磁带逐渐被淘汰,CD唱片却趋于流行的原因。哈罗小说网A/D转换的一个关键步骤是声音的采样和量化,得到数字音频信号,它在时间上是不连续的离散信号。,第6|82页,PCM编码,1939年法国工程师Alec Reeves发明了将连续的模拟信号变换成时间和幅度都离散的二进制码代表的脉冲编码调制信号(Pulse Code Modul
3、ation-PCM),并申请了专利。P首先开始应用于电话系统,但一直到年美国Bell实验室才为制成了国际上第一套商用电话系统(系统),这标志了通信开始步入数字化。PCM 编码是对连续语音信号进行空间采样、幅度值量化及用适当码字将其编码的总称。,第7|82页,PCM编码主要优点,抗干扰能力强;失真小;传输特性稳定,尤其是远距离信号再生中继时噪声不累积,而且可以采用压缩编码、纠错编码和保密编码等来提高系统的有效性、可靠性和保密性。,第8|82页,A/D 和D/A转换示意图,8位可编程A/D转换芯片,示意图,第9|82页,模拟声音信号的采样和量化过程示意,模拟声音信号的波形,采样得到的离散时间信号,
4、再量化得到的数字信号,第10|82页,数字音频的技术指标,采样频率采样精度声道数音频数据传输率编码算法与音频数据压缩比,第11|82页,采样频率,采样频率是指一秒钟采样的次数。采样频率越高,单位时间内采集的样本数越多,得到波形越接近于原始波形,音质就越好。根据奈奎斯特(Harry Nyquist)采样理论:如果采样频率高于输入信号最高频率的两倍,重放时就能从采样信号序列无失真地重构原始信号。,第12|82页,采样的3个常用频率,分别为:11.025kHzAM(调幅)广播22.05kHz FM(调频)广播44.1kHz CD高保真音质声音现在声卡的采样频率一般为48kHz甚至96kHz。,第13
5、|82页,采样精度,采样精度用每个声音样本的位数表示,也叫样本精度或量化位数,反映度量声音波形幅度的精度。例如,每个声音样本用16位表示,则量化样本值在065535之间,它的精度是输入信号的1/65536。采样精度决定了模拟信号数字化以后的动态范围。采样精度影响到声音的质量位数越多,声音的质量越高,而需要的存储空间也越多;位数越少,声音的质量越低,需要的存储空间越少。,第14|82页,声道数,单声道(mono)信号一次产生一组声波数据。双声道或立体声(stereo)一次产生两组声波数据。双声道在硬件中占两条线路,一条是左声道,一条是右声道。立体声不仅音质、音色好,而且能产生逼真的空间感。但立体
6、声数字化后所占空间比单声道多一倍。,第15|82页,其他因素,除采样频率、采样精度、声道数影响声音质量外,声音录制时环境噪声、声卡内部噪声以及采样数据丢失等都会造成声音质量的下降。实际收听时,音响(功率放大器、扬声器等)的质量对音质的表现也起很大作用。,第16|82页,音频数据传输率,音频信号数字化后,产生大量数据。产生数据的速度或播放声音时需要传输数据的速度影响声音的播放质量。数据传输率用每秒钟传输的数据位数表示,记为bps(bit per second)。未经压缩的数字音频数据传输率为:数据传输率(bits)=采样频率(Hz)量化位数(bit)声道数,第17|82页,声音质量和数字化指标,
7、第18|82页,编码算法与音频数据压缩比,未压缩的音频数据量非常大,因此在编码的时候常采用压缩的方式。实际上,编码的作用一是记录数字数据,二是采用一定的算法来压缩数据以减少存储空间和提高传输效率。压缩编码的基本指标之一就是压缩比,一般为数据压缩前后的数据量之比:,第19|82页,数据压缩说明,采用不同的数字化指标实际上也是进行了不同比例的数据压缩。如果PCM编码采用4bit量化对CD音质信号压缩,其压缩比为4:1。压缩算法包括有损压缩和无损压缩;有损压缩解压后数据不能完全复原,要丢失一部分信息。无损压缩不丢失任何信息,能较好地复原原始信号。,第20|82页,数字音频文件格式,数字声音文件格式是
8、数字音频在磁盘文件中的存放形式,相同的数据可以有不同的文件格式,而不同的数据也可以有相同的文件格式。WAVE 格式MP3 格式RA 格式,第21|82页,WAVE文件格式,WAVE文件是一种通用的音频数据文件,文件扩展名为“WAV”,Windows系统和一般的音频卡都支持这种格式文件的生成、编辑和播放。CD激光唱盘中包含的就是WAVE格式的波形数据。一般说来,声音质量与其WAVE格式的文件大小成正比。WAVE文件的特点是易于生成和编辑,但在保证一定音质的前提下压缩比不够,不适合在网络上播放。,第22|82页,MP3文件,MP3文件是采用MP3算法压缩生成的数字音频数据文件,以“.MP3”为文件
9、后缀。MP3利用MPEG制定的MPEG-1 Audio layer 3的压缩标准,将音频信息用10:1甚至12:1压缩率变成容量较小的数据文件。虽然MP3是一种利用了人类心理声学特性的有损压缩,人耳基本不能分辨出失真,音质几乎达到了CD音质标准。按照这种算法,10张CD-DA的内容可以压缩到l张CD-ROM中,而且视听效果相当好。,第23|82页,RA文件,Real Audio是Real networks推出的一种音乐压缩格式,它的压缩比可达到96:1,因此在网上比较流行。经过压缩的音乐文件可以在通过速率为14.4kb/s的MODEM上网的计算机中流畅回放。其最大特点是可以采用流媒体的方式实现
10、网上实时播放,即边下载边播放。,第24|82页,五、多媒体数据的编码技术,自然现象:我们了解的东西,描述它用的信息量少,不了解的东西,描述它用的信息量大。在信息论中,可以说:信息是用不确定的度量来定义的;一个消息的可能性越小,其信息含量越大;消息的可能性越大,则信息含量越小。,第25|82页,(1)信息和熵,香农(C.E.Shannon)信息论应用概率来描述不确定性。事件出现的概率小,不确定性越多,信息量就大,反之则少。在数学上,所传输的消息是其出现概率的单调下降函数。所谓信息是指从N个相等可能事件中选出一个事件,所需要的信息度量或含量,也就是在辨识N个事件中某个特定事件过程中所需提问“是”或
11、“否”的最少次数。如从64个数中选定某一个数,提问:“是否大于32?”,则不论回答是与否,都消去了半数的可能事件,如此下去,只要问6次这类问题,就可以从64个数中选定一个数。因此,可以用二进制的6个位来记录这一过程,就可以得到这条信息。,第26|82页,信息源x的熵,第27|82页,例2-10,第28|82页,例2-11,第29|82页,香侬理论的要点,信源中含有自然冗余度,这些冗余度既来自于信源本身的相关性,又来自于信源概率分布的不均匀性,只要找到去除相关性或改变概率分布不均匀性的手段和方法,也就找到了信息熵编码的方法。但信源所含有的平均信息量(熵)是进行无失真编码的理论的极限,只要不低于此
12、极限,就能找到某种适宜的编码方法,去逼近信息熵,实现数据压缩。,第30|82页,(2)信息冗余,多媒体数据中大的数据量并不完全等于它们所携带的信息量。在信息论中,称为冗余。冗余是指信息存在的各种性质的多余度。减少数据冗余可以节省存储空间,有效利用网络带宽。,第31|82页,数据冗余的类型,空间冗余 物理特性具有相关性。,时间冗余 相邻帧图像之间有较大的相关性。,信息熵冗余 自然编码的比特分配不能达到最佳。,视觉冗余 人眼不能察觉图像中的所有变化。,知识冗余 数据的理解与先验知识有很大的关系。例如,当接收到一个成语的前三个字“大惊小”时,就知道下一个字肯定是“怪”。,听觉冗余 人耳不能察觉所有频
13、率的变化。,第32|82页,数据压缩的基本原理,数据压缩的对象是数据。数据是信息的载体,用来记录和传送信息。真正有用的不是数据本身,而是数据所携带的信息。大的数据量并不代表含有大的信息量。而对于去掉冗余的数据对信息没有本质的影响称为压缩。,第33|82页,(3)压缩算法的分类,从信息量有无损失划分:可逆编码和不可逆编码。可逆编码也叫无失真编码、冗余度压缩、熵编码等。其原理是减少数据中的冗余度,而不损失任何信息。解压时可以完全恢复出原来的数据,亦称无损压缩。典型的无损压缩有Huffman编码、算术编码和行程编码等。可逆编码由于不会产生失真,因此在多媒体技术中常用于文本、数据的压缩,它能保证完全地
14、恢复原始数据。但这种方法的压缩比较低,一般在2:15:1之间。,第34|82页,不可逆编码,不可逆编码是有失真压缩,信息论中叫熵压缩。由于压缩了熵,会减少信息而不能再恢复。因此这种压缩又称有损压缩。在语音和图像中,由于存在视觉冗余和听觉冗余,减少这种信息并不影响人们的听觉效果和视觉效果,所以经常采用这种方法,有损压缩常用于数字化存储的模拟数据,并且主要应用于图像、声音、动态视频等数据的压缩。如果用混合编码的JPEG标准,对自然景物的彩色图像,压缩比可达到几十倍甚至上百倍。,第35|82页,压缩算法分类,根据压缩原理划分有预测编码、变换编码、矢量编码、子带编码、熵编码等。,第36|82页,1)预
15、测编码,对于语音,就是通过预测去除语音信号时间上的相关性。而对于图像,帧内预测去除了空间上的冗余,帧间预测则可以去除时间上冗余。目前大多数语音、图像编码中都采用了预测技术。例如语音中的LPC(linear Predictive Coding,线性预测)、CELP(码激励线性预测)、图像中的ADPCM(自适应差分脉冲编码调制)等。,第37|82页,2)变换编码,变换编码首先把要压缩的数据变换到某个变换域中,然后再进行编码。变换域中表现为能量集中在某些区域,就可以利用这一特点在不同区域间有效地分配量化比特数,或者去掉这些能量很小的区域,从而达到数据压缩的目的。例如声音中的频谱分析实际上是对语音波形
16、进行了快速傅里叶变换(FFT),将时域信号变到了频域中,可以清楚地看到能量集中在哪些频率范围内。,第38|82页,3)矢量量化,矢量量化是利用相邻数据间的相关性,将数据序列分组进行量化的一种压缩方法。和预测编码一样,矢量量化本质也是利用数据序列的统计相关性进行压缩的。,第39|82页,4)子带编码,子带编码首先让原始数据分别通过若干个具有不同通频带的滤波器,将信号分成多个子带信号输出,然后分别对各个滤波器的输出进行编码。当滤波器选取得合适时,它们的输出将各自具有不同的分布特性,对各频段进行不同的量化处理,可以有效地进行数据压缩。,第40|82页,5)熵编码,根据信息墒的原理,用短码表示出现概率
17、大的数据,用长码表示出现概率小的数据。这是一种无损数据压缩技术,在语音和图像编码中常常和其它有损压缩编码方法结合使用。,第41|82页,2.基本压缩编码方法,哈夫曼(Huffman)编码在1952年为文本文件而建立。霍夫曼编码的码长是变化的,对于出现频率高的信息,编码的长度较短;而对于出现频率低的信息,编码长度较长。这样,处理全部信息的总码长一定小于实际信息的符号长度。,第42|82页,例2-12,设信号源为X=、a、e、I、m、t、c、h、r。对应的概率为p=O.22、0.22、0.14、O.07、0.07、0.07、0.07、0.07、0.07,试给出该信源的霍夫曼编码方案。若传送一个串字
18、符串“I am a teacher”,共14个字符。若用ASCII传送,每个字符8位,共需112位。该字符串中有9个不同的符号,至少需要4位二进制才能表示,这样传送该字符串也要56位。若用刚计算的Huffman编码,只需要42位。,第43|82页,霍夫曼编码过程,第44|82页,(2)行程编码原理,由字符(或信号采样值)构成的数据流中相同的字符(或字符串)会连续重复出现,重复出现的字符长度称为游程长度RL(Run Length)。如果给出了形成串的字符,串的长度及串的位置,就能复出原来的数据流。行程编码RLC(Run Length Coding)就是用二进制码字给出上述信息的一类方法。行程编码
19、又称“运行长度编码”或“游程编码”,第45|82页,例2-13,设有数据流“AAABBBBCCCCCDAAAAAA”,试计算该数据的行程编码。解:A重复3次,B重复4次,C重复5次,D不重复,A重复6次,RLC数据流为:“SA3SB4SC5DSA6”,其中S为指示符。总共占用13个字节,而源数据占用19个字节。有时行程编码不用指示符,重复与否相同对待,则相应的RLC为“A3B4C5D1A6”占用10个字节。,第46|82页,3.数字音频压缩标准,1.电话质量的语音压缩标准。,电视会议的语音编码、为提高线路利用率的多媒体多路复用装置、数字录音电活的数字记录部件以及高质量的语音合成器;数字移动通信
20、、无绳电话。ITU 国际电信联盟 International Telecommunication Union,第47|82页,(2)调幅广播质量的音频压缩标准,调幅广播质量音频信号的频率范围是50Hz7kHz,又称“7kHz音频信号”,当使用16kHz的采样频率和14bit的量化位数时,信号速率为224kbs。1988年ITU制定了G.722标准,它可把信号速率压缩成64kbs。G.722标准基于子带ADPCM技术(SBADPCM),将现有的带宽分成两个独立的子带信道,使输入信号进入滤波器组分成高子带信号和低子带信号,然后分别进行ADPCM编码,最后进入混合器形成输出码流。这种压缩方法能够在每
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多媒体技术 应用 基础
链接地址:https://www.31ppt.com/p-6560899.html