第三章多媒体音频信息处理ppt课件.ppt
《第三章多媒体音频信息处理ppt课件.ppt》由会员分享,可在线阅读,更多相关《第三章多媒体音频信息处理ppt课件.ppt(74页珍藏版)》请在三一办公上搜索。
1、第三章,多媒体音频信息处理,声音是携带信息的极其重要的媒体,是多媒体技术研究中的一个重要内容。声音的种类繁多,如人的话音、乐器声、动物发出的声音、机器产生的声音以及自然界的声音等。 这些声音有许多共同的特性,也有它们各自的特性。在用计算机处理这些声音时,既要考虑它们的共性,又要利用它们的各自的特性。,一、音频信号的分类,音频信号可分为两类:,语音信号:语音是语言的物质载体,它包含了 丰富的语言内涵,是人类进行信息交流所特有 的形式。 非语音信号:主要包括音乐和自然界存在的其他 声音形式。非语音信号的特点是不含复杂的语义 和语法信息,其信息量低,识别简单。,二、音频信号的形式,声音可用一条连续的
2、曲线来表示。这条连续的曲线无论多么复杂,都可分解成一系列正炫波的线性叠加,称为声波。因声波是在时间上和幅度上都连续变化的量,因此称之为模拟量。模拟信号有两个重要参数:频率和幅度。,一个声源每秒钟可产生成百上千个波峰,把每 秒钟波峰所发生的数目称之为信号的频率。 信号周期是指两个峰点或谷底之间的相对时间。 信号的基线提供了一个测量声音的起点。信号 的幅度是从信号的基线到当前波峰的距离。幅 度决定了信号音量的强弱程度。 信号带宽是声音信号的一个重要参数,它用来描 述组成复合信号的频率范围。,振幅,周期,基线,1GHz10GHz,超高声波,20kHz1GHz,超声波,20Hz20kHz,人类听力所能
3、接受,020Hz,亚声波,频率范围,声音分类,三、声音质量的评价,客观质量度量:用信噪比来衡量。 主观质量度量,现在公认的声音质量分为4级,数字激光唱盘质量 调频无线电广播 调幅无线电广播 电话质量,CD-DA,FM广播,AM广播,电话,10 20 50 200 3.4K 7K 15K 22K,四、模拟音频的数字化过程,话音信号是典型的连续信号,不仅在时间上是连续的,而且在幅度上也是连续的。在时间上“连续”是指在一个指定的时间范围里声音信号的幅值有无穷多个,在幅度上“连续”是指幅度的数值有无穷多个。我们把在时间和幅度上都是连续的信号称为模拟信号。,如果要用计算机对音频信息进行处理,则首先将模拟
4、音频信号(如语音、音乐等)转换成数字信号.对模拟音频数字化的过程涉及到音频的采样、量化和编码.,模拟音频信号,采样,量化,编码,数字音频信号,计算机对声音的表示主要是通过规则的时间间隔测出音波振动的幅度从而产生的一系列声音数据。这种测出数据的方法就称为采样,一秒内采样的次数称为采样率(sampling rate),单位为Hz。 例如:采样频率通常采用种:11.025KHz(语音效果)、22.05KHz(音乐效果)44.1KHz(高保真效果)。常见的CD唱盘的采样频率即为44.1KHz。,采样,奈奎斯特理论:采样频率与声音频率之间有 一定的关系,只有采样频率高于声音信号最 高频率的两倍时,才能把
5、数字信号表示的声 音还原成为原来的声音. 例如:CD唱片,要想获得CD音质的效果,则要 保证采样频率为44.1KHz.,采样的离散音频数据要转换成计算机能够表示的 数据范围的过程,我们把对声波波形幅度的数字化 表示称之为“量化”量化的过程首先将采样后的信号按整个声波的幅 度划分成有限个区段的集合,把落入某个区段内 的样值归为一类,并赋予相同的量化值.,量化,(c) 采样信号的量化,(a) 模拟音频信号,(b) 音频信号的采样,数字化音频的过程如下图所示。,量化位数 量化位数也称“量化精度”,是描述每个采样点样值的二进制位数。例如,8位量化位数表示每个采样值可以用28即256个不同的量化值之一来
6、表示,而16位量化位数表示每个采样值可以用216即65536个不同的量化值之一来表示。这个参数就是通常所说的声卡的位数.常用的量化位数为8位、16位、32位,专业级的高档声卡有64位的。,编码,为什么要对音频编码?,A、获取更好的数学描述方法?B、让声音不失真?C、不编码就不是比特流?D、为了使比特流更加简练?E、为了便于计算机存储?F、为了便于在网络上传输音频?,以上哪个是最根本的出发点?,所谓编码,就是按照一定的格式把离散的数字记录下来,并在有用的数据中加入一些用于纠错、同步和控制的数据.在数据回放时,可以根据所记录的纠错数据判别读出的声音数据是否有错,如在一定范围内有错,可加以纠正.,五
7、、音频信号的压缩编码与标准,数字波形文件数据量大,数字音频的编码必须采用高效的数据压缩编码技术。对数字化后的声音信号进行压缩编码,使其成为具有一定字长的二进制数字序列,并以这种形式在计算机内传输和存储.在播放时经解码器恢复成原来的声音信号.,输入信号,编码器,传输/存储,解码器,输出信号,音频信号能够被压缩编码的依据有两个,一是声音信号存在着数据冗余;二是利用人的听觉特性来降低编码率,人的听觉具有一个强音能抑制一个同时存在的弱音现象,这样就可以抑制与信号同时存在的量化噪声;另外人耳对低频端比较敏感,而对高频端不太敏感,由此引出了“子带编码技术”。 音频信号的编码方式可分为波形编码参数编码和混合
8、编码三种。,波形编码的算法简单,易于实现,可获得高质量的语音。常见的三种波形编码方法为:脉冲编码调制(PCM),实际为直接对声音信号作AD转换。只要采样频率足够高,量化位数足够多,就能使解码后恢复的声音信号有很高的质量。差分脉冲编码调制(DPCM),即只传输声音预测值和样本值的差值以此降低音频数据的编码率。自适应差分编码调制(ADPCM),是DPCM方法的进一步改进,通过调整量化步长,对不同频段设置不同的量化字长,使数据得到进一步的压缩。,2). 参数编码参数编码方法通过建立起声音信号的产生模型,将声音信号用模型参数来表示,再对参数进行编码,在声音播放时根据参数重建声音信号。参数编码法算法复杂
9、,计算量大,压缩率高,但还原声音的质量不高。3). 混合编码混合编码是把波形编码的高质量和参数编码的低数据率结合在一起,取得了较好效果。,脉冲编码调制(PCM),PCM编码是对连续语音信号进行空间采样,幅度值量化及用适当码字将其编码的总称.PCM方法可以按量化方式的不同,分为均匀量化PCM,非均匀量化PCM和自适应量化PCM等三种.,均匀量化,非均匀量化,差分脉冲编码调制(DPCM),他编码的不是声音采样样本值,而是样本值及其预测值的差分。根据过去的样本去估算(estimate)下一个样本信号的幅度大小,这个值称为预测值,然后对实际信号值与预测值之差进行量化编码,从而就减少了表示每个样本信号的
10、位数。,自适应差分脉冲编码 (ADPCM),自适应就是使量化间隔大小的变化自动的去适应输入信号大小的变化.他根据信号分布不均匀的特点,是系统具有随输入信号的变化而改变量化区间的大小,以保证输入量化器的信号基本均匀的能力.,标准 比特速度 编码技术 应用 制定日期,G.723 5.3kb/s或6.3kb/s MP-MLQ 视频电话及IP电话等 1996.3,G.722 64kb/s SBC+ADPCM 视听多媒体和会议电话 1988.11,G.711 64kb/s PCM 公共电话网 1972,G.728 16kb/s LD-CELP 公共电话网 1992.9,G.729 8kb/s CS-AC
11、ELP 无线移动网、 1996.3 计算机通信系统等,ITU-T G系列音频压缩编码标准,音频编码标准和算法,六、数字音频的文件格式,WAV文件,WAV文件又称为波形文件,是Micorsoft公司的文件格式.WAV文件来源于对声音模拟波形的采样,并以不同的量化位数把这些采样点的值转换成二进制数.,WAVE声音文件是使用RIFF(资源交换文件)的格式描述的,对于PCM采样得到的波形文件,其声音文件的大小与采样频率、量化位数和声道数有关. 文件大小=采样频率*(量化位数/8)*声道数* 录音时间,如:对于立体声,如果采样频率为44.1Kz,分辨率为 16bit,声道数为2,语音时间为10秒,求录音
12、文件 的大小?,VOC文件,VOC文件是Creative公司所使用的标准音频文件格式。与WAVE格式类似,VOC文件有文件头块和音频数据块组成。文件头包含一个标识、版本号和一个指向数据块起始地址的指针。数据块分成各种类型的子块,如声音数据、静音、标记、重复、重复的结束及终止标记等。,mp3文件,是用一种属于按MPEG标准的声音压缩技术制作的数字音频文件。,存储空间小,同样长度的音乐文件,用MP3 存储相当于WAV的1/10。比较好的播放器:winamp、超级解霸、 realplayer等,一般都支持。,Real Player公司推出的适合于网络播放的媒体格式。,高压缩比,存储空间小。适合网络播
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第三 多媒体 音频 信息处理 ppt 课件

链接地址:https://www.31ppt.com/p-1469448.html