多媒体技术应用2音频处理技术(陈永强)ppt课件.ppt
《多媒体技术应用2音频处理技术(陈永强)ppt课件.ppt》由会员分享,可在线阅读,更多相关《多媒体技术应用2音频处理技术(陈永强)ppt课件.ppt(77页珍藏版)》请在三一办公上搜索。
1、1,多媒体技术应用,数学与计算机学院陈永强Email:,2013-2014-2,2,第二章 音频处理技术,2.1 音频基本原理 2.1.1 人类听觉特性 2.1.2 数字音频 2.1.3 声音 2.1.4 语音2.2常用音频压缩标准 2.2.1音频压缩基础 2.2.2常用音频压缩标准 2.2.3音频文件格式2.3音频处理软件Audition 2.3.1功能介绍 2.3.2编辑环境 2.3.3基本操作,3,第二章 音频处理技术,2.1 音频基本原理2.1.1 人类听觉特性2.1.2 数字音频2.1.3 声音2.1.4 语音,4,近十年来,随着计算机技术的高速发展,以及能同时满足数字信号的高压缩率
2、和数字信号的高保真透明重放质量的压缩算法及标准得到大量开发与使用,数字音频已经广泛应用于因特网、多媒体及无线通信系统,CD品质的数字音频已经从根本上替代了模拟音频。因此,人们对音频信号数字化处理提出了越来越高的要求,相应软硬件实现手段的效率也在不断提高。,5,2.1.1 人类听觉特性音频信号的感知过程与人耳的听觉系统密不可分。对于人类听力感知的研究,其范围从人耳的生理设计到大脑对听觉信息的解释。当前,大部分感知音频的编码算法都是基于心理声学模型的。,6,2.1.1 人类听觉特性1听阈与听域2音调3响度和响度级4绝对听觉门限5临界频带6同时掩蔽7异时掩蔽8感知熵,7,2.1.1 人类听觉特性1听
3、阈与听域听阈(Auditory Threshold)就是指人能听到的最低声压级(Sound Power Level,SPL)。听域(Audible Area)是指人能感知的声音的范围,正常人耳能够感知的频率范围大致是20Hz20kHz;正常人能感知声音的声压级范围是0128dB。,8,图2-1 听阈-频率曲线,9,2.1.1 人类听觉特性2音调音调(Pitch)在物理学中是指声音的高低,实际上就是指人耳对不同频率声音的一种主观感受。音调主要由声音的频率决定,同时也与声音强度有关。频率高的声音,人感觉其音调也较高,反之,人感知音调低的声音其频率也低。对音调可以进行定量的判断,其度量单位为美(Me
4、l),定义一个声压级为40dB,频率为1kHz的纯音的音调为1000Mel。,10,2.1.1 人类听觉特性3响度和响度级响度(Loudness)是人耳感受声音强弱的主观感觉程度,这种感觉与音强、频率和波形都有关系,其度量单位为宋(Sone),定义一个声压级为40dB,频率为1kHz的纯音的响度为1Sone。响度级(Loudness Level)是指某响度与基准响度相比的等级,其度量单位为方(Phon),定义1kHz纯音的响度级为1Phon。,11,图2-2 人耳可听最小响度曲线,12,2.1.1 人类听觉特性4绝对听觉门限绝对听觉门限(Absolute Threshold of Hearin
5、g,ATH)指一个人在没有噪声的环境下,能够产生听觉,感知到一个纯音信号(某频率点)的最小能量幅度。 绝对听觉门限用声压级表示,静音为0dB,痛阈为140dB。,13,图2-3 绝对听觉门限曲线,14,2.1.1 人类听觉特性5临界频带指一个纯音可以被以它为中心频率,并且具有一定频带宽度的连续噪声所掩蔽,在这一频带内噪声功率等于该纯音的功率。使该纯音处于刚能被听到的临界状态,即称这一带宽为临界频带宽度。临界频带的单位为巴克(Bark)。,15,2.1.1 人类听觉特性6同时掩蔽掩蔽效应是指当两个响度不等的声音作用于人耳时,响度较高的频率成分的存在会影响到对响度较低的频率成分的感知。 当两个或更
6、多的音频信号到达人内耳时,掩蔽声与被掩蔽声同时作用发生掩蔽效应,就称同时掩蔽。,16,2.1.1 人类听觉特性7异时掩蔽指掩蔽效应发生在掩蔽声与被掩蔽声不同时出现的情况下。若掩蔽声音出现之前的一段时间内发生掩蔽效应,则称为超前掩蔽,否则称为滞后掩蔽。,17,2.1.1 人类听觉特性8感知熵感知熵(Perceptual Entropy)指利用心理声学的掩蔽现象和信号能量化原理来测量音频信号中感知相关的信息。一般以位(bit)作为单位,实际上表示了音频信号压缩的理论极限。,18,2.1.2 数字音频音频信号是时间和幅度都连续变化的一维模拟信号,要想在计算机中对它进行处理,就要将它变成时间和幅度都是
7、离散的数字信号,所以数字音频是指音频信号经过离散化处理后再用一系列的数字来表示的信号,其特点是保真度好,动态范围大。数字音频可分为波形声音、语音和音乐。波形声音实际上包含了所有的声音形式,因此数字音频有时也泛称为声音。,19,2.1.2 数字音频用计算机来处理音频信号必须将模拟音频信号转换成有限个数字表示的离散序列,过程为:选择采样频率,即进行采样;选择分辨率,即进行量化;最后编码形成声音文件。声音的采样与量化如图所示。,20,2.1.2 数字音频1.采样采样(Sampling)指把模拟信号在时域上以固定的时间间隔对波形的值进行抽取,再用若干位二进制数表示。对声音波形采样的频率直接影响声音的质
8、量,采样频率越高,声音保真度越好,但所要求的数据存储量也越大。根据采样定理,当采样频率大于信号最高频率的两倍时,在采样过程中就不会丢失信息,并且可以用采样后的信号重构原始信号,从而不失真地还原出原始的声音信号。对于音频,最常用的采样频率有三种:44.1kHz、22.05 kHz和11.025 kHz,其中44.1kHz采样频率是最常用的。声道数是声音通道的个数,指一次采样的声音波形个数。,21,2.1.2 数字音频2.量化量化(Quantity)的目的是将采样后的信号波形的幅度值(样本)进行离散化处理,样本从模拟量转化成了数字量。量化位数越多,所得到的量化值越接近原始波形的采样值。量化方式有三
9、种:零记忆量化、分组量化和序列量化。,22,2.1.3 声音声学是研究声音的学科,包括声波的产生、传播和接收。物体振动在弹性体里的传播称为波,而在空气中传播的波就称为声波,能被人的听觉器官所感觉到的声波叫声音,其频率一般在20Hz20kHz之间。,23,2.1.3 声音声音的三要素是音调、音色和音强。 音调是指声音的高低,音调与频率有关。音色是指具有特色的声音。 音强是指声音的强度,也称为声音的响度,音强与声波的振幅成正比 。,24,2.1.3 声音声音的质量简称音质。1)与采样频率有关。对于数字音频信号,音质的好坏与数据采样频率和数据位数有关。采样频率越低,位数越少,音质越差。2)与音频处理
10、设备有关。音响放大器和扬声器的质量能够直接影响重放的质量。3)与信号噪声比有关。在录音时,音频信号幅度与噪声幅度的比值越大越好,否则声音被噪声干扰,会影响音质。,25,2.1.3 语音语音是一种特殊的媒体,语音是人类所特有的,但也是一种波形,在计算机中表示方式与波形声音的文件格式相同。语音处理的研究已经有一百多年的历史,其研究范围主要涉及:语音合成、语音编码、语音识别的基本算法和应用。计算机处理语音过程如图所示。,26,图2-8 计算机处理语音过程,27,第二章 音频处理技术,2.2常用音频压缩标准2.2.1音频压缩基础2.2.2常用音频压缩标准2.2.3音频文件格式,28,2.2.1音频压缩
11、基础1数据压缩条件2数据冗余3数据压缩算法分类,29,2.2.1音频压缩基础1数据压缩条件信号之所以能被压缩和编码,其原因主要是:1)数据冗余度2)人类不敏感因素3)信息传输与存储,30,2.2.1音频压缩基础2数据冗余冗余是指信息所具有的各种性质中多余的无用空间,其多余的程度称为冗余度。 信息量、数据量和冗余量之间的关系如下:式中,I表示信息量,D表示数据量,du表示冗余量,冗余量应在数据存储和传输之前去掉。,31,2.2.1音频压缩基础2数据冗余空间冗余时间冗余统计冗余结构冗余信息熵冗余知识冗余等。,32,2.2.1音频压缩基础2数据冗余空间冗余:一幅图像表面上各采样点的颜色之间往往存在着
12、空间连贯性。图像数据中经常存在的一种冗余,如规则物体和规则背景(像素相关性强)。,33,2.2.1音频压缩基础2数据冗余时间冗余:视频和音频中存在的、在时间尺度上相关的一种冗余,如相邻帧之间像素的相关性;语音的连续和渐变过程。空间冗余和时间冗余,存在大量的统计特征重复,因此称为统计冗余。,34,2.2.1音频压缩基础2数据冗余结构冗余:有些图像存在着非常强的纹理结构,我们称它们在结构上存在冗余。例如,布纹图像和草席图像。,35,2.2.1音频压缩基础2数据冗余信息熵冗余:也称为编码冗余,是指数据所携带的信息量少于数据本身而反映出来的数据冗余。例如:自然界的很多状态不可能正好用2的整数次幂来表示
13、,这样就会造成编码冗余。,36,2.2.1音频压缩基础2数据冗余知识冗余:举例:成语、人脸的图像有固定的结构。这类规律性的结构可由先验知识和背景知识得到,我们称此类冗余为知识冗余。,37,2.2.1音频压缩基础3数据压缩算法分类,图2-10 数据压缩算法分类,38,2.2.1音频压缩基础3数据压缩算法分类无损压缩(冗余压缩、熵编码)法:无损压缩法去掉或减少了数据中的冗余量,但这些冗余量是可以重新恢复的,因此,无损压缩是可逆的过程。例如:压缩软件WinRAR应用。注意:无损压缩特点是压缩比小。无损压缩法不会产生失真,在多媒体技术中一般用于文本数据的压缩。常见的例子是磁盘压缩。,39,2.2.1音
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多媒体技术 应用 音频 处理 技术 陈永强 ppt 课件
链接地址:https://www.31ppt.com/p-1327687.html