音频信息处理.ppt
《音频信息处理.ppt》由会员分享,可在线阅读,更多相关《音频信息处理.ppt(33页珍藏版)》请在三一办公上搜索。
1、第2章 音频信息处理,21 音频处理基础22 音频处理软件Adobe Audition23 音频处理综合应用案例,2.1 音频处理基础,1.声波(1)声波:由各种机械振动或气流扰动引起周围的弹性媒质发生波动。(2)声源:产生声波的物体,如人的声带和乐器等。(3)声音:人的听觉系统所能感知到的声波。音频的频率范围:20 Hz 20000 Hz 语音的频率范围:300 Hz 3000 Hz 次声波的频率范围:20 kHz(4)声强:对于一定频率的声音,要能引起听觉,其声强也有一定的范围。下限:是恰能引起人听觉的最小声强,叫做该频率的可闻阈;上限:是指人耳能听闻的最大声强,高于上限的声强,人耳感觉疼
2、痛,所以叫做该频率的疼痛阈。,常见声音的分贝量级,2声音的基本特征,(1)声波信号的物理特征 周期(T):声波的两个波峰或波谷之间的相对时间。频率(f):周期的倒数(f=1/T),即每秒波峰或波谷出现的次数。幅度:从声波信号的基线到波峰的距离,幅度越大声波的强度也越大。通常也用声压、声强或声功率来表示声音的强弱。,人们感知到的声音特征称为心理学特征音调:在音乐中又叫音高,是由发声物体的振动频率决定,振动越快(即频率越大),音调越高,振动越慢,音调越低。音调的高低与声音基频的对数(20*log)成线性关系。基频越低,给人的感觉是声音越低沉,基频频率增加一倍,在音乐上就叫升高了一个八度。音色:这是
3、一个主观评价声音的量,声音的音色取决于声音的频谱结构,一般高次谐波越丰富,音色越明亮并具有穿透力。响度:人耳对声音强弱的感觉程度,主要取决于振幅和声压。通常振幅越大声音越响,其次人耳距离声源越远,声音越小。,(2)声音信号的心理学特征,(3)声音质量的评价声音质量与带宽有关,频率范围越宽,声音质量越高。1)声音质量分级:按照声音信号的频率范围将声音质量分为5级。,2)信噪比(SNR):即有用信号与噪音信号的强度之比,单位是分贝。3)声音主观质量的度量:主观度量就是大多数人对声音质量的感觉。,3音频信号的表示,(1)音频信号:通过麦克风等设备转换成的电信号。规则音频信号:带有语音、音乐和音效的有
4、规律的音频信号,承载了一定的信息。语音:语言的载体,有丰富的语言内涵,是人类交流的信息载体。音乐:是一种规范的符号化的声音。音效:自然界中各种声音效果,如掌声、雷鸣声,爆破声等。不规则音频信号:不包含任何信息的声音,比如噪声。(2)音频信号的表示 音频信号的数学表示,0:声音的基音,决定了音调的高低n0:声音的泛音,决定了声音的音色An:声波的振幅,表示声音的强弱,2)音频信号的波形表示,3)音频信号的频谱表示 声音信号的频率分布曲线。复杂的声音是由振幅和频率不同的正弦声波叠加而成的,这些正弦波的幅值按频率排列的图形就叫做频谱。男声的基频较低,低频分量更加丰富,因此听起来会更加低沉、浑厚。,1
5、.音频信号数字化 声音信号在时间上是连续的,在幅度上也是连续的,属于模拟信号。(1)采样 声音信号在时间上的离散化,即每隔一段时间抽取一个信号样本。采样频率:每秒采样的次数。奈奎斯特理论(Nyquist theory):采样频率不低于声音信号最高频率的两倍,这样就能把数字声音还原成原来的声音,称为无损数字化。f s=2 f max 电话话音信号的最高频率约为3.4kHz,所以采样频率取为8kHz。,2.1.2 音频信号的数字化,声音信号在幅度上的离散化 也就是采样过程中对每一个采样点的幅度值用数字量来表示。如果幅度的划分是等间隔的,称为线性量化,否则为非线性量化。采样精度:即量化的位数,位数越
6、多量化等级数也越多,所能表示的声波幅度的动态范围也越大,当然需要的存储空间也越大。,(2)量化,(3)编码 就是用一组二进制码组来表示每一个有固定电平的量化值,或者说将量化值转换成二进制码组。典型的音频编码方法:脉冲编码调制法(PCM)。(4)数字音频的数据量 数据量=采样频率*采样精度*采样时间*声道数/8(字节数)单声道:一次只产生一组声波数据,立体声:一次产生两组声波数据。例2.1 计算一分钟未压缩的高保真立体声数字声音数据的大小。60*(44100*16*2)/8=10.09 MB 一首未经压缩的4分钟的歌曲文件的大小约为40MB,那么一个容量为512MB的MP3播放器也只能播放12首
7、这样的歌曲。,2.数字音频压缩标准,(1)电话质量的语音压缩标准(2)调幅广播语音压缩标准 G.722(3)高保真立体声的宽带音频压缩标准,电话质量的语音压缩标准,MPEG音频:第一个高保真立体声音频压缩的国际标准 MPEG音频压缩标准提供三个独立的压缩层次:1)Layer 1:编码器简单,输出数据率为384 kb/s,主要用于小型数字盒式磁带。2)Layer 2:编码器较复杂,输出数据率为256 kb/s192kb/s,主要应用于数字广播声音、数字音乐、CD-I和VCD等。3)Layer 3:编码器复杂,输出数据率为64kb/s,主要用于ISDN上的声音传输。,1WAV文件:波形文件,微软开
8、发,需要的存储量大,多用于存储简短的声音片段和旁白。2MIDI文件:记录的是生成音乐的指令,MIDI文件短小。由于MIDI记录的并不是真正的声音,所以不同的声卡,不同软波表,不同硬件音源的音色是不相同的,相同的MIDI文件在不同的设备上播放也会有不同的效果。MIDI文件适合作为背景音乐来播放。3MP3文件:是MPEG音频第3层的简称,有损压缩,压缩比达12:1。MP3利用人耳的掩蔽特性,削减音频中人耳听不到的成分,同时尽可能地维持原来的声音质量。4RA文件:属于Real Media的音频部分,采用流式传输方式,可以在非常低的带宽下提供足够好的音质让用户能在线聆听。5WMA 文件:Windows
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 音频 信息处理
链接地址:https://www.31ppt.com/p-5888307.html