第2章数字音频处理.ppt.ppt
《第2章数字音频处理.ppt.ppt》由会员分享,可在线阅读,更多相关《第2章数字音频处理.ppt.ppt(94页珍藏版)》请在三一办公上搜索。
1、第2章 数字音频处理,本章主要内容:模拟音频与数字音频的概念数字音频的获取音频信号压缩编码,CD三十一年,1979年的3月8日,荷兰飞利浦在Eindhoven演示了首个基于激光光盘的数字音乐播放系统 CD代表小型镭射盘,是一个用于所有CD媒体格式的一般术语。现在市场上有的CD格式包括音频CD,CD-ROM,CD-ROM XA,照片CD,CD-I和视频CD等等 CD数字声频信号(CDDA)是由Sony和Philip在1980年期间作为音乐传播的一个形式来介绍的 数据轨道是由一连串的凹坑组成,轨间距是1.6微米,这对光盘的压制和光头的伺服都提出了挑战;由于使用了交错编码、瑞德所罗门纠错码和插值技术
2、使CD的抗错能力达到了前所未有的高度;光盘上3毫米的钻孔不会对听觉有任何影响,第2章 数字音频处理,2.1概述2.2数字音频的获取2.3音频信号压缩编码2.4音乐合成和MIDI,2.1概述,声音是携带信息的重要媒体。研究表明,人类从外部世界获取的信息中,10%是通过听觉获得的,因此声音是数字媒体技术研究中的一个重要内容。声音是由物体振动产生的,这种振动引起周围空气压强的振荡,从而使耳朵产生听觉的印象。声音的种类繁多,人的语音是最重要的声音。此外,还有动物、乐器等发出的声音,风声、雨声、雷声等自然声音,以及机器合成产生的声音等。,2.1概述,幅值,t,一个周期,+,空气压强,图2.1 空气压强振
3、荡的波形示意图,0,人耳能识别的声音频率范围大约在2020kHz,通常称为音频(audio)信号。,2.1概述,音频信号所携带的信息大体上可分为语音、音乐和音效三类。语音,指具有语言内涵和人类约定俗成的特殊 媒体。音乐,指规范的符号化了的声音。音效,指人类熟悉的其他声音。在数字媒体系统中,处理的信号主要是音频信号。,2.1概述,声音包含三个要素:音调、音强和音色。基频与音调:一个声源每秒钟可产生成百上千个波,通常把每秒钟波峰所产生的数目称之为信号的频率,单位用赫兹(Hz)或千赫兹(kHz)表示。人对声音频率的感觉表现为音调的高低,在音乐中称为音高。音调正是由频率所决定的。,2.1概述,音乐中音
4、阶的划分是在频率的对数坐标(20log)上取等分而得的。如表所示,20log261=48.3,20log293=49.3等。,2.1概述,谐波与音色:no称为基波o的n次谐波分量(n就是高次谐波的方次,n o就是基波o的n次谐波),也称为泛音。音色是由混入基音的泛音所决定的。幅度与音强:信号的幅度是从信号的基线到当前波峰的距离。幅度决定了信号音量的强弱程度。幅度越大,声音越强。一般用动态范围定义相对强度:动态范围20log(信号的最大强度/信号的最小强度)(dB),2.1概述,音宽与频带:频带宽度,也称为带宽,它是描述组成复合信号的频率范围。客观上,通常用频带宽度、动态范围、信噪比等指标衡量音
5、频信号的质量。音频信号的频带越宽,所包含的音频信号分量越丰富,音质越好。动态范围越大,信号强度的相对变化范围越大,音响效果越好。,CD-DA数字音乐、FM广播、AM广播和电话的带宽,2.1概述,声音的质量可以通过信噪比来度量。信噪比(SNR,Signal to Noise Ratio)是有用信号与噪声之比的简称,定义为:信噪比越大,声音质量越好。,2.2数字音频的获取,2.2.1采样2.2.2量化2.2.3数字音频的技术指标2.2.4数字音频的文件格式,音频信息处理结构框图,2.2.1采样,图2.5 模拟信号的采样,所谓采样就是在某些特定的时刻对模拟信号进行取值,如上图所示。采样的过程是每隔一
6、个时间间隔在模拟声音的波形上取一个幅值,把时间上的连续信号变成时间上的离散信号。,2.2.1采样,采样时间间隔称为采样周期t,其倒数为采样频率fs=1/t。一般来讲,采样频率越高,则在单位时间内计算机得到的声音样本数据就越多,对声音波形的表示也越精确,声音失真越小,但用于存储音频的数据量越大。根据奈奎斯特定理,只有采样频率高于声音信号最高频率的两倍时,才能把数字信号表示的声音还原为原来的声音。,2.2.2量化,每个采样值在幅度上进行离散化处理的过程称为量化。量化可分为均匀量化和非均匀量化。均匀量化是把将采样后的信号按整个声波的幅度等间隔分成有限个区段,把落入某个区段内的样值归为一类,并赋于相同
7、的量化值。以8bit或16bit的方式来划分纵轴为例,其纵轴将会被划分为28个和216个量化等级,用以记录其幅度大小。,均匀量化,2.2.2量化,非均匀量化是根据信号的不同区间来确定量化间隔。对于信号值小的区间,其量化间隔也小;反之,量化间隔就大。量化会引入失真,并且量化失真是一种不可逆失真,这就是通常所说的量化噪声。,2.2.3数字音频的技术指标,衡量数字音频的主要指标包括:采样频率量化位数 通道(声道)个数 数据传输率是计算机处理音频时的基本参数。未经压缩的数字音频数据传输率可按下式计算:数据传输率=采样频率量化位数声道数,2.2.3数字音频的技术指标,例:假定语音信号的带宽是50 Hz1
8、0kHz,而音乐信号的是15Hz 20 kHz。采用奈奎斯特频率,并用12bit表示语音信号样值,用16bit表示音乐信号样值,计算这两种信号数字化以后的比特率以及存储一段10分钟的立体声音乐所需要的存储器容量。解:语音信号:取样频率210kHz20kHz;比特率=20k12240 kbit/s 音乐信号:取样频率220kHz40kHz;比特率40kl6kbit/s21280kbits(立体声)所需存储空间1280k 600896MB,一个汉字在计算机里占2个字节,前面例题里处理语音的比特率是240K/S,240K空间可以存储240K/2=12,0000个汉字1秒钟的语音数据量与12万汉字(一
9、部中篇小说)的数据量相当。,2.2.4数字音频的文件格式,WAV文件格式简介 WAV是Microsoft Windows提供的音频格式。这个格式是目前通用音频格式,它通常用来保存一些没有压缩的音频。目前所有的音频播放软件和编辑软件都支持这一格式。WAV文件由三部分组成:文件头(标明是WAV文件、文件结构和数据的总字节数)、数字化参数(如采样频率、声道数、编码算法等),最后是实际波形数据。一般来说,声音质量与其WAV格式的文件大小成正比。,WAVE(Waveform Audio File Format)文件是多媒体中使用的声音文件格式之一,它以RIFF格式为基础,每个WAVE文件的头四个字节为“
10、RIFF”。WAVE文件的扩展名为“.WAV”。,WAVE 文件格式,WAVE 文件格式,Format 块,Sound 数据块,RIFF WAVE Chunk,WAVE文件由文件头和数据两部分组成。,最小的 WAVE文件结构 _|RIFF WAVE Chunk|groupID=RIFF|riffType=WAVE|_|Format Chunk|ckID=fmt|_|_|Sound Data Chunk|ckID=data|_|_ _|,RIFF WAVE 块头,块标志 RIFF块大小(32-bits)Wave类型标志 WAVE(RIFF:Resource Interchange File Fo
11、rmat的缩写),The Format(fmt)Chunk格式块(fmt)是WAVE文件必选项,描述波形文件的基本参数,如采样率、位分辨率以及通道数等。#define FormatID fmt/*chunkID for Format Chunk.*/typedef struct ID chunkID;long chunkSize;short wFormatTag;/*currently PCM*/unsigned short wChannels;/*num of channels*/unsigned long dwSamplesPerSec;/*sample rate in Hz*/unsig
12、ned long dwAvgBytesPerSec;/*xxx Bytes/s*/unsigned short wBlockAlign;/*1/2/4-8/16 mono/stereo*/unsigned short wBitsPerSample;/*bits in a sample*/*根据 wFormatTag不同,可以有附加字段.*/FormatChunk;,Data Chunk数据块包含实际的波形数据:#define DataID data/*chunk ID for data Chunk*/typedef struct ID chunkID;long chunkSize;unsign
13、ed char waveformData;DataChunk;,Offset Description-Offset Contents-0 x00 chunk id RIFF0 x04 chunk size(32-bits)0 x08 wave chunk id WAVE0 x0C format chunk id fmt 0 x10 format chunk size(32-bits)0 x14 format tag(currently PCM)0 x16 number of channels 1=mono,2=stereo0 x18 sample rate in Hz0 x1C average
14、 bytes per second-,-Offset Contents-0 x20 number of bytes per sample 1=8-bit mono 2=8-bit stereo or 16-bit mono 4=16-bit stereo 0 x22 number of bits in a sample 0 x24 data chunk id data 0 x28 length of data chunk(32-bits)0 x2C Sample data-,2.2.4数字音频的文件格式,MP3文件格式简介 MP3是第一个实用的有损音频压缩编码技术。在MP3出现之前,一般的音频
15、编码即使以有损方式进行压缩,能达到4:1的压缩比例已经非常不错了。但是,MP3可以实现12:1的压缩比例。衡量MP3文件的压缩比例通常使用比特率来表示。通常比特率越高,压缩文件就越大,但音乐中获得保留的成分就越多,音质就越好。,2.2.4数字音频的文件格式,MIDI 文件格式简介 MIDI最初应用在电子乐器上用来记录乐手的弹奏,以便以后重播。随着在电脑里面引入了支持MIDI合成的声音卡之后,MIDI才正式地成为了一种音频格式。MIDI的内容除了乐谱之外还记录了每个音符的弹奏方法。,2.2.4数字音频的文件格式,各种文件格式与WAV格式之间可以进行转换。最简单的方法就是使用WINAMP。只要WI
16、NAMP能播放某种格式的音乐,就可以通过它的Output Plugin中的Disk Writer Plugin 来输出为WAV文件。目前WINAMP支持的格式包括:VOC、WAV、MID、MP3、MP2、MP1、CD、IT、XM、S3M、STM、MOD、DSM、FAR、ULT、MTM、669、AS、WMA、MJF。,2.3音频信号压缩编码,2.3.1概述2.3.2编码方法2.3.3音频数据的标准,2.3.1概述,为什么要进行语音编码?为什么能进行语音编码?,音频编码基础,为什么要进行语音编码?,随着对音质要求的增加,信号频率范围逐渐增加,要求描述信号的数据量也就随之增加,从而带来处理这些数据的
17、时间和传输、存储这些数据的容量增加,因此音频压缩技术是数字媒体技术实用化的关键之一。,语音信号中存在多种冗余度 1.时域信息的冗余度 2.频域信息的冗余度 3.人的听觉感知机理,为什么能进行语音编码?,语音信号中存在多种冗余度:,时域信息的冗余度(1)幅度的非均匀分布(2)样本间的相关(3)周期之间的相关(4)基音之间的相关(5)静止系数(6)长时自相关函数,幅度的非均匀分布,即语音中的小幅度样本出现的概率比大幅度样本出现的概率高,信息主要集中在低功率上,又由于通话必然会有间隙,更出现了大量的低电平样本。此外,实际语音信号的功率电平也趋向于出现在编码范围的较低电平端。因此,语音信号的幅值分布是
18、非均匀的,采样数据间的相关,相邻的语音信号间有很强的相关性,研究表明,当采样率为8kHz时,相邻样值之间的相关系数大于0.85,甚至在相距十个样本之间,相关系数还有0.3左右的数级。如果采样率提高,样本间的相关性将更强,周期间的相关,虽然电话语音信号的频率分布在300-3400Hz的频带内,但在特定的瞬间,某一声音却往往只是该频带内的少数频率分别起作用。当声音中只存在少数几个基本频率时,就会像某些振荡波形一样,在周期与周期之间存在着一定的相关性。浊音语音段的准周期性,反映在波形上出现图形的重复,即信息冗余,基音之间的相关性,语音可以分为清音和浊音两种基本类型。浊音是由声带振动产生,每一次振动使
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第2章 数字音频处理.ppt 数字音频 处理 ppt
链接地址:https://www.31ppt.com/p-2951222.html