音频信号和声卡.ppt
《音频信号和声卡.ppt》由会员分享,可在线阅读,更多相关《音频信号和声卡.ppt(50页珍藏版)》请在三一办公上搜索。
1、第一章 多媒体技术基础,4.1 音频编码基础4.2 音频信号处理的方法 4.3 音频编码标准4.4 声卡的组成和工作原理4.5 语音合成技术及应用4.6 语音识别技术及应用,4.1音频编码基础 声音根据其内容可分为波形声音、语音和音乐。波形声音实际上是数字化了的声音,实际上它包括了所有的声音形式。计算机处理的声音信号都是经过离散化了的信号,因此通常又称为音频信号。,4.1 音频编码基础,1、声音是一种连续的波时间和幅度上的连续性由于人的耳朵能够判别出声波达到左右耳的相对时差、声音强度,声音能够判别出声音的来源。同时由于声音的来回反射,而造成声音的空间效果。例如我们在剧场中听到的声音和在公园中听
2、到的声音效果是不一样的。,声音信号的特点,2.声音的分类不规则音频一般指不包含任何信息的噪声。,声音信号的特点,2.声音的分类规则音频是一种连续变化的模拟信号,可用一条连续的曲线来表示,称为声波。因声波是在时间和幅度上都连续变化的量,我们称之为模拟量。,用声音录制软件记录的英文单词“Hello”的语音实际波形,声音信号的特点,规则音频通常又分为语音、音乐和音效。语音是指具有语言内涵和人类约定俗成的特殊媒体。音乐是规范的、符号化了的声音。音效是特指人类熟悉的其它声音,如动物和机器产生的声音、自然界的风电的声音等。,声音信号的特点,3.声音的三要素,1)音调:代表了声音的高低。音调与频率有关,频率
3、越高,音调越高,反之亦然。读者也许有这样的经验,当提高磁带录音机的转速时,其旋转加快,声音信号的频率提高,其喇叭放出来声音的音调提高了。同样,在使用音频处理软件对声音的频率进行调整时,也可明显感到音调随之而产生的变化。各种不同的声源具有自己特定的音调,如果改变了某种声源的音调,则声音会发生质的转变,使人们无法辨别声源本来的面目。,2)音色:即特色的声音。声音分纯音和复音两种类型。所谓纯音,是指振幅和周期均为常数的声音;复音则是具有不同频率和不同振幅的混合声音。大自然中的声音绝大部分是复音。在复音中,最低频率的声音是“基音”,它是声音的基调。其他频率的声音称为“谐音”,也叫泛音。基音和谐音是构成
4、声音音色的重要因素。各种声源都具有自己独特的音色,例如各种乐器的声音、每个人的声音、各种生物的声音等,人们就是依据音色来辨别声源种类的。,3)音强:声音的强度,也被称为声音的响度,常说的“音量”也是指音强。音强与声波的振幅成正比,振幅越大,强度越大。唱盘、CD激光盘以及其他形式声音载体中的声音强度是一定的,通过播放设备的音量控制,可改变聆听时的响度。,音频信号的处理方法,模拟信号与数字信号数字域内对声音处理的优点 不受时间和环境变化影响 表示部件功能的数学运算容易实现 可以方便实现对数字运算部件的编程数字化的概念,音频文件的存储格式,1、WAV文件:又称为波形文件,文件的扩展名是“.wav”。
5、是Windows系统上使用最广泛的音频文件格式。通常用于保存无压缩的音频信息,它可以重现各种声音,但产生的文件很大,多用于存储简短的声音片断。WAV符合资源互换文件格式(RIFF),因此该文件里面的每段数据可以有单独的标识,通过这些标识,计算机就知道它真实的数据格式,所以WAV存放的音频压缩格式有许多种。当用Windows里的媒体播放器放一个WAV文件,如果无法播放,这往往是因为此文件使用了其他的压缩编码格式。,音频文件的存储格式,2、VOC 文件:VOC文件是Creative公司所使用的标准音频文件格式,多用于保存 Creative Sound Blaster(创新声霸)系列声卡所采集的声音
6、数据,被Windows平台和DOS平台所支持。VOC 文件也是一种数字声音文件,与波形文件相似,可以方便地互相转换。,音频文件的存储格式,3、MPEG音频文件.MP1/.MP2/.MP3:这里的音频文件格式指的是MPEG标准中的音频部分,即MPEG音频层(MPEG Audio Layer)。MPEG音频文件的压缩是一种有损压缩,根据压缩质量和编码复杂程度的不同可分为三层(MPEG Audio Layer 1/2/3),分别对应MP1、MP2和MP3这三种声音文件;MPEG音频编码具有很高的压缩率,MP1和MP2的压缩率分别为41和6181,而MP3的压缩率则高达101121,也就是说一分钟CD
7、音质的音乐,未经压缩需要10MB存储空间,而经过MP3压缩编码后只有1MB左右,同时其音质基本保持不失真。,音频文件的存储格式,4、RealAudio文件.RA/.RM/.RAM RealAudio文件是RealNetworks公司开发的一种新型流式音频(Streaming Audio)文件格式;它包含在RealNetworks所制定的音频、视频压缩规范RealMedia中,主要用于在低速率的广域网上实时传输音频信息;网络连接速率不同,客户端所获得的声音质量也不尽相同:对于28.8kb/s的连接,可以达到广播级的声音质量;如果拥有ISDN或更快的线路连接,则可获得CD音质的声音。,音频文件的存
8、储格式,5、AIFF文件.AIF/.AIFF AIFF是音频交换文件格式(Audio Interchange File Format)的英文缩写,是苹果计算机公司开发的一种声音文件格式;被Macintosh平台及其应用程序所支持,其他专业音频软件包也同样支持这种格式。,音频文件的存储格式,6、非波形文件 属于合成声音文件,即通过语音合成器产生相应声音的非波形格式的MIDI(Musical Instrument Digital Interface)文件(.MID)。,声音按频率分类:,人类说话声音频率范围:300Hz-3kHz声音质量的频率范围:,声音质量的度量,数字音频的质量与采样频率和量化精
9、度有关。数字音频可分以下几个等级,声音质量的度量(用带宽度量),声音质量和数据率,507 000Hz,对于音频质量的评价分为客观评定和主观评定。客观评定是通过测量一些特性来评价度量,主要用信噪比(signal to niose ratio,SNR)。广泛使用的是主观评定,以主观意见打分(Mean Opinion ScoreMOS)来度量:,声音质量的度量另外两种方法(主/客观评价),4.2音频信号压缩技术,音频信号压缩编码的主要依据是人耳的听觉特性,主要有两点:1.人的听觉系统中存在一个听觉阈值电平,低于这个电平的声音信号人耳听不到.2.人的听觉存在屏蔽效应。当几个强弱不同的声音同时存在时,强
10、声使弱声难以听到,并且两者之间的关系与其相对频率的大小有关.声音编码算法就是通过这些特性来去掉更多的冗余数据,来达到压缩数据的目的。,4.2.1 脉冲编码调制,1编码的原理 它的原理框图下图所示,模拟信号数字化一般有三个步骤:第一步是采样,就是每隔一段时间间隔读一次声音的幅度;第二步是量化,就是把采样得到的声音信号幅度转换成数字值。但那时并没有涉及如何进行量化。量化有好几种方法,但可归纳成两类:一类称为均匀量化,另一类称为非均匀量化。采用的量化方法不同,量化后的数据量也就不同。因此,可以说量化也是一种压缩数据的方法;第三步是编码,就是按一定格式记录采样和量化后的数据。,4.2.1 脉冲编码调制
11、,均匀量化,采用相同的“等分尺”来度量采样得到的幅度,也称为线性量化,如图所示。量化后的样本值Y和原始值X的差E=Y-X称为量化误差或量化噪声。,非均匀量化,对输入信号进行量化时,大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔,如图3-5所示。,一个CDDA采用脉冲编码调制PCM编码的实例,首先用一组脉冲采样时钟信号与输入的模拟音频信号相乘,相乘的结果即输入信号在时间轴上的数字化。然后对采样以后的信号幅值进行量化。最简单的量化方法是均衡量化,这个量化的过程由量化器来完成。对经量化器A/D变换后的信号再进行编码,即把量化的信号电平转换成二进制码组,就得到了离散的二进制输出数据序列x(
12、n),n表示量化的时间序列,x(n)的值就是n时刻量化后的幅值,以二进制的形式表示和记录。,4.2.2 增量调制 它是一种预测编码技术,是PCM编码的一种变形。DM是对实际的采样信号与预测的采样信号之差的极性进行编码,将极性变成“0”和“1”这两种可能的取值之一。如果实际的采样信号与预测的采样信号之差的极性为“正”,则用“1”表示;相反则用“0”表示,或者相反。,DM波形示意图,从上图中可以看到,在开始阶段增量调制器的输出不能保持跟踪输入信号的快速变化,这种现象称为增量调制器的“斜率过载”(slope overload)。在输入信号缓慢变化部分,即输入信号与预测信号的差值接近零的区域,增量调制
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 音频 信号 声卡

链接地址:https://www.31ppt.com/p-6378930.html