数字声音及应用.ppt
5.3 数字声音及应用,5.3.1 波形声音的获取与播放5.3.2 波形声音的表示与压缩编码5.3.3 波形声音的编辑5.3.4 计算机合成声音,5.3.1 波形声音的获取与播放,声音的特性和类型,声音由振动产生,通过空气进行传播声音是一种波,它由许多不同频率的谐波组成谐波的频率范围称为声音的“带宽”,计算机处理的声音类型:话音或语音(speech),专指人的说话声音,带宽仅为3003400Hz全频带声音(如音乐声、风雨声、汽车声等),其带宽可达到20Hz20kHz 人耳可听到的声音统称“可听声”(audio),20Hz20kHz,数字波形声音的获取,方法:,2.量化(quantization,模数转换),3.编码(encoding),1.取样(sampling),数字波形声音的获取设备,声音的联机获取设备(声卡),声音的脱机获取设备:数码录音笔,声卡的功能与组成,波形声音的获取与编码波形声音的重建与播放MIDI消息的输入MIDI音乐的合成,注:当前PC机的声卡已经与主板芯片组集成在一起,不再做成独立的插卡,声音的重建与播放,计算机输出声音分为两步:1 声音的重建:把声音从数字形式转换成模拟信号形式,由声卡完成,2 声音播放:将模拟声音信号经处理和放大后送到音箱(扬声器)关于音箱:普通音箱接收的是重建的模拟声音信号数字音箱可直接接收数字声音信号,声音失真更小,5.3.2 波形声音的表示 与压缩编码,数字波形声音的表示及参数,数字波形声音是使用二进位表示的一种串行比特流,其数据按时间顺序进行组织,文件扩展名为“.wav”数字波形声音的主要参数有:取样频率:语音的取样频率低,一般为8kHz全频带声音(如音乐)的取样频率高,一般为44.1kHz量化位数:通常为8位、12位或16位声道数目:单声道为1,双声道为2码率(比特率),每秒钟的数据量,数字波形声音码率的计算,未压缩时数字波形声音的码率计算公式 码率=取样频率 量化位数 声道数 例:,压缩编码之后数字波形声音的码率为:压缩后的码率=未压缩时的码率/压缩倍数 例:上面CD唱片的立体声音乐压缩为MP3后,若压缩倍数是10倍,则该MP3音乐的码率是:114kb/s左右,数字波形声音的数据压缩,数字波形声音的数据量很大,例如:数字语音1小时的数据量大约是30MBCD立体声高保真的数字音乐1小时的数据量大约是635MB数据压缩的必要性:为了降低存储成本和提高在网络上的传输效率数据压缩的可能性:声音中包含了大量冗余信息;人耳的灵敏度有限,允许有一定失真数字波形声音压缩编码的方法:全频带声音:国际标准MPEG;工业标准Dolby AC-3 数字语音:固定电话使用ADPCM编码 移动电话使用高效率的混合编码技术,全频带数字音频编码的标准,所谓“MP3音乐”就是一种采用MPEG-1层3编码的高质量数字声音,它能以10倍左右的压缩比降低高保真数字声音的存储量,使一张普通CD光盘上可以存储大约100首MP3歌曲,什么是流媒体?,在因特网上收听(看)音(视)频节目的2种方式:下载存储方式:先下载存储在计算机中,下载完毕后再播放(缺点:需要等待很长时间,并需要较大的存储容量)流式传输方式:边下载、边播放(优点:只需要下载一部分数据之后,就可以开始一边播放一边下载,等待时间短、存储需求小)流媒体技术就是允许在网络上让用户一边下载一边收看(听)音视频媒体的一种技术目前主要有3个公司的流媒体产品:Real Networks公司的 Real Media微软公司的 Windows Media 苹果公司的 Quick Time,数字波形声音的主要文件格式,.wav波形声音文件.pcm使用PCM编码的声音文件.mp2MPEG 层 1 或层2 编码的声音文件.mp3MPEG 层3 编码的声音文件.rm,.ra(RealAudio)RealNetworks的流式声音文件.wma微软公司的流式声音文件.aif(Audio Interchangeable File Format)苹果公司的声音文件,5.3.3 波形声音的编辑,波形声音编辑软件的功能,主要功能:1 编辑声音:如声音剪辑、复制、调节音量2 声音的效果处理:如混响、回声等3 录音4 声音的格式转换5 播放声音,声音编辑软件的典型用户界面,5.3.4 计算机合成声音,什么是计算机合成声音?,计算机合成声音就是计算机模仿人说话或演奏音乐计算机合成声音有两类:计算机合成语音:计算机模仿人把一段文字朗读出来,即把文字转换为语音(简称为 TTS)应用:有声查询、文稿校对、语言学习、语音秘书、自动报警、残疾人服务等计算机合成音乐:计算机模拟各种乐器发声并按照乐谱演奏音乐应用:计算机作曲、配器等,例:计算机合成的语音,Hello,everybody(1)你好,我是贝尔实验室的中文语音合成系统(BellTTS1)南京大学计算机系2002年招收了202名本科生,22名博士生,130多名硕士生。(中科大讯飞公司)(Bell)安徽中科大讯飞信息科技有限公司是专门从事中文语音及语言技术软件(讯飞)我们都是同行,我们一路同行,去参加人参培植研讨会(讯飞)(Bell),需要进一步提高之处:发音和断句要正确,提高自然度,丰富表现力,计算机合成音乐(MIDI),计算机合成音乐需要三个要素:乐器、乐谱和“演奏员”,声卡上的音乐合成器能像电子琴一样模仿几十种不同的乐器发出声音,它按照MIDI消息合成出不同音色和音调的音符,通过扬声器播放出音乐来,乐谱在计算机中使用一种叫做MIDI的音乐描述语言来表示。使用MIDI描述的音乐称为MIDI音乐。一首乐曲对应一个MIDI文件,其文件扩展名为.MID或.MIDI,媒体播放器软件相当于“演奏员”。播放MIDI音乐时,它先从磁盘上读入.MID文件,解释其内容,然后以MIDI消息的形式向声卡上的音乐合成器发出各种指令,例:计算机合成的MIDI音乐,例1 音乐之声(6KB)例2 军港之夜(7KB)MIDI的优点:数据量极小(比CD立体声少3个数量级,比MP3少3个数量级)易于制作和编辑修改可以与波形声音同时播放MIDI的不足:只能合成音乐,不能合成歌曲和语言音质与硬件设备相关,小结:计算机中的数字声音,数字声音的特点:是一种连续媒体,传输与播放有实时性要求数据量大,对存储和传输的要求比较高,必须进行压缩 数字声音的类型:取样(波形)声音数字语音:应用于电话、手机、多媒体配音等全频带声音:CD和DVD音乐,数字电视伴音等计算机合成声音合成语音合成音乐(MIDI),