《声音处理手段》PPT课件.ppt
声音处理手段,第 3 章,1 音频基础 1.1 声音的基本概念 1.2 声音的数字化 1.3 声音文件的格式2 音频素材的获取3 数字音频压缩标准 3.1 音频压缩方法概述 3.2 音频压缩技术标准 3.3 音频压缩工具4 声音适配器与声音还原 4.1 声音适配器 4.2 声音还原5 音频素材的编辑 5.1 经典软件概述,5.2 声音的一般处理 5.3 声音的高级处理 5.4 声音合成综合实例 5.5 录制歌曲综合实例6 MIDI与音乐合成 6.1 MIDI概述 6.2 MIDI标准 6.3 MIDI的工作过程 6.4 MIDI合成器 6.5 MIDI音乐制作系统7 语音识别技术及应用 7.1 语音识别的基本原理及过程 7.2 文本语音转换技术 7.3 语音识别软件,1,音频基础,1.1 声音的基本概念,1,音频基础,1.1 声音的基本概念,声音的频率,女性语音,150Hz 10,000Hz,男性语音,100Hz 9,000Hz,声源种类,频带宽度,人对声音频率的敏感,对中频段(2 kHz4 kHz)最为敏感,幅度很低的信号都能被人耳听到;对低频区和高频区较不敏感,能被人耳听到的信号幅度比中频段要高得多。,声音的传播方向,声音以振动波的形式从声源向四周传播,声音的传播方向,声音的三要素,人类很早就开始研究声音,并制造乐器,进行建筑设计或传声装置设计,使发出的声音传得更远。19世纪,爱迪生发明了留声机,用机械的方法把各种声音记录在唱片上。电声技术 依靠电来记录并播放声音的,其基本原理是通过电压来产生模拟声波变化的电流信号,并记录下来,灌录成早期的唱片或磁带。,声音处理技术历史回顾,早期的留声机1,图3.1,1857年 法国发明家斯科特(Scott)发明了的声波振记器,这是最早的原始录音机,是留声机的鼻祖。1877年 爱迪生发明了一种录音装置。可以将声波变换成金属针的震动,然后将波形刻录在圆筒形腊管的锡箔上。当针再一次沿着刻录的轨迹行进时,便可以重新发出留下的声音。这个装置录下爱迪生朗读的玛丽有只小羊的歌词:“玛丽抱着羊羔,羊羔的毛象雪一样白”。总共8秒钟的声音成为世界录音史上的第一声。1878年 爱迪生成立制造留声机的公司,生产商业性的锡箔唱筒。这是世界第一代声音载体和第一台商品留声机。,留声机2,1885年 美国发明家奇切斯特贝尔和查尔斯吞特发明了gramophone(留声机),采用一种涂有蜡层的圆形卡纸板来录音的装置。1887年旅美德国人伯利纳(EmilBerliner)获得了一项留声机的专利,研制成功了圆片形唱片(也称蝶形唱片)和平面式留声机。1888年 伯利纳制作的世界第一张蝶形唱片和留声机在美国费城展出。1891年 伯利纳研制成功以虫胶为原料的唱片,发明了制作唱片的方法。1895年 爱迪生成立国家留声机公司(National Phonograph Company),生产、销售用发条驱动的留声机。,手摇式留声机,狗牌手提箱式,1898年 伯利纳在伦敦成立英国留声机公司,并将工厂设在德国汉诺威。1898年 丹麦工程师普尔森发明了可以实际应用的磁性录音机(钢丝录音机)。1912年 圆筒式录音被淘汰。1924年 马克斯菲尔德和哈里森设计成功了电气唱片刻纹头,贝尔实验室成功地进行了电气录音,录音技术得到很大提高。1925年 世界上第一架电唱机诞生。1931年 美国无线电公司(RCA)试制成功331/3转/分的密纹唱片(Long Play,简称LP)。,中华206型留声机,文革时期留声机,1945年 英国台卡公司用预加重的方法扩展高频录音范围,录制了78转/分的粗纹唱片(StandardPlay,简称SP)。1948年 美国哥伦比亚公司开始大批量生产331/3转/分的新一代的密纹唱片(Microgroove),成为唱片发展史上具有划时代意义的大事。而RCA也推出自己的另一套系统45转的EP(Extended Play)与之抗衡。1935年 德国柏林的通用电气公司研制成功使用塑料磁带的磁带录音机。1963年 荷兰生产音频盒式磁带。唱片的黄金年代渐渐流逝。,箱包式留声机,箱式手提手摇留声机,1.2,声音的数字化,(1)EAC软件,从CD当中获得声音,(2)Adobe Audition软件,音质、数据量与文件,音质声音的质量。与频率范围成正比,频率范围越宽音质越好,1.3,文件的格式,文件,2,设备间的信号连接,音频素材的获取,(1)鼠标左键双击任务栏右侧 图标,(2)检查“波形”是否 被选择“”,(4)选择“录音”选项,(5)检查:录音控制“”线路输入“”麦克风“”,(3)选择“选项属性”,(6)单击“确定”按钮,录音失败怎么办,声音格式的转换方法,录音机操作步骤,(2)选择“文件打开”,(1)选择“程序附件娱乐录音机”,(3)选择需转换的音频文件,(4)单击“打开”按钮,(6)单击“开始转换”按钮,(7)选择属性(采样频率),(10)选择“文件另存为”菜单,保存文件,(5)选择“文件属性”,(8)单击“确定”按钮,3,(2)单击“打开”按钮,在弹出的对话框中选择需要转换的音频文件或者需要提取音频的视频文件。,(1)选择“程序AVI MPEG WMV RM to MP3 Converter”,(3)单击“打开”按钮。,(5)点击(设置)按钮,设置相应参数。,(6)点击(转换)按钮,开始转换格式。,(4)在主界面右侧的“音频格式”下拉框中选择目标音频压缩格式,一共有四种格式,分别是.wma、.ogg、.wav、.mp3。,音频压缩工具,(7)如不满意,可从步骤(5)重新开始。,主界面,设置界面,4,声音适配器,主机箱,主板,音箱,音频信号,声音适配器与声音还原,音箱,4.1 声音适配器(声卡),4.2,声音还原设备,普通音箱耳机,教学进程,声道与音箱,双声道立体声音箱,5,声音处理软件,ECHOPITCHMIXSTOP,5.1 Audition 免费共享软件,配有汉化补丁,启动,双击快捷图标,启动Audition软件,播放控制器,音频编辑器,编辑工具 左声道 右声道,停止 播放选区声音 暂停 播放至结束 录音,播放控制,设置软件的工作状态,设置文件、内存管理,选择“选项设置”,注意:多轨和单轨状态切换用F12键,或者单击左上角图标,5.2,声音的一般处理,(1)选择“文件打开”,(2)选择声音文件夹和文件名,(3)单击“打开”按钮,使用声音文件(单轨状态),打开声音文件,(2)选择保存地点,(3)输入文件名,(5)选择属性(采样频率),(6)单击“保存”按钮,(4)选择保存类型(可选择WAV、MP3等格式),录制新的声音,利用Audition软件的“录音”功能,(1)把话筒接好,检查录音参数,(2)选择“文件/新建”菜单,(3)选择快速设置按钮或输入取样比率,(4)根据需要选择声道,(5)输入录音时间,格式:分:秒.毫秒,(6)单击“确定”按钮,(7)单击录音按钮,录音开始,(8)单击播放按钮,聆听录音效果,中断录音单击“停止”按钮,设置选区及其编辑操作,设置选区,(1)鼠标左键单击 波表,设定起点,(2)鼠标右键单击 波表,设定终点,去掉某个声音片段,常用于去掉音乐首尾空白、噪声、各种杂音、语音中的瑕疵等,(1)设置选区,(2)若精确设置选区,在右下角选区框中输入选区首尾时间值,(3)右键点击“剪切”,删除选区声音,单击(撤销)按钮,2.5 恢复操作,2.6 形成静音,静音与删除不同,静音不改变时间,只是把音量降为0(1)确定选区(2)右键击“静音”按钮,选区内变成静音,波形变成一条直线,使声音呈现淡入、淡出效果,制作淡入效果(1)设置选区(2)右键击(淡入淡出)按钮(3)选择需要的方式,例如:线性,注意:在多轨窗口编辑,回声原理及其制作,乐曲和歌曲不宜制作回声,制作回声最理想的对象是语音,(1)设置选区,(3)调整延迟时间和音量,(2)双击效果常用效果器回声按钮,(4)单击“确定”按钮,2.9 倒置声音及其制作,确定选区,双击 效果噪音消除倒置 按钮,可用于声音的加密传送。对方采用相同软件、相同处理,才能还原,声音的高级处理,5.3,5.3.1 改变声音文件的固有音量,(2)右键单击(复制)按钮,把选区内容复制到剪贴板,(3)鼠标左键单击波形,确定粘贴的开始位置,(4)右键单击(粘贴)按钮,插入粘贴,(5)单击“保存选区区域”按钮,生成新的声音文件,(1)调制多轨窗口(2)设置选区(3)右键,选择“调整音频块音量”(4)上下移动,选择自己需要的音量,多个声音素材的合成,操作步骤,被合成的素材应采样频率一致,格式相同,(1)进入多轨窗口(2)点击任意一个空轨(3)鼠标选择需要插入的位置(4)右键击“插入”,选择你需要插入的文件类型及其位置,声音合成例题,5.4,将三个声音素材合成在一起,产生如下效果:,夜深了,蛐虫鸣叫、阵阵蛙鸣。徐缓、轻柔的小号夜曲划破夜空。曲终时,热烈的掌声突然爆发出来,原来是现场音乐会的片段。,素材1:蛐虫蛙鸣.wav(44 100Hz,8位,立体声)素材2:小号夜曲.wav(44 100Hz,8位,立体声)素材3:掌声狂呼.wav(44 100Hz,8位,立体声),响度控制举例,把背景音乐和语音合成在一起 背景音乐素材:吉他音乐.wav(22 050Hz,8位,单声道,83.29秒)语音素材:史记简介.wav(11 025Hz,8位,单声道,21.04秒),编辑MP3文件的操作与编辑WAV格式的文件完全相同,编辑MP3压缩音频文件,(1)选择“文件/打开”菜单,指定一个MP3格式的声音文件(2)编辑声音(某些MP3有明显噪音和“噼啪”爆音,应将其删除)(3)保存MP3格式的文件,(2)选择激光驱动器,(3)指定CD音轨的范围,(4)单击“保存”按钮,(5)选择路径、文件名、保存类型和文件属性,(6)单击“保存”按钮,MIDI是指乐器数字接口(标准),它是一种利用数字信号处理技术合成产生各种音效,如模仿吉他、钢琴、小提琴、小号等音色。,6,MIDI与音乐合成,MIDI概述,MIDI特点,文件内部记录着演奏数字音乐的全部动作过程,如音色、音符、延时、音量和力度等信息,所以MIDI它的数据量相当小 即:MIDI信息是乐谱的数字化描述,乐谱由音符序列、定时及合成音色的乐器定义所组成。,MIDI标准是一种用在不同的电子音乐设备和计算机之间交换信息的国际标准,它主要包括以下两个部分:MIDI硬件规范 各种乐器之间连接的硬件接口标准和信号传输机制,通常包括输入和输出通道的类型、连接电缆的样式和插座形式。MIDI信息规范 MIDI信息规范是指传输音乐信息的一种编码方式,它包括音符、音符长短、音调和音量等,是一种表达各种声音的作曲系统。,MIDI标准,MIDI合成方式,理论基础是傅立叶级数(若干正弦波叠加)开销较小,声音听起来比较清脆,但声音音色少,音质差。,调频合成法,原理:预存乐器的声音样本,真实样本叠加,音乐真实感强、音色更加自然 分类(根据音色库的存放位置):(1)软波形表合成(2)硬波形表合成,波形表合成法WT(Wave Table)合成法,MIDI制作系统,模拟乐器发声的设备,即声卡,其质量和合成方式决定最后模仿的声音效果。,音源,音乐创作者和音序器之间的接口,主要是把人的音乐创作意图通过输入设备转换为MIDI数据传给音序器。专用的MIDI键盘、带MIDI接口的电子琴替代、Cakewalk软件中的虚拟键盘。,系统的核心设备,俗称编曲机,它把一首曲子的拍子、音高、节奏、音符等按照标准的MIDI格式记录下来,在播放时控制音源把MIDI数据转换为音频输出。可分为硬件(可集成于合成器中)和软件两种。,音序器,MIDI输入设备,语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术,它是一门交叉学科,涉及到数学、信息科学、生理学、心理学、统计学和语言学等领域。,7,语音识别系统,概念,语音识别历史,1952年,Bell实验室,Audry系统,可识别十个数字,是语音识别研究工作的真正开端。1959年,和,可识别英文元音和孤立字,50年代,动态规划(DP)和线性预测分析(LP)技术,对整个语音识别、语音合成、语音分析、语音编码等的研究产生了巨大的推动作用。,60年代,70年代80年代初,LP技术和动态规整技术(DTW)基本成熟,提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论实现了基于线性预测倒谱和DTW技术的特定人孤立词小词汇量语音识别系统。,80年代,1988年美国卡内基-梅隆大学,SPHINX系统(VQ和HMM),可以理解由1000个单词构成的4200个句子,被认为是语音识别历史上的一个里程碑。,90年代,IBM公司研发的ViaVoice语音识别系统。中科院自动化所研制的非特定人、连续语音听写系统和汉语语音人机对话系统,其字准确率或系统响应率可达90%以上。,模式匹配部分是整个语音识别系统的核心,语音识别基本原理,语音识别研究的最终目标,实现大词汇量、非特定人连续语音的识别,这样的系统才有可能完全听懂并理解人类的自然语言。,可识别的词汇量多少,小词汇量语音识别系统:几十个词中等词汇量语音识别系统:几百个词到上千个大词汇量语音识别系统:几千到几万个,说话者与识别系统的相关性,特定人语音识别系统:专人识别非特定人语音识别系统:与人无关限定人识别系统:一组人的语音,从说话的方式:,孤立词语音识别系统:每个词要停顿连接词语音识别系统:每个词都清楚发音,一些连音现象连续语音识别系统:自然流利的连续语音,大量连音和变音,语音识别系统的分类,