欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    多媒体技术基础及应用.ppt

    • 资源ID:5286364       资源大小:3.03MB        全文页数:86页
    • 资源格式: PPT        下载积分:10金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要10金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    多媒体技术基础及应用.ppt

    1,多媒体技术基础及应用,北京联合大学沈 洪副教授,2,第二章 音频信息处理,2.1 数字音频基础2.2 音频卡的工作原理2.3 音频编码基础和标准2.4 音乐合成和MIDI2.5 语音识别,3,多媒体中音频信息的应用 模拟音频和数字音频音频的数字化音频信号处理的特点,2.1 数字音频基础,4,多媒体中音频信息的应用,在多媒体系统中,语音和音乐是不可少的。没有音频的视频是不可接受的。,5,多媒体中音频信息的应用,音频和视频同步,使视频图像更具真实性 娓娓动听的音乐和解说,使静态图像变得更加丰富多彩 可视电话、电视会议中的声音更为重要,6,音频是多媒体的重要媒体之一,Audio 音频,Speech 语音 言语,Sound 非语音 声音,浊音清音爆破音,乐音杂音,7,语音是语言的物质外壳(载体)。语言是人类社会特有的一种信息系统,社会交际工具的符号。非语音信号的特点是不具有复杂的语意和语法信息,信息量低、识别简单。,8,语言是人类通信最直接最自然的方式。从第一台计算机诞生以来,专家们就为之付出了巨大的努力。,人们期望以最自然 的方式与计算机交互,9,设计师为计算机安上了“嘴巴”(扬声器),让计算机奏乐、讲话;为计算机装上了“耳朵”(麦克风),让计算机听懂、理解人的讲话。网络专家还期望分布在不同地点的计算机成为“顺风耳”,实现音频实时传播。,人们期望以最自然 的方式与计算机交互,10,音频被用来传递消息、意向、情感,是人类最熟悉的传递消息的方式。音频携带的信息量大、精细、准确。,11,随着多媒体信息处理技术的发展,计算机数据处理能力的增强,音频处理技术受到重视,并得到了广泛的应用。如:,12,视频图像的配音、配乐;可视电话、电视会议中的话音;游戏中的音响效果;Internet 电话、声音欺骗系统、现代“芝麻开门”系统虚拟现实中的声音模拟;电子读物的有声输出等。,13,多媒体中音频信息的应用 模拟音频和数字音频音频的数字化音频信号处理的特点,2.1 数字音频基础,14,模拟音频和数字音频,什么是模拟音频?声音是机械振动。振动越强,声音越大,话筒把机械振动转换成电信号,模拟音频技术中以模拟电压的幅度表示声音强弱。模拟声音在时间上是连续的。,15,什么是数字音频?在计算机内,所有的信息均以数字表示。各种命令是不同的数字,各种幅度的物理量也是不同的数字。当然,语音信号也是由一系列数字来表示,称之为数字音频。数字音频的特点是保真度好,动态范围大。数字声音在时间上是断续的。,16,在数字音频技术中,把表示声音强弱的模拟电压用数字表示,如0.5V电压用数字20表示,2V电压用80表示。模拟电压的幅度,即使在某电平范围内,仍然可以有无穷多个如1.21V,1.215V。,17,而用数字来表示音频幅度时,只能把无穷多个电压幅度用有限个数字表示。即把某一幅度范围内的电压用一个数字表示,这称之为量化。,18,计算机内的基本数制是二进制,为此我们也要把声音数据写成计算机的数据格式,这称之为编码,模拟电压幅度、量化、编码的关系举例如下表。,19,20,多媒体中音频信息的应用 模拟音频和数字音频音频的数字化音频信号处理的特点,2.1 数字音频基础,21,音频的数字化,计算机内的音频必须是数字形式的,因此必须把模拟音频信号转换成有限个数字表示的离散序列,即实现音频数字化。在这一处理技术中,涉及到音频的采样、量化和编码。,22,采样:音频实际上是连续信号,或称连续时间函数x(t)。用计算机处理这些信号时,必须先对连续信号采样,即按一定的时间间隔(T)取值,得到x(nT)(n为整数)。T称采样周期,1/T称为采样频率。称x(nT)为离散信号。,23,离散信号x(nT)是从连续信号x(t)上取出的一部分值,那么能用x(nT)唯一地确一地恢复出x(t)吗?一般是不行的。但在一定条件下可以的,即采样要满足采样定理。,24,采样定理:设连续信号x(t)的频谱为x(f),以采样间隔T采样得到离散信号x(nT),如果满足:,25,可以由x(nT)完全确定连续信号x(f)当采样频率等于1/2T时,即fN=1/2T,称fN为奈魁斯特频率。,26,常用的音频采样率有:8kHz、11.025kHz、22.05kHz、16kHz、37.8kHz、44.1kHz、48kHz。,27,量化:为了把采样序列x(nT)存入计算机,必须将样值量化成一个有限个幅度值的集合x(nT)。通常,用二进制数字表示量化后的样值是方便的。,28,量化采样的过程如下:先将整个幅度划分成为有限个小幅度(量化阶距)的集合,把落入某个阶距内的样值归为一类,并赋予相同的量化值。如果量化值是均匀分布的,我们称之为均匀量化。,29,多媒体中音频信息的应用 模拟音频和数字音频音频的数字化音频信号处理的特点,2.1 数字音频基础,30,音频信号处理的特点,音频信息处理 信号处理的角度:将声音看成是一种信号,通过对信号的认识,来获取信息。信息论的角度:用它的消息内容和信息来表示。,31,音频信号处理的特点,(1)音频信号是时间依赖的连续媒体 音频信号是时间依赖的连续媒体。因此音频处理的时序性要求很高。如果在时间上有25ms 的延迟,人就会感到断续。,32,音频信号处理的特点,(2)理想的合成声音应是立体声 由于人接收声音有两个通道(左耳、右耳),因此为使计算机模拟自然声音,也应有两个声道,即理想的合成声音应是立体声。同时,也应该包括位置信息(不同会场和不同角落的发的声音)。真实感声音的模拟:多通道、幅度、位置,33,音频信号处理的特点,(3)对语音信号的处理,要抽取语意等其它信息 由于语音信号不仅仅是声音的载体,同时还携带了情感的意向,故对语音信号的处理,不仅是信号处理问题,还要抽取语意等其它信息。因此可能会涉及到语言学、社会学、声学等。,34,从人与计算机交互的角度来看音频信号相应的处理如下:(1)人与计算机通信(计算机接收音频信号):音频获取;语音识别与理解;,人与计算机交互,35,(2)计算机与人通信(计算机输出音频)音频合成:包括音乐合成和语音合成;声音定位:包括立体声模拟;音频/视频同步;目的是让计算机产生真实感声音。,36,(3)人计算机人通信:人通过网络,与处于异地的人进行语音通信,需要的音频处理包括:语音采集、音频编码/解码、音频传输等。这里音频编/解码技术是信道利用率的关键。,37,第二章 音频信息处理,2.1 数字音频基础2.2 音频卡的工作原理2.3 音频编码基础和标准2.4 音乐合成和MIDI2.5 语音识别,38,音频卡的功能和分类,根据多媒体计算机(MPC)的技术标准,声卡是多媒体技术中最基本的组成部分,是实现声波/数字信号相互转换的硬件电路。,39,音频卡的功能和分类,声卡把来自话筒、磁带、光盘的原始声音信号加以转换,输出到耳机、扬声器、扩音机、录音机等声响设备,或通过音乐设备数字接口(MIDI)使乐器发出美妙的声音。,40,一、音频卡的功能,1、录制(采集)数字声音文件,通过声卡及相应驱动程序的控制,采集来自话筒(麦克风)、收录机等音源的信号,压缩后存放于微机系统的内存或硬盘中。,41,2、播放数字声音文件,将硬盘或激光盘片压缩的数字化声音文件还原,重建高质量的声音信号,放大后通过扬声器输出。,42,3、编辑与合成声音文件,对数字化的声音文件进行编辑加工,以达到某一特殊的效果。,43,4、控制音源的音量,控制音源的音量,对各种音源进行混合,即声卡具有混响器的功能。,44,5、压缩和解压缩,编码和解码。采集数据时,对数字化声音信号进行压缩,以便存储。播放时,对压缩的数字化声音文件进行解压。,45,6、文语转换(语音合成),通过文语转换软件,利用语音合成技术,通过声卡朗读文本信息,如读英语单词和句子、说英语、奏音乐。,46,7、语音识别,通过语音识别软件,具有初步的语音识别功能,让用户用口令指挥计算机工作。,47,8、提供MIDI功能,提供MIDI(乐器数字接口)功能,使计算机可以控制多台具有MIDI接口的电子乐器。同时,在驱动程序的控制下,声卡将以MIDI格式存放的文件输出到相应的电子乐器中,发出相应的声音。,48,二、音频卡的分类,声卡的分类 1按应用环境分类 2.从技术角度分类 3.根据采样和量化 的位数分类,49,3.根据采样和量化的位数分类,根据采样量化的位数,常用有8位、16位和32位声卡。位数越高,量化精度越高,质量越好。,50,音频卡的工作原理,采集声音信号:声卡从话筒中获取模拟声音信号,通过模数转换器(ADC),将声波振幅信号采样转换成一串数字后存储到计算机中。,51,音频卡的工作原理,重放声音信号:将存储到计算机中的数字信号送到数模转换器(DAC),以同样的采样速率还原为模拟波形,待放大后送到扬声器发声,这一技术也称为脉冲编码调制技术(PCM)。,52,53,3电源稳压 4运放 5晶振,一块SB LIVE声卡,DAC,DSP(Digital Signal Processing)数字信号处理,声音混合,54,第二章 音频信息处理,2.1 数字音频基础2.2 音频卡的工作原理2.3 音频编码基础和标准2.4 音乐合成和MIDI2.5 语音识别,55,音频编码基础,音频编码的目的在于压缩数据。在多媒体音频数据的存储和传输中,数据压缩是必须的。通常数据压缩造成音频质量的下降、计算量的增加。因此,人们在实施数据压缩时,要在音频质量、数据量、计算复杂度三方面进行综合考虑。,56,根据统计分析结果,语音信号中存在多种冗余,其最主要部分可以分别从时域和频域来考虑。另外,由于语音主要是给人听的,所以也要考虑人的听觉机理,从信息保持的角度讲,只有当信源本身有冗余时,才能对其进行压缩。,57,时域信息的冗余度 频域信息的冗余度 人的听觉感知机理,58,音频编码基础,音频编码的分类 基于音频数据的统计特性进行编码 基于音频的声学参数进行参数编码 混合编码 基于人的听觉特性进行编码,59,基于音频数据的统计特性进行编码,其典型技术是波形编码。其目标是使重建语音波形保持原波形的形状。PCM(脉冲编码调制)是最简单最基本的编码方法。,60,基于音频的声学参数进行参数编码,可进一步降低数据率。其目标是使重建音频保持原音频的特性。常用的音频参数有共振峰、线性预测系数、滤波器组等。这种编码技术的优点是数据率低,但还原信号的质量较差,自然度低。,61,将上述两种编码算法很好地结合起来,采用混合编码的方法。这样就能在较低的码率上得到较高的音质。如码本激励线性预测编码(CELP)、多脉冲激励线性预测编码(MPLPC)等。,62,基于人的听觉特性进行编码:从人的听觉系统出发,利用掩蔽效应,设计心理声学模型,从而实现更高效率的数字音频的压缩。其中以MPEG标准中的高频编码和Dolby AC-3最有影响。,63,音频编码标准,国际电报电话咨询委员会(CCITT)和国际标准化组织(ISO)先后提出一系列有关音频编码的建议,列出了一些音频编码算法和国际标准。,64,65,自适应脉冲编码调制(ADPCM),这个建议用于64kbps的A律和律PCM与32kbps 的ADPCM之间的转换。,66,ADPCM编码器和解码器的框图,67,第二章 音频信息处理,2.1 数字音频基础2.2 音频卡的工作原理2.3 音频编码基础和标准2.4 音乐合成和MIDI2.5 语音识别,68,音乐合成概述,随着计算机的诞生,就实现了计算机奏乐,不过那仅仅是一个个单音,听起来单调。如何让计算机输出优美的音乐呢?最简单的方法是采取录音/重放方式。,69,音乐的频带宽,需要提高其采样率和量化位数,因而数据率急剧增大。如用44.1K频率抽样,16位表示某立体声音乐,那么每秒钟的数据为176.4K字节。由此可见,若以此种方式存储音乐,即使计算机数据传输率允许,也只能存很短时间的乐曲。,70,是否可以采取合成方式产生音乐呢?答案是肯定的,电子乐器的蓬勃发展也已经证实.自1976年应用调频(FM)音乐合成技术以来,其乐音已经很逼真。1984年又开发出另一种更真实的音乐合成技术波形表(Wavetable)合成。目前这两种音乐合成技术都应用于多媒体计算机的音频卡中。,71,调频音乐合成,FM是使高频振荡波的频率按调制信号规律变化的一种调制方式。采用不同调制波频率和调制指数,就可以方便的合成具有不同频谱分布的波形,再现某些乐器的音色。我们可以采用这种方法得到具有独特效果的“电子模拟声”,创造出丰富多彩的声音,是真实乐器所不具备的音色,这也是FM音乐合成方法特有的魅力之一。,72,调频音乐合成,我们以音频卡中常用的FM合成芯片YM3812为例,简述怎样实现FM音乐合成?如何模拟各种乐器的音色?YM3812是一种广泛使用的新型音乐合成芯片。它采用FM合成方式,能够在软件的控制下产生变化极为丰富的各种音色,73,FM方式产生真实音响 两种工作模式:9声道同时发音 6种旋律加5种节奏乐 内置颤音振荡器/调幅(AM)振荡器 可采用正弦波组合方式合成语音 输入/输出为TTL电平,它的主要特点是:,YM3812简介,74,使用YM3812构成的音乐系统如下图所示。,75,音乐系统框图,由于YM3812输出的是数字信号,因此系统需要一数/模转换,如YM3014。微机通过总线传输必要的数据,由YM3812将它们变成相应的音高、音色、响度的数字频信号,经数/模转换变成模拟量,再经功率放大得到音响输出。,76,MIDI,MIDI是音乐与计算机结合的产物。MIDI(Musical Instrument Digital Interface)是乐器数字接口的缩写,泛指数字音乐的国际标准,初始建于1982年。利用MIDI文件演奏音乐,所需的存储量最少。如演奏2分钟乐曲的MIDI文件只需不到8K的存储空间。,77,MIDI标准规定了不同厂家的电子乐器与计算机连接的电缆和硬件。它还指定从一个装置传送数据到另一个装置的通信协议。这样,任何电子乐器,只要有处理MIDI信息的处理器和适当的硬件接口都能变成MIDI装置。MIDI间靠这个接口传递消息(massage)而进行彼此通信。实际上消息是乐谱(score)的数字描述。,78,乐谱由音符序列、定时和称作合成音色(patches)的乐器定义所组成。当一组MIDI消息通过音乐合成芯片演奏时,合成器解释这些符号,并产生音乐。,79,第二章 音频信息处理,2.1 数字音频基础2.2 音频卡的工作原理2.3 音频编码基础和标准2.4 音乐合成和MIDI2.5 语音识别,80,语音识别的研究领域比较广,归纳起来,一般有以下四个方面:按可识别的词汇量多少 按照语音的输入方式按发音人的种类(可分为特定人、限定人和非特定人语音识别三种)对说话人的声文进行识别,语音识别系统的分类,81,按可识别的词汇量多少 语音识别系统可分为小、中、大词汇量三种。一般来说,能识别词汇小于100的,称为小词表语言识别;大于100的称为中词表语音识别;大于1000的称为大词表语音识别。词表越大,困难越多。,语音识别系统的分类,82,按照语音的输入方式 语音识别的研究集中于对 孤立词 连接词 连续语音的识别。,83,按发音人可分为特定人、限定人和非特定人语音识别三种 对于特定人进行语音识别的系统,使用前需由特定人对系统进行训练。如果需要限定的几个人使用同一系统,则可以研制成限定人识别系统。如果一个系统不必经使用者训练就可以识别各种发音者的语音,则称为非特定人语言识别。,84,对说话人的声文进行识别 这是研究如何根据语音来辨别说话人的身份、确定说话人的姓名。,85,语音识别研究的难点,语音识别的目的是抽取语音信号携带的信息。而语音信号是时间依赖信号。它的特征具有时变性、瞬变性的特点。其随机性和非平稳性给识别带来很多困难。众多专家从事语音识别相关技术的研究。,86,其研究工作主要有:特征的抽取和表示 声学-语音学模型 语言学模型 识别系统的稳健性,

    注意事项

    本文(多媒体技术基础及应用.ppt)为本站会员(sccc)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开