多媒体通信技术.ppt
《多媒体通信技术.ppt》由会员分享,可在线阅读,更多相关《多媒体通信技术.ppt(119页珍藏版)》请在三一办公上搜索。
1、多媒体通信技术,主讲教师:黄玉兰学时:16,第一章 多媒体通信技术概述第二章 音频技术基础第三章 图像技术基础第四章 视频信息压缩与处理 第五章 多媒体通信系统中的关键技术 第六章 多媒体通信网络技术 第七章 多媒体数据的分布式处理 第八章 多媒体通信应用系统,本书章节,5.1 多媒体信息输入输出技术5.2 超媒体技术 5.3 多媒体同步技术,本章主要内容,第五章 多媒体通信系统中的关键技术,多媒体技术的发展离不开相关技术的支持,如媒体输入输出技术、超媒体技术、网络同步技术、数据存储技术等。下面我们就这些在多媒体技术的发展过程中起重要作用的关键技术逐一进行介绍。,5.1 多媒体信息输入输出及存
2、储技术,多媒体计算机所涉及的输入输出技术包括视频图像技术、音频技术、语音技术、图像图形技术和文本技术等。在多媒体计算机系统中,支持系统输入输出的功能是由一些具有特定功能的功能卡来实现的。有一些功能卡是专门支持多媒体信息的采集与处理的,如视频卡、音频卡、VGA(Video Graphics Array即视频图形阵列)与TV转换卡、图形加速卡、SCSI(Small Computer System Interface小型计算机系统接口)接口卡、光盘接口卡等。多媒体计算机通过这些功能卡完成与各种外部设备的连接,从而形成一个制作和播放多媒体应用的工作环境。,5.1 多媒体信息输入输出及存储技术,5.1.
3、1 视频信息输入输出技术计算机只能处理数字图像信息,而现有的视频源都还只是模拟图像信息,因此需要先将模拟图像信息转变为数字图像信息。此外,计算机对图像进行相关的处理之后,在进行显示的时候也必须要将数字图像转换成模拟图像信息,因此就需要一个视频转换卡来完成相应的功能。当前用于多媒体计算机的视频卡主要有以下几类:电视接收卡、视频转换/捕捉卡、视频编码卡、MPEG卡等。,1、视频卡的基本工作原理,视频采集、显示播放是通过视频卡、播放软件、显示设备来实现的。视频卡是基于PC机的一种多媒体视频信号处理平台,它具有多个不同视频接口,分别对应录像机(VCR)、影碟机、摄像机(Camera)等视频源,可以通过
4、相应的视频软件来选择所需的视频源,经过编辑或特技处理而产生非常漂亮的画面。这些画面还可以被捕捉、数字化、冻结、存储、输出及进行其他的操作。对画面的修整、像素显示调整、缩放功能等都是视频卡支持的标准功能。多媒体视频卡除了可以实现视频信号数字化、捕捉特定镜头外,还可以在VGA上开窗口并与VGA信号叠加显示。,视频卡的基本工作原理可以用下面框图来说明。,图中的选择视频源完成对相应视频源的选择。ADC完成视频解码,主要是模拟图像信号至数字图像信号的转换和解码。视频处理芯片是用于视频信号的捕获、播放和显示的专用控制芯片,可以完成视频输入信号的裁减、比例变化、VGA同步、色键控制、PC总线接口和对帧存储器
5、的操作。视频处理器输出的是经过处理的RGB信号,与VGA显示卡输出的RGB信号是完全同步的,通过某种方法完成两路信号的叠加。视频随机访问存储器(VRAM)是专门为视频显示设计的存储器,可提供两个端口的同步读写能力,比一般的DRAM方式快得多。DAC主要完成数模转换,将叠加的信号转换成模拟信号,最后在显示器中进行显示。,2、常用视频卡目前,视频卡根据不同的用途可以分为很多种,如视频接收卡、视频转换/捕获卡、MPEG卡等。(1)视频接收卡 视频接收卡也称为电视接收卡,其主要功能有两项:接收电视台发送的电视信号;将模拟电视信号数字化后叠加显示在VGA的RGB信号中,并转换成显示器可接收的模拟信号输出
6、到显示器进行显示。电视接收卡的功能框图如下图所示。,图5-2 电视接收卡功能,(2)视频转换/捕获卡视频转换卡完成计算机视频信号和电视视频信号间的转换。一般分为两类:一类完成由计算机的VGA信号到各种标准制式的电视信号的转换并在电视机上播放或进行录像,这类卡也被称作PCTV卡或VGATV卡;另一类完成将标准的各种制式电视信号转换成在计算机屏幕上显示的VGA信号,此类卡也叫做TVVGA卡。它带一个高频头,可将计算机变成一台电视机,收看不同频道的电视节目。视频捕获卡的主要功能是从视频图像信息中实时或非实时地捕获静态或短时间的动态视频图像。捕捉后的视频图像信息以AVI(Audio Video Int
7、erleaved)格式存储在计算机硬盘上。,图5-3 视频转换/捕捉卡工作原理,(3)MPEG卡 MPEG卡分为压缩卡和解压卡两类。MPEG压缩卡一般为专业人士使用,可以对静止和动态图像按照相应的标准进行实时和非实时的压缩和还原处理。MPEG解压缩卡也称为影碟卡,可以播放MPEG-1标准压缩的数字影视片(如VCD)。MPEG解压缩卡的主要功能是把MPEG文件进行解压缩并恢复播放。其基本工作原理如图5-4所示。视频卡主要向着视频技术与影视技术的结合影视节目后期制作视频技术与通信技术的结合多媒体视频会议、可视电话等方向发展,图5-4 MPEG解压缩卡工作原理,3、摄像头 随着宽带网络逐渐深入到人们
8、的工作和生活中,利用网络进行视频对话和可视电话的使用也越来越多。数字摄像头作为数字摄像机的一个特殊分支,在网络视频应用中正发挥着越来越重要的作用。摄像头分为模拟摄像头和数字摄像头两类。模拟摄像头获得的模拟视频信号必须经过计算机的视频卡进行数字化转换,并经过压缩后才可以送入计算机进行处理,数字摄像头也称为网络摄像头,可以直接捕捉视频图像,然后通过USB或IEEE1394高速接口输入到计算机,而不再需要视频卡。,摄像头的基本工作原理:,摄像头的基本工作原理:外界景物通过摄像头的镜头(透镜)生成光学图像,再投射到图像传感器表面转换为模拟电信号,经过A/D变换转换为数字图像信号,送到数字处理芯片(DS
9、P)进行加工处理,再通过与计算机的接口传输到计算机中进行处理,最后,通过显示器就可以看到图像了。,摄像头的主要性能指标:,(1)摄像器件:按照感光元件的不同,摄像器件可以分为CCD(电磁耦合组件)和CMOS(金属氧化物半导体组件)两类。这两类摄像器件在技术上有很大的差异,但性能的差别不是很大。一般来说,CCD的成像质量较高,用于对影像要求较高的场合,而CMOS用于对影像要求较低的应用场合。(2)像素分辨率:像素是影响数字摄像头成像质量的重要指标,像素的大小关系着图像的分辨率。在早期的摄像头中所使用的像素值一般只有10万左右,成像后的分辨率是352288(CIF)。因其分辨率太低且性能不佳而遭市
10、场淘汰。目前市场上的主流产品的像素有30万像素(VGA,640480)和130万像素(SXGA,12801024),成像质量也有了很大提高。(3)颜色深度:大多数数字摄像头的颜色深度采用24位真彩色,质量更好的甚至会采用30位的真彩色。采用的颜色深度越大,所得到的图像色彩越丰富,细节也更加的清晰。,摄像头的主要性能指标:,(4)视频捕获速度:捕获速度也叫帧率,表示单位时间内图像帧的显示速度,单位是帧/秒。视频捕获速度是摄像头对视频图像捕获、处理和传输的能力,直接关系到动态图像的流畅度。由于摄像头捕获的是运动图像,因此帧率对图像主观感受影响较大。捕获速度一般是指摄像头采用最大分辨率时的流畅度。通
11、常所采用的摄像头的帧率在20帧/秒,高档摄像头的帧率在30帧/秒。帧率太低会出现跳帧的现象。一般数字摄像头视频捕获的最大分辨率为640480,若帧率要达到30帧/s,宽带网的传输速率要达到10Mbit/s;(5)接口方式:早期的数字摄像头是接在计算机的并口上,速率达到1Mbit/s,现在流行的数字摄像头都是接在计算机的USB口上。USB速度快、连接简单、即插即用并提供外接电源。现在的数字摄像头功耗都很低,依靠USB提供电源即可工作。,4、投影仪 投影仪是目前使用较多的多媒体显示设备,在科研、教学、演示、会议和监控等领域得到了广泛应用。投影机所使用的技术分为三类:CRT投影机、LCD投影机和DL
12、P投影机。CRT:阴极射线管,体积大,亮度低,对焦调整复杂。LCD:液晶显示,当今主流产品,体积小,亮度高,分辨 率高,色彩丰富。DLP:数字光处理器,显示的是数字图像信息,无噪声,画质稳定,色彩丰富细腻,是今后投影机发展方向。,投影机常用的技术指标:亮度:投影机的亮度常用ANSI流明来表示,播放环境对投影机的亮度表现影响较大。目前,一般的LCD投影机的亮度都会达到500 ANSI流明.分辨率:分为物理分辨率和压缩分辨率。物理分辨率决定了显示图像的清晰程度。灯泡寿命:用灯泡亮度降低为原来的一半时的使用时间来表示。使用寿命至少2000小时以上。灯泡可以分为金属卤素灯(金属卤素灯泡的优点是价格便宜
13、,缺点是半衰期短,一般使用1000小时左右亮度就会降低到原先的一半左右。并且由于发热高,对投影机散热系统要求高,不宜做长时间(4小时以上)投影使用。)UHE(超高压汞灯泡):uhe灯泡的优点是价格适中,在使用4000小时以前亮度几乎不衰减。由于功耗低,习惯上被称为冷光源。uhe灯泡是目前中档投影机中广泛采用的理想光源。UHP(Ultra High Performance属于超高压汞灯泡):uhp灯泡的优点是使用寿命长,一般可以正常使用4000小时以上,并且亮度衰减很小。uhp灯泡也是一种理想的冷光源,但由于价格较高,一般应用于高档投影机上。,5.1.2 音频信息的输入输出技术在多媒体计算机中,
14、数字化音频信息是一种重要的媒体信息。音频信息包括语音和音乐。音频信息的输入输出主要是由音频卡(也叫声卡)来完成的。声卡或音频卡(audio card)是负责录音、播音和声音合成的计算机硬件插卡,是计算机进行所有与声音相关处理的硬件设备。,1、声卡的基本工作原理声卡的结构如图5-5所示。数字音频处理芯片和音乐合成器是声卡的核心器件。总线接口芯片为声卡的各个部分与计算机系统总线间提供握手信号,同时总线接口芯片还起到对指令和数据的缓冲器作用,完成声卡与计算机系统总线之间指令和数据的传送。数字音频处理芯片完成各种音频信号的记录和播放任务,处理工作还包括ADPCM音频信号的压缩和解压缩、采样频率改变、M
15、IDI指令解释等。,音乐合成器负责MIDI的合成音效,可以即时创造声音,将数字音频的波形数据和MIDI信息合成为声音。一般声音的变化是用一些电压、电流这样的模拟信号的变化来反映的,而计算机只能处理数字信号,声卡中的AD转换器负责将接收的模拟信号转成数字信号供计算机处理或将数字化的音频信号转换为模拟信号送出去,驱动音箱或耳机发音。混音器将从话筒、线性输入、CD输入的不同途径声音信号进行混合,还提供用软件控制音量的功能。,图5-5 音频卡的工作原理,2、音频卡的主要功能录制和播放声音文件。声卡能将来自麦克风、收录机、激光唱盘等的声源采样,在软件的帮助下以数字声音文件的形式存放。在需要的时候,只要调
16、出相应声音文件播放即可。此外,声卡与CD-ROM驱动器相连,可以实现对CD唱盘的播放;对声音文件进行编辑和合成。可以给声音添加诸如淡入淡出、回声、音调变化等特效,这些对音乐爱好者都是非常有用的;通过语音合成技术将计算机中储存的文本文件转换成可以听到的语音,即让计算机来朗读文本;对数字声音文件进行压缩和解压缩,节省磁盘空间。直接通过采样得到的波形声音文件都很大,这样会占据太多有用的磁盘空间,需要用压缩编码的方法对这些文件压缩。有的声卡上有固化的压缩算法,有的是向用户提供压缩软件;,MIDI音乐录制和合成。MIDI接口是乐器接口的国际标准,MIDI规定了电子乐器与计算机之间相互进行数据通信的协议,
17、以保证双方有效的数据通信。通过相应的软件可以直接利用计算机完成对外部电子乐器的操作和控制。文语转换和语音识别。语音合成使人能够听到计算机的声音,相反语音识别能使计算机识别出人的声音。语音识别技术可以实现让计算机听懂人的声音信息,主要应用于需要用语音作为人机交互的场合;一般声卡都支持双声道立体声的采样,可支持的采样频率有:8kHz,11.025kHz:针对一般语音质量的要求;16kHz,22.05kHz,32kHz:针对普通音乐效果;44.10kHz,48kHz:针对高保真音乐效果;,声卡的相关技术标准(补充),声卡的采样技术 声卡的主要作用之一是对声音信息进行录制与回放。在这个过程中,采样的位
18、数和采样的频率决定了声音采集的质量。采样精度:它决定了记录声音的动态范围,以位(bit)为单位,比如8bit、16bit。8bit可以把声波分成256级,16bit可以把同样的声波分成65536级的信号。采样位数:可以理解为声卡处理声音的解析度。这个数值越大,解析度就越高,录制和回放的声音就越真实。如今的主流产品都是16bit的声卡。采样频率:当今的主流声卡,采样频率一般分为22.05kHz、44.1kHz、48kHz共3个等级,22.05kHz只能达到FM广播的声音品质,44.1kHz则是理论上的CD音质界限,48kHz则更加精确一些。对高于48kHz的采样频率,人耳已无法辨别出来了。,电子
19、乐器数字化接口,电子乐器数字化接口(Musical Instrument Digital Interface,MIDI)是电子乐器之间以及电子乐器与计算机之间的统一交流协议。是MIDI生产商协会制定给所有MIDI乐器制造商的音色及打击乐器的排列表。包括总共128个标准音色和81个打击乐器排列。由于MIDI只是记录乐曲每一时刻的音乐变化,它只是将需要演奏的乐曲信息记录下来,例如:演奏的乐器、演奏的音调伴奏等,并不包括任何可供回放的声音信息,所以MIDI文件的容量比较小。进行声音回放时需要通过声卡进行回放处理。通常有FM合成和波表合成两种方法。目前,在一些游戏软件和娱乐软件中我们经常发现很多以mi
20、d,rmi为扩展名的音乐文件,这些就是在计算机上最为常用的MIDI格式。,5.1.3 语音识别技术和语音合成技术 此二者是实现人机语音通信的关键技术。1.语音识别技术语音识别技术就是使计算机能够听懂人的声音内容并可以识别出特定说话人的技术。根据不同的需求,语音识别的内容可分为狭义的语音识别(Speech Recognition)和说话人语音识别(Speaker Recognition)。前者是要排除不同人的发音差异,提取代表语音的共性特征,听懂说话人所说的话。后者是寻求说话者的个性特征以辨别说话人的身份。,(1)语音识别系统的基本原理一个典型的语音识别系统如下图所示。图56 语音识别系统工作原
21、理,一个完整的语音识别系统可大致分为三部分:语音预处理:完成语音信息的采样,消除设备环境噪声以及个体发音差异。语音特征提取:目的是从语音波形中提取随时间变化的语音特征序列。模式库与模式匹配(识别算法):模式库是识别系统的底层模型,并且是语音识别系统中最关键的一部分。模式库通常由获取的语音特征通过训练产生,目的是为每个发音建立发音模板。在识别时将输入的语音特征同模式库中的模板进行匹配与比较,得到最佳的识别结果。,(2)语音识别系统的分类 按照可识别词汇量的多少进行划分 小词汇量、中词汇量、大词汇量语音识别系统 按照语音的输入方式划分 孤立词识别系统、连接词、连续词 按发音者为特定人/非特定人划分
22、 发音人可以是特定人、限定人和非限定人三种,对应三种识别系统 按发音者的声纹划分 即说话人识别,根据语音来辨别说话人的身份。语音识别最终目标:大词汇量、非特定人连续语音的识别。,(3)语音合成技术 a.语音合成实现的方式:一般有两种 录音/重放模式 参数合成方式(用滤波器和激励信号模拟人声,利用数字 信号处理技术)b.文语转换技术 应用于有声电子文档、信息电话查询、多媒体软件等。文语转换的语音合成一般包括三个部分:文本分析、韵律生成、语音合成语音合成未来发展方向是提高合成语音的自然度、丰富合成语音的表现力、降低合成语音技术的复杂度和实现多语种文语转换合成。,5.1.4 其它输入输出技术 1、扫
23、描仪 扫描仪(Scanner)是一种图形、图像等信息的输入设备,利用光电转换原理,通过扫描仪光电的移动或原稿的移动,把黑白或彩色的原稿信息数字化后输入到计算机中。扫描仪一般由光源、光学透镜、感光元件和A/D转换电路组成。目前常用的感光元件是电荷耦合器件(Charge Coupled Device:CCD)阵列,它是在一片硅片上集成了数万个光电三极管,排成一行或一个阵列,阵列中的每个光电三极管都能把光信号变为电信号,光敏器件所产生的电量与所接收的光量成正比。,扫描仪的图像处理过程(以平面式扫描仪为例):把原件面朝下放在扫描仪的玻璃台上,扫描仪内发出光照射原件,反射光线经一组平面镜和透镜导向后,照
24、射到CCD的光敏器件上,由CCD将光信号转换成相应电信号。来自CCD的电信号送到模数转换器中,将电压转换成代表每个像素色调或颜色的数字值。步进电机驱动扫描头沿平台作微增量运动,每移动一步,即获得一行像素值。扫描彩色图像时分别用红、绿、蓝滤色镜捕捉各自的灰度图像,然后把它们组合成为RGB图像。有些扫描仪为了获得彩色图像,扫描头要分3遍扫描。另一些扫描仪中,通过旋转光源前的各种滤色镜使得扫描头只需扫描一遍。,扫描仪类型 按扫描方式分类:手动式 平板式 胶片式 滚筒式 按接口方式分类:SCSI(Small Computer System Interface小型计算 机系统接口)接口、EPP(Enha
25、nced Parallel Port)增强型并行接口 通用串行总线USB接口,扫描仪的主要性能指标:扫描精度 这是最重要的技术指标之一,它直接影响到扫描效果。扫描精度常用分辨率来做为定量描述。分辨率表示了扫描仪对图像细节的表现能力,定义为每英寸长度上扫描图像所含的像素点的个数,单位是DPI(Dots Per Inchse),数值越大,精度越高 对个人应用来说,300*600 DPI的扫描仪就可满足基本需要了。,色彩深度(bit)它是扫描仪所能捕获色彩层次信息的指标,由模数转换电路来决定。位数是由一次扫描过程中R、G、B三原色分别曝光(共三次)来定义的,例如三原色分别为28=256种色彩,则它们
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多媒体 通信 技术
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-6109379.html