大一第二学期计算机多媒体技术.ppt
第七章 多 媒 体 技 术,计算机应用基础,多媒体技术基础内容,媒体传递信息的载体,如文字、声音、图像、动画、视频等多媒体技术通过各种外部设备,将文字、声音、图像、动画、视频等多媒体信息采集到计算机中,以数字化的形式进行加工、编辑、合成和存储,最终成为具有交互特征的多媒体产品。多媒体系统包括多媒体硬件系统和多媒体软件系统,多媒体硬件系统包括支持各种媒体信息的采集、存储、展现所需要的各种外部设备,以及支持多媒体程序运行的CPU,多媒体软件系统包括支持各种多媒体设备工作的操作系统,各种媒体采集、创作和处理工具,将各种媒体集成起来的创作工具,以及提供给最终用户使用的各种多媒体软件,这些软件可以通过光盘或网络的形式发布到用户的计算机中。,多媒体具体技术,7.1 音频信号的处理7.2 图像信息的处理技术7.3 动画处理技术7.4 视频信息的处理技术,7.1 音频信号的处理,多媒体计算机中产生声音的方式由外部声音源进行录制和重放(Wave波形音频)、MIDI音乐(MIDI音频)、CD-Audio(CD音频)。音频文件7.1.2 MIDI合成音乐7.1.3 音频处理7.1.4 音频数据的压缩7.1.5 声音文件的格式7.1.6 语音合成与识别,音频文件,波形音频特征(理解)多媒体获得声音最直接、最简便的方式,通常以麦克风、立体声录音机或CD激光唱盘为声音的输入源,声卡以一定的采样频率和量化级对输入声音进行数字化采样,将其从模拟声音信号转换为数字信号(模/数转换),然后以适当的格式存在硬盘上。记录下来的声音重放时,声卡将文件中的数字信号还原成模拟信号(数/模转换),经混音器混合后由扬声器输出。,Wave音频,Wave音频文件的三个参数采样频率:每秒从模拟声波中选择多少个点的声音样本。一般有11.025kHz(电话音质)、22.05kHz(广播音质)、44.1kHz(CD音质)和48KHz等采样频率。量化位数:计算机对声音波形描述的精度,位数越多,精度越高。一般有8、16、32位。声道数:单声道/立体声用不压缩的PCM格式存储Wave文件,所占存储空间:存储空间=(采样频率量化位数 声道)时间/8(字节)例如,用44.10 kHz的采样频率,16位的精度存储,则录制1秒钟的立体声节目,其WAV文件所需的存储量为:44 100162/8=176 400(字节)170kB,模拟音频的数字化,用计算机对音频信息处理,就要将模拟信号(如语音、音乐等)转换成维数字信号。,采样 每隔一定时间间隔对模拟波形上取一个幅度值。量化 将每个采样点得到的幅度值以数字存储。编码 将采样和量化后的数字数据以一定的格式记录下来,2.Wave音频文件和音频制作工具,2.Wave音频文件记录了对实际声音的采样数据。主要缺点:产生的文件太大,不适合长时间记录。常用软件压缩方法有PCM(均匀量化)和ACM(自适应差分量化)等,一般人讲话的声音用8位量化级、11.025KHz采样频率就可较好还原。3.Wave音频文件制作工具录音机常用的音频输入设备有话筒、录音机等,常用的视频输入设备有扫描仪、数码相机、摄像机、CD等。,7.1.2 MIDI合成音乐,1.MIDI(musical instrument digital interface)(知道)是乐器数字接口的缩写,泛指数字音乐的国际标准,始建于1982年。标准的多媒体PC平台能够通过内部合成器或连接到计算机MIDI端口的外部合成器播放MIDI文件。合成器合成器是利用数字信号处理器或其他芯片来产生音乐或声音的电子装置。数字信号处理器产生并修改波形,然后通过声音产生器和扬声器发出声音。合成器存在于声卡里,分成调频(FM)合成器和波表合成器。FM合成器采用频率调制的原理产生声音,用以模拟各种乐器的声音。FM合成器能发出128种乐器的声音,与真实乐器声音有差距。波表合成器是对真实乐器发出的声音进行采样,将采样值表保存在ROM中,可由数字信号处理器随时调用处理,再将合成后的数字音频信号经D/A转换器变成模拟音频信号,音效与真实乐音几乎无差别。ROM容量大,可存储的乐器音就越多。一般声卡都带有波形表ROM的接口可配接波形子表,有的声卡本身就带有波形表ROM。,2.MIDI音乐产生的原理,MIDI标准规定了不同厂家的电子乐器与计算机连接的电缆和硬件。MIDI标准还指定从一个装置传送数据到另一个装置的通信协议。任何有MIDI信息处理器和适当的硬件接口的电子乐器都能成为MIDI装置。MIDI间靠接口传递消息,消息即乐谱的数字描述。乐谱由音符序列、定时和称作合成音色的乐器定义所组成。MIDI文件是存放MIDI信息的标准文件格式,包含音符、定时和多达16个通道的演奏定义。每个通道的演奏音符定义由键号、通道号、音长、音量和力度组成。MIDI文件是一系列指令,存储空间小。(2分钟不到8K)演奏过程:将电子乐器演奏时的指令信息通过声卡上的MIDI控制器输入计算机中,或利用一些MIDI乐曲处理软件编辑产生的音乐指令集合,以MIDI文件格式存储在硬盘上,即MIDI音频文件。播放时,合成器将MIDI指令翻译成声音信号,再由声卡山的混音器混合后生成声波,最后由音响设备输出声音。,MIDI音乐应用与MIDI设备,使用MIDI合成音乐比波形音频更合适的情况:需要播放长时间高质量的音乐需要以音乐为背景音响效果,同时从CD-ROM中装载其他数据需要以音乐为背景音响效果,同时播放波形音频,如音乐与语音同时输出。MIDI设备有三种端口:MIDI In(输入口):接收其他MIDI设备送来的MIDI信息MIDI Out(输出口):发送设备生成的原始MIDI信息MIDI Thru(传送口):向其他连接MIDI的设备传送从MIDI in端口接收到的信息。128种不同的乐器,同一MIDI文件利用不同的合成器播放,效果不完全相同。,7.1.3 音频处理,声音的处理过程(知道)录音、剪辑、去除杂音、混音、合成。声音处理软件:Ulead Audio Editor、Creative 录音大师、Cake Walk等实验:录制一段本人的录音为录音添加配乐各种音频文件格式的转换CD音质收音质量电话音质,7.1.4 音频数据的压缩,1、音频压缩原理:由于音频信号中存在着冗余,所以在计算机系统的音频数据的存储和传输中,数据压缩是必须的。通常音频信号的压缩会造成音频质量的下降和计算量的增加,因此在实施压缩的时,要在声音质量、数据率、计算量三方面进行综合考虑。音频的压缩方法(知道):基于音频数据的统计特性进行编码波形编码,其目标是重建语音波形,保持原波形的形状。基于音频的声学参数进行参数编码,可进一步提高压缩比,其目标是是重建音频保持远音频的特性。将上述两种编码结合起来,就是混合编码方法。基于人的听觉特性进行编码,从人的听觉特性出发,利用掩蔽效应,设计声学心理波形,从而实现更高效率的数字音频压缩。其中以MPEG标准中的高频编码最有影响。,2、MP3音乐,MP3(MPEG layer 3):实际上就是一种音频压缩技术,它的压缩比可以从10:1到12:1;目前具有最高的压缩比的波形音频文件的压缩标准,在保证CD音质水平下压缩比可达12:1MP3的原理(知道):一方面通过先进的编码技术,让未压缩的原始声音重新编码压缩;另一方面利用人耳的特点进行数据的缩减,由于人耳对于超过15KHZ的声音就不是很灵敏了,所以将一些高频的声音删除掉不会对声音效果有很大影响,这样就可以缩小声音存储所需占用的空间。音频信号的压缩方法分为:有损压缩和无损压缩无损压缩霍夫曼编码、游程长度编码有损压缩波形编码、参数编码、混合编码最常用波形编码中的PCM方法。(知道)MP3的制作软件:MP3 Compressor(知道)MP3的播放软件:Winamp,7.1.5 声音文件的格式,WAV格式支持多种压缩算法,支持多种音频位数、采样频率和声道类似格式AIFF、AU MP3格式常用、牺牲高频MIDI格式短小播放效果因软、硬件而异CD格式音质最好的数码音频格式44.1K采样、速率88K/秒、16位量化RealAudio格式RA、RM、RMX在线播放,随带宽不同而改变声音质量WMA格式微软开发的格式,可选择压缩率,7.1.6 语音合成与识别,语音处理的内容(知道):一是使人们从用语音来代替键盘输入和编辑文字,使计算机“听懂”语音语音识别技术;二是要赋予计算机“讲话”的能力,用语音输出结果语音合成技术。语音合成技术:途径一:同录音机,计算机再生一个预先存入的语音信号,存入足够的语音单元,在合成时采用恰当的技术手段挑选出所需的语音单元,将它们拼接,可生成高自然度的语句波形拼接的语音合成方法,先压缩,再保存语音。途径二:采用数字信号处理方法,用能表征声道谐振特性的时变数字滤波器来模拟人类发声过程。调整滤波器的参数等同于改变口腔及声道形状,达到控制发不同声音的目的,而调整激励源脉冲序列的周期或强度,将改变合成语音的音调、重音等只要正确控制激励源和滤波器的参数(一般10ms30ms送一组),就可灵活合成各种语句参数合成方法。语音合成的目标:可懂、清晰、自然、具有表现力成果:60年代,英语TTS(文语转换)研制成功,语音识别技术,成果:97,IBM中文连续语音识别系统ViaVoice,适用于WIN95/98系统的普通话语音识别听写系统及其相应的开发工具,150字/分钟,识别率95%,6万条词组。语音识别技术所涉及的领域:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能。,7.2 图像信息的处理技术,7.2.1 数字图形、图像文件的格式7.2.2 数字图像数据压缩类型7.2.3 数字图像的获取,7.2.1 数字图形、图像文件的格式,图形特征图形是由图元(直线、圆、园弧、矩形、任意曲线)组成的矢量图。图形是用一组指令来描述,是一种不会因放大、缩小而失真的矢量图。图形的编辑处理通常选用具有矢量图形处理功能的软件,如CorelDRAW等.图像特征图像是由像素组成的位图图像是由摄象机或扫描仪输入到计算机中由像素构成的数字信息(如照片)图像的编辑处理应选用机遇图像处理的软件,如Photoshop、画图等,常用图形图像格式的特点和应用1(理解),BMP格式与硬件无关的图像文件格式有压缩和非压缩之分文件所占空间大,是Windows环境中交换与图有关的数据的一种标准,所有软件都支持。GIF格式(graphics interchange format)图像互换压缩率50%左右,软件都支持。图像经过压缩,图像深度1-8位(最多显示256色)在一个GIF文件中可以存多幅彩色图像,逐幅读出可以构成动画JPEG格式(joint photographic expert group)联合图像专家有损压缩去除冗余图像数据,能以很高的压缩比率来保存图像而图像依然生动,在PHOTOSHOP中可以选择012压缩比,尺寸小,浏览器都支持。,TIF格式(tagged file format)为桌面出版业开发的通用图像格式。非压缩的TIF是桌面出版业首选图像格式。有四种类型:TIF-B 黑白,TIF-G 黑白灰,TIF-P 带调色板的彩图,TIF-R RGB真彩图像。支持多种编码方法,RGB无压缩,RLE压缩、JPEG压缩。WMF格式(windows metafile format)是一种矢量图形格式,既可以联结矢量图也可联结位图。在Windows中很多程序支持,如MS office的剪辑库中有很多WMF格式图像,但Windows以外的程序支持少。PSD格式(photoshop document)是Photoshop的专用文件格式,含有图层、通道、蒙版和色彩模型等多种图像编辑信息,是一种非压缩的原始文件保存格式。容量大,便于修改。PNG格式(portable network graphics)网上常见,尺寸比GIF小30%的无损压缩图像文件。同时提供24位和48位真彩色图像支持,Photoshop可处理,亦可保存为该格式。,常用图形图像格式的特点和应用2(理解),图形和图像 图形:由点、线等组成的有边界画面,文件中存放描述图形的指令。图像:由图像设备输入的无边界画面,数字化后以位图形式存储。图形与图像的数字化 分辨率(行、列)和颜色深度 真彩色每个像素点占3个字节,224=16777216 种颜色。计算存储一秒图像公式:列数行数像素的颜色深度/8 帧/秒=字节数 例:12801024分辨率的“真彩色”电视图像,按每秒30帧计算,显示1分钟,则需要:1280102433060 6.6 GB,7.2.2 数字图像数据压缩类型,两种压缩方法:无损压缩(知道):还原后的图像与压缩前一样如RLE(游程长度编码法)本质:可删除一些重复数据,大大减少要在存储介质上保存的图像尺寸,但并不能减少图像的内存占用量,因从存介质上读取图像时,软件会把丢失的信息填充进来。优点:比较好地保存图像的质量缺点:压缩率比较低。适用:打印机打印出图像有损压缩(知道):无法将图像还原到与压缩前完全一样的状态的压缩方法。可减少图像在内存和磁盘中占用的空间。如JPEG(利用人眼睛对颜色中的高频成分变化不敏感的注意力在低频内容上的原理,丢弃高频成分。)优点:大大压缩图像文件的数据。适用:在屏幕上显示图像;不适用:高分辨率打印机打印图像。,7.2.3 数字图像的获取常用输入设备(知道),图像数字化的手段:扫描、数字摄影、视频捕捉、图形数字画板绘图扫描扫描仪:将照片、书记上的文字或图片获取下来,并以图片文件的形式保存在计算机里。通过光源照射到被扫描的材料上,并利用CCD(电荷偶合)元件对得到的光信息进行光电转换后获得相应的图像。重要指标:分辨率数码相机重要指标:图像分辨率视频捕捉卡采集视频图像帧或静止画面以获得数字图像。质量一般,不如扫描和数码相机拍摄效果。,数字图像的处理操作(知道),主要操作:图像颜色模式变换,部分图像对象选择,图像的缩放、剪切、翻转、旋转、扭曲等;多幅图像的合成,添加马赛克、模糊、玻璃化、波纹、水印等特殊效果。常用软件:Photoshop/PhotoDraw/CorelDraw/Freehand/Illustrator,Photoshop CS图像处理,图像的选定、复制、编辑(掌握)(熟练)图像效果的变换(蒙板、滤镜、图层),图像的合成(掌握)(比较熟练),7.3 动画处理技术,7.3.1 动画产生原理7.3.2 动画的分类7.3.3 动画的存储格式7.3.4 使用Flash动画制作工具,7.3.1 动画产生原理,动画原理视觉暂留效应(知道)由于人的视觉暂留效应,但若干幅具有一定差异的图片连续不断地在眼前展示时,便可感觉到动画效果。,7.3.2 动画的分类(知道),按视觉效果分类:具有平面动态图形效果的二维动画Flash mx具有立体效果的三维动画3DS、3D MAX、COOL 3D用于虚拟现实的真实模拟动画(灵境技术)桌面VR、灵境VR、分布式VR通过电影电视等活动图像采集加工得到的视频,7.3.3 动画的存储格式,GIF格式产生原理是一系列具有细微差异的图片连续播放,动画由计算机实现。制作方法:先使用图像处理软件制作出不同的图像,然后使用GIF动画制作软件进行动画处理,设置每一幅画面的显示时间,画面的显示次序,显示方式等。软件:GIF Animation、Cool 3D、Flash MXSWF格式Flash动画的文件格式特点是:占用比较小的存储空间,而且动画可以有交互性。在画面缩放时不会失真,适合描述由几何图形组成的二维动画。添加MP3音乐,网络常用。,7.3.4 使用Flash动画制作工具,基本动画制作:逐帧、形变、运动动画;多图层动画;导出影片保存(掌握)(熟练)为动画配音元件元件制作与图库使用(掌握)(熟练),7.4 视频信息的处理技术,7.4.1 数字视频文件格式7.4.2 视频信息压缩的基本原理7.4.3 视频信息的获取及视频处理软件,7.4.1 数字视频文件格式,数字视频格式一般取决于视频的压缩标准。总体而言,视频格式一般分为影像格式(video format)和流格式(stream video format)AVI系列(知道)Audio video interleaved 声音/影像交错文件是指可以将视频和音频交织在一起进行同步播放。是一种Windows系统中比较通用的视频格式。优点:兼容性好,调用方便、图像质量好。应不同要求,可调整分辨率,对电脑配置要求不高。缺点:文件尺寸大。窗口越大,数据量越大。降低分辨率使图像质量受损。MOV格式(知道)(movie digital video technology)优点:可跨平台使用、存储空间要求小。已成为数字媒体软件技术领域事实上的工业标准。支持25位彩色,支持领先的集成压缩技术。,数字视频文件格式(二),MPEG系列 movie pictures experts group(知道)(1)MPEG格式(知道)文件扩展名为mpg或mpeg。是运动图像压缩算法的国际标准,被几乎所有计算机平台支持。在保证影象质量的基础上,采用有损算法减少运动图像中的冗余信息,从而达到高压缩比。MPEG标准(知道)包括:MPEG视频、MPEG音频、MPEG系统(视频、音频同步)三部分优点:相对于AVI格式有较高的压缩率,影片质量较高而文件相对较小 MPEG包括MPEG-1、MPEG-2和MPEG-4,分别适应不同的带宽和数字影像质量的要求。MPEG-4适合在网上在线观看。(2)DAT格式(知道)是Video CD(VCD)数据文件的扩展名,也是基于MPEG压缩算法,是标准VCD影碟里的视频文件。该文件一般放在VCD光碟的MPEGAV文件夹里。,数字视频文件格式(三),ASF(知道)advanced streaming format 高级流媒体格式采用MPEG-4压缩算法,压缩率和图像质量都很不错。优点:本地或网络回放、可扩充的媒体类型、部件下载以及扩展性等由独立的编码器将媒体信息编译成ASF流,然后发送到服务器,再由服务器将ASF流发送给网络上所有的播放器,从而实现单路广播或多路广播。RM(知道)real media 一种流式视频格式。采用一种“边传边播”的方法,即先从服务器上下载一部分视频文件,形成视频流缓冲区后实时播放,同时继续下载,为接下来的播放做准备。该方法避免了用户必须等待整个文件从Internet上下载完毕才能实现观看的缺点。RM文件可以根据网络数据传输速率的不同制定不同的压缩比率,从而实现在低速率的广域网上进行影像数据的实时传送和实时播放。,数字视频文件格式(四),WMV格式 windows media video(知道)是微软推出的一种采用独立编码方式并且可以直接在网上实时观看视频节目的流式视频压缩格式。优点:本地或网络回放、可扩充的媒体类型、部件下载、可伸缩的媒体类型、流的优先级化、多语言支持、环境独立性、丰富的流间关系以及扩展性等。RMVB格式(知道)由RM视频格式升级延伸出的新视频格式。先进之处:打破了RM格式平均压缩采样的方法,在保证平均压缩比的基础上合理利用比特率资源。即静止和动作场面少的画面场景采用较低的编码速率,留出更多的带宽空间,在出现快速运动的画面场景时被利用。在保证静止画面质量的前提下,大幅提高了运动图像的画面质量,使图像质量和文件大小之间达到了微妙的平衡。比DVD文件小具有内置字幕和无需外挂插件支持等独特优点。播放:使用RealOne Player 2.0/RealPlayer 8.0/RealVideo 9.0,7.4.2 视频信息压缩的基本原理,数据压缩处理的概念(知道)对数据进行重新编码,其理论基础是信息论。即这样一个过程:通过消除信息中的冗余成分来减少数据量,即保留不确定的信息,去除确定的、可推知的信息,也就是用一种更接近信息本质的描述来代替原有的描述,涉及到信息的重新编码。图像压缩编码活动图像的压缩实质上是将数字化的视频信息重新编码成一种数据流,目的是在保持原图像质量的前提下减少需要存储和传送的图像或视频数据。数据压缩方法(知道)减少图像序列中的多余信息,即时间冗余和空间冗余信息,以减少存储和传递无用信息。(第一代编码方法)利用人类视觉特性的编码方法,一方面考虑人眼视觉特性,一方面也考虑图像传递的景物特征。(第二代编码方法),利用视频信息在空间上存在的冗余成分进行编码的方法空间冗余编码。,利用视频信息在时间上存在的冗余成分进行编码的方法时间冗余编码。,利用人眼对高频信息不如低频信息敏感的特性,将图像中高频成分的信息作为冗余进行压缩的方法视觉冗余编码。,空间冗余编码/时间冗余编码,2.空间冗余的概念(知道)空间冗余被称为帧内压缩或空间压缩,即数据的压缩发生在同一帧内,仅仅考虑本帧内的数据而不考虑相邻帧之间的冗余信息。同一幅图像中,规则物体和规则背景在形状、颜色上具有相似之处。即表面物理特性具有相关性,其光成像结果在数字化图象中就表现为数据的空间冗余。帧内压缩的编码效率较低,压缩比只有两三倍。但是压缩时各帧之间没有相互关系,所以压缩后的视频文件可以以帧为单位进行编辑,它适合于电视节目制作。3.时间冗余的概念(知道)视频图像序列中两幅相邻图像之间有着较大的相关,这就是画面之间的时间相关性,而相应的声音数据中也存在中类似的时间相关性,即时间冗余度。降低时间冗余度的有效方法是只记录和传送相邻图像之间变化的部分,即图像的运动部分和变更部分。这种冗余编码发生在相邻帧或连续帧之间,被称为帧间编码。帧间压缩可以获得较高的压缩比,缺点是对于内容变化较大的画面,画面的连续性也较差。,7.4.3 视频信息的获取及视频处理软件,视频信息的获取视频捕捉卡数码摄像机和数字摄像头视频信息的处理方法视频信息的处理包括视频画面的剪辑、合成、叠加、转换、配音等。视频信息编辑方法(理解)分为两大类:线性编辑和非线性编辑,线性编辑是一种早期的传统视频编辑方法,以原始录象带为编辑素材,从视频的开始到结束,选出所需片段按序录制到另一段录象中。因此耗时较多,经多次反复录制、剪辑、特效处理后,画面质量也会有所损失,所需设备比较昂贵。,非线性编辑是在计算机技术的支持下,充分利用合适的编辑软件,对视频素材在“时间线”上任意进行修改、拼接、渲染、特效等处理。“非线性”就是通过软件可以随机访问任意素材,不受素材存放时间的限制,以低成本高效率,效果变幻无穷而广受欢迎。,常用的视频编辑处理软件,常用工具软件(理解)Video For Windows/Adobe Premiere Pro/QuickTime/Ulead Video EditorAdobe Premiere Pro 是一个创新的非线性编辑应用程序,也是一个功能强大的实时视频和音频编辑的工具,可以精确控制产品的每个方面,还支持直接输出DVDUlead Video Editor是一款专为个人及家庭设计的数码视频剪辑软件,使用者可轻松体验快速操作、专业编辑、完美输出的影片剪辑过程。Windows Movie Maker是windows XP操作系统中内置的数字电影编辑软件。允许用户对视频文件进行处理,添加背景音乐、声音效果和画外音叙述。用户可以从扫描仪或数码相机输入静止图像,以创作叙述性或音乐幻灯片动画。视频编辑制作的4步骤:获取素材、编辑项目、预览和剪辑、发送作品。,