文字声音图像虚拟存储传播.ppt

上传人：小飞机

文档编号：5986483

上传时间：2023-09-11

格式：PPT

页数：124

大小：4.80MB

《文字声音图像虚拟存储传播.ppt》由会员分享，可在线阅读，更多相关《文字声音图像虚拟存储传播.ppt（124页珍藏版）》请在三一办公上搜索。

1、第1章文本,计算机处理的文字信息称为文本。,文本,文本输入,扫描臂,扫描方向,反射镜,反射镜,反射镜,光源,镜头,CCD,玻璃板,被扫描图件,CCD扫描仪工作原理,返回,OCR印刷体识别,返回,手写板,返回,手写板,超文本(hypertext)的阅读方式传统的顺序式阅读线形文本通过链接、跳转、导航、回溯等操作实现跳跃式阅读超文本采用一种网状结构来组织信息节点（node）节点包含的内容超链（hyperlink）链源（也称之为“锚”）链宿超文本的结构,超文本,超文本的结构如：Windows操作系统中的“帮助”信息,返回,超文本,超文本节点中的数据从文字扩展为图形、图像、声音、动画、动态视频把超文

2、本推广到多媒体的形式超媒体=超文本+多媒体如：因特网的WWW信息系统简单超媒体文档示意图,超媒体,返回,简单超媒体文档示意图,第2章声音信息处理,声音的相关概念,多媒体技术处理的声音信号主要是人耳所能接受的频率范围内的声音信号，通常称之为音频全频带声音音乐声、风雨声、汽车声等其他声音其带宽可达到2020kHz言语/语音(speech)人说话的声音其频率范围约为3003400Hz噪音除语音和音乐外的其他音频信号,声波是由机械振动产生的波。当声波进入人耳，鼓膜振动导致内耳里的微细感骨的振动，将神经冲击传向大脑，听者感觉到的这些冲击就是声音。,频率，每秒钟振动的周期数，用Hz表示，1Hz表示每秒振

3、动1次慢声音粗，快声音细,振幅，指示了声音的大小,高度：记载了每次采样，8个比特(0255）,离散采样，大致描述,30个采样,假定每个采样之间的高度不变，可以在每个高度之间画一条直线。这种用数字表示的声波叫“分步波形”,声波的高度为155，因此这个采样为“10011011”,采样量化的主要技术参数,采样速率：也叫采样频率，指在记录过程中，每秒钟对声音进行测量的次数，以Hz为单位，1Hz表示每秒钟采样一次。采样速率直接影响到数字声音的精度。采样定理：奈奎斯特采样定理，采样的频率高于声音波形中最高频率的2倍，可以完全还原出原声音常用采样频率：高保真效果：采样频率为44.1kHz（音频的最高频率为2

4、0kHz），如音乐CD唱盘的采样频率即为44.1kHz。音乐效果：采样频率为22.05kHz语音效果：采样频率为11.025kHz,采样量化的主要技术参数,量化精度：指每个声音样本采样点的幅度量化时采用的二进制的位数，单位bit/s,bps。反映度量声音波形幅度的精度。常用的量化精度为8位、12位、16位。量化精度越高（即位数越多），声音的质量越高，而需要的存储空间也越多；量化精度越低（即位数越少），声音的质量越低，需要的存储空间越少。声道数：声音通道的个数，指一次采样记录所产生的声音波形的个数。单声道：记录声音时，一次只产生一个声波数据。双声道（立体声）：记录声音时，一次产生两个声波数据。,

5、数据量（Byte）（采样频率量化精度声道数时间）/8,声音的相关概念,音频文件的分类：（1）声音文件：指通过声音录入设备录制的原始声音，直接记录了真实声音的二进制采样数据，通常文件较大（2）MIDI文件：它是一种音乐演奏指令序列，相当于乐谱，可以利用声音输出设备或与计算机相连的电子乐器进行演奏，由于不包含声音数据，其文件较小,声音信号的数字化,1、声音信号的数字化实质将模拟声音信号转换成数字编码形式以便于计算机进行处理的过程2、声音信号数字化的过程取样取样定理：取样频率不低于声音信号频率的两倍取样频率：语音8kHz，音乐40kHz量化量化精度越高，声音的保真度越高量化精度：8位，12位，16位

6、编码按某种格式将数据进行组织、压缩，便于计算机存储、处理和在网上传输,声音信号的数字化,3、波形声音的主要参数取样频率量化位数声道数目1(单声道)、2(双声道)、5.1/7.1(环绕立体声)使用的压缩编码方案数码率（bit rate）指的是每秒钟的数据量，也称比特率、码率,声音的编码,声音的压缩编码的必要性和可能性波形声音数据压缩的必要性波形声音，尤其是全频带声音数据量很大波形声音数据压缩的可能性声音信号中包含有大量的冗余信息人的听觉感知特性具有某种不敏感性相邻的取样信息之间存在很强的相关性,声音的编码,二、第2代全频带声音的压缩编码1、MPEG-1声音压缩编码国际上第一个高保真声音数据压缩的

7、国际标准。分为三个层次：层1(Layer 1)：编码简单用于数字盒式录音磁带层2(Layer 2)：算法复杂度中等用于数字音频广播(DAB)和VCD、DVD等层3(Layer 3)：编码复杂用于互联网上的高质量声音的传输如：MP3音乐压缩10倍,声音的编码,2、MPEG-2声音压缩编码采用与MPEG-1声音相同的编译码器层1,层2和层3的结构也相同，但它能支持5.1声道和7.1声道的环绕立体声,声音的编码,3、杜比数字AC-3（Dolby Digital AC-3）美国杜比公司开发的多声道全频带声音编码系统它提供的环绕立体声系统由5个（或7个）全频带声道加一个超低音声道组成6个声道的信息在制作

8、和还原过程中全部数字化，信息损失很少，细节丰富，具有真正的立体声效果在数字电视、DVD和家庭影院中广泛使用,声音的编码,几种典型的第2代全频带声音压缩编码标准,数字音频的处理,一、语音合成（Speech synthesis）根据语言学和自然语言理解的知识，使计算机模仿人的发声，自动生成语音的过程1、语音合成可分为三个层次：(1)从文字到语音的合成（Text-to-Speech）(2)从概念到语音的合成（Concept-to-Speech）(3)从意向到语音的合成（Intention-to-Speech）目前主要是按照文本（书面语言）进行语音合成，这个过程称为文语转换（Text-To-Speec

9、h，简称TTS）,数字音频的处理,2、文语（TTS）转换过程文本分析韵律分析语音生成,文本,文本分析,韵律处理,语音合成,合成语音,词典，发音规则,韵律规则库,语音库,数字音频的处理,3、语音库语音库中存储了大量预先录制的语音基元（单音、词组、短语或句子）的波形，合成时读取语音基元的波形，将这些波形进行拼接和韵律修饰，然后输出连续语音流4、对计算机合成的语音希望能达到的要求发音清晰可懂语气语调自然说话人可选择语速可变化等,数字音频的处理,5、计算机合成语音的应用股票交易、航班动态查询、电话报税等业务有声E-mail服务CAI课件或游戏解说词的自动配音文稿校对、语言学习、语音秘书、自动报警、残疾

10、人服务等6、语言合成技术的发展方向（1）提高合成语音的自然度（2）丰富合成语音的表现力（3）降低语音合成技术的复杂度（4）多语种文语合成,数字音频的处理,二、音乐合成1、MIDI 音乐设备数字接口(Musical Instrument Digital Interface)计算机中描述乐谱的一种标准描述语言规定了乐谱的数字表示方法（包括音符、定时、乐器等）和演奏控制器、音源、计算机等相互连接时的通信规程一首乐曲所对应的全部MIDI消息组成一个MIDI文件MIDI文件的扩展名为.MID，它是计算机合成音乐的交换标准，也是商业音乐作品发行的标准,数字音频的处理,2、相关概念音符音乐的基本单元音符的属

11、性：音调、音色、音强、旋律音源也称为音乐合成器（music synthesizer）它能模仿许多乐器生成各种不同音色的音符音源一般在声卡上,数字音频的处理,3、声卡上的音源1)调频合成器（FM合成）一种受控的电子振荡器（波形发生器），能模拟生成许多乐器演奏的音符特点：音色单调，效果较差 2)波表合成器预先将每种乐器演奏的各个音符的波形数字化，把它们组织成一张表(称为波表)，存放在ROM中播放时根据乐器类型、音符等参数访问ROM，取出相应的波形数据，将其修饰成所要求的音强和时长，然后播放出来特点：音色优美，效果好,数字音频的处理,4、衡量波表声卡或波表软件的主要性能指标：波表库容量复音数特殊

12、效果(回馈、和声、变化),数字音频的处理,5、播放MIDI音乐的过程媒体播放器软件从磁盘上读入MID文件把其中的一个个MIDI消息发送给声卡上的音乐合成器由音乐合成器解释并执行MIDI消息所规定的操作合成出各种音色的音符，通过扬声器播放出乐曲来,媒体格式扩展名相关公司或组织主要优点主要缺点适用领域,mp3 Fraunhofer-IIS,在低至128kbps的比特率下提供接近CD音质的音频质量。广泛的支持,音质欠佳,一般聆听和高保真聆听,Real Media ra RealNetworks,在极低的比特率环境下提供可听音频质量,不适于除网络传播之外的用途。音质不是很好,网络音频流传输,音

13、频文件格式,媒体格式扩展名相关公司或组织主要优点主要缺点适用领域,音频文件格式,数字音频的处理,三、语音识别技术（Automatic Speech Reorganization）如何用计算机将声音数据流映射为相应的一串字符。声卡通过采用语音识别功能，让用户通过说话指挥计算机。1、语音识别器的类型：连续语音识别离散语音识别,数字音频的处理,2、影响语音识别的因素：词汇量的大小与说话者的相关性环境因素3、语音识别系统优劣的衡量：识别正确率：要有较好的实用价值，识别率应该大于95%识别速度：实用化要求识别速度应该和口语的速度差不多识别系统应具有适应口音、环境的变化、使用者的变化等的能

14、力,流媒体(Streaming Audio),传输音（视）频媒体的方式先下载，后播放（下载方式，需要等待很长时间，有很大的存储需求）边下载，边播放（流式传输方式，不需要下载完整个文件，只需经过几秒或十数秒的启动延时即可进行播放）流媒体技术：允许在窄带网上让用户一边下载一边收看(听)音视频连续媒体的技术优点：等待时间大大缩短减少了对缓冲容量的需求降低了对网络带宽的要求,文语转换过程,主要工作步骤如下：（1）对文本进行分析判断每个字的正确读音，将文字序列转化成一串发音符号（如：国际音标或汉语拼音）（2）韵律分析根据文句的结构、组成、不同位置上出现的标点符号和上下文，确定发音时语气的转换以及读音的轻

15、重缓急（3）语音合成根据韵律建模的结果，利用特定的语音合成技术对语音基元进行韵律特性的调整和修改，最终合成符合要求的流畅、自然的语音,第3章图像与图形,图像与图形,数字图像以数字形式存储在计算机中的图像信息按其生成方法可以分为两大类：通过数字化设备获取的图像取样图像（sampled image）点阵图像（dot matrix image）位图图像（bitmap image）计算机合成的图像(synthetic image)矢量图形（vector graphics）简称为图形,简称为图像,图像与图形,位图图像的原理：,图像的基本概念,一、分辨率 1、图像分辨率(又称图像的大小)由高宽表示由

16、像素密度dpi表示（dot per inch，每英寸像素数）2、显示分辨率最大显示分辨率当前显示分辨率,图像的基本概念,二、颜色 1、亮度 2、色调色调是当人眼看到一种或多种波长的光时所产生的彩色感觉。它反映了颜色的种类，如绿色、红色、黄色等 3、饱和度饱和度是指颜色的纯度，也即掺入白色的程度，高饱和度的颜色中含有较少的白色,图像的基本概念,三、三基色自然界常见的各种颜色，都可以由红、绿、蓝三种颜色按不同的比例混合而成。反之，各种颜色的光也可以分解成红、绿、蓝三种颜色，这就称为三基色原理。,图像的基本概念,相加混合色把三种颜色光按不同比例相加称为相加混色。红色+绿色=黄色红色+蓝色=

17、品红绿色+蓝色=青色红色+绿色+蓝色=白色此外：红色+青色=绿色+品红=蓝色+黄色=白色青色、品红和黄色分别是红、绿、蓝三色的补色。,图像的基本概念,四、彩色空间1、RGB彩色空间计算机彩色显示器的输入需要RGB三个彩色分量，通过三个分量的不同比例，在显示屏幕上合成所需要的任意颜色任意彩色光F的配色方程可表达为：F=rR+gG+bB2、CMY色彩空间油墨或颜料的三基色是青(Cyan)、品红(Magenta)和黄(Yellow)，简称为CMY彩色打印机和彩色印刷系统都采用CMY色彩空间,图像的基本概念,3、YUV和YIQ彩色空间电视系统中用YUV和YIQ模型来表示的彩色图像4、HIS彩色空

18、间 HSI色彩空是从人的视觉系统出发，用色调(Hue)、色饱和度(Saturation或Chroma)和亮度(Intensity或Brightness)来描述色彩，它比RGB色彩空间更符合人的视觉特性 RGB、HIS、YUV、CMYK等不同的色彩空间之间可以相互转换,图像的基本概念,五、像素深度（位深度、颜色深度）指位图中记录每个像素点所占的二进制位数常用的图像深度有1、4、8、16、24等像素深度决定了可表示的颜色的数目例：如果像素的R、G、B三个基色分量各用8bit来表示，共可记录224=16M种色彩(真彩色),图像的基本概念,16色、256色、真彩色位图之比较：,图像的数字化,通过数码照

19、相机、数码摄像机、扫描仪等设备获取一、图像获取三步骤取样将画面分成为 M*N 个网格，每个网格为一个取样点测量每个取样点每个分量的亮度值分色将每个取样点分成 R、G、B 三个基色量化对每个分量进行 A/D 转换，再用数字量表示,图像的数字化,图像的数字化过程,取样,模拟图像,数字图像,分色,多媒体数据压缩：必要性,视频信号：每秒播放25帧画面（PAL）每帧影像像素数为720576真彩方式存储,1帧1.2MB,A4幅面（21cm29.7cm）的彩色照片，用扫描仪采样（300dpi)，像素用24bit彩色信号表示。数据量：(21/2.54 300)(29.7/2.54 300)*24/8=2

20、6MB,CD音质信号，采样频率44.1KHz，量化位数16，采样10秒钟。（立体声CD 音质信号）44.1K 16 2 10/8=1.7MB,2.多媒体数据压缩：条件,数据冗余度音频信号和视频信号等原始数据通常存在很多用处不大的空间，空间越多，数据的“冗余度”也越大。人类不敏感因素对某些频率的音频信号不敏感；人眼也存在“视觉掩盖效应”，即对亮度比较敏感，而对边缘的强烈变化不敏感；并且对彩色细节的分辨能力远比亮度细节的分辨能力低。,2.多媒体数据压缩：数据冗余,空间冗余：规则物体的表面具有物理相关性，将其表面数字化后表现为数据冗余。,数据冗余是指信息所具有的各种性质中多余的无用空间，其多余的程度

21、叫做“冗余度”。,颜色相同的区域,规则有序排列的图形,2.多媒体数据压缩：数据冗余,时间冗余：视频信号和动画一般为位于一时间轴区间的一组连续画面，其中的相邻帧往往包含相同的背景和移动物体，只不过移动物体所在的空间位置略有不同，所以后一帧的数据与前一帧的数据有许多共同的地方，这种共同性是由于相邻帧记录了相邻时刻的同一场景画面。,静态图像压缩标准JPEG,二、图像压缩的类型无损压缩压缩以后的数据进行图像还原(也称为解压缩)时，重建的图像与原始图像完全相同有损压缩使用压缩后的数据进行图像重建时，重建后的图像与原始图像虽有一定的误差，但不影响人们对图像含义的理解,静态图像压缩标准JPEG,三、图像压缩

22、编码的国际标准1、JPEG标准ISO和IEC两个国际机构联合组成了一个专家组JPEG(Joint Photographic Experts Group)制定了一个静止图像数据压缩编码的国际标准适用于彩色和单色多灰度或连续色彩静止数字图像,静态图像压缩标准JPEG,JPEG标准的特点：适用范围广能处理各种连续色调的彩色或灰度图像算法复杂度适中既可用硬件实现，也可用软件实现图像的压缩比可控制（压缩比越低，图像质量越好；压缩比越高，图像质量越差）,静态图像压缩标准JPEG,JPEG图像压缩比例,中等压缩后的图像,高倍压缩后的图像,JPEG与GIF比较,原图101K JPEG压缩20K GIF压缩41

23、K,原图27K JPEG压缩19K GIF压缩3K,常用图像文件格式,计算机图形,计算机图形(graphics)矢量图形使用指令集合来描述(modeling)图形的内容这些指令用来描述构成该图形的所有直线、圆、圆弧、矩形、曲线等图元的位置、维数和形状等图形压缩后不变形。尺寸可以任意变化而不损失图像的质量常用的矢量图形格式有WMF、DRW、CDR、DXF、FLI、FLC、CG、EMF等,Adobe PhotoShop,图像的滤镜操作,处理前图片上有划痕,处理后划痕被清除,Adobe PhotoShop,图层操作,背景图,前景图,复合后的图像,4 数字视频及应用,基本概念,分解力也就是清晰度水

24、平分解力是指水平扫描线所能分辨出的点数。水平分解力越大，说明能分辨出的点数越多，也就是说点的尺寸越小。垂直分解力是指垂直扫描的行数。在相同尺寸的扫描范围内垂直分解力越大，扫描线越多，则显示的图像就越清晰。宽高比是指扫描行的长度与图像在垂直方向上的所有扫描行所跨过的距离之比。电视和显示器的宽高比为 4:3 HDTV的宽高比为16:9。,视频数字化,视频（video）由一幅幅单独的画面（称为帧frame）序列组成，这些画面以一定的速率（帧率fps，即每秒显示帧的数目）连续的透射在屏幕上，使观察者具有图像连续运动的感觉常见的视频：电视&计算机动画电视：能传输和再现真实世界的图像与声音，是当代最有影

25、响力的信息传播工具计算机动画：是计算机制作的图像序列，是一种计算机合成的视频,数字视频与模拟视频相比的优点复制和传输时不会造成质量下降容易进行编辑修改有利于传输(抗干扰能力强，易于加密)可节省频率资源视频信号的数字化复合数字化（Recombination digitalization）分量数字化（Component digitalization）捕捉将视频数字化的过程称为捕捉视频捕捉卡的功能：将模拟视频信号数字化并转换为计算机图像信号,视频数字化,常用的色度信号采样格式4:4:4格式（色度信号的取样与亮度信号完全一样）4:2:2格式（每条扫描线上色度信号的取样只是亮度信号的一半）4:2:0格式

26、（在水平和垂直方向上色度信号的取样都只是亮度信号的一半）,视频数字化,亮度信号,色度信号,数字视频压缩的必要性数字视频的数据量大，1分钟CCIR601数字视频的数据量约为1G字节。数字视频压缩的可行性画面内部信息相关性很强。相邻画面的内容具有高度的连贯性。人眼的视觉特性。,视频的压缩编码,一、压缩方法 1、有损（Lossy）压缩无损（Lossless）压缩 2、帧内压缩空间压缩(Spatial compression)帧间压缩时间压缩(Temporal compression)3、压缩后的编码对称（symmetric）编码不对称（asymmetric）编码,视频的压缩编码,一、视频压缩标

27、准及其应用1、MPEG-1一种运动图像及其伴音的编码标准码率：1.2 Mbps 1.5Mbps图像质量：200多线，相当于一般家用录像机应用：数码相机和数字摄像机VCD,视频的压缩编码,2、MPEG-2针对数字电视(DTV)的应用要求码率：1.5Mbps60Mbps甚至更高特点：通用性，向下兼容MPEG-1应用：数字卫星电视高清晰度电视(HDTV)广播数字视盘DVD,视频的压缩编码,3、MPEG-4：目标：支持各种网络条件下（包括移动通信）的交互式多媒体应用，侧重于对多媒体信息内容的访问支持：自然的（取样）和计算机合成视频和音频，功能强，应用前景广特点：采用基于对象的方法，可支持基于对象的互操

28、作性。应用：交互式电视、视频会议、远程教学,视频的压缩编码,视频的压缩编码,4、MPEG-7：正式名称：多媒体内容描述接口，为各种类型的多媒体信息规定一种标准化的描述。应用分类：1）索引和检索类应用 2）选择和过滤类应用 3）专业化应用,视频的压缩编码,5、MPEG-21：正式名称：多媒体框架一个刚开始制定的国际标准它将标准集成起来支持和谐的技术，以管理多媒体商务。,6、H.261：数字视频编码标准由国际电联（ITU）前身CCITT制定适用于在ISDN网上,以p64kbps(p=l,30)的速率开展视频会议和可视电话业务,视频的压缩编码,运动图像压缩编码标准,视频的压缩编码,二、视频文件格式,

29、视频的压缩编码,2、数字视频采集系统由三部分就组成：1）提供模拟视频输出的设备；2）可以对模拟视频信号进行采集、量化和编码的设备，一般是视频采集卡；3）由MPC接收和记录编码后的数字视频数据。,视频卡,计算机动画利用计算机生成一系列可供实时播放的连续画面的一种技术基础计算机图形学制作过程在计算机中生成场景和形体的模型设置它们的运动生成图像并转换为视频信号输出,计算机动画,创作软件二维动画软件。如：Animator Pro三维动画软件。如：3D StudioMAX等实例,计算机动画,一、数字电视将电视信号进行数字化,然后以数字形式进行编辑、制作、传输、接收和播放。1、数字电视的特点：频道利

30、用率高、图像清晰度好可以开展交互式数据业务，包括实时点播电视、电视购物、电视银行、电视商务、电视通信、电视游戏、电视网上游览、观众参与的电视竞赛等。,数字视频的应用,2、收看数字电视（简称DTV）的三种形式:1）数字电视接收机传统模拟电视接收机的换代产品2）传统模拟电视机外加一个数字机顶盒3）可以接收数字电视的PC机,数字视频的应用,3、数字电视传播系统,数字视频的应用,二、点播电视（VOD）1、VOD（Video On Demand）视频点播技术（交互式电视点播系统）用户可以根据自己的需要收看电视节目,数字视频的应用,2、视频点播的原理：将经压缩的视频和音频信号储存在网络视频服务器上的超大容

31、量、高速硬盘中播放时由连接在网络上的电脑将视频和音频信号解压后输出到显示器或者电视机上,数字视频的应用,3、视频点播系统分类（按响应方式）1）NVOD(Near VOD)：准视频点播系统每隔一段时间（例如10分钟）在不同的频道上播放同一个节目，用户可选择收看。特点：播放切换缺点：不能为用户及时提供点播服务功能优点：减少用户连接数目；节省网络带宽与费用；降低服务器性能要求 2）TVOD(True VOD)：真实点播电视 3）IVOD(Interactive VOD)：交互式点播电视,数字视频的应用,第5章虚拟现实技术,5.1 虚拟现实技术的概念 5.2 虚拟现实技术的关键技术 5.3 虚拟现

32、实技术的应用 5.4 虚拟现实建模语言VRML,虚拟现实技术的概念,虚拟现实是利用计算机生成一个逼真的视觉、听觉、触觉以及嗅觉等的模拟环境(如飞机驾驶舱、分子结构世界等)，通过多种传感设备使用户“投入”到该环境中，用户可通过其感官与这一生成的虚拟实体进行交互沟通，如同与真实的环境直接进行自然交互的技术。这里所谓的“模拟环境”一般是指用计算机生成的有立体感的图形，它可以是某一特定现实环境的表现，也可以是纯粹构想的世界。虚拟现实技术实现的是人所感受到的虚拟幻境，所以钱学森建议把Virtual Reality的技术叫做“灵境技术”，由它构成的信息处理环境称作“灵境”。,1.虚拟现实技术的含义,第一，

33、虚拟现实技术是通过计算机生成一个非常逼真的实体，逼真要达到三维的视感，甚至还包括听觉、触觉和嗅觉等。这个逼真的实体足以成为“迷惑”人类视觉的虚幻的世界，这种“迷惑”是多方面的，不仅可以看到而且可以听到、触到以及嗅到这个虚拟世界中所发生的一切。这种感觉是如此的真实，以至于能全方位地浸没在这个虚幻的世界中，这就是虚拟现实的第一个特征，即浸没感（Immersion）或临场参与感。,第二，虚拟现实与通常CAD系统所产生的模型是不一样的，它不是一个静态的世界，而是一个动态的、开放的环境，它可以对使用者的输入（如手势，语言命令）作出响应。如拿起一个虚拟的火炬并打开其开关，推动操纵杆，就可以在虚拟环境中的漫

34、游，甚至还可以用虚拟的手感触到虚拟物体的存在。虚拟现实环境可以通过一些三维传感设备来完成交互动作，这是虚拟现实技术的第二个特征，即交互性（Interaction）。,第三，虚拟现实不仅仅是一个媒体，一个高级用户界面，它还是为解决工程、医学、军事等方面的问题而由开发者设计出来的应用软件，它以详尽的形式反映了设计者的思想。如在盖一座现代化的大厦之前，首先要做的事是对这座大厦的结构做细致的构思，为了使之定量化，还需设计许多图纸。这些图纸反映的是设计者的构思，虚拟现实同样反映的是某个设计者的思想，只不过它的功能远比那些呆板的图纸生动、强大的多，所以国外有些学者称虚拟现实为放大人们心灵的工具，或人工现实

35、（artifical reality）。这是虚拟现实技术所具有的第三个特征，即思想性（Imagation）。,2.虚拟现实系统的基本构成,2 虚拟现实技术的关键技术,（1）动态环境建模技术（2）实时三维图形生成技术（3）立体显示和传感器技术（4）应用系统开发工具（5）系统集成技术,3 虚拟现实技术的应用,（1）医学（2）娱乐、艺术与教育（3）军事与航天工业（4）管理工程,4 虚拟现实建模语言VRML,虚拟现实建模语言（Virtual Reality Modeling Language，VRML）是一种基于文本的、在网络上使用的描述三维环境的场景描述语言，是HTML的3D(三维)模拟。它定义了3

36、D应用中大多数常见概念，如光源、视点、动画、雾化、材质属性、纹理映射等。VRML语言的诞生，尤其是新的VRML2.0标准，被称为第二代Web语言，它改变了原来WWW上单调、平面的缺点，将人的行动作为浏览的主体，所有的表现都将随操作者行为而改变。,VRML2.0标准被称为第二代Web语言,例1用VRML构造简单的空间造型,第5章多媒体数据库,一、多媒体数据管理环境：包括存储环境、传输环境和软件环境。1、存储环境：对于多媒体数据的存储环境总的要求是：容量大、质量好、存取速度快、价格合适。主要有如下四种存储介质（1）可更换的硬盘；（2）磁带备份介质（容量一般为1.23GB，平均存取时间小于 1分钟

37、），（3）光盘介质，（是目前的流行介质）（4）磁盘阵列，（海量介质，支持多用户并发读写，是大容量多媒体数据库采用的工作介质。,2、传输环境：多媒体数据一般需要在不同硬件结构和不兼容的操作系统之间进行传输，有三种传输介质。（1）可更换的介质进行人工传输。易用适合小范围（2）使用串行接口实行点对点传输。用一根电缆线连接两台计算机，难以实现多台连接。（3）使用网络系统，实现计算机之间的连接，是理想的传输环境。,3、多媒体数据管理的软件环境：文件管理系统；建立特定的逻辑目录；多媒体数据管理系统；超文本和超媒体,二、多媒体数据库管理系统：多媒体数据库：长期储存在计算机内有组织可共享的相关数据的集合。数据

38、库中的数据独立性：物理独立性与逻辑独立性。物理模式（内模式）-模式外模式MDBMS的组织结构：分三种类型，集中型；主从型；协作型。,MDBMS的数据模型：数据模型是数据库管理系统中用于提供信息数据表示和操作手段的形式构架。通常由数据结构，数据操作及完整性约束构成。分类：层次模型，网状模型，关系模型，面向对象模型。-解释模型。数据操作是数据库系统动态特性的描述（检索和更新）；数据的约束条件是实现数据库完整性规则的集合，保证数据的正确性、有效性和相容性。,扩充的关系模型传统的关系模型结构简单，是单一的二维表，只支持格式化数据，不支持非格式化数据，需要做相应的扩充。有三种扩充策略。（1）传统的关系数

39、据库管理技术和操作系统中文件系统相结合，实现对非格式化数据的管理。（2）将关系元组中格式化数据和非格式化数据装在一起形成一个完整的元组，存放在数据页面或数据页面组中。（3）将非格式化数据分成两部分，格式化数据和非格式化数据的引用。,第6章多媒体通信,多媒体通信是多媒体技术与通信技术的完美结合，它突破了计算机、通信、电子等传统领域的界限，把计算机的交互性、通信网络的分布性和多媒体信息的综合性容为一体，提供了全新的服务。21世纪人类社会进入信息时代，人类由冷战期间的以空间竞争为主转入到以经济竞争为主，其核心是信息技术的竞争，包括信息的获取、占用、利用等能力。,一、多媒体通信的特点（1）多媒体数据

40、量大（尤其是音频、视频和图象）存储容量大，传输带宽要求高。（2）多媒体实时性要求高（3）多媒体时空约束（4）多媒体交互性（5）分布式处理和协同工作,二、多媒体通信的实现途径及关键技术途径：话路+视频；网路+视频；有线电视+交互功能。关键技术：声音、视频、动画等的传输技术；数据压缩和解压缩技术；多媒体实时同步；协议和标准化。,三、可视电话系统：可视电话：在模拟通信网上传输静态图象的电话。电视电话：可以在模拟通信网上和数字网传输动态和准动态图象的可视可视电话。组成：语音处理部分；图象输入部分；图象输出部分；图象信号处理部分。,四、视频会议系统：是一种在位于两个或多个地点的一群用户之间提供语音和运动

41、彩色画面的双向实时传送的视听会话型电信会话业务。在军事、政府、商贸、医疗等部门广泛的应用。,五、多媒体计算机网络：将多个地理上分散的具有处理多媒体功能的计算机和终端通过高速通信线路互连起来，能够进行多媒体信息通信和共享多媒体资源的网络。,六、多媒体通信网的性能要求1、吞吐量：网络传输二进制信息的速率。2、传输延时：从信源发出第一个比特到信宿接收到第一个比特之间的时间，网络的单程传输延时应在100500MS，一般为250MS。3、延时抖动：网络传输延时的变化，一般人耳对声音抖动比较敏感，对视频抖动不敏感，不同传输媒体对延时抖动有不同的要求。4、错误率：,多媒体技术的应用,多媒体在商业娱乐演示文稿

42、、商业广告、产品演示、人员培训、多媒体游戏系统、影视创作（电脑特技）等等,多媒体技术的应用,乘客是对数字化演员着色而成,多媒体技术的应用,多媒体在学校家庭教学演示、多媒体课件、电子相册、装潢设计、远程教育等等,多媒体技术的应用,视频剪辑,主题按钮,超文本,超媒体,信息检索,图片链接,多媒体技术的应用,多媒体在公共场所各类信息查询系统、各类银行提款系统等。,多媒体技术的应用,虚拟现实（Virtual Reality）虚拟现实是利用计算机生成一种模拟环境（如飞机驾驶舱、操作现场等），通过多种传感设备使用户“投入”到该环境中，实现用户与该环境直接进行“自然”交互的技术。多通道存在感交互性自主性,常用

43、的多媒体制作软件,文字编辑 word图像图像处理类自然媒体绘画类矢量插图类动画制作平面动画类三维动画类音频类工具音乐制作软件音乐编辑软件视频处理软件,素材制作软件文字编辑软件、图像处理软件、动画制作软件、音频采集与处理软件、视频处理软件等多媒体著作软件当媒体素材完成之后，再使用著作软件系统把它们结合在一起，形成一个互相关联的整体。该软件系统还提供操作界面的生成、添加交互控制、数据管理等功能。,以图标和流程图为基础的编辑工具（如Authorware）以页面为基础的编辑工具（如ToolBook）以时间轴为基础的编辑工具（如Director）传统的编程工具（如Visual Basic）,多媒体著作工

44、具,根据使用者分类软件,商用/家庭软件家庭用户和一般商业用户的一个共同特点：需要使用这个工具但不是整天使用这个工具，而且不希望花很多学习软件使用的时间就可以完成任务。这类软件通常操作界面易学、易用，具有向导等辅助工具，针对性较强。专业软件专业软件主要是为从事某一行业的专业人员设计，因此这类软件更多地强调了软件功能的强大，强调了操作人对最终效果的精确控制，而对操作的复杂性，学习软件的难度相对就考虑得少。通常专业软件具有如下特点：功能强大，具有多个独立控制窗口；操作逻辑清晰，支持大量的热键命令。,考试内容,1、课堂讨论。结合自己的工作，讲述多媒体信息系统在本单位的应用，5-10分钟。（50分）2、设计一个多媒体信息系统的应用案例。包括设计的题目，目的，该课题的目前研究现状，设计的基本思想、框架以及具体实现的方法和效果。（50分）电子文档发到：成谢锋,