文字声音图像虚拟存储传播.ppt
《文字声音图像虚拟存储传播.ppt》由会员分享,可在线阅读,更多相关《文字声音图像虚拟存储传播.ppt(124页珍藏版)》请在三一办公上搜索。
1、第1章 文本,计算机处理的文字信息称为文本。,文本,文本输入,扫描臂,扫描方向,反射镜,反射镜,反射镜,光源,镜头,CCD,玻璃板,被扫描图件,CCD扫描仪工作原理,返回,OCR印刷体识别,返回,手写板,返回,手写板,超文本(hypertext)的阅读方式传统的顺序式阅读线形文本通过链接、跳转、导航、回溯等操作实现跳跃式阅读超文本采用一种网状结构来组织信息节点(node)节点包含的内容超链(hyperlink)链源(也称之为“锚”)链宿超文本的结构,超文本,超文本的结构如:Windows操作系统中的“帮助”信息,返回,超文本,超文本节点中的数据从文字扩展为图形、图像、声音、动画、动态视频把超文
2、本推广到多媒体的形式超媒体=超文本+多媒体如:因特网的WWW信息系统简单超媒体文档示意图,超媒体,返回,简单超媒体文档示意图,第2章 声音信息处理,声音的相关概念,多媒体技术处理的声音信号主要是人耳所能接受的频率范围内的声音信号,通常称之为音频全频带声音音乐声、风雨声、汽车声等其他声音其带宽可达到2020kHz言语/语音(speech)人说话的声音其频率范围约为3003400Hz噪音除语音和音乐外的其他音频信号,声波是由机械振动产生的波。当声波进入人耳,鼓膜振动导致内耳里的微细感骨的振动,将神经冲击传向大脑,听者感觉到的这些冲击就是声音。,频率,每秒钟振动的周期数,用Hz表示,1Hz表示每秒振
3、动1次慢声音粗,快声音细,振幅,指示了声音的大小,高度:记载了每次采样,8个比特(0255),离散采样,大致描述,30个采样,假定每个采样之间的高度不变,可以在每个高度之间画一条直线。这种用数字表示的声波叫“分步波形”,声波的高度为155,因此这个采样为“10011011”,采样量化的主要技术参数,采样速率:也叫采样频率,指在记录过程中,每秒钟对声音进行测量的次数,以Hz为单位,1Hz表示每秒钟采样一次。采样速率直接影响到数字声音的精度。采样定理:奈奎斯特采样定理,采样的频率高于声音波形中最高频率的2倍,可以完全还原出原声音常用采样频率:高保真效果:采样频率为44.1kHz(音频的最高频率为2
4、0kHz),如音乐CD唱盘的采样频率即为44.1kHz。音乐效果:采样频率为22.05kHz语音效果:采样频率为11.025kHz,采样量化的主要技术参数,量化精度:指每个声音样本采样点的幅度量化时采用的二进制的位数,单位bit/s,bps。反映度量声音波形幅度的精度。常用的量化精度为8位、12位、16位。量化精度越高(即位数越多),声音的质量越高,而需要的存储空间也越多;量化精度越低(即位数越少),声音的质量越低,需要的存储空间越少。声道数:声音通道的个数,指一次采样记录所产生的声音波形的个数。单声道:记录声音时,一次只产生一个声波数据。双声道(立体声):记录声音时,一次产生两个声波数据。,
5、数据量(Byte)(采样频率量化精度声道数时间)/8,声音的相关概念,音频文件的分类:(1)声音文件:指通过声音录入设备录制的原始声音,直接记录了真实声音的二进制采样数据,通常文件较大(2)MIDI文件:它是一种音乐演奏指令序列,相当于乐谱,可以利用声音输出设备或与计算机相连的电子乐器进行演奏,由于不包含声音数据,其文件较小,声音信号的数字化,1、声音信号的数字化实质将模拟声音信号转换成数字编码形式以便于计算机进行处理的过程2、声音信号数字化的过程取样取样定理:取样频率不低于声音信号频率的两倍取样频率:语音8kHz,音乐40kHz量化量化精度越高,声音的保真度越高量化精度:8位,12位,16位
6、编码按某种格式将数据进行组织、压缩,便于计算机存储、处理和在网上传输,声音信号的数字化,3、波形声音的主要参数取样频率量化位数声道数目1(单声道)、2(双声道)、5.1/7.1(环绕立体声)使用的压缩编码方案数码率(bit rate)指的是每秒钟的数据量,也称比特率、码率,声音的编码,声音的压缩编码的必要性和可能性波形声音数据压缩的必要性波形声音,尤其是全频带声音数据量很大波形声音数据压缩的可能性声音信号中包含有大量的冗余信息人的听觉感知特性具有某种不敏感性相邻的取样信息之间存在很强的相关性,声音的编码,二、第2代全频带声音的压缩编码1、MPEG-1声音压缩编码国际上第一个高保真声音数据压缩的
7、国际标准。分为三个层次:层1(Layer 1):编码简单用于数字盒式录音磁带层2(Layer 2):算法复杂度中等用于数字音频广播(DAB)和VCD、DVD等层3(Layer 3):编码复杂用于互联网上的高质量声音的传输如:MP3音乐压缩10倍,声音的编码,2、MPEG-2声音压缩编码采用与MPEG-1声音相同的编译码器层1,层2和层3的结构也相同,但它能支持5.1声道和7.1声道的环绕立体声,声音的编码,3、杜比数字AC-3(Dolby Digital AC-3)美国杜比公司开发的多声道全频带声音编码系统它提供的环绕立体声系统由5个(或7个)全频带声道加一个超低音声道组成6个声道的信息在制作
8、和还原过程中全部数字化,信息损失很少,细节丰富,具有真正的立体声效果在数字电视、DVD和家庭影院中广泛使用,声音的编码,几种典型的第2代全频带声音压缩编码标准,数字音频的处理,一、语音合成(Speech synthesis)根据语言学和自然语言理解的知识,使计算机模仿人的发声,自动生成语音的过程1、语音合成可分为三个层次:(1)从文字到语音的合成(Text-to-Speech)(2)从概念到语音的合成(Concept-to-Speech)(3)从意向到语音的合成(Intention-to-Speech)目前主要是按照文本(书面语言)进行语音合成,这个过程称为文语转换(Text-To-Speec
9、h,简称TTS),数字音频的处理,2、文语(TTS)转换过程文本分析韵律分析语音生成,文本,文本分析,韵律处理,语音合成,合成语音,词典,发音规则,韵律规则库,语音库,数字音频的处理,3、语音库语音库中存储了大量预先录制的语音基元(单音、词组、短语或句子)的波形,合成时读取语音基元的波形,将这些波形进行拼接和韵律修饰,然后输出连续语音流4、对计算机合成的语音希望能达到的要求发音清晰可懂语气语调自然说话人可选择语速可变化等,数字音频的处理,5、计算机合成语音的应用股票交易、航班动态查询、电话报税等业务有声E-mail服务CAI课件或游戏解说词的自动配音文稿校对、语言学习、语音秘书、自动报警、残疾
10、人服务等6、语言合成技术的发展方向(1)提高合成语音的自然度(2)丰富合成语音的表现力(3)降低语音合成技术的复杂度(4)多语种文语合成,数字音频的处理,二、音乐合成1、MIDI 音乐设备数字接口(Musical Instrument Digital Interface)计算机中描述乐谱的一种标准描述语言规定了乐谱的数字表示方法(包括音符、定时、乐器等)和演奏控制器、音源、计算机等相互连接时的通信规程一首乐曲所对应的全部MIDI消息组成一个MIDI文件MIDI文件的扩展名为.MID,它是计算机合成音乐的交换标准,也是商业音乐作品发行的标准,数字音频的处理,2、相关概念音符音乐的基本单元音符的属
11、性:音调、音色、音强、旋律音源也称为音乐合成器(music synthesizer)它能模仿许多乐器生成各种不同音色的音符音源一般在声卡上,数字音频的处理,3、声卡上的音源1)调频合成器(FM合成)一种受控的电子振荡器(波形发生器),能模拟生成许多乐器演奏的音符特点:音色单调,效果较差 2)波表合成器预先将每种乐器演奏的各个音符的波形数字化,把它们组织成一张表(称为波表),存放在ROM中播放时根据乐器类型、音符等参数访问ROM,取出相应的波形数据,将其修饰成所要求的音强和时长,然后播放出来特点:音色优美,效果好,数字音频的处理,4、衡量波表声卡或波表软件的主要性能指标:波表库容量 复音数 特殊
12、效果(回馈、和声、变化),数字音频的处理,5、播放MIDI音乐的过程媒体播放器软件从磁盘上读入MID文件把其中的一个个MIDI消息发送给声卡上的音乐合成器由音乐合成器解释并执行MIDI消息所规定的操作合成出各种音色的音符,通过扬声器播放出乐曲来,媒体格式扩展名 相关公司或组织 主要优点 主要缺点 适用领域,mp3 Fraunhofer-IIS,在低至128kbps的比特率下提供接近CD音质的音频质量。广泛的支持,音质欠佳,一般聆听和高保真聆听,Real Media ra RealNetworks,在极低的比特率环境下提供可听音频质量,不适于除网络传播之外的用途。音质不是很好,网络音频流传输,音
13、频文件格式,媒体格式扩展名 相关公司或组织 主要优点 主要缺点 适用领域,音频文件格式,数字音频的处理,三、语音识别技术(Automatic Speech Reorganization)如何用计算机将声音数据流映射为相应的一串字符。声卡通过采用语音识别功能,让用户通过说话指挥计算机。1、语音识别器的类型:连续语音识别 离散语音识别,数字音频的处理,2、影响语音识别的因素:词汇量的大小 与说话者的相关性 环境因素3、语音识别系统优劣的衡量:识别正确率:要有较好的实用价值,识别率应该大于95%识别速度:实用化要求识别速度应该和口语的速度差不多 识别系统应具有适应口音、环境的变化、使用者的变化等的能
14、力,流媒体(Streaming Audio),传输音(视)频媒体的方式先下载,后播放(下载方式,需要等待很长时间,有很大的存储需求)边下载,边播放(流式传输方式,不需要下载完整个文件,只需经过几秒或十数秒的启动延时即可进行播放)流媒体技术:允许在窄带网上让用户一边下载一边收看(听)音视频连续媒体的技术优点:等待时间大大缩短减少了对缓冲容量的需求降低了对网络带宽的要求,文语转换过程,主要工作步骤如下:(1)对文本进行分析判断每个字的正确读音,将文字序列转化成一串发音符号(如:国际音标或汉语拼音)(2)韵律分析根据文句的结构、组成、不同位置上出现的标点符号和上下文,确定发音时语气的转换以及读音的轻
15、重缓急(3)语音合成根据韵律建模的结果,利用特定的语音合成技术对语音基元进行韵律特性的调整和修改,最终合成符合要求的流畅、自然的语音,第3章 图像与图形,图像与图形,数字图像 以数字形式存储在计算机中的图像信息按其生成方法可以分为两大类:通过数字化设备获取的图像取样图像(sampled image)点阵图像(dot matrix image)位图图像(bitmap image)计算机合成的图像(synthetic image)矢量图形(vector graphics)简称为图形,简称为图像,图像与图形,位图图像的原理:,图像的基本概念,一、分辨率 1、图像分辨率(又称图像的大小)由高宽表示 由
16、像素密度dpi表示(dot per inch,每英寸像素数)2、显示分辨率 最大显示分辨率 当前显示分辨率,图像的基本概念,二、颜色 1、亮度 2、色调 色调是当人眼看到一种或多种波长的光时所产生的彩色感觉。它反映了颜色的种类,如绿色、红色、黄色等 3、饱和度 饱和度是指颜色的纯度,也即掺入白色的程度,高饱和度的颜色中含有较少的白色,图像的基本概念,三、三基色 自然界常见的各种颜色,都可以由红、绿、蓝三种颜色按不同的比例混合而成。反之,各种颜色的光也可以分解成红、绿、蓝三种颜色,这就称为三基色原理。,图像的基本概念,相加混合色把三种颜色光按不同比例相加称为相加混色。红色+绿色=黄色红色+蓝色=
17、品红绿色+蓝色=青色红色+绿色+蓝色=白色此外:红色+青色=绿色+品红=蓝色+黄色=白色青色、品红和黄色分别是红、绿、蓝三色的补色。,图像的基本概念,四、彩色空间1、RGB彩色空间 计算机彩色显示器的输入需要RGB三个彩色分量,通过三个分量的不同比例,在显示屏幕上合成所需要的任意颜色任意彩色光F的配色方程可表达为:F=rR+gG+bB2、CMY色彩空间 油墨或颜料的三基色是青(Cyan)、品红(Magenta)和黄(Yellow),简称为CMY彩色打印机和彩色印刷系统都采用CMY色彩空间,图像的基本概念,3、YUV和YIQ彩色空间 电视系统中用YUV和YIQ模型来表示的彩色图像4、HIS彩色空
18、间 HSI色彩空是从人的视觉系统出发,用色调(Hue)、色饱和度(Saturation或Chroma)和亮度(Intensity或Brightness)来描述色彩,它比RGB色彩空间更符合人的视觉特性 RGB、HIS、YUV、CMYK等不同的色彩空间之间可以相互转换,图像的基本概念,五、像素深度(位深度、颜色深度)指位图中记录每个像素点所占的二进制位数常用的图像深度有1、4、8、16、24等像素深度决定了可表示的颜色的数目例:如果像素的R、G、B三个基色分量各用8bit来表示,共可记录224=16M种色彩(真彩色),图像的基本概念,16色、256色、真彩色位图之比较:,图像的数字化,通过数码照
19、相机、数码摄像机、扫描仪等设备获取一、图像获取三步骤 取样将画面分成为 M*N 个网格,每个网格为一个取样点测量每个取样点每个分量的亮度值分色将每个取样点分成 R、G、B 三个基色量化对每个分量进行 A/D 转换,再用数字量表示,图像的数字化,图像的数字化过程,取 样,模拟图像,数字图像,分 色,多媒体数据压缩:必要性,视频信号:每秒播放25帧画面(PAL)每帧影像像素数为720576真彩方式存储,1帧1.2MB,A4幅面(21cm29.7cm)的彩色照片,用扫描仪采样(300dpi),像素用24bit彩色信号表示。数据量:(21/2.54 300)(29.7/2.54 300)*24/8=2
20、6MB,CD音质信号,采样频率44.1KHz,量化位数16,采样10秒钟。(立体声CD 音质信号)44.1K 16 2 10/8=1.7MB,2.多媒体数据压缩:条件,数据冗余度音频信号和视频信号等原始数据通常存在很多用处不大的空间,空间越多,数据的“冗余度”也越大。人类不敏感因素对某些频率的音频信号不敏感;人眼也存在“视觉掩盖效应”,即对亮度比较敏感,而对边缘的强烈变化不敏感;并且对彩色细节的分辨能力远比亮度细节的分辨能力低。,2.多媒体数据压缩:数据冗余,空间冗余:规则物体的表面具有物理相关性,将其表面数字化后表现为数据冗余。,数据冗余是指信息所具有的各种性质中多余的无用空间,其多余的程度
21、叫做“冗余度”。,颜色相同的区域,规则有序排列的图形,2.多媒体数据压缩:数据冗余,时间冗余:视频信号和动画一般为位于一时间轴区间的一组连续画面,其中的相邻帧往往包含相同的背景和移动物体,只不过移动物体所在的空间位置略有不同,所以后一帧的数据与前一帧的数据有许多共同的地方,这种共同性是由于相邻帧记录了相邻时刻的同一场景画面。,静态图像压缩标准JPEG,二、图像压缩的类型无损压缩压缩以后的数据进行图像还原(也称为解压缩)时,重建的图像与原始图像完全相同有损压缩使用压缩后的数据进行图像重建时,重建后的图像与原始图像虽有一定的误差,但不影响人们对图像含义的理解,静态图像压缩标准JPEG,三、图像压缩
22、编码的国际标准1、JPEG标准ISO和IEC两个国际机构联合组成了一个专家组JPEG(Joint Photographic Experts Group)制定了一个静止图像数据压缩编码的国际标准适用于彩色和单色多灰度或连续色彩静止数字图像,静态图像压缩标准JPEG,JPEG标准的特点:适用范围广能处理各种连续色调的彩色或灰度图像算法复杂度适中既可用硬件实现,也可用软件实现图像的压缩比可控制(压缩比越低,图像质量越好;压缩比越高,图像质量越差),静态图像压缩标准JPEG,JPEG图像压缩比例,中等压缩后的图像,高倍压缩后的图像,JPEG与GIF比较,原图101K JPEG压缩20K GIF压缩41
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文字 声音 图像 虚拟 存储 传播
链接地址:https://www.31ppt.com/p-5986483.html