《网络多媒体杜慧勤》第1章多媒体信息处理基础.ppt
1.1 多媒体的基本概念1.2 音频信息处理基础1.3 图像信息处理基础1.4 MATALAB在图像处理中的应用,第1章 多媒体信息处理基础,熟悉多媒体及多媒体技术的基本概念及特征。了解声音的基本特性及主观感觉。熟悉音频、图像、视频信号数字化的过程,掌握均匀量化的原理。掌握彩色三要素、三基色原理及混色方法等色度学基本知识。理解RGB、YUV、YIQ、YCbCr、HSI/HSV等颜色空间的表示及转换。熟悉ITU-R BT.601建议的主要内容。了解MATLAB在图像处理和分析领域的应用。,本章学习目标,1.1.1 媒体的概念1.1.2 多媒体与多媒体技术,1.1 多媒体的基本概念,1.媒体(medium)按传统的说法,媒体指的是信息的载体,如:报纸、杂志、电视、广播、因特网在计算机领域有两种含义:信息的存储实体,如磁盘、光盘、磁带、半导体存储器等,中文常译为媒质或媒介;传递信息的基本元素,如文字、声音、图形、动画和图像等。,1.1.1 媒体的概念,2.媒体的分类国际电话电报咨询委员会(CCITT)把媒体分成如下5类。(1)感知媒体(Perception Medium)感知媒体就是指能直接作用于人的感觉器官,使人直接产生感觉(视、听、嗅、味、触觉)的一类媒体,如语言、音乐、图形、动画、数据、文字、文件等都是感知媒体。(2)表示媒体(Representation Medium)表示媒体是为了更有效地加工、处理和传输感知媒体而人为研究和构造出来的一种媒体。它包括上述感知媒体的各种编码,诸如语言编码、静止和活动图像编码,以及文本编码等。,(3)呈现媒体(Presentation Medium)呈现媒体是感知媒体与用于通信的电信号之间在转换中用于信息输入和输出的媒体。可分为输入呈现媒体(如键盘、摄像机、话筒、扫描仪等)和输出呈现媒体(如显示器、扬声器、打印机等)两种。(4)存储媒体(Storage Medium)存储媒体用于存储表示媒体,即存放感知媒体数字化后的代码的媒体称为存储媒体,如磁盘、光盘、磁带、半导体存储器等。(5)传输媒体(Transmission Medium)传输媒体是指用来将表示媒体从一处传递到另一处的物理传输介质,如同轴电缆、双绞线、光纤及其他通信信道。,在多媒体技术中所说的媒体一般指感知媒体。常见的感知媒体包括:(1)视觉媒体:图像、图形、符号、视频、动画等。(2)听觉媒体:声音、语音、音乐和音响。(3)触觉媒体:通过直接或间接与人体接触,使人能感觉到对象的位置、大小、方向、方位、质地等性质。,图像,图像(Image):是指由输入设备捕捉的实际场景画面,或以数字化形式存储的任意画面。静止的图像可用一个矩阵来表示,矩阵列中的各个元素用来描述构成图像的各个点(称为像素 pixel)的强度与颜色等信息。这种图像也称为位图(Bitmap)。,图像由像素组成,位图(bitmap,bit-mapped image)对位图进行操作时,只能对图中的像素进行操作,而不能把位图中的物体作为独立实体进行操作。画位图或编辑位图的软件称为画图程序;存放位图的格式称为位图格式;存储的内容是描述像素的数值。位图的获取通常用扫描仪、数码相机和相关的数字化设备。位图文件占据的存储空间比较大,影响位图文件大小的因素图像分辨率:分辨率越高,表示组成一幅图的像素就越多,图像文件就越大像素深度:像素深度越深,表达单个像素的颜色和亮度的位数越多,图像文件就越大,灰度图像(gray-scale image或intensity image):只有明暗不同的像素而没有彩色像素组成的图像。按灰度级的数目来划分:单色图像(二值图像):只有黑白两种颜色的图像。每个像素的像素值用1bit存储,其值是“0”或“1”灰度图像:如果每个像素的像素值用一个字节表示,灰度值级数就等于256级,每个像素可以是0255之间的任何一个值。,单色图像,灰度图像,彩色图像(color image)每个像素包含颜色信息的图像。可按照颜色的数目划分:256色图像:每个像素的R、G和B值用一个字节来表示,一幅640480的彩色图像需要300 KB的存储空间真彩色图像:每个像素的R、G、B分量分别用一个字节表示,一幅640480的真彩色图像需要900 KB的存储空间,256色图像,24位真彩色图像,色彩深度,1位:黑白8位:灰阶8位:256色15/16位:高彩24位:真彩30/36/48位:全彩,视频,视频(Video):是动态的图像序列,由一系列连续的画面序列(帧)组成,这些画面以一定的速率(帧频)连续地投射在屏幕上,使观察者具有图像连续运动的感觉。,图形,图形(Graphic):一般指用计算机绘制(draw)的几何图(包含彩色图)。在几何学中,图形一般使用矢量表示,因此也称矢量图(Vector Graphics)。矢量图是用一组指令集合来描述图形的内容。AutoCAD、Corel Draw、Adobe Illustrator-对矢量图进行处理:颜色,形状、位置等,动画(Animation):是动态图像的一种动画中的图像采用的是计算机产生出来或人工绘制的图像或图形动画是活动的画面,实质是一幅幅静态图形的连续播放。,动画,计算机设计动画有两种:帧动画:是由一幅幅位图组成的连续的画面,就如电影胶片或视频画面一样要分别设计每屏幕显示的画面。造型动画:是对每一个运动的物体分别进行设计,赋予每个动元一些特征,然后用这些动元构成完整的帧画面。动元的表演和行为是由制作表组成的脚本来控制。,帧动画,文本,文本(Text):分为非格式化文本文件和格式化文本文件。非格式化文本文件:只有文本信息没有其他任何有关格式信息的文件,又称为纯文本文件。如“.TXT”文件。格式化文本文件:带有各种文本排版信息等格式信息的文本文件。如“.DOC”文件。,音频(Audio)可分为波形声音、语音和音乐。波形声音包含了所有的声音形式自然界中的各种声音,包括人的说话声、音乐、天空的惊雷等,可以用一种模拟的连续波形表示。,音频,语音:不仅是一种波形声音,而且还具有内在的语言、语音学内涵,可以经由特殊的方法而提取。波形声音也可以表现和记录语音,但常把语音作为一种特殊的听觉媒体。,音频,音乐:符号化了的声音。这种符号就是乐谱。音乐与语音相比,形式更为规范。在多媒体计算机中,MIDI(Musical Instrument Digital Interface)就是一种乐谱数字化描述的规范。,1多媒体关于多媒体(Multimedium)的定义或说法多种多样,从不同的角度出发对多媒体给出了不同的描述,目前仍没有统一的标准。通常所说的多媒体就是各种媒体的综合,也就是声音、图像、动画、视频、文本等各种媒体的综合。“多媒体”常被当作“多媒体技术”的同义词。2多媒体技术多媒体技术就是利用计算机技术把文本、图像、图形、动画、音频及视频等多种媒体有机地集成起来,使人们能以更加自然的方式使用信息,并与计算机进行交互,且使表现的信息图、文、声并茂。简言之,多媒体技术就是计算机综合处理声、文、图信息的技术,具有集成性、实时性和交互性。,1.1.2 多媒体与多媒体技术,1.2.1 声音的基本特性1.2.2 声音的主观感觉1.2.3 音频信号的数字化,1.2 音频信息处理基础,声音是机械振动或气流振动引起周围传播媒质(气体、液体、固体等)发生波动的现象,通常将产生声音的发声体称为声源。当声源产生振动时,引起邻近空气的振动。这样空气就随着声源体所振动幅度的不同,而产生密或稀的振动,空气的这种振动被称为声波。声波可以用一条连续的曲线来表示,它可以分解成一系列正弦波的线性叠加。,1.2.1 声音的基本特性,1.频率单位时间内信号振动的次数,单位是赫兹(Hz)。声音的音调由频率决定。声音尖细表示频率高,声音低粗表示频率低。,1.2.1 声音的基本特性,声音信号按频率划分:,2.频谱 声音信号按频率成分组成来分,可分为:纯音:频率单一、振幅随时间按正弦函数规律变化的声音复音:由不同频率和不同振幅的声波组合而成的声音基音:复音中频率最低的成分(分音)谐音:复音中频率与基音成整数倍的分音 声音的频谱结构是用基音、谐音数目、各谐音振幅大小及相位关系来描述的。声音的音色就是由其频谱成分决定的。,1.2.1 声音的基本特性,声压由声波引起的交变压强称为声压,一般用P表示,单位是帕(Pa)。声压的大小反映了声音振动的强弱,同时也决定了声波的幅度大小。声压级 用声压的相对大小(称声压级或声强)来表示声压的强弱。声压级用符号SPL 表示,单位是分贝(dB):式中,P为声压有效值;Pref为参考声压,一般取 Pa,这个数值是人耳所能听到的1kHz声音的最低声压,低于这一声压,人耳就无法觉察出声波的存在了。,3.声压及声压级,1.2.1 声音的基本特性,人对声音的感知有响度、音调和音色三个主观听感要素。响度:与声波振动的幅度有关音调:取决于声波的基音频率音色:由声波的的频谱成分决定,1.2.2 声音的主观感觉,1.响度:是人耳对声音强弱的主观感觉程度。,在客观的度量中,声音的强弱是由声波的振幅(声压)决定的。但响度与声波的振幅并不完全一致。响度不仅取决于振幅的大小,还取决于频率的高低。响度用符号N表示,单位是宋(sone)。国际上规定,频率为1kHz的纯音在声压级为40dB时的响度为1宋(sone)。,另外,响度的大小与距声源的距离有关,同一声音离声源越近,响度越大。,1.2.2 声音的主观感觉,2.响度级:人耳对声音强弱的主观感觉还可以用响度级来表示。响度级的单位为方(phon)。规定1kHz纯音声压级的分贝数定义为响度级的数值。,表1-1 声压级与响度、响度级的关系,1.2.2 声音的主观感觉,3.听阈与痛阈,听阈:当声音减弱到人耳刚刚可以听见时,此时的声音强度称为最小可听阈值,简称为“听阈”或“闻阈”。一般以1kHz纯音为准进行测量,人耳刚能听到的声压级为0dB(通常大于0.3dB即有感受)。痛阈:当声音增强到使人耳感到疼痛时,这个听觉阈值称为“痛阈”。仍以1kHz纯音为准来进行测量,使人耳感到疼痛时的声压级约达到130140dB左右。,1.2.2 声音的主观感觉,5.音调,音调也称音高,表示人耳对声音调子高低的主观感受。声音越低沉,音调越低;声音越尖细,音调越高。音调的高低是由发声体振动的频率决定的,频率越高,音调越高;频率越低,音调越低。物体的振动频率与发声体的结构有关,一般而言,大而长的物体振动频率低,小而短的物体振动频率高;物体绷得越紧,振动频率越高;物体越薄、越细,振动频率越高。音调单位是“美(Mel)”。频率为1kHz、声压级为40 dB的纯音所产生的音调就定义为1 Mel。音调大体上与频率的对数成正比。,1.2.2 声音的主观感觉,5.音色,音调也称音高,表示人耳对声音调子高低的主观感受。声音越低沉,音调越低;声音越尖细,音调越高。音调的高低是由发声体振动的频率决定的,频率越高,音调越高;频率越低,音调越低。物体的振动频率与发声体的结构有关,一般而言,大而长的物体振动频率低,小而短的物体振动频率高;物体绷得越紧,振动频率越高;物体越薄、越细,振动频率越高。音调单位是“美(Mel)”。频率为1kHz、声压级为40 dB的纯音所产生的音调就定义为1 Mel。音调大体上与频率的对数成正比。,1.2.2 声音的主观感觉,1.2.3 音频信号的数字化,声音信号是典型的连续信号,不仅在时间上是连续的,而且在幅度上也是连续的。数字化实际上就是对模拟信号进行采样、量化和编码。,1.2.3 音频信号的数字化,采样(Sampling):每隔一定的时间间隔,抽取信号的一个瞬时幅度值(样本值),即在时间上将模拟信号进行离散化。采样后所得到的一系列在时间上离散的样本值称为样值序列。,1.2.3 音频信号的数字化,Original Voice Sampled 1 Sampled 2 Sampled3 Sampled4,奈奎斯特(Nyquist)采样定理:只要采样频率大于或等于声音信号最高频率的两倍(fs2fmax),就可以通过理想低通滤波器,从样值序列中无失真地恢复原始模拟信号。也就是说,在满足奈奎斯特采样定理的条件下,在时间上离散的样值序列包含有采样前模拟信号的全部信息。常用音频采样频率:8kHz、11.025kHz、22.05kHz、32kHz、44.1kHz、48kHz、96kHz,量化(Quantization):对每个样值的连续幅度进行离散化,即用有限个幅度值近似原来连续变化的幅度值,把模拟信号的连续幅度变为有限数量、有一定间隔的离散值。均匀量化(线性量化):量化器的每个量化间隔都相等,量化电平取各量化区间的中间值。非均匀量化(非线性量化):量化器的各个量化间隔是不相等的。,1.2.3 音频信号的数字化,编码(Encoding):采样、量化后的信号还不是数字信号,需要把它转换成数字编码脉冲,这一过程称为编码。最简单的编码方式是二进制编码。具体说来,就是用n比特二进制码来表示已经量化了的样值,每个二进制数对应一个量化电平,然后把它们排列,得到由二值脉冲组成的数字信息流。,1.2.3 音频信号的数字化,声音质量与数码率的关系,1.2.3 音频信号的数字化,1.1 多媒体的基本概念1.2 音频信息处理基础1.3 图像信息处理基础1.4 MATALAB在图像处理中的应用,第1章 多媒体信息处理基础,1.3.1 光的颜色与彩色三要素1.3.2 三基色原理1.3.3 典型的颜色空间模型及转换关系1.3.4 图像信号的数字化,1.3 图像信息处理基础,光是一种电磁波。电磁辐射的波长范围很宽,按波长从长到短的顺序排列,依次是无线电波、红外线、可见光、紫外线、X射线和宇宙射线等。图1-3是按波长的顺序排列的电磁波谱。,1.3.1 光的颜色与彩色三要素,图1-3 电磁波谱,波长在380780nm范围内的电磁波能够使人眼产生颜色感觉,称为可见光。可见光在整个电磁波谱中只占极小的一段。,1.3.1 光的颜色与彩色三要素,描述一种色彩需要用亮度、色调和色饱和度三个基本参量,这三个参量称为彩色三要素。,亮度反映光的明亮程度。彩色光辐射的功率越大,亮度越高,反之亮度越低。不发光物体的亮度取决于它反射光功率的大小。若照射物体的光强度不变,物体的反射性能越好,物体越明亮,反之越暗。对于一定的物体,照射光越强,物体越明亮,反之越暗。,1.3.1 光的颜色与彩色三要素,色调反映彩色的类别,例如红、橙、黄、绿、青、蓝、紫等不同颜色。发光物体的色调由光的波长决定,不同波长的光呈现不同的色调;不发光物体的色调由照明光源和该物体的吸收、反射或透射特性共同决定。,色饱和度反映彩色光的深浅程度。同一色调的彩色光,会给人以深浅不同的感觉,深红、粉红是两种不同饱和度的红色,深红色饱和度高,粉红色饱和度低。,1.3.1 光的颜色与彩色三要素,1.3.2 三基色原理,三种基色必须是相互独立的,即任一种基色都不能由其他两种基色混合得到。自然界中绝大多数的彩色可以分解为三基色,三基色按一定比例混合,可得到自然界中绝大多数彩色。混合色的色调和饱和度由三基色的混合比例决定,混合色的亮度等于三种基色亮度之和。,因为人眼的三种锥状细胞对红光、绿光和蓝光最敏感,所以在红色、绿色和蓝色光谱区中选择三个基色按适当比例混色可得到较多的彩色。在彩色电视中,选用了红、绿、蓝作为三基色,分别用R、G、B来表示。波长为700 nm的红光为红基色R(红)波长为546.1nm的绿光为绿基色G(绿)波长为435.8nm的蓝光为蓝基色B(蓝),1.RGB颜色空间模型,在RGB模型中,颜色空间里所有的颜色都是由R、G、B(红、绿、蓝)三种光依不同的比例相加而成。RGB的每一色光,含有亮度成分,例如R的成分越多,表示越红越亮。各色光混合后,会比原来单独的色光还亮,称为相加混色;适合在以主动光源显示影像的场合使用,如电视、电脑、投影等。,相加混色,2.CMY/CMYK颜色空间模型,在彩色印刷、彩色胶片和绘画中的混色采用相减混色。彩色印刷或彩色打印的纸张是不能发射光线的,因而印刷机或彩色打印机就只能使用一些能够吸收特定的光波而反射其他光波的油墨或颜料。任何一种由颜料呈现的颜色都可以用青(Cyan)、品红(Magenta)和黄(Yellow)这三种基色按不同的比例混合而成,我们称这种颜色空间为CMY颜色空间。由于彩色墨水和颜料的化学特性,用等量的CMY三基色得到的黑色不是真正的黑色,因此在印刷术中常加一种真正的黑色墨水(Black Ink),于是CMY颜色空间也称为CMYK颜色空间。,相减混色,RGB CMY,RGB和CMY值都归一到0,1,YUV是PAL制彩色电视系统所采用的一种 颜色空间模型,其中Y表示亮度,U表示蓝色色差(即B-Y),V代表红色色差(R-Y)。采用YUV色彩空间的重要性:亮度信号Y和色度信号U、V是分离的,解决彩色电视和黑白电视兼容的问题。可以利用人眼对彩色的敏感度低于对亮度的敏感度的视觉特性,用较窄的频带传送U、V信号,优化彩色电视信号的传输。,3.YUV颜色空间模型,RGB YUV,YIQ颜色空间是由YUV推导而来,是NTSC 制彩色电视系统所采用的一种颜色 空间模型;I代表“同相”,Q代表“正交”:指的是用于发射颜色信息的调制方法;I、Q是通过将U、V轴逆时针旋转33度获得的。,4.YIQ颜色空间模型,YIQ颜色空间模型优点,由人眼彩色视觉的特性表明,人眼 分辨红、黄之间颜色变化的能力最强,而分辨蓝、紫之间颜色变化的能力最弱。I对应于人眼最敏感的色度,而Q对应于人眼最不敏感的色度。这样,传送Q可以用较窄的频带,而传送分辨率较强的I信号时,可以用较宽的频带。,RGB YIQ,由YUV颜色空间派生的一种颜色空间 模型。主要用于数字电视系统,是YUV颜色空间的缩放和偏移版本。,5.YCbCr颜色空间模型,彩色图像信号一般表示为 式中,x、y、z 表示空间某个点的坐标;为光的波长;t为时间轴坐标。当 t=t0(常数)时,则表示静态图像;当 z=z0(常数)时,则表示二维图像;当=0(常数)时,则表示单色图像。由三基色原理知,其中,1.3.4 图像信号的数字化,1.图像信号的表示,1.3.4 图像信号的数字化,2.图像信号的采样,图像采样就是将二维空间上模拟的连续亮度(即灰度)或彩色信息,转化为一系列有限的离散数值来表示。采样就是对图像在水平方向和垂直方向上进行等间隔的采样,每个采样点组成图像的基本单位,称为像素(pixel)。,在进行采样时,采样点间隔的选取是一个重要的问题,它决定了采样后的图像是否能真实地反映原图像的程度。,一般来说,采样间隔越大,所得图像像素数越少,空间分辨率低,图像质量差,严重时出现马赛克效应;采样间隔越小,所得图像像素数越多,空间分辨率高,图像质量好,但数据量大。,(a)256256(b)128128(c)3232(d)1616 采样点数与图像质量之间的关系,模拟图像经过采样后,在时间和空间上离散化为像素。p.s.采样所得的像素值(灰度级)仍是一个有无穷多个取值的连续量。量化是指将具有无限多个取值的样值用有限个离散值来表示的过程。,3.图像信号的量化,用有限个离散灰度值表示无穷多个连续灰度的量必然引起误差,称为量化误差,有时也称为量化噪声。量化分层越多,则量化误差越小。对于不同的图像,量化方法分为两种:等间隔量化(均匀量化或线性量化)非等间隔量化 等间隔量化就是简单地把采样值的灰度范围等间隔地分割并进行量化。对于像素灰度级在黑-白范围分布较均匀的图像,这种量化方法可以得到较小的量化误差。,一幅图像在采样时,行、列的采样点与量化时每个像素量化的级数,既影响数字图像的质量,也影响到该数字图像数据量的大小。假定图像取MN个采样点,每个像素量化后的灰度二进制位数为Q,一般Q总是取为2的整数幂,即Q=2k,则存储一幅数字图像所需的字节数B为,4.采样与量化精度对图像质量的影响,对一幅图像,当量化级数Q一定时,采样点数MN对图像质量有着显著的影响。采样点数越多,图像质量越好;当采样点数减少时,图上的块状效应就逐渐明显。,(a)256256(b)128128(c)3232(d)1616 采样点数与图像质量之间的关系,同理,当图像的采样点数一定时,采用不同量化级数的图像质量也不一样。量化级数越多,所得图像层次越丰富,图像质量越好,但数据量大;量化级数越少,图像层次欠丰富,图像质量越差,会出现假轮廓现象,但数据量小。量化级数最小的极端情况就是二值图像(即非黑即白,灰度级没有中间过渡的图像)。,5.数字图像的表示,从数字图像的获取过程可以知道,一幅采样图像由M(行)、N(列)个采样点组成,每个采样点(像素)是组成图像的基本单位。黑白图像的像素只有1个亮度值,彩色图像的像素是矢量,它由多个彩色分量组成,一般有3个分量:R(红)、G(绿)、B(蓝),因此,采样图像在计算机中的表示方法是:单色图像用一个矩阵来表示;彩色图像用一组(一般是3个)矩阵来表示,矩阵的行数称为图像的垂直分辨率,列数称为图像的水平分辨率,矩阵中的元素是像素颜色分量的亮度值,使用整数表示。,一幅 MN 的数字图像可用矩阵表示为 数字图像中的每个像素都对应于矩阵中相应的元素。把数字图像表示成矩阵的优点在于,能应用矩阵理论对图像进行分析处理。,5.数字图像的表示,(a)256级灰度图象(b)子图(c)子图对应的量化数据 数字图像实例,如果看到的都是灰色,怎么办?,Neil Harbisson,1.1 多媒体的基本概念1.2 音频信息处理基础1.3 图像信息处理基础1.4 MATALAB在图像处理中的应用,第1章 多媒体信息处理基础,1.4.1 MATALAB简介1.4.2 MATALAB中图像文件的基本操作1.4.3 MATALAB 编程实例,1.4 MATALAB在图像处理中的应用,Matlab是Matrix Laboratory的缩写,是当今很流行的科学计算软件。信息技术、计算机技术发展到今天,科学计算在各个领域得到了广泛的应用,在诸如控制论、时间序列分析、系统仿真、图像信号处理等方面产生了大量的矩阵及其他计算问题,Matlab软件适时推出,为人们提供了一个方便的数值计算平台。,1.4.1 MATALAB简介,Matlab为用户提供了特殊的函数,用于从图像格式的文件中读写图像数据。其中,读取图形文件格式的图像需要用imread函数,写入一个图形文件格式的图像需要调用imwrite函数;而获取图形文件格式的图像的信息需要调用imfinfoind2rgb函数,以Mat文件加载或保存矩阵数据用loadsave函数,显示加载到Matlab中的图像用imageimagesc。,1.4.2 MATALAB中图像文件的基本操作,1.图形图像文件的读取 利用函数imread可以完成图形图像文件的读取操作,其语法如下:A=imread(filename,fmt)X,map=imread(filename,fmt)=imread(filename)=imread(filename,idx)(只对TIF格式的文件)=imread(filename,ref)(只对HDF格式的文件),1.4.2 MATALAB中图像文件的基本操作,2.图像文件的显示,在Matlab 7.0中,显示一幅图像可以用image函数,这个函数将创建一个图形对象句柄,语法格式为:image(C)image(x,y,C)image(PropertyName,Property Value,)image(PropertyName,Propety Value,)handle=image()其中,x,y分别表示图像显示位置的左上角坐标,C表示所需显示的图像。,1.4.2 MATALAB中图像文件的基本操作,Matlab 7.0图像处理工具箱提供了一个高级的图像显示函数imshow。其语法格式为 imshow(I,n)imshow(I,low high)imshow(BW)imshow(X,map)imshow(RGB)imshow(,display_option)imshow(x,y,A,)imshow filename h=imshow(),1.4.2 MATALAB中图像文件的基本操作,Lenna背后的故事,A Note on Lenna测试各种算法包含各种细节、平滑区域、阴影和纹理很迷人,