624020227毕业设计(论文)图片浏览系统的设计与实现.doc
摘 要八十年代中期,随着硬件设备的发展,使得图像技术和多媒体技术得到了长足的发展,计算机处理的内容由当初的单一文字扩大到了动画、文字、声音、视频、图像等多种媒体形式。目前,伴随着网络技术和Internet的发展,图像技术的功能得到了更好的发挥。本文详细描述了图像和图形技术的产生,发展以及在现实生活中的实际应用;分析了表示媒体、显示媒体、存储媒体和传输媒体间互相如何协同工作的运做过程;阐述了有关图像技术的关键点,开发技术和应用前景。本文以自主开发的图像系统为基点,论述了软件开发的过程,模式和技术点。对于图像技术的编码格式,格式转换,数据压缩和流媒体技术结合等应用进行的详细论述。软件系统采用了大量的设计模式和软件工程方法,解决了内聚与耦合的问题,实现了软件的易扩展与易维护,文中也对设计模式做了详细的叙述,并且对现今流行的图片格式和这些格式的开发进行了介绍。同时,本文围绕着图像浏览系统的剖析进行展开,列出了一些如BMP转AVI等关键技术的代码,以及一些框架的设计,以十六个本系统主要功能为框架,对每个功能以及相关技术的历史,发展和开发做了论述。对一些相关的技术和技术点也做了解释和说明。解决的图像浏览技术方面一些问题。关键词:图像编码 图像浏览 图像压缩 设计模式 框架设计AbstractIn the middle of the 1980s, with the development of the hardware and computer device, graphic technology and multimedia technology are developing more and more quickly. The contents which computers are able to process extend from the single style of characters to the motivation, sound, video and graphics. Nowadays, with the aid of the Internet, graphic technology and image manipulation are easily bringing into play in our daily life. This paper detailedly describes the generation and the development of the image technology and graphics technology; analyses the relations of the perception medium, representation medium, presentation medium, storage medium and the transmission medium; discourses upon the key point, developing technology and the application prospect. This paper is based on the graphic system, which is developed by the author. It not only dissertates the common procedure, patterns and technical points in developing of the software. But also it discussed the coding, format exchange and data compressing in the graphics. This graphic system exercises lots of design patterns and software engineering methods and solves the problems of cohesion and coupling. It achieves the extendibility and usability of software. All above especially the design pattern are depicted in the paper. Meanwhile the paper introduces the popular formats of pictures and with the analysis of this graphic browsing system; we discuss the framework of this system and some key codes such as BMP converting to AVI. There are 16 main parts in the paper. In each part, we discourse and explain on the history, development and exploitation of the related technology.Key words:image coding image browsing image compressing design pattern framework design目 录摘 要IAbstractII目 录III引 言1第1章 图像技术概述21.1 图像技术的发展21.2 图像技术的基本概念21.2.1 图片格式21.2.2 图片分辨率31.2.3 RGB与CMYK41.2.4 色彩位数51.2.5 Pixel与DPI51.2.6 FM网屏技术51.3 图像技术的应用6第2章 开发工具与系统界面设计82.1 开发工具的选择8第3章 图像的编码与解码93.1 经典图像编码技术93.2 第二代编码技术103.3 编码技术的标准化113.4 编码技术的发展方向133.5 解码技术及本系统实例133.5.1 关于MPEG的解码的介绍13第4章 屏幕截取及部分屏幕截取204.1 整个屏幕截取及实现204.2 部分屏幕截取及实现21第5章 图像压缩255.1 有损压缩与无损压缩255.2 压缩编码压缩概述265.3 压缩编码的方法265.6 LZW算法305.7 JPEG编码标准315.8 本系统中利用JPEG编码实现压缩35第6章 图像的局部放大技术及实现376.1 实用价值376.2 算法原理376.3 实现步骤376.4 技术剖析41第7章 本系统中的设计模式437.1 什么是模式437.2 模式的作用457.3 模式的解决的问题477.4 本系统中使用的模式48结 论51参考文献52谢 辞53引 言近年来,图像技术得到了迅速的发展,应用领域也不断扩大,这是社会需求与科学技术发展相结合的结果。图像技术的发展也带动了其它一些技术的应用,这些技术同样又促进了图像技术的发展。图像技术为我们人类提供了多种交流表达信息的方式,正在逐渐或已经进入政府部门、军队、学校、科研机构、公司企业以至家庭,并将广泛应用于管理、教育、培训、公共服务、广告、文艺、出版等领域。图像技术的发展使一些原来相对独立发展的产业和行业(如计算机、电视、通信、出版和娱乐等)开始相互渗透和结合,从而产生了一些全新的产业和应用领域。图像技术与图像系统的应用多种多样,丰富多彩。从科学研究、商业管理、工业生产一直到家庭娱乐,几乎涉及人类社会生产、生活的各个领域,并且正在不断发展和开拓新的应用领域。目前的图像系统大多数还是单机使用的,但实际应用已经提出了把图像技术与通信、网络相结合的需求,这就是所谓的“分布式”图像技术,它结合了计算机的交互性、通信的分布性和电视的真实性,因此将向我们提供全新的信息服务。下面我们将从几个方面介绍一些图像技术的应用领域,并且举出几个具体的应用例子。80年代开始,人们致力于研究将声音、图形和图像作为新的信息媒体输入输出计算机,这将使计算机的应用更为直观、容易。1984年Apple公司的Macintosh个人计算机,首先引进了"位映射"的图形机理,用户接口开始使用Mouse驱动的窗口技术和图符(Windows and Icon),受到广大用户的欢迎。这使得文化水平较低的公众,包括儿童在内都能使用计算机。由于Apple采取发展图像技术、扩大用户层的方针,使得它在个人计算机市场上成为唯一能同IBM公司相抗衡的力量。今天,国际上下述几项技术又有了突出的进展。超大规模集成电路的密度增加了;超大规模集成电路的速度增加了;CD-ROM可作为低成本、大容量只读存储器,每片容量为650MB以及每片单面DVD容量为4.7GB;双通道VRAM的引进;网络技术的广泛使用。综上所述,无论从半导体的发展还是从计算机进步的角度,或者从普及计算机应用、拓宽计算机处理信息类型看,利用图像是计算机技术发展的必然趋势。第1章 图像技术概述1.1 图像技术的发展在计算机发展的早期阶段,人们利用计算机主要从事数据的运算和处理,处理的内容都是文字。80年代,随着计算机技术的发展,尤其是硬件设备的发展,除了文字信息外,在计算机应用中人们开始使用图像信息。90年代随着计算机软硬件的进一步发展,计算机的处理能力越来越强,应用领域得到进一步拓展,在很大程度上促进了图像技术的发展和完善,计算机处理的内容由当初的单一的文字媒体形式逐渐发展到目前的动画、文字、声音、视频、图像等多种媒体形式。目前,伴随着网络技术和Internet的发展,图像技术的功能得到了更好的发挥。1984年,美国App1e公司推出被认为是代表多图像技术兴起的Macintosh机1。1985年,美国Commodore公司研制出世界上第一台多媒体系统Amiga。1986年,荷兰Philips公司和日本Sony公司联合推出了交互式紧凑光盘系统CD-I(Compact Disc Interactive),并同时公布了CD-ROM文件格式,后经国际标准化组织1SO承认而成为国际标准。1987年,美国RCA公司推出了交互式数字视频系统DVI(Digital Video Interactive),后由美国Intel公司和IBM公司于1989年联合将DVI技术发展成为新一代多媒体开发平台Action Media 750。1990年,由美国Microsoft公司会同多家厂商召开了多媒体开发者会议,会议成立了多媒体计算机市场协会,并制定了多媒体个人计算机MPC 1.0标准。到1993年和1995年,多媒体计算机市场协会先后发布了多媒体个人计算机标准MPC 2.0和MPC 3.0,其基本性能指标。如表1-1所示。1.2 图像技术的基本概念1.2.1 图片格式以下是一些经常会应用到的图片格式,关于图片格式的具体信息和优缺点会在后文介绍。BMP BMP档是最普遍的点阵图格式之一,也是WINDOWS系统下的标准格式,我们利用WINDOWS的调色盘绘图,就是存成BMP文件9。表1-1 基本性能指标标准MPC 1.0MPC 2.0MPC 3.0RAM2MB以上4MB以上8MB以上CPU386SX/16MHz以上486SX/25MHz以上Pentium/75MHz以上磁盘30MB硬盘1.44软驱160MB硬盘1.44软驱540MB硬盘1.44软驱CD-ROM单速(150KB/s)双速(300KB/s)四速(600KB/s)音频8位声卡8音符合成器16位声卡8音符合成器MIDI播放16位以上声卡波表合成技术MIDI播放图形视频640×480/16色640×480/65536色MPEG-1播放I/OMIDI游戏杆串口、并口MIDI游戏杆串口、并口MIDI游戏杆串口、并口系统软件DOS CD-ROM扩展Windows 3.0扩展Windows3.1DOS 6.0Windows3.11PCX PCX档是MS-DOS下常用的格式,在WINDOWS应用软体尚未普及时,MS-DOS下的绘图,排版软体多用PCX格式,从最早的16色,发展至今已可达1677万色。GIF GIF是Graphics Interchange Format 的简写4,是Compuserve公司所制订的格式,因为Compuserve公司开放使用权限,所以广受应用,且适用于各式主机平台,各软体皆有支援,现今的GIF格式仍只能达到256色,但它的GIF89a格式,能储存成背景透明化的形式,并且可以将数张图存成一个文件,形成动画效果。JPEG JPEG是一种高效率的压缩文件,在存档时能够将人眼无法分辨的资料删除,以节省储存空间,但这些被删除的资料无法在解压时还原,所以JPEG档案并不适合放大观看,输出成印刷品时品质也会受到影响,这种类型的文件档案,称为失真压缩或破坏性压缩。1.2.2 图片分辨率1、图像分辨率 图像分辨率(Image Resolution): 指图像中存储的信息量。这种分辨率有多种衡量方法,典型的是以每英寸的像素数(PPI)来衡量。图像分辨率和图像尺寸的值一起决定文件的大小及输出质量,该值越大图形文件所占用的磁盘空间也就越多。图像分辨率以比例关系影响着文件的大小,即文件大小与其图像分辨率的平方成正比。如果保持图像尺寸不变,将图像分辨率提高一倍,则其文件大小增大为原来的四倍。 2、图像的位分辨率 图像的位分辨率(Bit Resolution): 又称位深,是用来衡量每个像素储存信息的位数。这种分辨率决定可以标记为多少种色彩等级的可能性。一般常见的有8位、16位、24位或32位色彩。有时我们也将位分辨率称为颜色深度。所谓“位”,实际上是指“2”的平方次数,8位即是2的八次方,也就是8个2相乘,等于256。所以,一副8位色彩深度的图像,所能表现的色彩等级是256级。 3、设备分辨率 设备分辨率(Device Resolution):又称输出分辨率,指的是各类输出设备每英寸上可产生的点数,如显示器、喷墨打印机、激光打印机、绘图仪的分辨率。这种分辨率通过DPI来衡量,目前,PC显示器的设备分辨率在60至120DPI之间。而打印设备的分辨率则在360至1440DPI之间。1.2.3 RGB与CMYK1、色光三原色 (R.G.B) RGB是色光的彩色模式,R代表红色,G代表绿色,B代表蓝色。因为三种颜色每一种都有256个亮度水平级,所以三种色彩叠加就能形成1670万种色彩了(俗称"真彩")6。RGB模式因为是由红、绿、蓝相叠加形成其他颜色,因此该模式也叫加色模式(CMYK是一种减色模式)。在该色彩模式下,每一种原色将单独形成一个色彩通道(Channel),在各通道上颜色的亮度分别为256阶,由0-255。再由三个单色通道组合成一个复合通道-RGB通道。图像各部分的色彩均由RGB三个色彩通道上的数值决定。当RGB数值均为0时,该部分为黑色;当RGB色彩数值均为255时,该部分为白色。就编辑图像而言,RGB色彩模式是首选的色彩模式。2、印刷四原色 (C.M.Y.K)CMYK模式是一种减色模式,它适合于印刷。当阳光照射到一个物体上时,这个物体将吸收一部分光线,并将剩下的光线进行反射。反射的光就是用户所看到的物体的颜色。这是一种减色模式,是与RGB色彩模式的根本不同之处。不但我们看物体的颜色时用到了这种减色模式,而且在纸上印刷时应用的也是这种减色模式。1.2.4 色彩位数数位影像的色彩是经由位元(BIT)的计算和组合而来,单纯的黑白图像是最简单的色彩结构,在电脑上用到1位元的资料,虽说只有黑色和白色,但仍能透过疏密的矩阵排列,将黑与白组合成近似视觉上的灰色调阶灰阶(GRAYSCALE)的影像共有256个阶调,看起来类似传统 的黑白照片,除黑、白二色之外,尚有254种深浅的灰色,电脑必须以8位元的资料,显示这256种阶调全彩(FULL COLOR)是指RGB三色光所能显示的所有颜色, 每一色光以8位元表示,各有256种阶调,三色光交互增减,就能显示24BIT的1677万色(256*256*256=16,777,216)3,这个数 值就是电脑所能表示的最高色彩,也就是通称的 RGB TureColor8位元色是指具有256种阶调,或256种色彩的影像,若要把24 位元的全彩图片转成256色的8位元,通常必须经过索引的步骤 (Indexed),也就是在原本24位元的1677万色中,先建立颜色分布表(histogram),然后再找出最常用的256种颜色,定义出新的调色盘,最後再以新色盘的256色取代原图。1.2.5 Pixel与DPIPixel 是由 Picture 和 Element这两个字母所组成的7,是用来计算数位影像的一种单位,如同摄影的相片一样,数位影像也具有连续性的浓淡阶调,我们若把影像放大数倍,会发现这些连 续色调其实是由许多色彩相近的小方点组成,这些小方点就是构成影像的最小单位“像素”(Pixel)。DPI 原是印刷上的记量单位,意指每平方英寸上,所印刷的网点数(Dot Per Inch),但在电脑与印刷结合,数位输入,输出设备快速发展的同时,大多数的人已将数位影像的解析度用DPI表示,但较为严谨的人可能不会同意,因为印刷时计算的 网点大小(Dot)和电脑的显示像素(Pixel)并非相同,所以较专业的人士,会用PPI表示数位解析度,藉以区分二者。1.2.6 FM网屏技术规则的网屏图案在印刷中往往妨碍半色调的连续感觉。为了寻找更好的解决方案,出现了一种较新的技术,即调频网屏FM。它作为除半色调技术之外的一种新方案,正得到迅速发展。 半色调网屏技术通过将不同大小的网点放入规则的网格来表示色调深浅的变化;而FM网屏则将同样大小的网点放置于不同间隔。它应用特定的数学算法随机地放置网点,可以有效地避免干扰人们的某些图案,入网屏图案、龟纹等。 在FM网屏技术中,没有什么网目频率的概念,因为它没有规则的网屏图案。问题在于输出设备的分辨率和印刷机所能支持的最小半色调网点尺寸,这些因素决定了大多数设备所使用的FM网点的大小。照排机和直接制版机的分辨率越高,使用的最小网点尺寸就越小,则它所渲染的细节也越精细。FM技术对于某些高质量的输出,特别是当图像为高位彩色、具有极平滑的色彩过度、色调变化范围较宽、细节较为复杂时,尤具突出的优势。图像更清晰。因为克服了干扰图案的问题。 增强边界定义及细节。特适于边界清晰的线条图,FM出色的边界定义能力可理想地再现织物或珠宝的细节。 在邻近的色调之间进行平滑过度。在图像低对比度区域常会出现的噪音,FM能够给予矫正。 使用多于四种颜色的印刷。对于半色调网屏技术,使用太多的色版印刷是很难的,因为它要求色版套印的高度准确性。而FM技术对套印不准具有很高的宽容度,所以FM更适合于增加专色油墨、荧光油墨、金属色以及高保真印刷等。 抵挡扫描和较低的输出分辨率。因为FM网屏不需定义网角,所以其“半色调系数”在大多数情况下为1比1而不象半色调网屏为1.5比1。所以,使用FM网屏,印刷150lpi的图像输出,原图像的分辨率只需要150dpi。当然,FM的这一优点并不在于让大家采用低分辨率的图像印刷,恰好相反,高分辨率的图像在印刷输出时,细节被更多地保留了下来。也就是说,我们用在图像处理上的无用功被减少了,而象素被更有效地应用,使印刷品更为完美。1.3 图像技术的应用图像技术为计算机应用开拓了更广阔的领域,不仅涉及到计算机的各个应用领域,也涉及到电子产品、通信、传播、出版、商业广告及购物、文化娱乐等领域,并进入到人们的家庭生活和娱乐中。综合起来,图像技术已成功应用于以下几个领域。1、教育与教学教育领域是应用多媒体技术最早,也是进展最快的领域。利用图像技术编制的教学课件,可以将图文、声音和视频并用,创造出图文并茂、生动逼真的教学环境、交互式的操作方式,从而可大大激发学生学习的积极性和主动性,提高学习效率,改善学习效果和学习环境。但是要制作出优秀的多媒体教学软件要花费巨大的劳动量,这正是当前计算机辅助教学的“瓶颈”之一。2、商业图像技术在商业方面应用主要包括几个方面:(1)办公自动化:先进的数字影像设备(数码相机、扫描仪)、图文传真机、文件资料微缩系统等构成全新的办公室自动化系统10。(2)产品广告和演示系统:可以方便地运用各种多媒体素材生动逼真地展示产品或进行商业演示。例如,房地产公司使用多媒体就可以不用把客户带到现场,就可以通过计算机屏幕引导客户“身临其镜”看到整幢建筑的各个角落10。(3)查询服务:商场、银行、医院、机场可以利用多媒体计算机系统,为顾客提供方便、自由的交互式查询服务10。3、新闻与电子出版物由于多媒体计算机技术和光盘技术的迅速发展,出版业已经进入多媒体光盘出版物时代,使出版业发生了又一次革命。电子出版物具有容量大、体积小、价格低、保存时间长等优点,它不仅可以记录文字数据信息,而且可以存储图像、声音、动画等视听信息,同时还可以交互式阅读和检索,这是传统出版物无法比拟的。例如微软出版的百科全书CDROM读物Encarta,它包括:6万个论题、900万文字、8小时的声音、7000张照片、800张地图、250张交互式图表、100种动画片和电视短片,所有以上内容全部存储在一张重30克的CDROM光盘中。利用Internet和多媒体计算机,足不出户遨游世界各大图书馆现在已是生活现实了。4、多媒体通信图像技术的一个重要应用领域就是多媒体通信。人们在网络上传递各种多媒体信息,以各种形式相互交流。信息点播系统(Information Demand)和计算机协同工作系统(CSCW,Computer Supported Cooperation Work)为人们提供更全面的服务。信息点播主要有桌上多媒体通信系统和交互电视ITV两种形式。通过桌上多媒体通信系统,可以远距离点播所需信息,比如电子图书馆、多媒体数据库的检索与查询等,点播的信息可以是各种数据类型。新兴的交互电视可以让观众根据需要选取电视台节目库中的信息。除此之外,还有许多其他信息服务,如交互式教育、交互式游戏、数字多媒体图书、杂志、电视采购、电视电话等,将计算机网络与家庭生活、娱乐、商业导购等多项应用密切地结合在一起。计算机协同工作CSCW是指在计算机支持的环境中,一个群体协同工作共同完成一项任务。比如工业产品的协同设计制造、医疗上的远程会诊、异地的桌面电视会议等。第2章 开发工具与系统界面设计2.1 开发工具的选择随着开发环境的进步,开发人员会根据不同的项目需要选择自己需要的开发环境,比如一些中间件(EAI,SOA)选择JAVA开发就比较理想,而MIS/HIS/GIS等Information System 则选择Delphi,VC,C+ Builder 比较合适12。在对这个项目use cases 和 UML 分析后我们决定用Delphi和C+ Builder作为基础的开发环境,而尽量选择CLX控件以便Linux平台下的kylix环境进行移植。由于CLX技术的应用,现在Delphi的程序员可以立刻开始为Linux这个发展最快的操作系统进行开发了。而且开发人员可以为Windows和Linux下面的同一个应用程序只编写一次代码,而只需要在发布时将其分别在Delphi和Kylix中编译一下即可。建模工具:Borland 软件公司新版Enterprise Studio for Windows(以下简称:Studio)软件集成了Delphi6、Rational Rose和BoldSoft的Bold for Delphi软件,可以为业界提供一流的设计和建模功能。同时,它还包括有Enterprise Server、Web Edition的开发许可和一款可选的Web开发工具Dreamweaver UltraDev 4。利用Studio,各公司可以反高级企业应用的建模、开发和分发过程合理化,从而使应用程序在其整个生命周期中管理更方便,维护更简单。它主要针对的客户对象主要为在开发时需要丰富的UML建模功能,同时还要求分发平台安全可靠的企业用户,为Widows平台提供了从设计到分发的一整套解决方案。Studio将众多国际知名厂商的优秀产品集成到一个完整的模型驱动体系结构(Model Driven Architecture,MDA)环境中,旨在降低总的拥有成本,缩短进入市场切入时间,并在整个开发过程中保持设计的完整性。借助MDA这种架构,应用程序可以快速响应业务和行业的变化,采用新技术或新的商业动作方式能够进一步缩短应变时间。 Studio集成多个开发工具,从而使软件具有更先进的功能,这是开发工具的技术发展趋势。第3章 图像的编码与解码随着科学的发展、社会的进步,人们对图像存储和通信的需求越来越大。从近期的发展来看,数字式电视、可视电话等的兴起与普及已成为必然;高清晰度电视的开发由于其巨大的市场需求和商业价值,已成为发达国家大力推进的高科技项目。图像传输中遇到的一个非常关键的问题就是图像信号巨大的数据量,对一定容量的传输通道造成了巨大的压力和困难。可以说,如果没有一个高效的压缩方法,图像通信就不可能实现。图像压缩也是多媒体技术的关键和瓶颈技术之一。3.1 经典图像编码技术图像数据编码压缩是指在满足一定图像质量的条件下,用尽可能少的数据量来表示图像。这是由图像本身的数据特性决定的。数字图像一般可表示为f(i,j),i=0,1,I-1;j=0,1,J-1,它是对二维图像f(x,y)进行抽样和量化过程而得到的。在这种表示中存在着冗余度,图像压缩的目的就是要消除这种冗余度8。1948年Olive提出了第一个编码理论脉冲编码调制(pulse coding modulation,简称PCM)理论。PCM编码方法通过时间离散采样、幅度离散采样来表示原始信号,即通过A/D转换将连续的模拟信号转换成离散的数字信号。它没有去除原始信号中的冗余度。时间离散采样按奎奈斯特频率进行,幅度离散通常选用足够多的量化级进行量化以保证图像质量。所以,PCM编码方法实质上是完成由模拟图像向数字图像的转化。1948年Shannon的经典论文“通信的数学原理”中首次提出并建立了信息率失真函数概念。1959年他又进一步确立了码率失真理论,从而奠定了信息编码的理论基础。此后,图像压缩编码理论和方法都有很大发展。主要的编码方法有预测编码,变换编码,统计编码,也称为三大经典编码方法。预测编码是利用前面出现的M个像素之值来预测当前值,再将当前值与预测值之差进行量化编码的方法。差分脉冲编码调制法DPCM(Difference-PCM)是预测编码的典型代表。由于数字图像像素间存在高度相关性,可以进行某种变换来消除这种相关性。变换编码不是直接对空域图像像素编码,而是先对空域图像像素的某一块数据进行线性组合(线性变换),信号空间转换为变换空间,产生一组变换系数,然后对这些系数进行量化、编码和传输。变换并不对数据进行压缩,但是,经过变换后,一般数值较大的方差总是集中在少数系数中。多数图像的统计特性表明,大幅值的系数往往集中在低频率区域内,这样可以给那些小幅值系数分配很少的比特数,从而达到压缩的目的。 变换编码实现过程是:在发送端将原始图像分割成许多子图像块,对某个子图像块进行某种形式的变换,生成变换域中的系数阵列,经过滤波、量化、编码和传输,到达接收端后作解码、反变换和综合拼接,恢复出空域图像。系统的性能取决于选取的变换方式和采用的量化策略以及分割子图像块的大小。典型的正交变换有离散傅立叶变换(Discrete Fourier Transform,简称DFT)、离散余弦变换(Discrete Cosine Transform,简称DCT)、KL变换(KLT)、Walsh变换(WT)及斜变换(SLT)。其变换性能由优到劣依次为:KLDCTSLTDFTWT。 统计编码主要针对无记忆信源,根据信息码字出现概率的分布特征而进行压缩编码,寻找概率与码字长度间的最优匹配。其又可分为定长码和变长码。Huffman编码方法是一种较好的变长码字编码法,其基本思想是,对于出现概率大的信息符号编以短字长的码,对于出现概率小的信息编以长字码,以达到缩短平均码长,实现数据压缩。3.2 第二代编码技术“第二代”图像编码技术是Kunt等人于1985年提出的。他们认为,“第一代”图像编码技术是指以信息论和数字信号处理技术为理论基础,旨在去除图像数据中的线性相关性的一类编码技术。这类技术去除客观和视觉的冗余信息的能力已接近极限,其压缩比不高,大约在101左右。而“第二代”图像编码技术是指不局限于信息论的框架,要求充分利用人的视觉生理心理和图像信源的各种特征,能获得高压缩比的一类编码技术,其压缩比多在301至701之间,有的甚至高达成1001。1、子带图像编码子带编码技术是一种高质量、高压缩比的图像编码方法。它早已在语音信号压缩编码中获得了广泛的应用5。其基本依据是,语音和图像信号可以划分为不同的频域段,人眼对不同频域段的敏感程度不同。例如图像信号的主要能量集中在低频区域,它反映图像的平均亮度,而细节、边缘信息则集中在高频区域。子带编码的基本思想是利用一滤波器组,通过重复卷积的方法,经取样将输入信号分解为高频分量和低频分量,然后分别对高频和低频分量进行量化和编码。解码时,高频分量和低频分量经过插值和共轭滤波器而合成原信号。子带编码方法是第一代编码方法向第二代编码方法过渡的桥梁。进行子带编码的一个关键问题,是如何设计共轭滤波器组,除去混叠频谱分量。2、基于方向性分解的图像编码技术人的视觉特性之一,就是视觉通道中神经元具有方向敏感性,它对图像边缘的检测和感知可分为20到30个方向区间。对图像进行方向分解的主要目的是为了能更准确、且简单有效地检测和表述图像的边缘信息(包括位置信息和形状信息),并对图像进行恰当的分离。图像的方向分解就是利用N(通常N等于8或16)个方向滤波器和一个低通滤波器L将二维数字图像分解成N个方向高通滤波图像和一个低通滤波图像。方向滤波是基于边缘的空域分布特征与其频域中的分布特征之间相互关系导出来的。由边缘引入的频率分量虽然分布于整个频域中,但是其绝大部分能量分布于与边缘垂直的方向区间上。边缘检测可在对应的单扇区中进行。方向分解符合边缘的空域频域特征和人眼视觉特性,因此,这种编码技术在压缩比高达701时,仍可保证较好的图像质量。3、基于区域分割与合并的图像编码技术根据图像的空域特征将图像分成纹理和轮廓两部分,然后分别对它们进行编码。该方法一般可分为三步来完成,即预处理、编码和滤波。预处理将图像分割成纹理和轮廓两部分。选取分割方法是关键,它直接影响图像编码的效果。分割之后图像成为一系列相连的小区域。对纹理可采用预测编码和变换编码,对轮廓则采用链码方法进行编码。这种方法较好地保存了对人眼十分重要的边缘轮廓信息,因此在压缩比很高时解码图像质量仍然很好,通常的压缩比可达401左右。3.3 编码技术的标准化图像编码的研究内容是图像数据压缩,其主要应用领域是图像通信和图像信息存储。当需要对所传输或存储的图像信息进行高比率压缩时,必须采取复杂的图像编码技术。但是,如果没有一个共同的标准做基础,不同系统间不能兼容,除非每一编码方法的各个细节完全相同,否则各系统间的联结十分困难。鉴于这一状况,国际远程通讯联合会ITU (International Telecommunication Union)和国际标准化组织ISO(International Organization for Standardization)/国际电工委员会IEC(International Electrotechnical Commission)近年来在全世界范围内积极工作,已经制定并在继续制定一系列静止和活动图像编码的国际标准,这些标准和建议是在相应领域工作的各国专家合作研究的成果和经验的总结。由于这些国际标准的出现,图像编码尤其是视频图像编码压缩技术得到了飞速发展。目前,按照这些标准做的硬件、软件产品和专用集成电路已经在市场上大量涌现,对现代图像通信的迅速发展及开拓图像编码新的应用领域(如多媒体通信、数字高清晰度电视传输等)发挥了重要作用。下面对已批准的三个标准:JPEG标准、H.261标准、MPEG标准作一简要介绍。1、JPEG(Joint Photographic Expert Group)标准“联合图像专家组”(JPEG)经过5年的细致工作后,于1991年3月提出了ISOCD10918号建议草案:“多灰度静止图像的数字压缩编码”。主要内容如下:基本系统(Baseline System)提供顺序扫描重建的图像,实现信息有丢失的图像压缩,而重建图像要达到难以观察出图像损伤的要求。它采用8×8像素自适应DCT算法、量化以及霍夫曼型的熵编码器。扩展系统(Extended System)选用累进工作方式,编码过程采用具有自适应能力的算术编码。无失真的预测编码,采用帧内预测编码及霍夫曼编码(或算术编码),可保证重建图像数据与原始图像数据完全相同(即均方误差等于零)。采用JPEG基本系统压缩方案,图像平均压缩比可达161。2、电视电话/会议电视P×64Kbit/s(CCITTH.261)标准国际电报电话咨询委员会CCITT(International Telegraph and Telephone Consultative Comittee)第15研究组织极进行视频编码和解码器的标准化工作,于1984年提出“数字基群传输会议电视”的H.120建设。其中图像压缩采用“帧间条件修补法”的预测编码、变字长编码以及梅花型亚抽样/内插复原技术。该研究组又在1988年提出电视电话/会议电视的H.261建议P×64kbit/s,P是一个可变参数,取值为1到30,P=1或2时,支持四分之一的中间格式(Quarter Common Intermediate FormatQCIF)每秒帧数较低的视频电话;当P6时可支持通用中间格式(Common Intermediate FormatCIF)每秒较高的电视会议。P×64Kbit/s视频编码压缩算法,是采用混合编码方法,即基于DCT的变换编码以及带有运动预测的差分脉冲编码调制(DPCM)预测编码方法的混合。在低速时除采用QCIF外,还可采用亚帧技术,即隔一帧处理一帧,压缩比可达481。3、运动图像专家组的MPEG1标准“用于数字图像存储媒体运动图像及其伴音速率为1.5Mbit/s的压缩编码”简称MPEG1,作为ISOCD11172号建议于1992年通过。它包括三个部分:MPEG视频,MPEG音频和MPEG系统。由于视频和音频需要同步,所以MPEG压缩算法应该对视频和音频联合考虑,最后产生一个电视质量的视频和音频压缩形式的位速率约为1.5Mbit/s的MPEG单一位流。MPEG视频压缩算法采用两个基本技术:运动补偿即预测编码和插补技术,