硕士学位论文基于纹理和形状检索的视频信息管理系统的研究与实现.doc
《硕士学位论文基于纹理和形状检索的视频信息管理系统的研究与实现.doc》由会员分享,可在线阅读,更多相关《硕士学位论文基于纹理和形状检索的视频信息管理系统的研究与实现.doc(52页珍藏版)》请在三一办公上搜索。
1、摘 要基于内容的视频检索技术是当前研究的热点问题。它主要是利用视觉特征,如颜色、纹理、形状和空间关系等特征来进行检索。这种检索方式突破了传统的基于文本检索技术的局限,直接对视频内容进行分析并抽取特征,然后利用这些内容特征建立索引并进行检索。本文首先详细地阐述了基于内容的视频检索技术的原理、关键技术和研究现状,并对基于纹理和形状检索的视频信息管理系统进行了分析。本文的重点是研究了视频图像中的纹理和形状特征的提取算法和检索方法,对灰度共生矩阵特征描述参量的物理意义进行了阐释,对基于形状特征提取的三种不同算法Canny、拉普拉斯和Sobel的检索效果进行了比较。本次实验在形状特征的提取算法中使用了检
2、索效果比较好的Canny算法,在纹理特征的提取算法中使用了灰度共生矩阵算法。本课题利用SQL Server和 Visual C+6.0编程实现了基于形状和纹理的视频特征的提取和检索信息管理系统,并对检索的查到率和查准率进行了统计。实验证明,该系统在检索一些具有较典型纹理和形状特征的图像时,具有较好的检索效果。关键词:形状;纹理;基于内容的视频检索;不变矩;灰度共生矩阵AbstractAt present, Content-Based Video Retrieval (CBVR) is becoming a hot research topic. It is a retrieval techno
3、logy based on the vision features, such as the color, texture and shape. This retrieval method breakthrough the limitation of traditional one based on text. It analyzes and extracts features of video content directly, then uses these features to establish a retrieve system as an index.Firstly, we de
4、scribe the principle, essential technology, and the present research situation of the content-based video retrieval system in detail, and then analyze the texture and shape based video retrieval system.We lay a strong emphasis on the research of texture and shape character pick-up algorithm and retr
5、ieval technology, explain the meaning of the parameters of Gray-Level Co-occurrence Matrix, and compare the result of three algorithm Canny, Laplacian and Sobel.We select Canny and Gray-Level Co-occurrence Matrix in this system. We implement a shape and texture based video information management sys
6、tem with SQL Server and Visual C+, evaluate the performance of it.The experiments show that the performance of the retrieval system based on texture and shape is relative good especially in searching the image with typical texture and shape character.Key words:Shape; Texture; Content-Based Video Ret
7、rieval; Moment Invariant; Gray-Level Co-occurrence Matrix第一章 绪 论11.1课题的研究背景11.2课题的研究内容及成果3第二章基于内容的视频检索技术421 基于内容的视频检索概述422 基于内容的视频检索的关键技术和研究现状52.2.1基于内容的视频检索的关键技术52.2.2 基于内容的视频检索技术研究现状7第三章 纹理和形状特征的算法选择931纹理特征的选择93.1.1 纹理描述93.1.2 纹理特征123.1.2.1 Tamura 纹理特征123.1.2.2 自回归纹理模型143.1.2.3 灰度共生矩阵153.1.3 相似性度量
8、技术1732形状特征的选择183.2.1 图像边缘检测技术183.2.1.1边缘检测原理和分类183.2.1.2梯度算子边缘检测算法193.2.1.3 Canny边缘检测算法213.2.1.4几种边缘检测算法的比较223.2.2 形状特征描述233.2.2.1矩的概念及意义243.2.2.2Hu不变矩253.2.2.3边界不变矩253.2.2.4数据处理26第四章 纹理形状检索在视频管理系统中的实现274. 1 纹理算法及各参数解读274. 2 形状算法比较及试验总结294. 3 视频管理系统的框架324. 4 应用程序界面与功能简介354.4.1 管理端应用程序功能实现354.4.2 客户端
9、应用程序功能实现374.5加纹理和形状特征后的视频检索实验结果394.5.1颜色单特征检索与颜色和纹理特征相结合的检索对比394.5.2颜色单特征检索与颜色和形状特征相结合的检索对比41第五章 总结与展望455.1本文工作455.2本课题未来研究方向45第一章 绪 论1.1课题的研究背景随着信息时代的到来,海量的多媒体信息涌入了人们的工作和生活。如何在这些信息中提取自己需要的信息,逐渐成为一个人们无法回避的课题。互联网上出现的一些搜索引擎已经可以帮助人们以关键字的形式在浩瀚的网络信息海洋中浏览特定的信息,然而在检索多媒体信息,尤其是视频信息方面,国内外现有的原型系统依然还有待完善。自张宏江博士
10、于1993年第一次提出了“基于内容的图像查询和视频检索方法1”以来,前人已经作了大量的工作,大都按照1中所提出的基本方法展开研究。该方法只需分析视频的序列结构,按帧的内容变化程度区分视频的变化。这套多媒体检索和查询方法不但可以对视频内容进行实时分析,而且实现了视频与音频的快速集成这一重大突破,建立了现代视频检索和内容查询的基本框架,也为视频信息的管理系统的研究和开发奠定了良好的基础。在经历了十多年电脑和软件技术的飞速发展后,基于内容的多媒体信息管理的工作如今主要集中在识别和描述图像的颜色、纹理、形状和空间关系上,对于视频数据,还有视频分割、关键帧提取、场景变换探测以及故事情节重构问题。可见,它
11、已经发展成为一门涉及面很广的交叉学科,融合了图像处理、模式识别、计算机视觉、人工智能、人机交互、信息检索等技术。由于基于内容的检索有着广泛的需要,并有着较好的市场前景,为适应这种需要,国际标准化组织(ISO)在制定MPEG-1、MPEG-2及MPEG-4的标准基础上又推出了一种新的标准MPEG-7。 MPEG-7标准的正式名称为“多媒体内容描述接口”(Multimedia Content Description Interface)。MPEG-7标准对各种不同类型的多媒体信息进行标准化描述,并将该描述与所描述的内容相联系,以实现快速有效的搜索。MPEG-7既不同于基于波形和基于压缩的表示方式如
12、MPEG-1和MPEG-2,又不同于基于对象的表示方式如MPEG-4。MPEG-7目的是对视音频信息进行描述,而不考虑信息的存储、编码、传输、显示等技术。它涉及广泛的媒介类型:静止画面、图形、三位模型、音频、话音、视频以及它们的结合(如多媒体)。MPEG-7数据流可以是MPEG-4数据流、录像带、CD中的音乐、声音或语音、打印图像和网络上的交互式多媒体装置。它的重点在于提供一种新的视音频描述方法,这样它的处理对象不再是纯文本,但除了视音频信息还要包括文本内容,因而支持其它标准组织提出的纯文本方法。所以需要为视音频内容的描述和文本内容的描述提供了合适的、必要的接口。MPEG-7专家组的工作计划是
13、,与1998年10月开始对外征集提议,1999年12月提出了工作草案,2000年10月提出委员会草案,2001年2月提出最终委员会草案,2001年7月提出国际标准草案,2001年9月提出正式的国际标准。随着MPEG-7标准制订的完成,多媒体信息处理研究的前沿已从编码(MPEG-1,MPEG-2,MPEG-4)转移到自动识别。目前,基于内容的图像/视频检索研究已成为多媒体领域的热点,国际上越来越多的专家和研究机构投入到这项工作中来。例如IBM的QBIC方案2,哥伦比亚大学开发的VisualSeek和MetaSeek3以及MIT媒体实验室采用交互学习的思想开发出PHOTOBOOK图像检索系统4等等
14、。图1.1提供了一个抽象的MPEG7流程,将会有助于解释MPEG7所关注的主要问题。这一流程包括了特征提取(分析)、内容描述、搜索引擎(应用程序)三个部分,特征提取和搜索引擎并不包括在标准之中,其原因一是为了促使各公司和研究所间的竞争;二是为以后各种新技术的发展留下余地。MPEG7和其它MPEG标准一样遵循同一原则:即它只规定最后的数据格式,而不管采用何种方法获得这些数据格式。MPEG7只规定了信息内容描述格式,而不规定如何从原始的多媒体资料中提取内容描述的方法。如何有效利用MPEG-7标准所综合规定的描述符及描述方案进行图像/视频的检索,目前还很不成熟,这是一个值得研究的问题。 用户媒体数据
15、特征提取内容描述搜索引擎MPEG-7的范围图1.1 MPEG-7的范围1.2课题的研究内容及成果本文所做研究主要涉及了视频信息管理和基于内容图像检索两大块。前人已经按照MPEG-7规定的标准描述接口实现了一个具有初步检索功能的视频信息管理系统,客户可以通过文本描述和颜色直方图进行视频检索。本文要做的就是通过添加纹理和形状特征检索使得该系统功能更加强大。为了达到这个目的,笔者首先对现有的视频管理系统进行了深入的了解,然后分别对纹理和形状特征提取和检索算法进行研究、分析和比较,选定了适合我们现有视频库的算法,并把算法进行优化,最后将优化的算法加入到视频信息管理系统中,将完善后的系统检索效果与加入纹
16、理形状检索之前相比较,得出最后的实验结论。为了更好地进行实验,我们更新了原有的视频数据库,将原有的300多段MPEG-1和MPEG-2视频扩充到500段,其中包括新闻、广告、体育、戏曲、影视、音乐、风景等七大类。库中的视频有的是数字Beta播出带上载而来,有的则是通过电视采集卡采集,它们的视频质量参差不齐,因此针对这个视频库得出的实验结果适用面将更加广。本课题最终将一个融入了纹理和形状特征检索的比较完善的视频管理系统呈现在大家面前,并通过大量的实验数据验证了它的检索性能更优于原有的系统。第二章 基于内容的视频检索技术21 基于内容的视频检索概述基于内容的视频检索(Content-Based V
17、isual Retrieval,简称CBVR)就是从多媒体数据中提取出特定的信息线索(如颜色、纹理、形状,视频中的镜头、场景、镜头的运动,声音的音色、音调、响度等),然后根据这些线索从大量存储在视频数据库中的视频源中进行查找,从而检索出具有相似特征的视频数据。基于内容的视频检索的应用使人们可以方便地访问数字图书馆、进行视频点播(VOD)、远程教学和网上购物等。因此,基于内容的视频检索具有极大的实用价值和广阔的商业前景。 基于内容的视频检索提供了这样一种算法:在没有人工参与的情况下,自动提取并描述视频的特征和内容。这是一门交叉学科,以图像处理、模式识别、计算机视觉、图像理解等领域的知识为基础,从
18、认知科学、人工智能、数据库管理系统以及人机交互、信息检索等领域,引入新的媒体数据表示和数据模型,从而设计出可靠的系统。它的系统流程如图2.1。目前,基于内容的视频检索研究,除了识别和描述图像的颜色、纹理、形状和空间关系外,主要的研究集中在视频分割、特征提取和描述、关键帧提取和聚类以及结构分析等方面。基于内容的检索有如下特点:1、 直接从媒体内容中提取信息线索。基于内容的检索突破了传统的基于表达式检索的局限;直接对图像、视频、音频进行分析,抽取特征,并利用这些内容特征建立索引进行检索。2、 基于内容的检索是一种近似匹配,在检索的过程中,它采用相似性匹配的方法逐步求精来获得查询的结果,即查询是一个
19、迭代过程,不断减小查询结果的范围,直到定位到目标。这一点与常规数据库检索的精确匹配方法有明显不同。3、 特种抽取和索引建立可由计算机自动实现,避免了人工描述的主观性,也大大减少了工作量。 视频视频分割关键帧提取运动分析特征提取视 频片断摘 要视频片断注释视频片断数据库离线在线用户视频浏览视频片断分割关键帧提取运动分析特征提取视频片断查询图2.1基于内容的视频检索系统结构图对视频流建立层次表示后,就可以对视频流进行快速查询和检索,从用户角度看,视频的查询类型可以有:1 用户希望找到曾经看过的某个视频片断;2 用户希望寻找以前从未看过的某个视频片断;3 用户只有一些含混不清的想法。理想情况下,视频
20、数据库系统应该提供上述三种不同类型的查询。为实现上述目标,必须在查询和快速搜索过程中充分利用有关视频的各种表示信息。22 基于内容的视频检索的关键技术和研究现状2.2.1基于内容的视频检索的关键技术基于内容的视频检索技术是新兴的研究领域,主要目的是从视频的数据内部查找线索以供查询,其中的许多关键技术目前仍未很好的解决。(1) 镜头边界检测镜头分割是基于内容的视频检索系统的第一步,能否准确的检测出镜头边界,直接关系到以后的处理,所以镜头分割有必要进行重点的研究。基于压缩域的镜头转换算法已经被提出来,但是,许多算法需要进行阈值的设定。镜头分割的通常算法中阈值的选取是一难点,由于不同视频具有不同的特
21、征值,若用固定的阈值去分割成段不具有智能性,必然会造成漏检、多检或误检,从而造成使用的局限性。因此需要自适应的阈值选取法,通过对一段视频自动选择适合该视频自身特征值的阈值,来分割视频片断,得到最佳的镜头边界转换帧,从而达到很高的精确检测度。目前,自动选取阈值来实现镜头边界转换的算法非常少还不成熟,仍在探索阶段。(2) 关键帧提取关键帧是用于描述一个镜头的代表图像帧,它反映一个镜头的主要内容。对于一段较长的视频,镜头非常多,浏览起来不方便。而我们将视频流分割成镜头,需要在其中找出一幅或几幅关键帧来代表此镜头的内容。关键帧的选取一方面要能够反映镜头的主要内容,因此其描述应尽可能的准确;另一方面为便
22、于管理,数据量应尽量的小,且计算不宜复杂。(3) 镜头聚类镜头聚类是研究镜头间的关系,把内容相近的镜头组合起来,形成场景关键帧。根据聚类的目的的不同,视频聚类可分为两类:一类是把同属于一个场景的镜头进行聚类,以形成层次型的视频结构场景,此种聚类不但要考虑镜头内容的相似性,还要考虑时间上的连续性;另一类是对视频进行分类,只考虑特征相似性,而不考虑时间的连续性。根据镜头的重复程度,分为对话型、动作型和其他类型3类。(4) 特征提取视频具有各种视觉和听觉特征以及其他时间和空间关系,对于同一种特征,有不同的描述方法,比如颜色特征,有直方图、颜色距、主颜色等多种特征描述法。综合利用多种特征,并调用合适的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 硕士学位 论文 基于 纹理 形状 检索 视频 信息管理 系统 研究 实现
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-4029946.html