计算机视觉概述.ppt
计算机视觉 Computer Vision,关于课程,许多会议论文集和许多学术期刊都反映了该领域的最新进展。比如:Int.Conf.on Computer Vision and Pattern Recognition(CVPR);Int.Conf.on Computer Vision(ICCV);Int.Conf.on Pattern Recognition(ICPR);European Conf.on Computer Vision(ECCV);Asian Conf.on Computer Vision(ACCV);还有许多学术期刊也包含了这一领域的最新研究成果,如:IEEE Trans.on Pattern Analysis and Machine Intelligence(PAMI);Int.J on Computer Vision(IJCV);Image and Vision Computing;Pattern Recognition Letter;Pattern Recognition;IEEE Trans.on Image Processing.,计算机视觉发展简史,计算机视觉研究内容,计算机视觉应用状况,计算机视觉发展讨论,计算机视觉相关学科,计算机视觉研究进展,计算机视觉面临困难,计算机视觉发展简史,计算机视觉研究内容,计算机视觉应用状况,计算机视觉发展讨论,计算机视觉相关学科,计算机视觉研究进展,计算机视觉面临困难,视觉信息处理概略,计算机视觉研究,从20世纪50年代末开始,计算机开始被作为实现人类智能和人类感知的工具,借助计算机人类第一次可以象借助机械实现对体力的延伸一样实现对脑力和感知能力的延伸。对人类视觉感知能力的计算机模拟导致计算机视觉的产生。具体地讲,计算机视觉要达到的基本目的有3个:根据一幅或多幅二维图像计算出观测点到目标物体的距离;根据一幅或多幅二维图像计算出观测点到目标物体的运动参数;根据一幅或多幅二维图像计算出观测点到目标物体的表面物理特性。计算机视觉要达到的最终目的可简单描述为:实现对于三维景物世界的理解,即实现人的视觉系统的某些功能;或者从形式上讲,利用二维投影图像来重构三维物体的可视部分。,计算机视觉发展简史,20世纪50年代:用统计模式识别,集中在二维图像的分析和识别上如:光学字符识别、工件表面、显微图片和航空图片的分析和解释等。20世纪60年代:Roberts(1965)通过计算机程序从数字图像中提取出诸如立方体、稧状体、棱柱体等多面体的三维结构,并对物体形状及物体的空间关系进行描述。Roberts的研究开创了以理解三维场景为目的的计算机视觉的研究。Roberts对积木世界的创造性研究给人们以极大的启发,许多人相信:一旦由白色积木玩具组成的三维世界可以被理解,则可以推广到理解更复杂的三维场景。对积木世界的研究范围从边缘、角点等特征提取,到线条、平面、曲面等几何要素分析,一直到图像明暗、纹理、运动以及成象几何等,并建立了各种数据结构和推理规则。20世纪70年代,出现了一些视觉应用系统。,计算机视觉发展简史,70年代中期,麻省理工学院(MIT)人工智能(AI)实验室正式开设“机器视觉”(Machine Vision)课程。同时,MIT AI 实验室吸引了国际上许多知名学者参与机器视觉的理论、算法、系统设计的开放而轻松的研究。David Marr教授于1973年应邀在MIT AI实验室领导一个博士生为主体的研究小组,1977年提出了不同于“积木世界”分析方法的计算机视觉(Computer Vision)理论,该理论在80年代成为机器视觉研究领域中的一个十分重要的理论框架(Marr 1982)视觉计算理论。从一份刊物的名称变化可以看到计算机视觉的学科进展:1972,CGIP(计算机图形学与图像处理)创刊;1983年,改名为CVGIP(计算机视觉、图形学与图像处理);1991年,分成两个版本,分别称CVGIP-GMIP(图形模型与图像处理)和CVGIP-IU(图像理解);1995年,转成两个期刊,前者命名为GMIP(图形模型与图像处理),后者命名为CVIU(计算机视觉与图像理解)。,计算机视觉发展简史,对计算机视觉的全球性研究热潮是从20世纪80年代开始的,到了80年代中期,计算机视觉获得了蓬勃发展,新概念、新方法、新理论不断涌现。到目前为止,计算机视觉仍然是一个非常活跃的研究领域。许多会议论文集和许多学术期刊都反映了该领域的最新进展。比如:International Conference on Computer Vision and Pattern Recognition,CVPR;International Conference on Computer Vision,ICPR;International Conference on Robotics and Automation,ICRA;Workshop on Computer Vision,WCV;其它许多IEEE和SPIE等的会议。IEEE Transaction on Pattern Analysis and Machine Intelligence(PAMI);Computer Vision,Graphics,and Image Processing(CVGIP);IEEE Transaction on Image Processing;IEEE Transaction on System,Man,and Cybernetics(SMC);Machine Vision and Application;International Journal on Computer Vision(IJCV);Image and Vision Computing;Pattern Recognition;Computer Vision and Image Understanding。,计算机视觉发展简史,计算机视觉研究内容,计算机视觉应用状况,计算机视觉发展讨论,计算机视觉相关学科,计算机视觉研究进展,计算机视觉面临困难,计算机视觉研究进展,从60年代初至今,计算机视觉已经经历了近50年的研究,取得了一系列的研究成果,这使得这一领域在过去的40多年中成为AI研究中最为活跃的一部分。其主流研究分成三大阶段:阶段1:以模型世界为主要对象的视觉基本方法研究;阶段2:以计算理论为核心的视觉模型研究;阶段3:以应用为目标的计算机视觉方法。,以模型世界为主要对象的视觉方法,这个阶段以Roberts 的开创性工作为标志 三维重建1965年,Roberts(Machine perception of three-dimensional solids,1965)通过计算机程序从数字图像中提取诸如立方体、稧状体、棱柱体等多面体的三维结构,并对物体形状及物体的空间关系进行描述。在Roberts的工作中引入了三维物体与二维成像的关系,采用了一些简单的边缘特征提取方法并引入了组合线段的方法。随后,人们对积木世界进行了深入的研究,研究范围从边缘、角点等特征提取,到线条、平面、曲面等几何要素分析,到图像明暗、纹理、运动以及成象几何等,并建立了各种数据结构和推理规则。Guzman(Computer recognition of three dimensional objects in a visual scene,1968)首先引入符合处理和启发式方法;Huffman(Impossible objects as nonsense sentences,1971)、Clowes(On Seeing Thing,1971)和Waltz(Generating semantic description from drawing of scenes with shadows,1972)等对积木世界进行研究并分别解决了由线段解释景物和处理阴影等问题。,积木世界的研究反映了视觉早期研究中的一些特点,即从简化的世界出发开始研究。这些工作对视觉的发展起了促进作用,但对于稍微复杂的景物便难以奏效。主要原因在于:这一时期的工作虽然建立在三维空间关系分析的基础上,但对三维关系的分析仅仅是依靠简单的边缘线段等简单约束关系,并没有充分考虑人类或其它动物视觉系统感知三维空间关系的方式。,以模型世界为主要对象的视觉方法,以计算理论为核心的视觉模型,20世纪70年代开始,对计算机视觉的研究进入更为理性化的阶段主要出发点是:从生理学、光学和射影几何的方法出发,研究成像及其逆问题。主要集中在各种本征特性的恢复,包括三维形状、运动、光源等的恢复。在这一阶段中,以Marr为代表的一些研究者提出了以表示为核心、以算法为中间转换过程的一般性视觉处理模型。在其理论中,强调表示的重要性,并要从不同层次上去研究信息处理问题,在计算理论和算法实现上,特别强调计算机理论的重要性。在三维信息的感知方面,根据人类感知深度的不同视知觉线索提出了一系列从X恢复形状(这里X是指不同的线索)的方法。,以计算理论为核心的视觉模型,在这个阶段,有代表性的工作包括:对视知觉现象中侧抑制现象的模拟。主要是通过采用不同尺度的LoG算子实现对不同尺度边缘信息的感知。对双眼深度线索的分析导致对立体视觉的研究。对单眼深度线索的分析导致了从X恢复形状的技术的出现(这里X包括阴影、纹理、遮挡、聚焦、线条透视等)。对运动物体成像过程的研究导致光流计算以及从运动恢复结构等技术的出现。,以应用为目标的计算机视觉方法,进入20世纪90年代之后,随着关于人工智能研究的反思,在计算机视觉的研究方面也开始考虑过去的方法是否正确,理论是否有实际的意义,这一方向的研究是否具有明确的目标等一系列问题。从单纯的理论框架研究转入结合躯干运动、结合各种应用的研究。在以往的研究中生物视觉的一些重要特性没有得到足够的重视,如主动性、视觉系统中的高分辨率中央凹与外围视觉的结合等。因此,在80年代末、90年代初先后提出了主动视觉、定性视觉等新方法、新思路。利用主动视觉方法使得一些本来复杂的计算机可以得到化简,一些病态问题可以转化为良态问题,从而得到圆满的解决。基于内容的图像和视频检索(Content-Based Image and Video Retrieval,CBIVR)等视觉信息处理系统的研究既是对计算机视觉的应用继承,也对计算机视觉的研究和应用产生了影响。,计算机视觉发展简史,计算机视觉研究内容,计算机视觉应用状况,计算机视觉发展讨论,计算机视觉相关学科,计算机视觉研究进展,计算机视觉面临困难,计算机视觉应用状况,工业视觉:通过外形照片来进行外形检验及位置检验;通过X射线或超声探测获取物体内部的图像实现表面缺陷检验、内部无损探伤等;通过摄像机和相关的视觉信息处理系统,根据不同的物体选择不同颜色或性质的传输带,实现将物体从传输带上的分离并进行识别和定位,引导机器人进行抓取和操作。如工业检测、自动生产流水线、邮政自动化、计算机辅助外科手术、显微医学操作以及危险场合工作的机器人等。,用于生产线上具有简单视觉系统的工业机器人系统,计算机视觉应用状况,人机交互:让计算机可借助于人的手势动作(手语)、嘴唇动作(唇读)、躯体运动(步态)、表情测定等了解人的愿望要求而执行指令,这既符合人类的交互习惯,也可增加交互方便性和临场感等。如人脸识别、智能代理等。,人头部跟踪,视觉导航:利用两个或以上摄像机同步获取的一组图像来恢复三维场景信息,并用三维场景信息来识别目标、判别道路、确定障碍物等,实现道路的规划、自主导航、与周围环境自主交互作用;,计算机视觉应用状况,由移动机器人立体视觉系统获取的立体图像对,可用来重建场景三维信息,视觉导航:将立体图像对与运动信息组合起来可以构成满足特定任务分辨率要求的场景深度图。如巡航导弹制导、无人驾驶飞机飞行、自动行驶车辆、移动机器人、精确制导等,既可避免人参与及由此引起的危险,也可提高精度和速度。,计算机视觉应用状况,勇气号火星车,Rocky 7 火星车,虚拟现实:它可帮助人们超越人的生理极限,“亲临其境”,提高工作效率。如飞机驾驶员训练模拟、医学手术模拟、场景建模、战场环境表示等,,计算机视觉应用状况,MIT Media Lab,与虚拟生物交互的虚拟系统,计算机视觉应用状况,图像自动解释:包括放射图像、显微图像、遥感多波段图像、合成孔径雷达图像、航天航测图像等的自动判读理解。由于近年来技术的发展,图像的种类和数量飞速增长,图像的自动理解已成为解决信息膨胀问题的重要手段。安全鉴别、监视与跟踪:实现停车场监视、车辆识别、车牌号识别探测并跟踪“可疑”目标;根据面孔、眼底、指纹等图像特征识别特定人;目前人们正在研究一种面部运动参数的提取和描述,以分析人的表情及内心活动。,计算机视觉应用状况,医学图像分析:计算机视觉在医学图像诊断方面有两方面的应用:一是对图像进行增强、标记、染色等处理来帮助医生诊断疾病,并协助医生对感兴趣的区域进行定量测量和比较;二是利用专家知识系统对图像(或是一段时期内的一系列图像)进行自动分析和解释。遥感图像分析:对航空摄影图像(普通视频摄像机机理)、气象卫星图像(红外成象传感系统、合成孔径雷达)、资源卫星图像(多光谱探测器)采取不同的方法进行分析,用于气象预报、自然灾害测报、农作物和植物调查、资源生态环境检测,等。对人类视觉系统和机理、人脑心理和生理的研究等。,计算机视觉发展简史,计算机视觉研究内容,计算机视觉应用状况,计算机视觉发展讨论,计算机视觉相关学科,计算机视觉研究进展,计算机视觉面临困难,计算机视觉研究内容,1)输入设备(input device)包括成像设备和数字化设备。成象设备是指通过光学摄像机或红外、激光、超声、X射线对周围场景或物体进行探测成象,得到关于场景或物体的二维或三维数字化图像。2)低层视觉(low level)主要是对输入的原始图像进行处理。这一过程借用了大量的图像处理技术和算法,如图像滤波、图像增强、边缘检测、纹理检测、运动检测,以便从图像中抽取诸如角点、边缘、线条、边界、色彩、纹理、运动等关于场景的基本特征。,计算机视觉研究内容,3)中层视觉(middle level)主要任务是恢复场景的深度、表面法线方向、轮廓等有关场景的2.5维信息,实现的途径有立体视觉(stereo vision)、测距成像(rangefinder)、从X恢复形状(Shape from X,X=明暗、纹理、运动)系统标定、系统成像模型等研究内容一般也是在这个层次上进行的。4)高层视觉(high level)主要任务是在以物体为中心的坐标系中,在原始输入图像、图像基本特征、2.5维图的基础上,恢复物体的完整三维图,建立物体三维描述,识别三维物体并确定物体的位置和方向。,计算机视觉研究内容,5)体系结构(system architecture)在高度抽象的层次上,根据系统模型而不是根据实现设计的具体例子来研究系统的结构。体系结构研究涉及一系列相关的课题:并行结构、分层结构、信息流结构、拓扑结构以及从设计到实现的途径等等。,输入设备,底层视觉,中层视觉,高层视觉,体系结构,计算机视觉发展简史,计算机视觉面相关学科,计算机视觉应用状况,计算机视觉发展讨论,计算机视觉研究内容,计算机视觉研究进展,计算机视觉面临困难,计算机视觉与相关学科的关系,1)图像处理(image processing)图像处理通常是把一幅图像变换成另外一幅图像;计算机视觉系统把图像作为输入,产生的输出为另一种形式。图像处理在机器视觉系统早期阶段起着很大的作用。2)计算机图形学(computer graphics)通过几何基元,如线、圆和自由曲面等,来生成图像,属于图像综合;计算机视觉正好是解决相反的问题,即从图像中估计几何基元和其它特征,属于图像分析。可视化和虚拟现实把两个领域紧密地联系在一起。3)模式识别(pattern recognition)研究分类问题,确定符号、图画、物体等输入对象的类别。强调一类事物区别于其它事物所具有的共同特征。一般不关心三维世界的恢复问题。模式识别方法是计算机视觉识别物体的重要基础之一。,3)人工智能(Artificial Intelligence)涉及到智能系统的设计和智能计算的研究。计算机视觉在经过图像处理和图像特征提取过程后,接下来要用人工智能方法对场景特征进行表示,并分析和理解场景。计算机视觉被视为人工智能的一个分支。4)人工神经网络(Arificial Neural Networks)一种信息处理系统,它是由大量简单的处理单元通过具有强度的连接相互联系起来,实现并行分布式处理。可以实现类似人的学习、归纳和分类等功能。作为一种方法和机制将用于解决计算机视觉中许多问题。5)认知科学与神经科学(Cognitive science and Neuroscience)将人类视觉作为主要的研究对象。计算机视觉中已有的许多方法与人类视觉极为相似。许多计算机视觉研究者对研究人类视觉计算模型比研究计算机视觉系统更感兴趣,希望计算机视觉更加自然化,更加接近生物视觉。,计算机视觉与相关学科的关系,计算机视觉发展简史,计算机视觉面临困难,计算机视觉应用状况,计算机视觉发展讨论,计算机视觉研究内容,计算机视觉研究进展,计算机视觉相关学科,计算机视觉面临的困难,计算机识别和理解周围场景一件十分困难的事情。主要体现在:图像多义性:不同形状的三维物体投影在图像平面上产生相同图像。在不同视角获取同一物体的图像也会有很大差异。,不同形状的三维物体投影在图像平面上产生相同图像,计算机视觉面临的困难,计算机识别和理解周围场景一件十分困难的事情。主要体现在:知识导引:同样的图像在不同的知识导引下,将会产生不同的识别结果。,中间图像既与左边图像相似,又与右边图像相似,几个立方体构成的多义性图像,计算机视觉面临的困难,计算机识别和理解周围场景一件十分困难的事情。主要体现在:环境因素影响:场景中受诸多因素影响,任一因素发生变化都会对图像产生影响。大量数据:灰度、彩色和深度图像的信息量十分巨大,序列图像数据量更大。巨大的数据量需要巨大的存储空间,同时不易实现快速处理。,计算机视觉发展简史,计算机视觉发展讨论,计算机视觉应用状况,计算机视觉相关学科,计算机视觉研究内容,计算机视觉研究进展,计算机视觉面临困难,计算机视觉发展讨论,为解决视觉面临问题,研究者不断寻求新的途径和手段:比如:主动视觉,面向任务的视觉,基于知识、基于模型的视觉以及多传感器信息融合和集成视觉等方法。越来越重视对知识的应用:计算机视觉系统的最大特征是在视觉的各个阶段尽可能地进行自动运算,为此,系统需要使用各种知识,包括特征模型、成象模型、物体模型和物体间的关系等。合理使用知识不仅可以有效地提高系统的适应性和鲁棒性,而且可以解决计算机视觉中较难的问题。,计算机视觉发展讨论,计算机视觉是引起人们极大兴趣的前沿研究领域,又是一门涉及面很广且尚未完全成熟的学科。计算机视觉一个重要目标是:建立可广泛使用的视觉信息处理系统来完成各种视觉任务;近年来计算机视觉实用化硕果累累。例如:基于内容的图像检索系统、智能监视系统、视觉引导的智能交通系统、手写体字符/人脸/指纹/虹膜识别系统等。然而,有关理论研究并没有取得突破性进展。,多信息融合/输入,人类对客观世界的各种感知是大脑与多个感官综合作用的结果。人类视觉感知过程不仅充分利用眼睛观察场景所获得的视觉信息,而且还结合其它感官所获得的各种信息(如听觉、触觉和嗅觉等),由大脑综合,进行分析判断,而达到对场景的识别和理解。计算机视觉研究中仅仅利用理想环境下静止的和瞬间的视觉信息获取作为输入远不能满足认识复杂客观世界的要求。如果能将计算机视觉、计算机听觉、计算机触觉和计算机嗅觉等有机地结合起来,将多种信息融合起来,则有可能突破上述信息获取方法的局限性。融合不仅包含多传感器融合,而且还要考虑系统内部各信息通道的融合,系统模块及其采用方法的融合等。如:利用语音信息帮助检测视频镜头等;利用视觉信息帮助语音识别(如根据嘴唇运动来辩识发音)的研究工作。信息融合对解决复杂的从X恢复形状问题将提供有力的工具。,初级视觉,初级视觉是光学成象问题的逆问题,它由一系列能从二维光强度阵列恢复三维可见表面物理性质的处理过程组成。已研究出一些专用算法,如:立体视觉匹配、从明暗推出形状、从运动恢复结构、物体表面重建等问题。视觉过程必须根据自然约束条件,即关于客观世界的假设,才能获得明确输出。计算机视觉系统输入的是图像,即数字阵列,而在数字阵列中每个元素只有一个值,它是各种引起强度变化的因素综合作用的结果,所以,从强度求形状相当于从一个值倒推影响它的多个因素,解题条件不够。三维世界投影成二维图像过程中三维信息有很多损失,导致病态问题产生。大多数初级视觉问题(如边缘检测、立体匹配、形状恢复)的共同点是可以表示为不适定问题。体现了约束条件的重要性,反映了初级视觉是光学成象逆问题这个定义。求解不适定问题的主要思路是通过引入适当的约束或先验知识来限制合适解的集合。这种方法有可能为解决初级视觉的大部分问题提供一个框架。,主动视觉,主动视觉是指观察者以确定的或不定的方式运动,或转动眼睛来跟踪环境中的目标物体,从而感知世界的技术和方法。观察者的运动为研究目标的形状、距离和运动提供了附加条件。研究发现:有些对于被动观察者是病态结构的问题,对于主动观察者则变成良好结构的问题,而有些不稳定问题变成稳定问题。这是一个有前途的解决病态结构问题的研究方向。对主动视觉系统,结合注视(Attention Of Focus)机制,可将某些不适定问题转化为适定问题。在已知摄像机运动参数时,非线性问题可转化为线性问题。主动视觉系统可控制摄像机做规定动作,所以可根据场景和环境情况,改变观察角度,或利用视觉处理的中间结果,调整摄像机观察范围和精度。选择注意(Selective Attention)、注视控制(Gaze Control)、学习能力是目前比较时髦的课题,完整三维场景重建,图像处理中的三维投影重建是:利用X射线、超声波等手段在三维几何体中按一定分辨率的要求获取横截面投影集合来重新构成物体的三维图像。计算机视觉中的三维重建是:将视觉看成是成像过程的逆过程,它是指根据从一个景物的一到多幅图像定量地恢复景物中三维物体的形状和位置。反求工程或者逆向工程(Reverse Engineering)。病态问题。从X中恢复形状只是针对景物表面“可见”部分。如果要恢复景物表面完整的信息,一般需要先获得从各个方向对场景的图像并进行场景重建。这是一个复杂的过程,一个研究方向是基于图像的绘制(Image based Rendering)。“三维重建”是以Marr为首的主流派在70年代初为计算机视觉提出的目标,但此后研究中出现的巨大困难使学术界对重建理论提出了质疑。,视觉是否需要三维重建?,以主动(Active)视觉、活跃(Animate)视觉、定性(Qualitative)视觉为代表的目的主义学派提出:视觉是用主动的方式控制数据的获得,以定性的方式去描述景物。主动和目的是一致的:目的提出问题,定性回答如何解决这个问题,主动指明获得数据的方法。主动使计算容易,定性使描述容易,它们一起按一定目的完成任务。视觉系统执行的任务分为两类:复杂环境中导航和从复杂场景中识别物体,这两类任务一般不需要恢复三维信息,只需在给定任务的指导下去获取有用信息。视觉是识别、联想、解释和选择过程。人类视觉只是根据物体在视网膜上的投影,按照联想去识别物体根本不是成像的逆过程,也根本不需要重建。,视觉是否需要三维重建?,实际上,视觉是否需要重建应根据视觉任务来确定的:“可见”也是一种“重建”,不是严格意义上的“三维重建”,“知识指导”在其中起着十分重要的作用。在视觉生物机理弄清之前,关于“视觉是否需要重建”问题很难有明确的结论;但许多应用确实是具有相当强的目的性。,信息流动模式,视觉系统中的各个模块可组织成对应于一系列处理阶段的若干层。信息在这些层中流动有三种可能的模式:信息自下而上流动,每一层的计算只取决于前面相邻层中产生的描述;信息自上而下流动,对图像的理解在很大程度上取决于有控制的想象;信息可以在所有方向依靠混杂的约束进行流动。目前尚需研究哪种模式最为恰当有效。许多处理是由下而上、由局部到全局进行的。领域知识常可向下渗透,直到低层。对全局性质的知觉有助于对局部性质的知觉,例如:局部处理带来的多义性。单向流动是不够的;但当允许双向流动或反馈时,如何选择和控制?视觉信息加工过程常有多输入、非线性的特点,各种交互值得重视:同一层次各模块间的交互;不同层次间的交互;视觉模块与所在实用大系统的交互;大系统与周围环境(包括人)的交互。,积木世界,积木世界景物分析是早期的视觉问题处理方法,一般认为属于人工智能范畴。这是一种把研究对象有意简化的分析方法。在积木世界里认为物体由多面体组成,其外表面为平面,物体应具有明确的表面分界线。积木世界视觉研究的主要目标是理解如何从一堆积木图像得到对景物的描述,即把出现在图像中大量的线条聚集成代表景物中各个积木的线条组。这种方法曾取得了一些实际成果,特别在一些场景比较简单,任务比较单一的场合。但学术界也对以积木世界为基础发展起来的计算机视觉进行过批判,采用积木世界代替现实世界以简化问题复杂性的方法与路线是不可行的。事实上,现实世界非常复杂,要以现有技术完成许多视觉任务都需要进行简化。关键是如何简化,简化到什么程度。,