目标分割和分类研究.docx
摘要数字图像处理作业题目: 目标分割和分类研究 学号: 1020080073 姓名: 林佰柱 导师: 陈邦兴 学院: 电子与信息工程学院 专业: 通信与信息系统 联系方式: 13816151436 摘要随着现代交通迅猛发展和人民的生活水平提高,在地铁等复杂场景的客流安全成为日益重要的问题。目前,国内人群密集区域密集程度获取和人员安全等都是通过工作人员监控摄像机或者实地监控实现的。长时间的监控,容易导致工作人员身心疲惫,并严重浪费人力和物力等。本文对地铁等密集场所信息提取具有实际应用意义。得益于现代计算机技术的飞速发展,通过计算机技术来解决此问题已成为一种可能。在复杂场景下通过计算机和视频处理技术,可以获得场景中人群的密度、流量和速度等信息。该方法只需摄像头、板卡和计算机等硬件设备,维护升级方便。本文对图像密度等级分类、人脸检测和人脸跟踪技术展开深入研究,分析比较了各种算法的优缺点,并提出了多种改进算法。本文主要分为三个模块,图像密度等级分类、人脸检测和人脸跟踪。对于图像密度等级分类模块,根据单位空间人群数量,将图像分为低密度、中低密度、中等密度、中高密度和高密度五个等级。目前常采用的算法为首先对图像进行特征提取,然后神经网络对特征提取的结果进行分类。本文主要依据灰度共生矩阵(Grey Level Dependency Matrix, GLDM)来对图像进行特征提取,针对此特征提取算法不足之处,本文提出了特征提取的改进方法,并采用独立成分分析(Independence Component Analysis, ICA)聚类算法对特征结果进行聚类,再应用神经网络对聚类结果进行分类。对于人脸检测模块,主要应用AdaBoost算法对人脸进行检测,以此来达到计算流量的目的。在人脸跟踪模块,对人脸平面进行标定,并针对人脸平面标定点较少等难点,本文提出了一种对标定点要求少、简单但是准确性高的标定算法。根据人脸检测模块得到的结果,使用改进的匹配算法对人脸进行跟踪。本文主要针对地铁等复杂场景,对图像密度等级分类;通过人脸检测达到计算流量的目的;并对图像进行标定和对人脸进行跟踪来计算人群速度。大量的现场数据实验结果表明,本文所采用的算法的密度等级分类、流量统计和速度计算的准确率均达到93%以上,具有一定的实用价值。关键词:复杂场景,密度等级分类,特征提取,人脸检测,人脸跟踪II第1章 绪论本章主要介绍了课题的选题背景与实际意义,系统介绍了人群密度等级分类、人脸检测和人脸跟踪等技术的发展现状和主要难点,最后介绍本文主要工作、创新以及章节安排。1.1 研究背景在地铁等人群密集区域,当人群容量一旦超出硬件环境支持的能力和管理调度指挥的承受能力时,将有可能产生人员安全隐患。因此,如何确保人身安全,做好安全防范意识,日趋重要。智能交通系统(Intelligent Traffic Systems, ITS)是通过对现行交通进行监控和分析,并进行科学化改造与完善,所达到更和谐、更有效地运用交通来满足社会需求的方式。对地铁等密集场地视频进行有效信息提取是智能交通的一个组成部分。ITS是对通信、控制和信息处理技术在运输系统中集成应用的统称,它产生的综合效益表现为挽救生命、时间和节省金钱、降低能耗以及改善环境等。它有助于最大程度上发挥交通基础设施效能,提高交通运输系统的运行效率和服务水平,为公众提供高效、安全、便捷和舒适的出行服务。ITS这一概念始于20世纪80年代,其中最具代表性的是美国智能车辆道路系统(IVHS,1992年),欧洲高效安全交通系统计划(PROMETHEUS, 1986年),欧洲交通安全道路体系(DRIVE,1989年)和日本道路交通信息通信系统(VICS,1995年)。随着我国改革开放不断深入和国民经济快速发展,接踵而来的是交通中由于高人群密度等产生的人员安全和事故需要急待解决,因此在中国发展ITS势在必行。随着科技的不断进步,可以将视频处理技术应用在智能交通系统中。采用视频处理技术的智能交通系统由电子摄像机、图像采集卡和计算机等组成。与磁感应器等其它检测方式不同,它安装卸载方便,成本低,可以多点布设。但是它受系统软、硬件限制,受恶劣天气、灯光变化等因素影响检测准确率。尽管如此,随着图像处理技术的不断进步和硬件条件的不断改善,视频处理智能交通技术将得到深入发展和更为广泛的应用。基于视频处理技术的智能交通系统占有越来越重要的地位,是未来智能交通发展的重要方向。目前此种方法无论在室内还是室外都表现出良好的势头,只是在雨雪天、雾天等天气的系统鲁棒性上有待加强。但是无论如何,基于视频处理技术的智能交通系统已经是大势所趋,因此如何提高视频处理技术的准确率和鲁棒性等是当代智能交通发展的重要研究方面。随着ITS的不断发展,它涉及的方面越来越广,已经不仅仅局限在道路交通信息检测等,还开始涉及人的主动安全等方面,如汽车自主驾驶,地铁客流量信息检测也是其中主要方面。地铁客流量信息检测主要检测客流量密度、流量和速度等信息。它为客流人身安全提供保障,为地铁相关交通部门后续建设提供理论依据。1.2 国内外研究现状目前密度等级分类是客流量信息检测的一个重要信息量。人脸检测和人脸跟踪是目标检测和目标跟踪的重要研究方面,为客流流量和速度信息提供基础。本节对此三个部分的国内外研究现状分别进行介绍。1.2.1 密度等级研究现状在地铁等复杂场景中,人群密度等级是一个重要信息,在人群密度高于正常密度时发出警报,保障人群安全。本文所探讨的密度计算主要是根据图像单位面积内人数的多少,将图像分为密度不等的五个等级。密度等级分类主要目的在于保障人身安全,并为地铁交通相关部门规划地铁布局提供理论依据,因此密度等级分类具有重要研究价值。通过估计人群密度,可以粗略地知道人群整体所处的状态,从而对人群的行为做出判断,以利于更安全、更有效的管理人群。除了人群管理外,它还可用于:更合理地安排各个时段的在岗工作人员数;更有效地管理人群流动繁忙场合的交通。传统的人群监控靠闭路电视通过监控某一场景实现,它需要用户自身对场景图像做出判断。这种方法主观性很强,不能进行定量分析。红外传感器方法是有别于图像处理的一种方法。当红外传感器检测到人体时,可以在图像上体现出来。密度不同,表现出来的图像也不同。但是当人群密度高于中等人群密度时,经过红外传感器处理后表现出来的图像已无很大差别,不能再区分密度。现代数字图像处理技术的发展,为解决上述问题提供了途径。将图像处理、模式识别、计算机视觉等技术应用在人群监控中,可以达到对人群的自动、客观、实时和定量分析。自智能化人群监控技术提出以后,人们对其进行了广泛研究,目前已有很多算法,一些实用的系统也开始应用在地铁等场合的客流监控中。但是,基于视频处理的客流密度分析遇到了一些困难。密度等级分类的主要难点在于:(1)由于地铁人群密度高于正常密度时,很难判断人群密度具体属于哪种等级;(2)如何避免邻居类间误判也是需要急待解决的问题。基于视频处理的密度等级分类在近几年有了较大的发展,代表人物是A. N. MARANA等1,3,4。对人群密度等级分类展开深入研究,主要研究理论有两个方面,一方面根据分形算法进行客流的密度等级分类,另一方面根据图像纹理特征提取后对提取的特征向量再分类的概念进行密度等级分类。分形算法1是一种比较简单的获得人群密度的方法。分形算法可以被广泛的应用在图像处理、图像分析、视觉和模式识别中。分形维数基于尺度测量的思想,用来衡量一个几何集或自然物体不规则和破碎程度的数,是由标度关系得出的一个定量的值。分形维数用来计算图像密度等级的主要原理是不同密度等级的图像所表现的边缘图像不同,根据不同膨胀尺寸的边缘图像可以用来计算图像的分形维数。纹理是一幅图像有别于其它图像的重要特征。一般来说,纹理图像中灰度分布具有某种周期性及规律性。人在区分不同图像的密度等级时,也是根据纹理不同来区分。纹理特征应用广泛,可以用在阴影检测、卫星云图和森林监控等场景中。目前常用的计算纹理的方法主要有GLDM2,3,4、切比雪夫运动场2、直线分割5、高斯马尔科夫随机场6、傅里叶变换5和小波变换7,8等,其中前四种属于时域的纹理特征提取,傅里叶变换和小波变换是频域的纹理特征提取。经过纹理特征提取的结果需要经过分类器分类才能得到分类结果。目前比较常用的分类器有BP神经网络、支持向量机(Support Vector Machine, SVM) 8,9和自组织神经网络2等。在基于视频处理的密度等级分类算法中,如何保证高密度情况下密度等级分类的准确性是目前密度分类的一个重点和难点。1.2.2 人脸检测研究现状人脸检测是目标检测的一部分。人脸检测在视频监控中具有重要的作用,是视频安全监控中一个重要方面,为人脸识别提供基础。本文通过检测人脸来计算流量。为了计算单位时间内通过单位横截面的人数,对人脸进行检测是比较直观并且准确性高的一种方法,并且可以为后续的人脸跟踪提供基础。人脸检测一直是图像处理的一个重点和难点。人脸检测问题最初来源于人脸识别,人脸检测是自动识别系统中一个关键环节,但早期的人脸识别主要针对具有较强约束条件的人脸图像(如无背景的图像),往往假设人脸位置已知或容易获得,因此人脸检测问题并未受到重视。随着人脸检测应用场景越来越复杂,有基于内容的检索、数字视频处理和视觉检测等,由此产生的一系列需要解决的问题使得人脸检测开始作为一个独立的课题受到研究者的重视。人脸是人类具有相当复杂的细节变化的自然结构目标,此类目标的检测问题挑战性在于:(1)人脸由于外貌、表情、肤色等不同,具有模式的可变性;(2)人脸上有可能存在眼镜、胡须等附属物;(3)作为三维物体的人脸的影像不可避免地受由光照产生的阴影影响。因此,如果能够找到解决这些问题的方法,成功构造出人脸检测与跟踪系统,将为解决其它类似的复杂模式检测问题提供重要线索。目前,国内外对人脸检测问题的研究很多。国外比较著名的有MIT,CMU等;国内有清华大学、中国科学院计算技术研究所和中国科学院自动化研究所等。并且,MPEG7标准组织已经建立了人脸识别草案小组,人脸检测算法也是一项征集的内容。随着人脸检测问题研究的深入,国际上发表的有关论文数量也大幅度增长。根据肤色进行人脸检测是目前较流行的一种算法。文献14,15提出了使用颜色的方法来检测人脸。文献14使用多个神经网络分类器来分类颜色直方图,并对分类结果输入神经网络进行再分类。文献15使用RGB颜色空间来检测人脸,并对候选区域进行眼、嘴、脸型轮廓检测,达到精确检测的目的。肤色的方法简单易行,但是当非人脸区域颜色与人脸颜色相似的情况下,容易发生误检。模板匹配也是目前较流行的人脸检测算法。文献30采用双眼与人脸模板匹配的算法并引入两个分类器进行人脸检测。第一个分类器检测非人脸区域;第二个分类器对第一个分类器分类结果进行分类,检测出人脸。文献29采用肤色边缘分析和人脸模板匹配的算法检测人脸。首先采用肤色边缘分析,粗略得到肤色边缘图一;然后利用一维人脸模板匹配肤色边缘图一,进一步准确得到人脸区域,得到肤色边缘图二;最后利用二维人脸模板匹配肤色边缘图二,精确得到肤色边缘图三,即人脸边缘图。文献29采用的算法能够实时处理每帧图像,并且检测准确率达到92%。对人脸明显特征区域(眼、口、鼻等)进行检测是目前常用的人脸检测算法之一。文献31对人脸嘴唇区域进行特征提取,作为区分人脸区域与非人脸区域的方法。对人脸明显特征区域进行特征提取的算法一般作为人脸检测的辅助算法,当粗略检测出候选区域后,对候选区域进行眼口鼻特征提取,进一步准确检测。基于分割的方法也是目前常用的人脸检测方法之一。文献32使用了一种基于分割的人脸检测算法。首先分割非人脸区域和人脸区域以减少检测时间,后续步骤只需对原来图像1%区域进行人脸检测,大大缩小了检测时间。基于分类器和训练方法的人脸检测也是目前常用的一种方法。文献36,37基于AdaBoost的方法检测人脸。文献33,35采用神经网络分类器的方法检测人脸,并且在图像质量较低的情况下取得了较好的效果。文献34采用了一种基于训练的方法检测人脸,采用SVM和Kalman相结合的方法。在SVM分类出人脸的基础上,Kalman对检测出的目标进行跟踪,进一步优化结果,提高准确率。1.2.3人脸跟踪研究现状人脸跟踪是目标跟踪的主要研究方面之一。人脸跟踪是人脸检测问题的发展。人脸跟踪技术是一种具有重要应用价值的技术。它在人脸识别、视频编码、视频检索和机器人视觉等方面都有关键的作用,受到很多研究人员的重视。所谓人脸跟踪,是指在给定视频中,确定人脸的运动轨迹及其大小变化的过程。人脸跟踪技术涉及到模式识别、图像处理、计算机视觉、生理学及形态学等诸多学科。目前常见的跟踪技术大致可以分为四类:基于模型跟踪,基于运动信息跟踪,基于人脸局部模型跟踪和基于分类器跟踪。跟踪方法都是运用相关的启发性知识来限定搜索空间,以达到快速跟踪的目的。由于人脸角度和神情的改变以及目标遮挡等,导致人脸跟踪存在以下难点:(1)类似人脸目标与人脸区分问题。目前普遍存在的算法在将人脸与其它类似人脸目标分开时存在一定难度。(2)目标遮挡问题。目标部分遮挡和完全遮挡一直是目标跟踪中的重点和难点,对于人脸跟踪也是如此。在二维图像中,唯有提高算法鲁棒性增加跟踪准确率。基于模型的跟踪方法分为肤色模型、椭圆模型、纹理模型和可变形模型等。肤色是人脸最重要而且最明显的特征,人脸面部肤色特征可以用几个参数来表示,在一定光照条件下,肤色特征基本保持不变。基于肤色模型的跟踪方法27,38就是利用恰当的表色系统,把肤色作为实现人脸跟踪的关键信息。由于肤色信息具有放大和缩小以及对微小变形不敏感的优点,并且人脸相对镜头的变化对肤色信息本身的影响不大,该类方法很容易在前一帧图像分析结果的基础上跟踪到后一帧图像的人脸区域,因此具有速度快等特点。文献38采用基于肤色模型的方法。首先,人脸目标捕获和系统初始化阶段使用肤色分类和统计人脸模型匹配来找到人脸目标。然后,利用粒子滤波技术跟踪人脸运动的状态空间,最后,根据光流信息得到运动信息从而进行样本重划分。该系统较好的解决了人脸跟踪的实时性。由于绝大部分人脸轮廓近似为椭圆形状,很多研究员利用此特征建立椭圆模型来实现人脸跟踪。该特征能够在自然光照条件下取得较为满意的跟踪结果,同时对人脸在旋转、缩放和遮挡等条件下,多人脸背景下的跟踪有较强的鲁棒性。利用纹理信息和特征点之间的形状约束可以加大跟踪的准确性,但实时性有待加强。Goldenstein和Vogler39等人利用可变形模型和预测滤波器实现在劣质图像序列中跟踪三维人脸。该方法在质量较低的图像序列中提取信息有很好的鲁棒性。基于模型的方法跟踪速度快,但受模型本身的限制,一旦跟踪环境发生变化难以得到较好的处理效果。基于运动信息跟踪法25利用图像连续帧之间目标运动的连续性规律,对人脸区域进行预测以达到快速跟踪的目的。通常采用运动分割、光流和立体视觉等方法,利用时空梯度,卡尔曼滤波器进行跟踪。光流是空间运动物体被观测面上的像素点运动产生的瞬时速度场,包含了物体三维表面结构和动态行为的重要信息。一般情况下,光流由摄像机运动、场景中目标运动或者两者的运动产生。光流法的优点在于对目标在帧间的运动限制较小,可以处理较大的帧间位移;对噪声的敏感较小。缺点是稀疏光流场,导致难于提取运动目标的精确形状;特征匹配问题尚未得到较好解决。块匹配法是图像处理中最常用的方法。图像由运动的块构成,下一帧的块是经上一帧的块经过形变平移得到。标定一些人脸的特征点,利用卡尔曼滤波器等预测一个搜索窗口,在这个搜索窗口内搜索与特征点灰度分布相似的点,通过这些点确定被跟踪人脸的运动状况。块匹配法具有精度高、不依赖于具体目标模型等优点,可用于实现人头部自由运动的跟踪。基于运动能量的方法是运动检测一种常用的方法。这种方法计算简单,运算速度快,比较适合实时处理。基于人脸局部特征跟踪法的主要思想根据不同的人脸器官特征信息进行器官跟踪,这类方法经常利用眼睛、嘴和鼻子等器官特征信息进行跟踪定位。基于KLT算法的人脸特征点跟踪是目前常用的一种人脸算法。KLT算法是一种以待跟踪窗口W在视频图像帧间的灰度差平方和SSD(Sum of Squared intensity Differences, SSD)作为度量的跟踪算法。 基于分类器的人脸跟踪是目前较流行的一种跟踪方法。神经网络等分类器具备人脑思维的一些典型特征,如自组织、联想记忆、非线性、大规模并行连接等,并且具备强大的学习能力。将分类器用于人脸跟踪具有一定的优势。 第2章 目标信息提取研究现状综述本文研究的目标信息提取包括图像分类后得到的图像密度等级,人脸检测后得到的客流流量和人脸跟踪后得到的人群速度。图像分类、人脸检测和人脸跟踪均是目前视频图像处理研究的热点和难点。如何提取图像有效特征是进行图像分类和人脸检测、跟踪的基础;采用有效分类器进行特征向量分类是关键。2.1 目标特征提取方法特征提取是图像视频处理中非常重要的部分。提取的特征向量好坏,直接影响到最终结果的准确率。特征提取在图像分类、人脸检测和人脸跟踪中具有极为重要的作用,是分析和处理图像的前提。特征提取在图像视频处理的其它方面也有很重要的应用,例如目标识别等。特征提取技术包括基于文本的特征提取技术和基于视觉的特征提取两类。其中基于文本的特征包括关键字和注释等;基于视觉特征的提取技术有图像颜色提取、纹理分析、形状分析和空间关系等。视觉特征又可分为通用的视觉特征和领域相关的视觉特征。其中通用的视觉特征用于描述所有图像共有的特征,与图像的具体类型或内容无关,主要包括色彩、纹理和形状;与领域相关的视觉特征则建立在对所描述图像内容的某些先验知识或假设的基础上,与具体的应用紧密有关,例如人的面部特征或指纹特征等。基于颜色的特征提取算法是目前特征提取中广泛应用的一种算法。在一幅图像的各种特征中,颜色特征是其中最直观、最明显的特征。颜色空间按照基本结构可以分为两大类,基色颜色空间和亮、色分离颜色空间。前者的典型代表是RGB(Red Green Blue, RGB)颜色空间,还包括CMYK(Cyan Magenta Yellow Black, CMYK)等。后者包括一批色相类颜色空间,用分离的亮度和色差来描述色彩分量。色相、饱和度和亮度空间(Hue Saturation Intensity, HSI)空间也是与亮色分离颜色空间的一种。RGB颜色空间与YCbCr空间的转换公式如公式2.1所示。从RGB颜色空间到HSI颜色空间的转换公式如公式2.2所示。 (2.1)文献19,20采用颜色特征进行人脸检测和跟踪。采用颜色作为提取的图像特征时,主要应用颜色直方图作为提取的特征向量。 (2.2)基于颜色的特征提取算法对图像尺寸、方向、视角等依赖性小,鲁棒性高,计算图像间的相似性比较简单,但它不能反映图像中对象的空间特征。它描述不同色彩在整幅图像中所占的比例,而不关心其空间位置,无法描述图像中的对象。图2.1中两幅图像完全不同,但是基于颜色直方图提取的特征向量完全相同,只是基于颜色直方图无法将两幅图像区分开。并且当非目标区域具有类似目标区域的颜色分布时,只是基于颜色的特征提取算法将失效。 图2.1 颜色特征提取直方图相同基于纹理的特征提取算法在图像分类中有重要作用。纹理特征(图2.2)可以对纹理图像进行特征提取,它是一种不依赖于亮度而可反映图像中同质现象的视觉特征,包含了物体表面结构组织排列的重要信息以及它们与周围环境的联系。根据不同的分析方法,可以将纹理特征分为统计分析方法,结构分析方法和频谱分析方法。常用的纹理特征有Tamura纹理特征,自回归纹理模型,GLDM和小波变换等。图2.2列出了几组具有明显不同纹理的纹理特征图。 图2.2 纹理特征图由于边缘检测算法的限制,Tamura等21提出了Tamura纹理特征。此纹理特征的六个特征分量对应于心理学角度上纹理特征的六种属性,分别是粗糙度,对比度,方向性,线像度,规律度和粗略度。狭义上来讲,纹理即是粗糙度。当两幅图像仅大小不同时,尺寸大的图像拥有更加粗糙的纹理。图像的尺寸越大并且(或者)像素重复的越少,图像就更加粗糙。A.Rosenfeld等在Tamura之前便对粗糙度开始研究。当图像乘以一个系数变成后,图像的对比度改变。当两幅图像只有灰度像素值分布不同时,可以采用对比度加以区分。某种程度上,对比度代表着图像的质量。方向性是图像的整体性质。Bajcsy将其分为单向性和双向性。线像度与纹理图像的轮廓相关。它是上述三个纹理特征的补充。一般情况下,自然界中图像规律性不明显,拥有良好纹理的图像具有规律性。粗略度与触觉相关。文献21中选取16种不同的纹理图像,按照六种不同特征分量人为对图像进行分类,与实验结果比较,结果证实Tamura纹理特征提取算法的有效性。GLDM由R. M. Haralick等提出,可以表征图像全局特征。GLDM是第二级联条件概率密度函数。同次性、能量、熵和对比度等可以用来表征图像纹理。反应了影像灰度关于方向、相邻间隔、变化幅度等综合信息。由Harlow等理论证实具有最好的“先天性判别力”。Weszka在GLDM的基础上提出灰度差统计算法(Gray-Level Difference Statistics, GLDS),并证实其算法较GLDM简单易行并且效果优于GLDM。Laws纹理能量测量法根据单个像素及其邻域的灰度分布或某种属性作纹理测量,是典型的一阶统计分析方法。文献22选用性能最强的4个滤波模板与图像分别进行卷积,滤出水平边缘、高频点、V形状和垂直边缘等。小波分析是提取纹理特征的有效方法,它能反应出图像的低频信息和在水平、垂直和对角上的高频变化,能在一定程度上体现出不同图像纹理的差别,可以解决多特征组合的问题。Dalal,N等的HOG23也是目前常用的基于纹理的直方图特征统计算法,它们都是基于直方图进行计算,通过使用区域快速算法来提高特征提取的效率,从而降低时间耗费。基于边缘的特征提取算法对光照强度变换的敏感程度低于基于颜色的特征提取算法。常用的边缘提取算子有Canny边缘提取算子和Robert边缘提取算子等(图2.3)。有时对于特定的目标检测或跟踪,边缘特征足以将目标区分开来。但是边缘特征对于光影的变化较敏感,在树阴下、草丛等类似边缘信息极为丰富的环境中,目标的外观可能改变的场景中(目标为行人,行人穿多种颜色衣服或一种颜色衣服的情况),边缘提取会产生较多噪声,不利于特征描述。 a) 原始图像 b) Robert算子边缘图 c) Sobel算子边缘图图2.3 边缘提取图特征提取后,提取的特征向量在高维空间。将特征向量映射到低维空间是分类的过程。当特征向量维数较高时,系统处理的时间和复杂度都将提高。在分类之前有必要对数据进行降维。降维可以使同类之间的数据更加紧凑,不同类之间的数据更加分离。它抽选出最具有区分度的特征供模式分类或模式识别。降维是提高系统处理速度和准确率的一种有效手段。目前常用的降维方法有主成份分析(Principle Component Analysis, PCA)24、ICA13等。图像特征提取是进行目标分类、检测、识别和跟踪的前提。目标特征提取算法的好坏,直接影响最后准确率。不同的特征提取算法有不同的应用场景。对于目标检测、识别和跟踪来说,颜色特征提取算法是常采用的算法之一,尤其在目标跟踪中。但是除了光照等因素外,还存在其它外在因素导致目标颜色变化,一些内在因素也会导致目标颜色的变化。并且基于颜色的特征提取算法缺少目标的整体空间信息,在某些情况下,无法区分目标与非目标。在目标检测和分类中,纹理特征提取算法也是常采用的特征提取算法之一,因为目标的颜色可能改变,但是目标的整体框架没有太大的变化。有效地提取图像特征,独一无二表征目标是本文研究的重点之一。2.2 密度等级分类方法图像密度等级分类在保障客流人身安全方面有重要作用,具有实际研究意义。在密度等级较高的情况下,可以采用监控人员干预;密度等级较低的情况下,可以采用图像视频处理,对降低劳动强度亦有一定的帮助。2.2.1 常用图像分类方法密度等级分类的难点在于如何避免邻居类间的误判情况。例如,如何避免将中高密度等级分类到高密度等级或中密度等级。图2.4中给出了地铁人群低密度和高密度情况。由于摄像头架设和地铁空间布局因素,本文对图2.4中两条线内区域内进行分析。目前常采用的方法有分形维数和纹理分析等,根据图像中人数来判断图像密度等级也有人进行研究。分形维数的一个缺点在于无法对高密度等级的图像进行分类,因为高密度等级的图像的分形维数不可分。纹理分析能够很好表征图像特征,是目前最流行的一种密度等级分类算法。由于如何精确判断图像中人数本身就属于一个难题,所以根据人数来判断图像密度等级需要进一步研究。不同的图像有不同的分形维数。分形维数可以用来表征图像特征,因此分形算法可以用来对图像进行分类。二值化后的边缘图可以用来计算图像的分形维数1。对原始图像经过灰度变换后进行边缘分析,采用Robert算子计算边缘图像。Robert原理如公式2.3所示。 图2.4 地铁人群低、高密度情况 (2.3)公式2.3中像素点0经过Robert算子计算后的值如2.4所示。 (2.4)公式2.4中代表公式2.3中四个像素点的像素值。图2.5是经过Robert算子运算后的边缘图像。 图2.5边缘图边缘检测后,对边缘图进行二值化,二值化可采用OTSU10算法。OTSU方法在获得图像灰度直方图条件下,利用概率论知识,通过计算最大类间方差而得到分割门限。经过OTSU二值化算法后,得到的二值图如图2.6所示。 图2.6二值图经过不同的膨胀系数膨胀后的二值图有不同的白色像素,根据不同膨胀系数和膨胀后二值图的白色像素数之间的关系可以用来计算图像的分形维数。不同分形维数对应不同的密度等级图像。 图2.7不同膨胀系数二值图在图2.7中,第一列到第五列分别为原始图像、边缘二值图、膨胀系数为1、膨胀系数为8和膨胀系数为15的二值图。根据膨胀后的二值图,可以得出图2.8的结果。图2.8 图像分形维数在图2.8中,横坐标代表不同膨胀的系数取对数;纵坐标代表图像中白色像素点总个数取对数;拟合后的直线斜率即为图像的分形维数。图2.8中三角形特征点拟合成的直线代表高密度图像的分形维数;菱形特征点拟合成的直线为低密度图像的分形维数;正方形特征点拟合成的直线代表中高密度图像的分形维数。分形维数可以用来表征图像特征,但是当人群密集时,密度等级高的图像具有相近的分形维数,很难根据分形维数判断密度等级。根据纹理分析来进行图像密度等级分类也是目前常用的一种算法。此种方法可以归类为特征提取后应用分类器分类的算法。在2.1节介绍了目前常用的特征提取算法,其中纹理特征能够表征图像的类别,是一种比较好的特征。经过特征提取后,分类器对提取的特征进行分类。目前,较常流行的分类器有神经网络,SVM等。其中神经网络又分为BP神经网络,自组织神经网络等。自组织神经网络2是一种无教师示教的竞争式学习网络。它分为输入层和竞争层。输入层与竞争层之间实行全互连接,有时竞争层各神经元还实行侧抑制连接。自组织神经网络能将任意输入模式在竞争层映射成二维离散图形,并保持结构不变。文献2使用自组织神经网络来分类图像密度等级,以增加算法复杂度和识别时间为代价来提高准确率。SVM是一种二值分类器,在二值领域取得了较好的应用,并在小样本模式识别问题上具有特有的优势。SVM也可以用来对多模式进行分类。设需要分类的模式为,则需种SVM分类器。文献8使用SVM来分类图像密度等级,但是当需要区分较多种类时,无论是训练或分类SVM都比较繁琐。径向基神经网络与BP神经网络类似,但只有一层隐层和一个输出节点。输出节点的值是隐层各个节点输出的加权和。隐层节点的作用函数是径向基函数,输入节点到隐层节点的权值固定为1,隐层节点到输出节点间权值可调。贝叶斯分类器是一种基于概率模型的分类器。理论上讲,与其它所有分类算法相比,贝叶斯分类出错率最小,然而实践中并非总是如此。这是由于对其应用假设存在不准确性,以及缺乏可用概率数据。文献3中,采用贝叶斯分类器取得了很好的结果,但是假设每类分布概率相同。文献1,3,4采用纹理分析进行图像密度等级分类。分类器采用自组织神经网络来进行特征分类。纹理分析对高密度图像的可分情况较分形维数好。但在邻居类间误判情况较常发生,是影响准确率的主要因素。可以根据计算得出的图像中人数或者客流的流量判断密度等级。文献9根据SVM分类器来计算图像中人数,以达到计算密度的目的。但是由于流量的准确率较密度分类准确率低,直接计算图像密度等级方法准确率高。2.2.2 主要问题对于图像密度等级分类来说,主要的难点在于如何避免邻居类之间误判的情况和高密度时图像密度等级分类情况(图2.9)。目前较流行的算法均能有效的避免非邻居类之间的误判,但是邻居类之间的误判率较高,研究一种有效的算法解决此问题称为图像密度等级分类的重中之重。 a) 低密度 b) 中低密度 c) 中密度 d) 中高密度 e) 高密度图2.9 密度等级图2.3 人脸检测方法目前,人脸检测是目标检测中较为成熟的一个方面。但由于人脸检测摄像机不定,检测场景不定,受光照等外在因素和人脸附着物等内在因素影响,人脸检测也更为复杂,挑战也更大,但方法也更多。2.3.1 常用人脸检测方法目标检测分为静态背景目标检测和动态背景目标检测两部分。本文研究的人脸检测属于运动背景目标检测的范畴。本文将目前人脸检测领域常用的算法归结为以下几类40:a) 基于模板匹配的人脸检测方法 模板匹配法属于一种经典的模式识别方法。模板匹配方法易于实现,但是对于人脸检测来说,效率有限。早期的人脸检测主要以基于模板的方法为主,主要有预定义模板法和可变形模板法两种。预定义模板法根据人脸的先验知识先设计出一个标准的人脸模板,包括人脸轮廓模板和各个器官特征的子模板,然后用窗口缩放的方法对一幅输入图像进行全局搜索,对应不同尺寸的图像窗口,计算它们与人脸轮廓模板的相关系数,通过预先设定的阈值来判断该图像窗口是否包括人脸候选区域,最后利用器官特征子模板进一步检测人脸候选区域是否包含人脸。但是人脸特征变化较大,当得到固定的模板以后,也无法有效处理姿态的变化,所以后来引入了可变形模板。可变形模板定义一个人脸可变形参数模板和一个能量函数来描述人脸特征,通过线性最优化方法求得使能量函数取值最小的参数模板,此参数模板即被认为是所求人脸特征的描述。可变形模板充分考虑了人脸是个变形体的特点,较预定义模板法更加稳定可靠,而且与姿态和光照无关,缺点是存在能量函数的系数难以适应一般情况和计算量大的问题。b) 基于肤色区域分割的人脸检测方法基于肤色分割的人脸检测方法是利用人脸的颜色与其它非目标颜色不同而将人脸与非目标区分开来进行人脸检测。颜色在目标检测和跟踪中有重要的作用。对于彩色图像,在确定肤色模型后,首先进行肤色检测,在检测出肤色区域后,根据它们在色度上的相似性和空间上的相关性分割出可能的人脸区域,同时利用区域的几何特征或灰度特征进行是否是人脸的验证,以排除其它色彩类似肤色的物体。区域分割与验证在很多方法中是密切结合、统一考虑的。聚类-归并-验证策略是目前基于肤色分割的较常用的方法:首先将肤色像素按照较为严格的颜色一致性和几何约束条件聚类为区域,然后按照一定规则进行归并,归并过程中或归并后利用其它特征进行验证。Garcia41等按照色度的差异将肤色进一步量化为不同类型,将类型相同且相邻的肤色像素聚类为区域,再根据几何区域、形状和色调相容性进行归并,归并过程中利用区域的小波特征进行验证。基于颜色分割并与验证相结合的人脸检测算法有一定的适用范围,当图像分辨率不高或者当人脸的姿态(图2.10)难以满足人脸本来的对称状态或者人脸被部分遮挡时,此种人脸检测算法漏检率上升。在图2.10中,第一幅图像和第二幅图像中,人脸被其它物体遮挡;第三幅图像和第四幅图像中,人脸姿态改变,分别向左和向右旋转。第五幅图像中,人脸姿态发生改变,发生了低头的动作。图2.10中所示图像均已不满足人脸的对称特性。 图2.10 不同姿态的人脸c) 基于启发式模型的人脸检测方法基于启发式模型的方法首先抽取几何形状、灰度纹理等特征,然后检验它们是否符合人脸的先验知识。人脸区域内的各个器官具有较为恒定的模式,因此一些方法首先检测器官(如双眼、鼻子、嘴等)局部特征,然后根据它们的相对位置关系判断整个区域是否为人脸。可以使用人工神经网络将检测出的眼睛、鼻子、嘴以及人脸的整体特征及相互间的位置关系输入一个模糊神经元网络,根据其中的领域知识判断被检测的区域是否为人脸。采用局部特征检测的方法还有基于双眼检测的方法、基于概率框架的局部特征聚类方法以及结构模型、纹理模型和特征模型相结合的方法等。人脸灰度模板也可以看作是一种启发式模型。梁路宏40等使用了直接的平均脸模板匹配方法。该方法考虑到眼睛在人类辨识人脸过程中的特殊作用,使用双眼模板首先进行粗筛选,然后使用不同高宽比的人脸模板进行匹配,最后使用马赛克规则进行验证,使用的模板如图2.11所示。 图2.11双眼模板和不同高宽比的人脸模板d) 基于表象的人脸检测方法与模板匹配不同,基于表象的人脸检测模型是从一系列具有代表性脸部表观的训练图像学习而来,再将学习而成的模板用于人脸检测。现在常用的人脸检测算法均是基于表象的方法。基于表象的方法利用统计分析或机器学习技术来寻找人脸和非人脸图像的有关特性。学习而来的特性总结成分布模型或判别函数来检测人脸。基于表象的方法可以在概率论的框架中理解。特征向量可以看成随机变量,这个随机变量被分类条件密度函数和分别描述成人脸和非人脸。图像中备选的人脸或者非人脸位置可以用贝叶斯判决规则或者最大似然法来判别,将后验概率估计转化为一个似然度求解问题,如公式2.5所示。 (2.5)基于机器学习的检测是目前比较流行的一种人脸检测方法,包括基于人工神经网络和SVM等。图2.12给出了Rowley40的基于人工神经网络的人脸检测框架。目前基于人工神经网络和基于SVM等的检测方法都获得了较好的检测结果,并且基于人工神经网络和基于SVM等的方法也在人脸识别领域得到越来越广泛的研究与应用。图2.12 Rowley基于人工神经网络的人脸检测算法框架2.3.2 主要问题人脸具有相当复杂的细节变化,不同的外貌,如脸型、肤色等,不同的表情,如眼、嘴的开与闭等,甚至可能有器官的缺失。