基于视频的目标跟踪及人群密度估计方法研究硕士学位论文.docx
上海交通大学硕士学位论文基于视频的目标跟踪及人群密度估计方法研究硕士研究生:学号:导 师:申请学位:学科:控制科学与工程所 在 单 位:电子信息与电气工程学院答 辩 日 期:授予学位单位:上海交通大学Dissertation Submitted to Shanghai Jiao Tong University for the Degree of MasterRESEARCH ON VIDEO-BASED OBJECT TRACKING AND CROWD DENSITY ESTIMATIONCandidate:Zhian QieStudent ID:1120329065Supervisor:Prof.Jianxun LiAcademic Degree Applied for:Master of EngineeringSpeciality:Control science and EngineeringAffiliation:School of Electronic Information and Electrical EngineeringData of Defence:Jan. 2015Degree-Conferring-Institution:Shanghai Jiao Tong University上海交通大学学位论文原创性声明本人郑重声明:所呈交的学位论文基于视频的目标跟踪及人群密度估计方法研究,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:日期:年月日上海交通大学学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权上海交通大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密,在年解密后适用本授权书。本学位论文属于不保密。(请在以上方框内打“”)学位论文作者签名:指导教师签名:日期:年月日日期:年月日上海交通大学硕士学位论文基于视频的目标跟踪及人群密度估计方法研究摘 要近几十年随着人口的急剧增长,加上经济的快速增长使得都市化现象日益严重,在给人民生活带来便利的同时也带来了安全隐患。随着社会安全事件接连不断地发生,人们对安全的需求越来越大。随着图像处理技术的飞速发展,智能视频监控技术作为一种安防的有效手段,正越来越受到人们的重视。基于图像的目标跟踪、人群密度估计等技术是智能视频监控系统的基础问题,是更高层次的行为分析技术与行为识别技术的基础。本文针对基于图像的目标跟踪技术、人群密度估计技术进行了比较深入的研究,对前人的工作做了系统性总结,并针对一些不足做了相应改进。所做具体工作如下:1) 分析了粒子滤波跟踪算法在目标后验概率分布呈多模态时重要性重采样的无力以及过分依赖单一运动模型这两个不足,分别提出了自适应重采样算法和变结构多运动模型算法来改进粒子滤波算法,提高粒子滤波算法的准确性与稳定性。2) 针对日常应用背景的多目标跟踪问题,引入了经典的JPDA算法,指出了其量测缺乏图像信息的不足,提出了基于量测扩展思想的改进JPDA多目标算法,它是一种通用方法,可根据不同场景选择合适图像信息进行扩展。本文选取了颜色信息扩展到量测中,使其在计算关联概率矩阵时充分考虑了颜色信息,提高了关联概率的准确度,有效实现了多目标跟踪。3) 在人群密度估计方面,分析了像素统计特征与纹理特征两大经典算法各自的优缺点,并阐述了两大算法在各种密度场景下的互补性,提出了融合像素统计特征与纹理特征进行人群密度估计的算法。4) 针对每个议题,都收集了相关领域的权威测试视频库,并进行了详尽的仿真实验与实验结果分析。关键词:智能视频监控、目标跟踪、人群密度估计、粒子滤波算法RESEARCH ON VIDEO-BASED OBJECT TRACKING AND CROWD DENSITY ESTIMATIONAbstract请键入文字或网站地址,或者上传文档。Jìn j shí nián suízhe rénku de jíjù zngzhng, ji shàng jngjì de kuàisù zngzhng shdé dshì huà xiànxiàng rìyì yánzhòng, zài j rénmín shnghuó dài lái biànlì de tóngshí y dài láile nquán ynhuàn.With the rapid population growth and economic growth in recent decades, while urbanization bring convenience to peoples life but also bring security problems. While social security incidents occur more and more frequently, the demand for security monitoring is growing. Benefit to the rapid development of image processing technology, intelligent video surveillance technology, as an effective approach, has attracted more and more attention. Video-based object tracking and crowd density estimation are the fundamental technology of behavior analysis, recognition and intelligent video surveillance system. This paper systematically summarized on previous related works, and made a research on video-based object tracking and crowd density estimation technology. The details are as follows:1). This paper first points out two disadvantages of particle filtering algorithm: first, the traditional importance resampling cant handle the situation when the object posterior probability density is multi-model; second, most algorithm assume that the object motion is smooth, however, the assumption is unrealistic. This paper proposed adaptive resampling scheme and introduced variable structure multiple model estimation method to solve these problems. 2). For multi-object tracking application, we point out some disadvantages of applying JPDA algorithm into multi-object tracking:the observation just contains position information and its not suitable without applying image information in video-based tracking. To solve this problem, this paper extended the observation information by introducing image features, which improved the accuracy of the association probability matrix, and also the tracking results.3). For crowd density estimation problem, this paper first analysis advantages and disadvantages of pixel-based method and texture analysis method. After elaborated their complementary in various density level situation, this paper proposed feature fusion method, which combined pixel-based and texture feature and designed corresponding fusion strategy, to estimate crowd density more robustly. 4). For every every topic mentioned above, various authoritative video library in related fields were collected. Plentiful simulations were made and follows detailed analysis and comparison.Key Words: Intelligent video surveillance, Multi-object tracking, Crowd density estimation, Particle filter algorithm目录第一章绪论11.1 研究背景11.2 研究现状21.2.1 视频目标跟踪技术21.2.2 人群密度估计41.3 现有研究的不足61.3 本论文主要工作71.4 本论文结构安排7第二章粒子滤波跟踪算法102.1 引言102.2 目标跟踪算法回顾112.2.1 表观模型112.2.2 图像特征122.2.3 跟踪算法132.3 粒子滤波算法原理152.3.1 问题定义152.3.2 序列重要性采样(SIS)算法162.3.3 序列重要性重采样(SIR)192.3.4 算法框架212.4 粒子滤波目标跟踪算法222.4.1 运动模型222.4.2 表观模型222.4.3 跟踪算法232.5 小结24第三章基于粒子滤波的单目标跟踪算法研究253.1 引言253.1.1 常用重采样机制的不足253.1.2 常用运动模型的不足263.2 自适应重采样算法263.2.1 粒子群优化算法263.2.2 粒子群优化重采样303.2.3 自适应重采样算法313.3 变结构多模型运动估计323.3.1 LMS基本原理333.3.2 LMS-PF跟踪算法353.3.3 模式集设计353.4 实验结果与分析373.4.1 实验素材373.4.2 评价指标373.4.2 自适应重采样粒子滤波跟踪算法383.4.3 变结构多运动模型粒子滤波跟踪算法403.4.4 AR-LMS-PF433.5 小结44第四章基于量测扩展的JPDA多目标跟踪方法研究454.1 引言454.2问题定义474.3 研究现状的不足484.4 多目标跟踪算法架构484.5 JPDA算法描述494.5.1生成确认矩阵494.5.2 计算所有可行联合事件及其参数504.5.3 计算时刻所有量测的联合事件的条件概率504.5.4 计算量测与目标的关联概率504.5.5 利用卡尔曼滤波器得到目标状态估计及协方差阵514.6 基于量测扩展的JPDA多目标跟踪算法514.7 实验结果与分析524.7.1 实验素材524.7.2 评价指标534.7.3 结果分析544.8 小结59第五章基于特征融合的人群密度估计研究605.1引言605.2问题定义625.3 研究现状的不足625.4 基于特征融合的人群密度估计635.4.1 系统框架635.4.2 运动分割645.4.3 透视校正655.4.4 特征抽取665.4.5 手动标注685.4.6 回归模型695.5 实验结果与分析705.5.1 实验素材705.5.2 评价指标705.5.3 结果分析715.5.4 整合应用775.6 小结78第六章总结与展望796.1 论文总结796.2 研究展望80参考文献81致谢90攻读硕士学位期间已发表或录用的论文9173第一章绪论1.1 研究背景近年来,随着智能化设备的快速发展,人们的生活与工作方式越发趋于智能化。计算机视觉技术作为智能化中重要的组成部分,发展也十分迅猛。计算机视觉技术的目标是让机器能够像人一样“读懂”图像,理解图像。计算机视觉技术随着其高速发展,现如今已经深入渗透到了各个领域,如制造业、检验、文档分析、医疗诊断和军事等领域中。随着当今社会人们夜生活越来越丰富,安全需求也越来越大。智能视频监控技术作为一种安防的有效手段,正越来越受到人们的重视,例如智能监控系统现在已经是各公共场所安全防范措施标准配置,对于预防恶性事件或犯罪事后调查都具有重要意义1。相较于传统的靠人工判读视频内容的视频监控系统而言,正在迅速崛起的智能视频监控系统能够自动的对场景内运动对象进行提取、跟踪、识别和行为分析等方面的内容,既能减少人力成本,又能提高监控质量。智能视频监控是一门多交叉学科,多涉及人工智能及模式识别等新兴学科,是一个具有挑战性的综合性问题,而目标跟踪与人群密度估计就是其中极其重要的组成部分,它是更高层次的行为分析技术与行为识别技术的基础,具有重要的研究价值。视频目标跟踪技术除了应用在智能监控系统中,还广泛应用于民用和军事等许多领域中2。在军事领域,由于战场环境远比普通民用环境更加复杂与苛刻,对视频监视系统的要求比民用领域更高。在恶劣的战场环境下要对目标进行实时稳定可靠的跟踪是目标跟踪系统在军事上的一个重要应用。如成立于1997年的VSAM视频监控项目,主要研究自动视频理解技术。VSAM融合多种传感器,具有先进的视频分析处理技术及网络传输系统,用三维建模技术提供图形操作界面,可应用在战场等危险情况场合的监控。视频跟踪相关技术还有许多其他的民用应用领域,例如视觉人机接口的设计,涉及到对人的行为的识别,例如手势与表情等3。在运动分析领域,可应用于对运动员或运动团体的跟踪与分析,如田径中各运动员的运动姿势与速度分析,羽毛球及网球比赛中对球运动轨迹及落点的判断,足球篮球比赛中根据团队中队员的跟踪结果进行战术分析与预测等。多目标跟踪技术作为视频目标跟踪的一个重要分支具有非常广泛的应用,包括交通流量控制、车辆异常行为检测等。交通监控对于预防交通事故及事后处理具有很大价值,著名的基于VIPS的交通监控系统4能够对道路的流量及车型等具体信息进行监控和统计,除此之外还能发现简单的异常行为,比如闯红绿灯、转向错误、超速行驶等。另一方面,随着全球经济的持续复苏,人们生活水平明显提升,城市化进程不断加速,特别是在像中国、印度、巴西等发展中国家尤为明显。城市化的加速,不仅仅只是城市人口在总人口中的比例加大,同时也伴随着一系列由于人口密集而产生的矛盾。尤其是我国近年来经济高速发展加速了城市化的进程,城市人口的密集,城市的交通、生活、娱乐等公共设施经常会迎来短期的人流高峰,人群高度拥挤如果不能及时有效的得到合理的疏散容易造成重大的安全隐患。因此,在智能监控系统中如何有效的对突发人群的密度进行监控和预警,是一个很有研究价值的课题5。近年来因人群密度过高而造成的群体性伤亡事件屡见不鲜,得到了国内外研究学者的广泛关注。此外,人群密度估计和目标跟踪技术的结合可使得在跟踪人群获得运动信息的同时能获得人数信息,这对于防范密集人群聚集、规划人群流向具有重要的指导意义。1.2 研究现状1.2.1 视频目标跟踪技术视频目标跟踪作为智能视频监控系统中的基础核心技术,是为上层其他高级处理如行为分析、行为识别等技术服务的,是智能监控系统能够实时应用的关键。由于从三维世界到二维图像的投影本身存在大量信息的丢失,加上目标外观复杂的形变及繁复的运动模式,以及受到复杂背景及如天气变化等环境变化的强烈影响,图像摄取本身的图像噪声等因素印象,视频目标跟踪技术一直是一个极具挑战性问题。完整的视频目标跟踪系统包含了从目标检测、表观模型、运动模型、图像特征到定位算法等几个主要部分,各国学者从以上所述各个方面展开研究,近十年得出丰富成果。Comaniciu将Mean Shift算法应用到目标跟踪领域具有里程碑式意义6,成为了目标跟踪领域内经典算法之一。紧接着,许多研究学者提出了许多改进,例如Collins通过引入归一化因子来感知目标尺度变化7,但是由于需要费时的搜索导致计算量过大;Xianwu提出用非匀质mean shift算法来同时跟踪位置、尺度以及运动方向8;另一方面,Parameswaran从特征角度,通过结合空间信息扩展了目标直方图9。粒子滤波方法是另一经典算法,它不仅能够有效地解决视觉目标跟踪中普遍存在目标状态非线性、噪声分布非高斯性的问题,而且能够同时跟踪视觉目标多种状态变化,还对视觉平台运动状态不作要求,既适用于静止视觉平台,又适用于移动视觉平台,使其成为视觉目标跟踪算法的一个较优选择,在视觉目标跟踪研究与应用领域均受到广泛关注。围绕粒子滤波算法的研究主要集中在建议分布的选取以及重采样机制的设计两方面。例如辅助粒子滤波APF以序列重要性采样算法为基础10,但结合了当前的观测数据选择了不同的重要性密度函数,使得重要性函数更加接近真实的状态。正则粒子滤波11在重采样过程中,使用核函数代替SIR中离散粒子的加权和,使得重采样过程可以对连续函数进行采样而避免了重要性重采样中从离散粒子集中采样所带来的粒子贫化问题。近几年来,通过在线学习算法来进行跟踪的算法取得了极大进展,随着机器学习算法的深入研究,将学习算法与图像处理相结合来进行目标识别,对于某些特定目标(如人脸)已经有了很高的识别率。在许多传统经典算法中,对目标表观模型的在线学习是作为跟踪框架的重要组成部分,是用来处理目标表观变化的。传统的基于模板匹配的跟踪算法由于其固定模板而不能自适应目标模型变化,导致跟踪精度受限。基于在线学习的动态模板可以更好的处理目标的姿势及光照方面的变化。Zhou将基于EM算法的自适应表观模型嵌入粒子滤波器12,达到了更好的跟踪鲁棒性。其中一种在线学习算法是所谓的“tracking by detection”,即基于检测的跟踪。与经典跟踪算法不同的是,基于目标检测的跟踪算法充分利用了目标与背景的信息,训练出一个二分分类器将目标与背景区分开,并实时在线的更新目标表观与背景环境变化。Babenko提出多示例学习算法13,数据以含有多个示例的标记包形式呈现。多示例学习开辟了一种新的机器学习框架,和以往的学习框架不同的是,一个样本包不止一个示例,样本包和示例是一对多的对应关系。其中示例可以理解为每个训练样本的特征向量,而样本包表示其包含的这些示例所属的级别。多示例学习能处理类别样本含有大量噪声而又难以去除的分类问题,具有广泛的应用前景。对于长时间跟踪而言,Kalal提出了tracking-learning-detection 跟踪框架14。长时间跟踪的难点在于,目标消失后又再次出现时如何捕获,并继续跟踪。另一难点在于,长时跟踪意味着目标会出现不同程度的形变、尺度变化、还有环境的变化、与周围目标进行交互时引起的遮挡等不确定性情形。鉴于长时跟踪的复杂性,单纯跟踪算法或者单纯检测算法均难以达到可靠稳定的跟踪效果,TLD方法基于在线学习机制,将跟踪与检测两者能够有效结合,形成闭环体系,有效提高了长时跟踪的精准度。除MIL和TLD外还有许多优秀的在线学习算法应用于目标跟踪领域,如在线随机森林算法15等。从上述目标跟踪算法的发展可以看出,鲁棒的图像特征、完善的在线学习体系是当前研究热点,这也意味着视频目标跟踪急需解决的问题依然是应对复杂环境变化、目标形变及运动突变等情况3。1.2.2 人群密度估计1990 年之前,人群密度估计主要依靠人工估计,安保人员围在模拟监控显示设备前观察特定区域的监控画面,并及时判断人群密度情况。这种方法一直沿用了很多年,具有设备简单的优点,但存在精度差、主观性强、实时性差等缺点。要实现全天二十四小时实时监控,就必须有人一直守在显示设备前,并确保不间断的全神贯注盯着监控画面,其必将耗费巨大的人力资源,易出现纰漏,容易漏报。近二十年来,计算机视觉和数字图像处理技术的快速发展,使得这一问题得到了逐步的解决,模拟监控设备已被数字设备取代,应用最新的智能视频图像处理理论将实现人群密度的估计,以实现二十四小时全天候自动预警。由于计算机视觉技术越来越介入人们的日常生活,给人们带来了便利,基于视频图像的人群密度估计作为计算机视觉的一个重要方向,正处于快速发展阶段。人群密度估计目前主要有两种方向:密度估计与人数统计。密度估计主要针对视频中人群整体,从一个宏观角度提取相关特征参数进行研究,也称为宏观分析;而人数统计的目的是从个体角度得到精确的人数统计,也称微观分析。人群行为研究得到的有力结论是人群密度估计研究的起点。1985 年,人群密度与人群行为的关系第一次被提出16:人群密度与引发群体事件的风险呈正相关关系,论文中表示当人群密度超过1.25m2/人时,人群将会有引发群体事件的风险。这个理论给出了人群事故和人群密度间的关系,也为这之后人群密度估计研究提供了方向。1990 年在基于图像的人群密度估计研究领域出了很多优秀成果,其中具有代表性的有Davies提出的基于像素统计的人群特征提取方法17,而Marana提出了基于纹理特征提取的分析方法18。这两种方法后来成为人群密度估计研究中两大经典方法。不过上述两种方法还停留在特征水平上,也就是分析何种特征适用于人群密度估计。现在还缺少一个在特征获取环节与最终估计结果之间的数学模型,该数学模型代表着输入的特征与输出的结果之间的关系。最简单的模型是线性模型,例如认为前景图像像素数与人数呈线性关系,即可通过简单的计算前景图像在整个图像中所占的像素比来估计人群的密度。在人数较少的场景下,此方法简单易行,不过很明显的是,前景像素个数与人数呈线性关系在人群密度较高遮挡较为严重的情况下是不成立的。一个大的飞跃是使用神经网络模型分析人群密度的提出19,结果显示此方法对人群密度估计的准确率有很大的提高,并且该方法已于 2000 年在香港地铁系统中得到了应用。近年来随着机器学习算法的风靡,各种学习算法被应用到人群密度估计领域中,其中的佼佼者如训练支持向量机(SVM)回归模型或者高斯过程回归模型、或者ELM学习算法20来进行人群密度估计,均以其优良的性能得到了广泛的认可。2001年,Lin提出利用个人特征来检测行人21,进而实现人群人数的统计。此方法属于对象级分析方法,试图在复杂场景下定位个体,相对于上述回归分析方法可以提供更精确的结果(能定位到具体目标)。虽然在低密度情境下识别个体不是很难的事,在高密度情境下,严重的遮挡使得基于个体的识别统计并不理想。2008年,Shobit等提出了一种可以对特定人群情景中的事件进行建模的算法22,其为基于 KLT 跟踪的多特征点检测与跟踪的算法。为了实现快速建模,他们又进一步提出了扩展场景识别引擎(SRE)的方法,同时也增加了人群事件检测的可靠性。Chan 等人23把视频看成是不同纹理抽样的结果,并借鉴高斯模型思想,用混合高斯模型的动态纹理系统取代传统纹理分析方法。此方法可以实现对场景的粗略分类,比较适合于室外条件下大场景的粗略估计。苏航等24系统全面的分析了近年来国内外文献中有关复杂场景下视频监控中的密度估计算法,并剖析了各算法的实现及优缺点,以及未来的研究发展方向。2012年,Srivastava通过大量的实验进一步验证了特定区域内的前景像素数与通过该区域的人群人数有关25,提出了利用图像纹理特征来描述特定场景拥挤程度的比例因子,通过比例因子的大小来判断场景是否存在危险。此方法要求场景环境稳定(如光照不变)。相比国外学者,我国对于基于视频图像的人群密度估计的研究相对滞后。但是随着公共场所监控、交通场景监控等对人群密度估计需求的加大,国内高校不断在加大基于视频的人群密度估计研究的力度。北京航天航空大学很早就建立了模式识别与人工智能研究室;上海交大的图像处理与模式识别研究所近年来申请了许多有关智能视频监控研究方面的国家自然科学基金项目;电子科技大学先知视听觉实验室开发的智能视频监控系统具备遗物提醒、行人流量统计、人群密度估计、单人和多人异常行为检测等功能;上述国内高校的研究小组和实验室的视频监控研究中均涉及到了基于视频图像的人群密度估计研究,人群密度估计研究是其它人群行为研究的基础。1.3 现有研究的不足当前视觉目标跟踪算法中,粒子滤波算法能够有效处理目标状态非线性、噪声分布非高斯的问题,相比较传统确定性跟踪方法具有一定优势;且粒子滤波本身的开放性决定了它可以吸收最新的在线学习算法,来获得更加鲁棒的跟踪效果。因此粒子滤波跟踪算法一直以来都是目标跟踪领域的研究热点。粒子滤波算法的研究重点主要有两个:一是重要性采样函数的选取,二是重采样机制的设计。一种机制很难适应所有情况,一般都需要根据具体情境来选取合适的重要性采样函数及设计重采样机制。目标遮挡与分离是目标跟踪中的常见问题,也是难点问题。传统的重要性重采样机制并不适合目标出现遮挡的情形,在目标出现遮挡或干扰时会出现跟踪漂移;另一方面,良好的目标运动模型是实现目标持续跟踪的前提,然而目标的运动模型设计在粒子滤波跟踪算法中一直不受重视,是粒子滤波跟踪算法现有研究的另一大不足。在多目标跟踪方面,经典数据关联算法JPDA在雷达目标跟踪中获得极大成功,它能有效处理杂波环境下的数据关联问题。然而在视频目标跟踪领域,由于将量测限制在位置信息上,基于视频的JPDA多目标跟踪算法“有名无实”,它并没有充分利用图像中的信息。针对这个问题,本文提出将颜色信息融入量测中,使得量测同时包含位置与图像信息,使得在计算关联概率矩阵时充分考虑了颜色信息,因此提高了关联概率的准确度,从而提高了跟踪效果。人群密度估计算法在国内起步较晚,研究力度也不如视频目标跟踪。人群密度估计当前主要的研究重点在于图像特征的选取。正如同对于不同类型的目标,需要选用不同的图像特征来表征,针对不同密度级别下的人群估计,也需要选择相适宜的图像特征。现今研究的不足在于过于割裂不同特征的关系,没有看到特征之间的相关性与互补性,就如同过于看重全局估计方法与局部估计方法的差异却忽略了它们之间的共性。单一性特征对于复杂多变的场景很难做到长期稳定,特征融合研究对于人群密度估计具有重大意义。1.3 本论文主要工作本文针对粒子滤波算法中存在的上述问题展开研究,一是针对重要性重采样机制对于后验概率分布呈多模态时的处理无力,提出了结合粒子群优化思想的自适应重采样机制来处理后验概率分布多模态问题;二是将变结构多运动模型代替常用的单一化运动模型,来提高先验模型的精确度与适用范围,从而改善跟踪性能。针对JPDA多目标跟踪算法中量测信息匮乏问题,本文将目标的颜色信息融入到目标量测中,从而丰富了目标的量测信息,使得图像信息在计算量测和目标的关联概率时作出了贡献,从而提高了关联概率的准确度,能有效缓解因目标遮挡引起的量测准确性下降问题。改进后的JPDA算法能大幅度提高跟踪效果。在人群密度估计方面,现今的主流主要是基于像素统计与纹理分析等特征的回归分析方法。像素统计通过计算人群的总像素数来估计人群人数,简单直接易于实现,在低密度人群中可以获得较好的效果。而纹理分析有较好的通用性与容忍性,然而当背景复杂并且人群密度不高而呈现粗糙的纹理时,估计的误差会较大。因此,本文基于特征融合思想,结合像素统计与纹理分析特征以实现优势互补进行人群密度估计,相较于单一特征,在密度估计的精度和稳定性上都有较大提高。1.4 本论文结构安排本论文研究的是基于视频图像的目标跟踪技术与人群密度估计技术,各个研究部分之间相互联系形成统一整体,本文的研究部分及其之间的架构关系如图1-1所示。论文主要分为三个研究部分:单目标跟踪算法、多目标跟踪算法、人群密度估计算法。它们都是智能监控系统中的关键基础技术,各算法可单独使用,亦可配合使用。例如日常生活中,人们通常结伴而行,在人群密度较大的场合下,目标检测的精度下降会导致目标跟踪失误率高,然而恰恰在这种情况下更加需要知道移动人群的密度大小,以预防高密度人群的聚集导致的安全事故。本文将人群密度估计和目标跟踪互相结合互为补充,两者的结合可以在人群跟踪过程中获得人群运动信息的同时获得人数信息,这对预防人群聚集、规划人群流向等安全防范措施具有重要意义。图1-1 全文组织结构全文分为六章,每一章的主要内容如下:第一章 绪论。重点描述了本课题的研究背景及意义,调研了国内外的研究现状,同时对本论文的研究内容与实现方案也做了全面的阐述。第二章 粒子滤波跟踪算法介绍。本章回顾了近年来主流的目标跟踪算法,分析了各算法的长处与不足,确立了以粒子滤波跟踪方法作为本文的研究重点,并详细介绍了粒子滤波算法的基本原理以及其在视频跟踪中的应用。第三章 基于粒子滤波单目标跟踪算法。本章重点针对了传统粒子滤波跟踪算法对于目标概率密度呈相近多峰情况下的重采样导致跟踪失败的问题,以及依赖先验运动模型的特点,提出了相应的改进方案,并给出了相应的仿真结果与结果分析。第四章 改进JPDA的多目标跟踪算法。本章回顾了主流的多目标跟踪算法,分析了JPDA多目标跟踪算法的不足,提出了融合颜色信息的量测扩展方式,提高了关联概率准确性,改善了跟踪结果。其中详细阐述了该跟踪算法的框架与执行流程,最后给出了相应的仿真结果与结果分析。第五章 人群密度估计。本章回顾了主流的人群密度估计算法,并分析了像素统计特征与纹理相关特征各自的不足,重点提出了特征结合互补的思想,将像素统计特征与纹理相关特征进行有机结合用于人群密度估计,并详细阐述了人群密度估计算法的原理与框架,最后给出了相应的仿真结果与结果分析。第六章 总结与展望。本章对本论文的研究内容进行了总结,提出了论文的创新点,并指出了论文研究的不足点,最后对此课题研究未来的方向进行了展望。第二章粒子滤波跟踪算法2.1 引言视频目标跟踪是计算机视觉中经久不衰的研究方向,也是许多视觉应用中必须用到的关键技术。视频目标跟踪的根本目的是要从视频中提取出运动目标的轨迹、形状、位置、速度等参数,以满足其他高级分析的需求。一般来说,视频目标跟踪技术包含了目标检测、分类、跟踪等模块,一个良好的视频跟踪系统需要各模块的密切配合。由于从三维世界到二维图像的投影本身存在大量信息的丢失,加上目标外观复杂的形变及繁复的运动模式,以及受到复杂背景及如天气变化等环境变化的强烈影响,图像摄取本身的图像噪声等因素影响,使得视频目标跟踪依然是一个极具挑战性问题。本文研究场景均为静止单摄像机,该情境也是当前最为广泛使用的标准配置。在该场景下,背景是静止的或者只有微小的扰动。视频目标跟踪常见的应用领域有2:基于运动的识别:基于步态的身份识别、运动目标检测等、智能监控、视频检索、人机交互:手势识别、眼动跟踪等、交通监控、汽车导航等。虽然现今已经有许多成功的应用,视频目标跟踪到现今依然是个挑战性难题,主要是因为以下几个原因:a) 从3D世界向2D平面图像投影所造成的信息损失;b) 图像噪声:图像成像受许多因素影响,且图像成像与这些因素之间关系往往非常复杂,呈强非线性。这些因素有与周围环境相关的,如光源的角度及距离;有与摄像系统相关的,如摄像机角度及距离等;c) 复杂运动模型:现实生活中的运动目标一般不会呈单一模型特征,也就说具有一定程度的机动性。然而常用的跟踪算法一般是在目标可能出现的区域内进行搜索,所以当目标机动过强,会造成跟踪目标丢失;d) 遮挡:遮挡是目标跟踪面临的大难点之一,主要是遮挡会引起目标图像信息的丢失,且这种信息丢失呈非线性,所以容易引起跟踪失效;e) 尺度伸缩及形变:目标运动引起的尺度伸缩、目标形变会使目标在图像中的表达产生非线性变化,合理处理尺度变化和形状变化一直是视频目标跟踪研究的重点;f) 场景光照变化:目标的图像成像受目标与光源的相对位置、光源本身的强弱等因素影响,然而室外天气变幻莫测,因此在很多实际系统中对光照变化必须具有一定鲁棒性;g) 实时处理要求;下一小节将要对目标跟踪领域有代表性的算法进行回顾与分析,并分析经典算法是如何处理上述难点的,为后面的研究内容打下基础。2.2 目标跟踪算法回顾目标跟踪问题可以简单的定位为:对一个目标在一个场景内的运动轨迹的估计。放在视频目标跟踪领域,一个目标跟踪器需要在不同视频帧中对目标给出一致的标记,且另外需提供目标信息,如运动方向、所在区域、目标形状等。在目标跟踪算法中,目标建模策略和目标定位策略是不可能回避的问题,也是主要研究的问题。目标建模策略是指该使用哪种目标表观模型以及该使用哪种图像特征的问题,而目标定位策略是指如何推理目标位置等信息的过程。下面根据目标建模所用的视觉特征和目标定位所用的方法对跟踪算法的研究现状进行简要介绍。2.2.1 表观模型目标跟踪的难点之一就是,要跟踪的目标种类繁多不一而足,如大海上的船、水族馆的鱼、