基于 pLSA 的人体动作识别【推荐论文】.doc
《基于 pLSA 的人体动作识别【推荐论文】.doc》由会员分享,可在线阅读,更多相关《基于 pLSA 的人体动作识别【推荐论文】.doc(11页珍藏版)》请在三一办公上搜索。
1、基于 pLSA 的人体动作识别夏利民,黄金霞,罗大庸(中南大学 信息科学与工程学院,湖南长沙 410075)5摘要:提出一种基于主题模型的人体动作识别方法。该方法首先提取时空兴趣点(STIP, space-time interest point)来描述人体运动,然后提出一种时间-梯度直方图(简称 T-HOG)算法, 该算法对空间梯度直方图(HOG,Histogram of oriented Gradients)仅能描述 STIP 3D 区域立方 体空间信息的不足进行了弥补,实现对 STIP 3D 区域立方体时间方向变化信息的量化表示, 最后使用概率潜在语义分析 (pLSA, probabili
2、stic Latent Semantic Analysis) 模型识别人体动10作。同时,针对 pLSA 隐性主题正确性无法保证的缺点,算法将主题与动作标签“一对一” 相关,通过监督方式得到主题,保证了训练中主题的正确性。该算法在 KTH 人体运动数据库和 Weizmann 人体动作数据库进行了训练与测试,动作识别结果正确率在 91.50%以上。关键词:主题模型;动作识别;时空兴趣点;梯度直方图;隐形主题中图分类号:TP391.41315Human action recognition based on pLSAXIA Limin, HUANG Jinxia, LUO Dayong(Schoo
3、l of Information Science and Engineering, Central South University, ChangSha, 410075)Abstract: IA human action recognition method based on a probabilistic topic model is proposed.20Firstly, the method extracts space-time interest points to describe human motion, then presents the histogram of orient
4、ed gradients in time direction (shorted for T-HOG) to quantify the STIP surrounding3D volume patch, which makes up the shortage of the spatial histogram of oriented gradients(HOG) that only reflects the spatial information. Lastly human actions are recognized by probabilistic latent semantic analysi
5、s (pLSA). For solving the problem of latent topics that are not guaranteed in pLSA, the25topics obtained in supervised fashion correspond to action labels one by one. Action recognition results were presented on KTH human motion data set and Weizmann human action data set. Our results showthat the r
6、ecognition rate of the algorithm is more than 91.50%.Key words: topic model; action recognition; space-time interest points; HOG; latent topic300引言近年来,高层视觉研究的发展为人体动作识别提供技术动力,人体动作识别已经成为计 算机领域中备受关注的前沿方向之一。其应用范围包括:机场监控、保安系统、病护监控、 人机交互、运动与娱乐分析等。但由于存在背景杂乱、摄像机运动、遮挡、物体几何和光学 差异、缩放变化、低空间和时间分辨率等问题,人体动作识别技术仍然是
7、计算机视觉领域的35难点。 目前,人体动作识别都大致分为两个步骤:一是底层视频特征提取与表示;二是高层人体动作建模与识别。底层视频特征提取方面,整体运动特征和局部运动特征被广泛应用于动 作识别,如人体形状和外貌特征、关节点轨迹、局部兴趣点信息及光学流等。如 Boblik 和 Divis 提出 MHI(Motion history image)学习和识别不同的人体动作,Gao 和 Qia 通过检测40和跟踪人体躯干、腿和手臂等特定部位描述学习人体动作。整体特征能够在语义水平上较好基金项目:国家教育部博士点基金项目(20090162110057)作者简介:夏利民(1963-),男,博士生导师,研究
8、方向为图像处理与模式识别、计算机视觉通信联系人:罗大庸(1944-),男,博士生导师,研究领域控制科学与控制工程,发表 100 多篇学术论文. E-mail:dyluo地分析人体动作。但这些整体特征的致命缺陷是高度依赖人体部位的跟踪,如果出现遮挡或环境变化复杂等因素将无法得到完整的运动信息。在高层动作建模与识别方面,动作模型主 要有隐马尔可夫模型(hidden Markov models,HMM) 、动态贝叶斯网络(dynamic Bayesian networks,DBN) 等复杂概率模型,如 Yamato 等人使用 HMM 识别停车场泊车行为和45Aggarwal 应用 DBN 识别两个人
9、交互姿势。然而,HMM 和 DBN 等状态模型的不足是需要 引入大量假设、约束条件,同时需要设置许多参数。针对以上问题,本文提出使用时空兴趣点描述人体运动,使用 pLSA 隐性主题模型识别 人体动作。STIP 能检测空间方向和时间方向上人体动作状态的变化。相对于全局运动描述, 时空兴趣点具有较好的旋转、平移和缩放等不变性,可有效降低复杂背景、人体形状和相机50等带来的影响。甚至,在出现部分遮挡和在杂乱的背景条件下,STIP 仍能比较稳定和有效 地描述识别人体动作。提取的 STIP 区域立方体,本文使用梯度立方图量化表示。而空间梯 度直方图只能对 STIP 区域立方体进行空间描述,而不能对 ST
10、IP 区域立方体时间方向变化 信息进行描述。因此,本文提出时间-空间梯度直方图(简称 T-HOG),T-HOG 在时间方向 上对特征区域进行梯度差计算,并量化梯度差大小及方向。文中,空间 HOG 描述 STIP 3D55区域立方体空间信息,T-HOG 描述 STIP 区域立方体表示时间方向变化信息。在高层动作建 模和识别方面, pLSA 主题模型无须引入大量假设和约束条件,它以主题作为隐性变量,通过边缘化结构得到主题,并使用 EM 算法估计参数。但是,通过边缘化结构得到的主题个 数与正确性都无法保证。而主题与动作类别相关,导致动作类别个数与正确性无法保证。针 对以上 pLSA 的缺点,本文将主
11、题与动作标签的“一对一”相关。在训练中,主题通过有监60督方法得到并将主题与动作标签一一对应。得到的主题与词的概率结构,使用 EM 算法得到 动作视频的动作向量。本文的动作识别框架如图 1 所示,首先提取 STIP 检测视频动作的局部时空特征,提出 T-HOG 及梯度直方图对 STIP 空间块进行量化描述,然后对数据库视频进行训练估计 pLSA 模型参数并对未知视频进行动作识别。本文提出的 T-HOG 能够保留 STIP 的时间方向变化65信息,同时 HOG 描述 STIP 的空间信息,使用一个特征向量表示量化 STIP 空间块有效降低 特征空间维。模型训练中,将主题与动作标签“一对一”相关并
12、通过监督得到主题,克服了 隐性主题模型主题无法保证造成的错误。通过与无监督的 pLSA、LDA ( Latent Dirichletallocation)等对比试验,证明本算法能够有效地识别人体动作。701视频局部特征表示图 1 本文算法流程图Fig. 1 The flow chart of this algorithm.本文使用 Laptev1提出的时空兴趣点检测算子提取时间和空间上梯度变化大的像素点。 在检测得到的 STIP 邻近区域,提取 3D 空间立方体,并使用该立方体表示兴趣点处的特征。75Thi2使用 HOG 和 HOF(Histograms of Optical Flow), 描
13、述及量化时空兴趣点立方体。然而, 空间 HOG 仅能描述兴趣点立方体的空间信息,无法表示立方体在时间上变化。HOF 能描述 人体运动时间变化,但光学流需要匹配多帧图像中的像素点来计算视频的像素变化矢量,该 方法计算复杂,进行精确与实时检测时需要专门的硬件设备。本文使用 HOG 及 T-HOG 同 时描述量化时空兴趣点立方体,T-HOG 在时间方向上对特征区域进行梯度差计算,计算简80单并能在反映兴趣点区域的时间方向上变化。1.1时空兴趣点(STIP)检测STIP 是视频中空间和时间上梯度变化显著的像素点,本文通过搜索形状及运动梯度变 化大的像素进行检测。STIP1是 Harris 角点检测算在
14、空间-时间上的扩展,能够检测出视频85在空间方向和时间方向上的变化,STIP 的检测过程如下。l l假设 f (x, y,t) 为一图像,其中( x, y )表示像素的空间坐标,t 表示图像的时间坐标。文中使 用时空参数可分离的高斯函数 g(; 2 , 2 ) (以下将 (x,y,t ) 简化为 () )与图像 f 卷积构建线性多尺度空间 L,并将 L 作为视频数据的特征模型,L 计算公式如下:L(x,y,t; 2 , 2 )=g(x,y,t; 2 , 2 ) f ( x, y, t ),l l l l(1)90其中*表示卷积算子, 2 和 2 分别表示独立空间尺度变量和独立时间尺度变量,高斯
15、函l l数定义为:g(x,y,t; 2 , 2 )=1 exp ( (x 2 + y2 ) 2 2 t 2 2 2 ).(2)(2 )3 4 2l l l ll li i使用多尺度空间 L 与高斯权重函数 g(; 2 , 2 ) 卷积构建时空二阶矩矩阵 检测时空兴趣点, 计算公式:95 (; 2 , 2 )=g(; 2 , 2 ) (L(; 2 , 2 )(L(; 2 , 2 )T )(3)式中 2 = s 2 , 2 = s 2 ,L(; 2 , 2 ) 为尺度空间函数 L 分别在 x、y、t 方向上的一阶导数,各i l i l l l分量 Lx、Lx、Lx 计算公式如下:lliillllx
16、 l l xL (; 2 , 2 ) = ( g f ),y l l yL (; 2 , 2 ) = ( g f ),t l l tL (; 2 , 2 ) = ( g f ).即 L 在各个方向上梯度矩阵为: L2L L L L (4)x x y x tL(; 2 , 2 )(L(; 2 , 2 )T = L L L2L L ,100l l l l x y y y t (5) L L L L L2 x t y t t 要检测时空兴趣点,首先要搜索时空兴趣点所在的区域。文中通过搜索图像 f 中二阶矩 矩阵 具有显著特征值区域检测时空兴趣点位置。与 Harris 角点检测算相似,文中使用阈值 函
17、数 H 检测局部极大值空间点并将极大值点作为时空兴趣点。阈值函数定义如下:H = det( ) k trace3 ( ).(6)105设 1、2、3(123)为二阶矩矩阵 的特征值,即阈值函数 H 为:1 2 3123H = k ( + + )3 .(7)又设 = 和 = ,即以 、 和 1 为变量的阈值函数 H 为:2 1 3 13 (3 )H = 1 k (1 + + ).(8)110115式中 k (1 + + )3 ,并且 k 的最大值为 1/27。那么,图像 f 中的时空兴趣点为 H 的正 局部时空极大值处取得,即在阈值函数 H 0 处取得,如图 2 从 Weizmann 数据库提取
18、的 STIP区域。图 2 Weizmann 数据库动作时空兴趣点区域Fig. 2 The region of STIP in Weizmann dataset.1.2特征描述将视频看作为(x, y, t)空间的立方体,利用公式(1) (2)构建视频数据多尺度空间 L,将 L梯度矩阵与高斯函数卷积(如公式(3)(5)得到时空二阶矩矩阵 ,使用阈值函数 H 检测局部极大值空间点作为视频时空兴趣点。本文提出梯度描述子 HOG 及 T-HOG 对提取的时空兴120趣点区域立方体进行描述。给定一个时空兴趣点 p,以 p 为中心提取一个 3D 立方体,立方体体积为 ( x ( l ), y ( l ),
19、( l )且 x ( l ) = y ( l ) = 18 l , t ( l ) = 8 l 。假设时空兴趣点立方体由 n 帧图像块组成,兴趣点立方体起始帧时间设为 t,即立方体图像块帧时间表示为 ft+i (i=1,2,n)。使用公式(1)和(2)对立方体图像块帧 ft+i 进行多尺度空间计算得 Lt+i。HOG:图像块帧 ft+i 中,梯度大小及方向计算公式如下:125m (x, y) =(L(x + 1, y) L(x 1, y)2 + (L(x, y + 1) L(x, y 1)2 (9)t +i ( x, y) = arctan L( x, y + 1) L( x, y 1) .L
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 推荐论文 基于 pLSA 的人体动作识别【推荐论文】 人体 动作 识别 推荐 论文
链接地址:https://www.31ppt.com/p-3019608.html