基于 pLSA 的人体动作识别【推荐论文】.doc
基于 pLSA 的人体动作识别夏利民,黄金霞,罗大庸(中南大学 信息科学与工程学院,湖南长沙 410075)5摘要:提出一种基于主题模型的人体动作识别方法。该方法首先提取时空兴趣点(STIP, space-time interest point)来描述人体运动,然后提出一种时间-梯度直方图(简称 T-HOG)算法, 该算法对空间梯度直方图(HOG,Histogram of oriented Gradients)仅能描述 STIP 3D 区域立方 体空间信息的不足进行了弥补,实现对 STIP 3D 区域立方体时间方向变化信息的量化表示, 最后使用概率潜在语义分析 (pLSA, probabilistic Latent Semantic Analysis) 模型识别人体动10作。同时,针对 pLSA 隐性主题正确性无法保证的缺点,算法将主题与动作标签“一对一” 相关,通过监督方式得到主题,保证了训练中主题的正确性。该算法在 KTH 人体运动数据库和 Weizmann 人体动作数据库进行了训练与测试,动作识别结果正确率在 91.50%以上。关键词:主题模型;动作识别;时空兴趣点;梯度直方图;隐形主题中图分类号:TP391.41315Human action recognition based on pLSAXIA Limin, HUANG Jinxia, LUO Dayong(School of Information Science and Engineering, Central South University, ChangSha, 410075)Abstract: IA human action recognition method based on a probabilistic topic model is proposed.20Firstly, the method extracts space-time interest points to describe human motion, then presents the histogram of oriented gradients in time direction (shorted for T-HOG) to quantify the STIP surrounding3D volume patch, which makes up the shortage of the spatial histogram of oriented gradients(HOG) that only reflects the spatial information. Lastly human actions are recognized by probabilistic latent semantic analysis (pLSA). For solving the problem of latent topics that are not guaranteed in pLSA, the25topics obtained in supervised fashion correspond to action labels one by one. Action recognition results were presented on KTH human motion data set and Weizmann human action data set. Our results showthat the recognition rate of the algorithm is more than 91.50%.Key words: topic model; action recognition; space-time interest points; HOG; latent topic300引言近年来,高层视觉研究的发展为人体动作识别提供技术动力,人体动作识别已经成为计 算机领域中备受关注的前沿方向之一。其应用范围包括:机场监控、保安系统、病护监控、 人机交互、运动与娱乐分析等。但由于存在背景杂乱、摄像机运动、遮挡、物体几何和光学 差异、缩放变化、低空间和时间分辨率等问题,人体动作识别技术仍然是计算机视觉领域的35难点。 目前,人体动作识别都大致分为两个步骤:一是底层视频特征提取与表示;二是高层人体动作建模与识别。底层视频特征提取方面,整体运动特征和局部运动特征被广泛应用于动 作识别,如人体形状和外貌特征、关节点轨迹、局部兴趣点信息及光学流等。如 Boblik 和 Divis 提出 MHI(Motion history image)学习和识别不同的人体动作,Gao 和 Qia 通过检测40和跟踪人体躯干、腿和手臂等特定部位描述学习人体动作。整体特征能够在语义水平上较好基金项目:国家教育部博士点基金项目(20090162110057)作者简介:夏利民(1963-),男,博士生导师,研究方向为图像处理与模式识别、计算机视觉通信联系人:罗大庸(1944-),男,博士生导师,研究领域控制科学与控制工程,发表 100 多篇学术论文. E-mail:dyluo地分析人体动作。但这些整体特征的致命缺陷是高度依赖人体部位的跟踪,如果出现遮挡或环境变化复杂等因素将无法得到完整的运动信息。在高层动作建模与识别方面,动作模型主 要有隐马尔可夫模型(hidden Markov models,HMM) 、动态贝叶斯网络(dynamic Bayesian networks,DBN) 等复杂概率模型,如 Yamato 等人使用 HMM 识别停车场泊车行为和45Aggarwal 应用 DBN 识别两个人交互姿势。然而,HMM 和 DBN 等状态模型的不足是需要 引入大量假设、约束条件,同时需要设置许多参数。针对以上问题,本文提出使用时空兴趣点描述人体运动,使用 pLSA 隐性主题模型识别 人体动作。STIP 能检测空间方向和时间方向上人体动作状态的变化。相对于全局运动描述, 时空兴趣点具有较好的旋转、平移和缩放等不变性,可有效降低复杂背景、人体形状和相机50等带来的影响。甚至,在出现部分遮挡和在杂乱的背景条件下,STIP 仍能比较稳定和有效 地描述识别人体动作。提取的 STIP 区域立方体,本文使用梯度立方图量化表示。而空间梯 度直方图只能对 STIP 区域立方体进行空间描述,而不能对 STIP 区域立方体时间方向变化 信息进行描述。因此,本文提出时间-空间梯度直方图(简称 T-HOG),T-HOG 在时间方向 上对特征区域进行梯度差计算,并量化梯度差大小及方向。文中,空间 HOG 描述 STIP 3D55区域立方体空间信息,T-HOG 描述 STIP 区域立方体表示时间方向变化信息。在高层动作建 模和识别方面, pLSA 主题模型无须引入大量假设和约束条件,它以主题作为隐性变量,通过边缘化结构得到主题,并使用 EM 算法估计参数。但是,通过边缘化结构得到的主题个 数与正确性都无法保证。而主题与动作类别相关,导致动作类别个数与正确性无法保证。针 对以上 pLSA 的缺点,本文将主题与动作标签的“一对一”相关。在训练中,主题通过有监60督方法得到并将主题与动作标签一一对应。得到的主题与词的概率结构,使用 EM 算法得到 动作视频的动作向量。本文的动作识别框架如图 1 所示,首先提取 STIP 检测视频动作的局部时空特征,提出 T-HOG 及梯度直方图对 STIP 空间块进行量化描述,然后对数据库视频进行训练估计 pLSA 模型参数并对未知视频进行动作识别。本文提出的 T-HOG 能够保留 STIP 的时间方向变化65信息,同时 HOG 描述 STIP 的空间信息,使用一个特征向量表示量化 STIP 空间块有效降低 特征空间维。模型训练中,将主题与动作标签“一对一”相关并通过监督得到主题,克服了 隐性主题模型主题无法保证造成的错误。通过与无监督的 pLSA、LDA ( Latent Dirichletallocation)等对比试验,证明本算法能够有效地识别人体动作。701视频局部特征表示图 1 本文算法流程图Fig. 1 The flow chart of this algorithm.本文使用 Laptev1提出的时空兴趣点检测算子提取时间和空间上梯度变化大的像素点。 在检测得到的 STIP 邻近区域,提取 3D 空间立方体,并使用该立方体表示兴趣点处的特征。75Thi2使用 HOG 和 HOF(Histograms of Optical Flow), 描述及量化时空兴趣点立方体。然而, 空间 HOG 仅能描述兴趣点立方体的空间信息,无法表示立方体在时间上变化。HOF 能描述 人体运动时间变化,但光学流需要匹配多帧图像中的像素点来计算视频的像素变化矢量,该 方法计算复杂,进行精确与实时检测时需要专门的硬件设备。本文使用 HOG 及 T-HOG 同 时描述量化时空兴趣点立方体,T-HOG 在时间方向上对特征区域进行梯度差计算,计算简80单并能在反映兴趣点区域的时间方向上变化。1.1时空兴趣点(STIP)检测STIP 是视频中空间和时间上梯度变化显著的像素点,本文通过搜索形状及运动梯度变 化大的像素进行检测。STIP1是 Harris 角点检测算在空间-时间上的扩展,能够检测出视频85在空间方向和时间方向上的变化,STIP 的检测过程如下。l l假设 f (x, y,t) 为一图像,其中( x, y )表示像素的空间坐标,t 表示图像的时间坐标。文中使 用时空参数可分离的高斯函数 g(; 2 , 2 ) (以下将 (x,y,t ) 简化为 () )与图像 f 卷积构建线性多尺度空间 L,并将 L 作为视频数据的特征模型,L 计算公式如下:L(x,y,t; 2 , 2 )=g(x,y,t; 2 , 2 ) f ( x, y, t ),l l l l(1)90其中*表示卷积算子, 2 和 2 分别表示独立空间尺度变量和独立时间尺度变量,高斯函l l数定义为:g(x,y,t; 2 , 2 )=1× exp ( (x 2 + y2 ) 2 2 t 2 2 2 ).(2)(2 )3 4 2l l l ll li i使用多尺度空间 L 与高斯权重函数 g(; 2 , 2 ) 卷积构建时空二阶矩矩阵 检测时空兴趣点, 计算公式:95 (; 2 , 2 )=g(; 2 , 2 ) (L(; 2 , 2 )(L(; 2 , 2 )T )(3)式中 2 = s 2 , 2 = s 2 ,L(; 2 , 2 ) 为尺度空间函数 L 分别在 x、y、t 方向上的一阶导数,各i l i l l l分量 Lx、Lx、Lx 计算公式如下:lliillllx l l xL (; 2 , 2 ) = ( g f ),y l l yL (; 2 , 2 ) = ( g f ),t l l tL (; 2 , 2 ) = ( g f ).即 L 在各个方向上梯度矩阵为: L2L L L L (4)x x y x tL(; 2 , 2 )(L(; 2 , 2 )T = L L L2L L ,100l l l l x y y y t (5) L L L L L2 x t y t t 要检测时空兴趣点,首先要搜索时空兴趣点所在的区域。文中通过搜索图像 f 中二阶矩 矩阵 具有显著特征值区域检测时空兴趣点位置。与 Harris 角点检测算相似,文中使用阈值 函数 H 检测局部极大值空间点并将极大值点作为时空兴趣点。阈值函数定义如下:H = det( ) k trace3 ( ).(6)105设 1、2、3(123)为二阶矩矩阵 的特征值,即阈值函数 H 为:1 2 3123H = k ( + + )3 .(7)又设 = 和 = ,即以 、 和 1 为变量的阈值函数 H 为:2 1 3 13 (3 )H = 1 k (1 + + ).(8)110115式中 k (1 + + )3 ,并且 k 的最大值为 1/27。那么,图像 f 中的时空兴趣点为 H 的正 局部时空极大值处取得,即在阈值函数 H > 0 处取得,如图 2 从 Weizmann 数据库提取的 STIP区域。图 2 Weizmann 数据库动作时空兴趣点区域Fig. 2 The region of STIP in Weizmann dataset.1.2特征描述将视频看作为(x, y, t)空间的立方体,利用公式(1) (2)构建视频数据多尺度空间 L,将 L梯度矩阵与高斯函数卷积(如公式(3)(5)得到时空二阶矩矩阵 ,使用阈值函数 H 检测局部极大值空间点作为视频时空兴趣点。本文提出梯度描述子 HOG 及 T-HOG 对提取的时空兴120趣点区域立方体进行描述。给定一个时空兴趣点 p,以 p 为中心提取一个 3D 立方体,立方体体积为 ( x ( l ), y ( l ), ( l )且 x ( l ) = y ( l ) = 18 l , t ( l ) = 8 l 。假设时空兴趣点立方体由 n 帧图像块组成,兴趣点立方体起始帧时间设为 t,即立方体图像块帧时间表示为 ft+i (i=1,2,n)。使用公式(1)和(2)对立方体图像块帧 ft+i 进行多尺度空间计算得 Lt+i。HOG:图像块帧 ft+i 中,梯度大小及方向计算公式如下:125m (x, y) =(L(x + 1, y) L(x 1, y)2 + (L(x, y + 1) L(x, y 1)2 (9)t +i ( x, y) = arctan L( x, y + 1) L( x, y 1) .L( x + 1, y) L( x 1, y)(10)130135通过公式(1)、(2)、(9)和(10)得到 STIP 区域立方体各图像块帧各像素点的梯度大小及方向。 如果将得到的梯度图像块各个帧分别统计一个梯度直方图上,特征维数将会很大。因此,本 文将各图像块帧“铺平”,即将每一帧像素点的梯度向量统计在同一直方图。那么,立方体 空间方向变化信息就可以表示为一个特征向量。梯度向量的大小及方向量化使用图 3 梯度- 方向直方图 O 表示。T-HOG: 空间 HOG 将 STIP 3D 区域立方体“铺平”表示为一个特征向量,因此仅能描 述兴趣点立方体的空间信息,无法表示立方体在时间上变化。本文提出 T-HOG 描述量化时 空兴趣点立方体在时间方向上变化。本文提出的 T-HOG 在时间方向上对特征区域进行梯度 差计算,计算简单并能在反映兴趣点区域的时间变化。帧间尺度空间梯度 D 是相邻图像多尺度空间 L 差分,本文使用相邻两帧图像多尺度空间 L 差描述时空兴趣点立方体时间方向 上变化,D 如下式(11),可以简单地通过相邻的两幅图像多尺度空间 L 直接相减而得到:D( x, y, t) = L( x, y, t) L( x, y, t )帧间尺度空间梯度差分大小及方向计算公式如下:(11)140q(x,y,t ) =D( x, y, t )2 + D( x, y, t + 1)2(12) ( x, y,t) = arctan D( x, y,t +1) .D( x, y,t)(13)145150为避免公式(13)中分母帧间尺度空间梯度差分 D(x, y, t)=0,本文限定分母 D(x,y,t) ,即当分母小于阈值 时,分母取值为 。由以上所述 HOG 及 T-HOG 得到的梯度向量图及帧间尺度空间梯度差分向量图,本文 使用梯度-方向直方图 O 表示。如图 3 所示,将梯度向量大小分成 4 个 bin,方向分为 16 个 bin,梯度向量直方图一共包含 64 个 bin。对于向量大小量化,通过同一时空兴趣点立方体 最大梯度向量模作为量化最大值,并将最大值均分为 4 个等级,作为向量大小量化的 4 个 bin。对于梯度向量方向量化,如图 3 右所示,将圆按顺时针方向等大小划分成 16 个扇区, 每个扇区 22.5°作为方向量化的一个 bin。统计落在每个扇区和圆内的向量个数,形成 64bin 梯度向量直方图 O。得到各个时空兴趣点立方体的梯度向量直方图后,使用 k-mean 算法进 行聚类,每类作为词库的词。155160165图 3 梯度-方向描述子Fig. 3 Orientation-magnitude descriptor.2基于 pLSA 人体动作识别本文以时空兴趣点作为动作特征,使用 pLSA 主题模型对人体动作进行建模识别。动作 识别的第一步提取时空兴趣点,时空兴趣点的提取及描述如第二节所述。提取到的时空兴趣 点区域空间使用梯度向量直方图表示,经过 k-mean 算法进行聚类得到时空兴趣点特征词, 最后使用 pLSA 建立人体动作模型识别。pLSA 模型是 Thomas Hofman 提出的一种主题模型,该模型初始用于文档库结构学习。 Niebles3 等提出使用 pLSA 模型识别和定位人体动作,并取得较好的识别效果。然而,pLSA 进行动作识别仍存在以下问题:由边缘化结构得到的隐形“主题”正确性与动作的相关性无 法保证。本文将动作标记与主题一一对应相关,并在训练中主题有观察所得。在训练中,主 题是有监督学习能够保证其正确性及个数,能有效提高动作识别率。2.1pLSA 模型假设动作视频训练集中有 N 个动作视频、M 个特征词和 K 个主题。动作视频 dj、主题 zk 和特征词 wi 的联合概率结构如图 4 所示。假设动作视频 dj、主题 zk 和特征词 wi 各量相互 独立,那么给定观察对(dj, zk, wi)的联合概率公式如下:p(d j , zk , wi ) = p(d j ) p( zk | d j ) p(wi | zk )(11)170式中 p(d j ) 是动作视频 dj 的先验概率且 p(d j )=1 N , p( zk | d j ) 表示主题 zk 与动作视频 dj 的 概率结构, p(wi | zk ) 表示特征词 wi 出现在主题 zk 的概率。通过边缘化主题 zk 得到条件概 率 p(wi |d j ) :式中 p(wi | zk ) 和Kp(wi | d j ) = p( zk | d j ) p(wi | zk ),(12)k =1p( zk | d j ) 使用 EM 算法最大化目标函数计算得到,目标函数如下:i jM N175F = p(w | d )n ( wi ,d j ),(13)i =1j =1其中,n(wi,dj)表示在动作视频 dj 中特征词 wi 出现的次数。180图 4 pLSA 模型Fig. 4 The pLSA model.pLSA 模型训练过程中,主题是由最大化目标函数得到。为克服主题无法保证问题,本 文提出训练过程中,主题由观察所得。输入动作视频 dj,将该动作视频划分为多个动作,每 个动作与一个主题对应。同时,在每个动作提取特征词。动作视频 dj 与主题 zk 的概率结构185由先验概率计算,即 p(z | d ) = nn (n表示主题 z 出现在视频 d 的次数,n 表示出现视频 dkjk , j ji,jkjjj190主题数)。视频 dj 可表示为主题组合向量,如某视频由 1 个 walking、2 个 jogging、0 个 running 和 2 个 bending 动作组成,表示为向量(1, 2, 0, 2)或(0.2, 0.4, 0.0, 0.4)。由得到的 p( zk | d j ) 代 入公式(12),pLSA 模型通过 EM 算法最大化目标函数,估计各特征词与主题的概率结构 p(wi | zk ) 。2.2动作识别给定一个未识别动作视频 dtest,要识别视频中人体动作。首先,利用第二节所述方法提 取视频中时空兴趣点;然后,利用梯度描述子描述量化时空兴趣点邻近立方体,得到各个时空兴趣点特征词 w = w L w ( m 为视频 dtest 包含可重复的特征词个数);最后,使用 pLSA1 m模型对动作视频进行识别。195动作识别的目的是使用已经学习的模型对新输入视频序列进行动作分类,也就是使用动 作向量表示输入视频。从不同的训练序列集中通过学习得到与动作类相关的主题 z 和特征词 w 概率结构 p(w | z) 。当给定一个新动作视频,将这个未知视频“投影”到动作直方图上,即找到主题的混合系数 p( zk | dtest ) 。从实验中可以得到主题混合系数先验概率 p(w | d test ) ,K200205210计算 p(w | d test ) 和 p(w | dtest ) = k =1 p( zk | dtest ) p(w | zk ) 的 KL 距离,使用 EM 算法最小化 KL 距离得到动作混合系数 p( zk | d j ) ,即得到待识别视频动作组合。3实验结果为验证文中算法有效性,采用两个数据库对算法进行了训练、测试,并与无监督 pLSA 主题模型及 SVM 等目前先进方法进行对比实验,两个数据库分别是:KTH 人体运动数据库 和 Weizmann 人体动作数据库。KTH 数据库和 Weizmann 数据库的每个视频序列仅包含一个 动作,对于每个数据库,我们使用“留一法”交叉实验。文中算法提取时空兴趣点区域,每 个区域使用 32bin 梯度直方图描述。实验时,用 VC+6.O 实现了文中算法,测试的环境是 AMD2GHz、1G 内存的普通 PC,使用的测试平台是 windows XP 操作系统。KTH 数据库:KTH 数据库包含六种人体动作,即走、拳击、拍手、挥手、慢跑和跑, 这六种动作都由 25 个人在四个不同场景(户外、缩放变化户外、不同衣着户外和户内)下 执行,同时带有摄像机运动。本数据库的关键帧如图 5 所示。215图 5 KTH 数据库关键帧Fig. 5 Representative frames of the KTH dataset.220225230文中算法识别结果混淆矩阵如图 6(a)所示,由图可见跑和拍手两个动作识别精度比较低,原因是跑与慢跑动作相似、拍手与挥手动作相似导致特征相似。代码本大小对识别精度 影响如图 6(b)所示,代码词大小为 600 时识别结果最好。文中算法在 KTH 数据库的平均识 别精度为 91.50%,与其他主题模型对比实验结果如表 1 所示。Niebles 等人3使用 pLSA 模型 识别率 81.5%,该方法在训练过程中主题与参数均通过 EM 算法估计。Yang 等人4提出半监 督方法,使用 S-LDA(91.20%)模型识别动作,在训练中主题和词由观察所得,识别率要 高于 Niebles 等人识别率。文中提出的算法,在训练过程中主题由观察所得,所以识别结果 要好于 Niebles 等人3结果并与 Yang 等人4识别效果相似。Nowozin 等人5使用支持向量机 (SVM)进行识别,识别率低于文中算法。(a) 本文算法结果混淆矩阵,整体检测精度为 91.50%(b) 不同代码个数对识别精度影响 图6 KTH数据库识别结果Fig. 6: Recognition results on KTH dataset.表1:KTH数据库结果比较Tab.1 Results comparison on KTH data set.识别精度(%)本文方法91.50pLSA381.50S-LDA491.20SVM587.04235240245Weizmann数据库:Weizmann数据库仅有一个场景共有90个视频,由9个人执行10个不同的动作,每个视频持续2到3秒。10个动作分别为弯身、开合跳、原地跳、跳、跑、侧跳、 跳跃、走、单手挥动和双手挥动。该数据库视频无场景切换且无摄像机运动,关键帧如图7 所示。图7 Weizmann数据库关键帧Fig.7 Representative frames of Weizmann dataset.文中算法在Weizmann数据库的总体识别精度为97.00%,识别结果混淆矩阵如图7所示。 从矩阵中可以看到,除了跑、跳跃,文中算法的识别率都是100%。跳跃动作与跑动作相似, 因而识别效果低于其他动作。代码本大小对识别精度影响如图8(b)所示,代码本大于1100后 对识别效果影响不大。文中算法与主题模型算法比较结果如表2所示,从表中可以看到,同 样由于采用无监督学习过程,Zhang等人6使用pLSA(92.30%)模型的识别效果低于半监督 学习的本文算法及S-LDA模型识别率。由于文4将复杂动作跳跃去除后再进行识别,所以 识别效果为98.91%好于本文识别效果。在本数据库中,Jhuang等人使用SVM识别效果比本 文效果好。(a) 本文算法结果混淆矩阵,整体检测精度97.00%250255(b) 不同代码个数对识别精度影响 图8 Weizmann数据库识别结果Fig. 8 Recognition results on Weizmann dataset.表2:Weizmann数据库结果比较Tab.2 Results comparison on Weizmann dataset.识别精度(%)本文方法97.00pLSA692.30S-LDA498.91SVM98.82604结论本文使用时空兴趣点描述人体运动,提出T-HOG梯度描述子和HOG描述时空兴趣点区 域立方体。HOG只能描述STIP区域立方体空间信息,而无法描述时间方向上的变化。本文 提出T-HOG对相邻图像块进行梯度运算,对梯度差大小及方向进行量化描述。HOG和T-HOG 共同描述STIP区域立方体能同时反映空间变化及时间变化信息。本算法在pLSA模型训练中,将主题与动作标签“一对一”相关并通过监督得到主题,克服了隐性主题模型主题无法保证造成的错误,提高识别率。参考文献 (References)2652702751 Ivan Laptev and Tony Lindeberg. Space-time interest pointsC/ In Proceedings of the ninth IEEE International Conference on Computer Vision. Nice, France, 2003, volume.1:432 - 439.2 TH Thi, L Cheng, J Zhang, L Wang, S Satoh. Structured learning of local features for human actionclassification and localization J. Image and Vision Computing, 2012, 30(1):1-14.3 Niebles J, Wang H C, Li F F. Unsupervised learning of human action categories using spatial-temporal wordsJ. International Journal of Computer Vision, 2008, 79(3): 299-318.4 Yang W and Mori G. Human Action Recognition by Semilatent Topic Models J. IEEE Transactions onPattern Analysis and Machine Intelligence, 2009, 31(10):62-74.5 S. Nowozin, G. Bakir, and K. Tsuda. Discriminative Subsequence Mining for Action ClassificationC/ International Conference on Computer Vision. Rio de Janeiro, Brazil: ICCV, 2007:1-86 Zhang J G, Gong S G. Action categorization by structural probabilistic latent semantic analysis J. ComputerVision and Image Understanding, 2010, 114(8): 857-64.