《【外文翻译】基于组合特征提取的手势识别.doc》由会员分享,可在线阅读,更多相关《【外文翻译】基于组合特征提取的手势识别.doc(4页珍藏版)》请在三一办公上搜索。
1、原文: Hand Gesture Recognition Based on Combined FeaturesExtraction 基于组合特征提取技术的手势识别摘要:手势在视觉交流上是一个热门的研究领域,主要用于手语识别和人机交互的目的。在本论文中,我们提出了一个通过使用隐马尔可夫模型(HMM 模型)能够实时从彩色图像的序列中识别字母字符(A-Z)和数字(0-9)的系统。我们的系统有三个主要阶段:自动分割和手势区域的预处理、特征提取和分类。在自动分割和手势区域的预处理阶段,通过使用均值漂移算法和卡尔曼滤波,颜色和3D 深度图是用来探测手将出现的轨迹。在特征提取阶段,笛卡尔系统的使用让我们得到
2、三维组合特征的位置、方向和速度。然后,K-均值聚类采用隐马尔可夫模型。最后阶段所谓的分类,Baum - Welch 算法是用来做一个完整的隐马尔可夫模型参数训练。通过使用左-右手型与 Viterbi 算法结合的方法字母和数字的手势被识别。实验表明我们的系统能成功识别手势的概率是 98.33。关键字:手势识别,计算机视觉,图像处理,模式识别1.前言 从手势运动和手势位置得到的手语识别是一个用于人机交互的热门研究领域。一个手势是时空格局,这可能是静态或动态或两者。静态的手被称为姿势,而动态的手称作手势。手势解释的目的是推动人机交互从而使人机交互性能接近人际交往。这是由于手势跟踪存在的复杂性,如手的
3、外观,光照变化,跨手闭塞。这些问题损害了跟踪算法的性能和效率。在过去的十年中,几种方法在先进的手势交互的应用前景12345已经被提出来了,但这些差异在他们的模型中又都不相同。这些模型是神经网络1,隐马尔可夫模型2与模糊系统5。 Liu and Lovell 介绍了一种基于 Camshift 实时算法和复合恒定加速度卡尔曼滤波算法的实时手势跟踪系统。而 Nobuhiko 等人用 HSV 颜色空间来追踪非复杂背景下的手和脸,那里的重叠的手和脸通过先前的手和脸模板匹配能较好地分离开。Comaniciu 等人提出了一种使用均值漂移算法和卡尔曼滤波跟踪从摄像头获得的移动物体的技术,这一技术主要获得了实时
4、跟踪性能。先前的技术没有考虑到许多点,如双手的准确分割组合,包括手和脸重叠的鲁棒性跟踪和系统实时高分辨率的运行能力。 Vassilia 等人开发了一种系统,可以识别孤立和连续的希腊手势语言,其中方向向量是从图像中提取,然后作为参数输入到隐马尔可夫模型在句子中被使用。Ho-Sub 等人介绍了手势识别方法,该方法使用位置,角度和速度的组合特征确定作为输入到隐马尔可夫模型的离散向量。这种方法在字母(A-Z),数字(0-9),六编辑命令和六个绘图元素上可以实现。Nianjun 等人通过使用不同的隐马尔可夫模型的拓扑结构数提出一个方法来识别不同国家的从 A 到 Z 的 26 个字母。但是,这些方法运行在
5、一个非复杂离线背景。 Nguyen 等人提出一个手势识别系统,在这个系统里通过卡尔曼滤波和手斑点分析,以获得手部区域动作的描述来跟踪手势。这个系统对背景聚簇和使用皮肤颜色跟踪和识别手势相当强大。此外该系统用包括美国手语拼写字母和数字的36 个词汇来测试。但是这种方法在我们的系统中研究手的姿势而不是手的运动轨迹。其中有这样一个问题,它提高了手势识别的实时性,是由事实所引起的同样的手势如形状、轨迹和持续时间,甚至是同一个人变化引起的。所以,隐马尔可夫模型是在我们的系统用在它有能力建模时空的时间序列。 本文的主要贡献是研究用于手势识别的位置、方向和速度的组合特征的作用,这个特征是从时空手势路径获得的
6、。此外,它提出了一个能够从三维颜色图像序列中通过使用隐马尔可夫模型模型跟踪单个手势运动轨迹来识别字母字符(A-Z)和数字(0-9)的实时系统。颜色和 3D 深度图是用来检测手。此外,手的轨迹采用均值漂移算法13和卡尔曼滤波14与 3D 深度图结合的办法来确定。手和脸从来自立体相机、高斯混合模型(GMM)的和颜色信息的三维深度图从复杂背景分割出来,这相对于不利的照明和部分遮挡是更强大的。深度信息解决了手和脸重叠问题。该系统是用来自笛卡尔系统的变化的特征在不同的实验上测试以决定哪个特征能得到最好的结果。每个字母和数字用 30 帧测试(20 帧用来训练和 10 帧用来测试)。测试的手势在识别率上有
7、98.33。本文的其余部分如下: 第二部分介绍基本隐马尔可夫模型技术。 第三部分在三个小节中证明这个系统。 第四部分说明实验结果。 最后,第五部分提出总结和结论。2隐马尔可夫模型 马尔可夫模型是一个随机过程的数学模型,它在处理过程中产生一个具有相应概率密度分布的状态序列。一个隐马尔可夫模型是由三元组参数 A B ) ( 表示如下: 一个状态集 S s1 s2 . s N ,N 为常数。 一个初始可能每一状态 i i 12. N ,这样第一步 i P si 。一个 N 到 N 转移矩阵 A a ij ,其中 aij 是从状态 si 到 s j 的转移的可能性; i j N 1和矩阵 A 的每行之
8、和必须是 1,因为这是让一个给定状态到每一其他状态转移的可能性总和。可能的观察序列集 O o1 o2 . oT ,其中 T 是手势路径的长度。离散的信号集 V v1 v2 . v N ,其中 M 是离散的信号。一个 N 到 M 的观察矩阵 B b im ,其中 bim 给出来至状态 s i 的信号 v m 的可能值,而矩阵 B 的每行值总和必须是 1,原因和前面的一样。 对隐马尔可夫模型来说有三个主要问题:计算问题、解读问题、训练问题。这三个问题可以分别通过前向和后向算法、Viterbi 算法和 Baum- Welch 算法解 ,在这个决。此外,隐马尔可夫模型的拓扑结构有三种:完全连接(遍历模
9、型)结构里可以从任一状态到达其他状态;左-右模型,在这个模型里每个状态只能到达自己状态和下一状态;左-右带状模型,在这个模型里每个状态只能到达自己状态和下一状态(图 1)。3推荐系统 我们开发了一个自动识别系统,这个系统可以从三维色彩图片序列中通过单个手的运动轨迹使用隐马尔可夫模型实时识别代表字母(A-Z)和数字(0-9)的手势。特别是,这个系统包括三个主要阶段:手势自动分割和追踪阶段、特征提 取阶段和分类阶段(图 2)。预处理:定位和跟踪的手以产生它的运动轨迹(手势路径)。特征提取:聚类提取的特征生成作为输入参数到隐马尔可夫模型识别使用的离 散向量。分类:通过使用离散向量和左-右带状拓扑结构
10、识别手势路径。3.1 手势自动分割和追踪 本文描述了探测和分割复杂背景下的三维色彩图片里的手势的方法,在这个方法里使用 3D 深度图和色彩信息来分割手势。皮肤颜色区域的分割只有在将色度应用在分析中才能变强大。所以,在我们的系统中使用 YCbCr 颜色空间,其中 Y 分量代表亮度,而(Cb,Cr)分量是指色度。我们忽略 Y 分量,以减少亮度变化的影响,仅使用色度分量,这样充分得到颜色信息。一个大型肤色和非肤色像素数据库被用来训练高斯模型。高斯混合模型使用皮肤数据库开始建立皮肤模型,其中大量 k-均值聚类算法用来模型的训练,以确定 GMM 参数的初始配置。对于三位色彩图像序列中的手和脸的肤色分割,
11、我们计算肤色深度值以增加肤色信息。深度信息(图 3(c)解决了由基于相互关联交叉和已知坐标的照相机位置数据而测量获得的手和脸的重叠问题。几组值组成了最终的三维坐标点。聚类算法可以看成是种在三维空间中的使用了两种准则的区域生长,这两种准则是:皮肤颜色和欧氏距离。此外,这种方法对于实时环境中发生的不利照明和部分遮挡有更好的鲁棒性。还有,点分析被用来推测边界面积、周长和形心。欲了解更多详情,读者可以阅读2,21。 经过来至分割步骤的手势目标定位后,我们发现手的颜色直方图和Epanechnikov 核。这个核分配来至中心的父像素较小的权重以增加密度估计的鲁棒性。为了找到在连续帧中手势目标的最佳匹配,我
12、们使用 Bhattacharyya 系数通过从手势目标和模板的比较得到的贝叶斯误差来测量相似程度。我们对先前的帧计算手势区域的平均深度值以解决手和脸的重叠问题。平均偏移过程被定义为递归地和执行优化计算平均偏移向量。经过每个均值偏移优化,系统给出手势目标的测量位置。能够计算不确定的估计值,然后通过卡尔曼迭代迭代得到手势目标。因此,我们可以通过检测连续的图像帧之间的手的关系得到手势路径(图 5 )(d)。有关详细信息,读者可以参考2,8,21。3.2 特征提取 毫无疑问,选择好特征来识别手势路径在系统性能起着重要的作用。手势路径有三个基本特征:位置、方向和速度。我们分析这些从手势轨迹提取的特征的有
13、效性,同时将它们结合起来测试它们的识别速率。手势路径是一个由手质心(xhand,yhand)组成的时空坐标。在笛卡尔空间的该坐标可以直接从手势帧中提取。我们考虑两种位置特征。第一种位置特征是从质心到手势路径的各个点的距离 ,因为同一手势根据不同的起点形成不同位置特征(公式 1)。第二种特征是计算从起点到手势路径上当前点的距离 Lsc(公式 3)。其中 t12T-1,T 是手势路径的长度。 指在 n 点的重心。为了验证实时性,我们计算每帧后的手势路径的重心点。 第二个基本特征是方向,它给出了在手势处理过程中贯穿空间的手势走向。如上所述,方向特征是基于每个点上的手势位移向量的计算,它代表着手势路径
14、质心的方向 、连续两个点的方向 和起点与当前手势点的方向 。 第三个基本特征是速度,它在手势识别阶段特别是在一些关键情形中起很重要的作用。速度是基于一个现实,在这现实里手势路径的拐点处手的速度降低。速度是通过欧氏距离除以视频帧里面的两个连续点的时间如下:在直角坐标系中,我们使用不同的特征组合,以获得各种特征向量。例如,在帧t1 的特征向量可以通过位置特征 、位置特征和方向特征 、方向特征 、方向特征和速度特征 、位置特征和速度特征与方向特征 来获得。在时刻 t 每帧都包含一个特征向量集,其中的空间维数正比于特征向量的大小。在这种方式下,手势被描绘成一个有序的向量特征序列,它在三维中被处理和聚簇
15、成一个离散值作为隐马尔可夫模型的输入。这可以通过使用 K-均值聚类算法19,20完成,它将手势模型在特征空间中分为 k 集群。 矢量量化:量化提取的特征得到了离散值。当诸如位置和速度等基本特征单独使用时,这些特征被规范化和乘上从 10 到 30 的不同标量值。另一方面,方向特征的规范值除以 10,20,30 和 40 已获得它的码字。除了直角坐标系中的组合特征,我们使用 K -均值聚类算法将手势特征分类到特征空间中的 k 集群。该算法是基于每个集群的中心到特征点的最小距离。我们将特征向量集分成集群集。这使我们能过通过一个集群在特征空间模拟手势轨迹。这计算得来的集群指数用来当做隐马尔可夫模型的输入。此外,在数据集中我们通常不知道集群的个数最好是多少个。为了得到在每个 K-均值算法中的每个执行中集群 K 的个数,我们假定 K28,29,37,这样的假定是基于在所有的字母(A-Z)和数字(0-9)的分段部分的数量,其中每个直线段被编入同一集群。 假设我们有 n 个来自同一类得训练特征向量 x1x2 . xn 的样本,同时我们将它们分为 k 集群,k
链接地址:https://www.31ppt.com/p-2324824.html