机器人室内定位技术说明书.doc
新型机器人室内定位技术XXX软件研究所有限公司一,技术背景机器人六十年代,自第一台机器人装置诞生以来,机器人的发展经历了一个从低级到高级的发展过程。第一代机器人为示教再现型机器人,是通过计算机来控制多自主的机械装置,通过示教存储程序把信息读取出来并发出指令,也可以根据人示教的结果再现动作,它对于外界的环境没有感知能力。在20世纪70年代后期人们开始研究第二代机器人:带感觉的机器人。这种机器人有类似人类的力觉、触觉、听觉、视觉等。第三代机器人是智能机器人,它是当今机器人发展的热点和重点,机器人通过各种传感器获取环境信息,利用人工智能识别、理解、推理并进行判断和决策来完成一定的任务。因此智能机器人除了具有感知环境和简单的适应环境能力外,还具有较强的识别理解能力和决策规划能力。80年代中期,技术革命的第三次浪潮冲击着全世界,机器人总数每年以30%以上的速度增长。1986年国家把智能机器人课题列为高技术发展计划,进入90年代,在国内市场经济发展的推动下,确定了机器人及其应用工程并重、以应用带动关键技术和基础研究的发展方针,实现了高技术发展与国民经济主战场的密切衔接,研制出有自主支持产权的工业机器人系列产品,并小批量试产,完成了一批机器人应用工程,建立了9个机器人产业化基地和7个科研基地。通过多年的努力,取得了举世瞩目的硕果。本公司的智能移动机器人具备超声、红外等多传感器融合的导航系统,可以在一定的室内环境中自由行走,实现定位与自动避障等功能,在国内处于先进水平,具有一定影响力。随着机器人技术 的发展,具有移动行走功能、环境感知能力以及自主规划能力智能移动机器人得到了各国研究人员的普遍重视,特别是在20世纪八、九十年代,随着计算机技术、微电子技术、网络技术等的快速发展,机器人技术的发展突飞猛进。本公司的智能移动机器人的重要特点在于它的自主性和适应性。自主性是指它可以在一定的环境中,不依赖外部控制,完全自主地执行一定的任务;适应性是指它可以实时识别和测量周围的物体,并根据环境变化,调节自身参数、动作策略以及处理紧急情况。随着智能移动机器人技术的发展,其在军事、医疗、商业等领域发挥着重要的作用,人们对智能移动机器人的需求和期望也越来越高,越来越迫切,移动机器人研究从而进入了崭新的发展阶段。定位技术是智能移动机器人的研究核心,同时也是其实现完全自动化的关键技术。机器人只有准确知道自身位置,工作空间中障碍物的位置以及障碍物的运动情况等信息,才能安全有效地进行移动,由此可见,自主定位和环境分析是移动机器人最重要的能力之一。本公司的机器人室内定位技术是用于机器人在室内环境中定位。此项技术的概念是通过场景主旨(Gist)和视觉显著性(Saliency)模型算法,逼真,精确地模拟人脑的神经元以及视觉行为体系,希望机器人从未知环境的未知地点出发,在运动过程中通过反复获取、观测周围环境的特征信息,从而定位自身的位置。二,技术内容2.1高斯金字塔高斯金字塔是在图像处理、计算机视觉、信号处理上使用的一项技术。本质上是信号的多尺度表示方法,亦即将同一信号或图片多次的进行高斯模糊,并且向下取样,从而产生不同尺度下的多组信号或图片用于后续处理。例如在影响辨识上,可以通过对比不同尺度下的图片,防止要寻找的内容在图片上有不同的大小。高斯金字塔的理论基础是尺度空间理论。给定一张图片f(x,y),它的尺度空间表示方式L(x,y;t)定义为:影像信号f(x,y)和高斯函数的旋积。完整的表达式如下: 其中分号代表旋积的对象为x,y,而分号右边的t表示定义的尺度大小当t>0是对于所有的t都会成立,不过通常只会选取特定的t值。其中t为高斯函数的变异数,当t越接近零的时候,使得L(x,y;t) = f(x,y),这代表t=0的时候我们把这项操作视为图片f本身,当t增加时,L表示将影像f通过一个较大的高斯滤波器,从而使得影像的细节被去除更多。在建立高斯金字塔时,我们首先会将影像转换为尺度空间的表示方式,即乘上不同大小的高斯函数,之后再一句取定的尺度向下取样。乘上的高斯函数大小和向下取样的频率通常会选为2的幂次。所以,在每次迭代的过程中,影像都会被乘上一个固定大小的高斯函数,并且被以长宽各0.5的比率被向下取样。如果将向下取样过程的图片一张一张叠在一起,就会呈现一个金字塔的样子,因此这个成果称为高斯金字塔。2.2尺度不变特征转换(SIFT)SIFT是一种用于侦测与描述影像中局部性特征的视觉算法,它在空间尺度中寻找极值点,并提取出其位置、尺度、旋转不变数,其应用范围包含物体辨识、机器人地图感知与导航、影像缝合、3D模型建立、手势辨识、影像追踪和动作比对。局部影像特征的描述与侦测可以帮助辨识物体,SIFT 特征是基于物体上的一些局部外观的兴趣点而与影像的大小和旋转无关。 对于光线、噪声、些微视角改变的容忍度也相当高。基于这些特性,它们是高度显著而且相对容易撷取,在母数庞大的特征数据库中,很容易辨识物体而且鲜有误认。使用 SIFT特征描述对于部分物体遮蔽的侦测率也相当高,甚至只需要3个以上的SIFT物体特征就足以计算出位置与方位。在现今的电脑硬件速度下和小型的特征数据库条件下,辨识速度可接近即时运算。SIFT特征的信息量大,适合在海量数据库中快速准确匹配。2.3主成分分析 (PCA) 在多元统计分析中,主成分分析是一种分析、简化数据集的技术,用于分析数据及建立数理模型。主成分分析经常用于减少数据集的维数,同时保持数据集中的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留主数据的最重要的方面。其方法主要是通过对共变异数矩阵进行特征分解,以得出数据的特征向量它们的特征值。PCA是最简单的以特征量分析多元统计分布的方法。其结果可以理解为对源数据中的方差作出解释:哪一个方向上的数据值对方差的影响最大?换而言之,PCA提供了一种降低数据维度的有效方法;如果分析者在源数据中除掉最小的特征值所对应的成分,那么所得的低纬度数据必定是最优化的,因为这样降低维度是失去信息最少的方法。PCA是最简单的以特征量分析多元统计分布的方法。通常情况下,这种运算可以看作是揭露数据的内部结构,从而更好的解释数据的变量的方法。如果一个多元数据集能够在一个高维数据空间坐标系中被显现出来,那么PCA就能够提供一副比较低维度的图像,这幅图像即为在讯息最多的点上原对象的一个投影。PCA的数学定义是:一个正交化线性变换,把数据变换到一个新的坐标系统中,使得这一数据的任何投影的第一大方差在第一个坐标上,第二大方差在第二个坐标上,以此类推。定义一个n × m的矩阵, XT为去平均值(以平均值为中心移动至原点)的数据,其行为数据样本,列为数据类别(注意,这里定义的是XT 而不是X)。则X的奇异值分解为X = WVT,其中m × m矩阵W是XXT的本征矢量矩阵, 是m × n的非负矩形对角矩阵,V是n × n的XTX的本征矢量矩阵。据此,当 m < n 1时,V 在通常情况下不是唯一定义的,而Y 则是唯一定义的。W 是一个正交矩阵,YT是XT的转置,且YT的第一列由第一主成分组成,第二列由第二主成分组成,依此类推。为了得到一种降低数据维度的有效办法,我们可以把 X 映射到一个只应用前面L个向量的低维空间中去,WL:where with the rectangular identity matrix.X 的单向量矩阵W相当于协方差矩阵的本征矢量 C = X XT,在欧几里得空间给定一组点数,第一主成分对应于通过多维空间平均点的一条线,同时保证各个点到这条直线距离的平方和最小。去除掉第一主成分后,用同样的方法得到第二主成分。依此类推。在中的奇异值均为矩阵 XXT的本征值的平方根。每一个本征值都与跟它们相关的方差是成正比的,而且所有本征值的总和等于所有点到它们的多维空间平均点距离的平方和。PCA提供了一种降低维度的有效办法,本质上,它利用正交变换将围绕平均点的点集中尽可能多的变量投影到第一维中去,因此,降低维度必定是失去讯息最少的方法。PCA具有保持子空间拥有最大方差的最优正交变换的特性。然而,当与离散余弦变换相比时,它需要更大的计算需求代价。非线性降维技术相对于PCA来说则需要更高的计算要求。PCA对变量的缩放很敏感。如果我们只有两个变量,而且它们具有相同的样本方差,并且成正相关,那么PCA将涉及两个变量的主成分的旋转。但是,如果把第一个变量的所有值都乘以100,那么第一主成分就几乎和这个变量一样,另一个变量只提供了很小的贡献,第二主成分也将和第二个原始变量几乎一致。这就意味着当不同的变量代表不同的单位(如温度和质量)时,PCA是一种比较武断的分析方法。一种使PCA不那么武断的方法是使用变量缩放以得到单位方差。通常,为了确保第一主成分描述的是最大方差的方向,我们会使用平均减法进行主成分分析。如果不执行平均减法,第一主成分有可能或多或少的对应于数据的平均值。另外,为了找到近似数据的最小均方误差,我们必须选取一个零均值。假设零经验均值,数据集 X 的主成分w1可以被定义为:为了得到第 k个主成分,必须先从X中减去前面的 个主成分:然后把求得的第k个主成分带入数据集,得到新的数据集,继续寻找主成分。PCA类似于一个线性隐层神经网络。 隐含层 K 个神经元的权重向量收敛后,将形成一个由前 K 个主成分跨越空间的基础。但是与PCA不同的是,这种技术并不一定会产生正交向量。2.4 独立成分分析(ICA)在统计学中,ICA是一种利用统计原理进行计算的方法。它是一个线性变换。这个变换把数据或信号分离成统计独立的非高斯的信号源的线性组合。独立成分分析的最重要的假设就是信号源统计独立。这个假设在大多数盲信号分离的情况中符合实际情况。即使当该假设不满足时,仍然可以用独立成分分析来把观察信号统计独立化,从而进一步分析数据的特性。独立成分分析的经典问题是“鸡尾酒会问题”(cocktail party problem)。该问题描述的是给定混合信号,如何分离出鸡尾酒会中同时说话的每个人的独立信号。独立成分分析并不能完全恢复信号源的具体数值,也不能解出信号源的正负符号、信号的级数或者信号的数值范围。观察的数据或者信号用随机向量 表示,独立成分量可以定义为向量。独立成分分析的目的是通过线性变换把观察的数据, 转换成独立成分向量 , 而独立成分分量满足互相统计独立的特性。统计独立的量化通常通过某指定函数来衡量。2.5 基于视觉显著性(saliency)模型的快速场景分析Saliency模型是受早期灵长类动物的神经结构启发提出的一种视觉注意的系统。多种不同比例的特征图形结合形成一张saliency图,然后由动态神经网络选取视觉上最引人注意的点来降低显著性。该系统将复杂的场景理解问题,分解为快速的场景选择,找出最引人注目的点。尽管灵长类动物的神经元计算能力有限,但是对复杂场景的实时理解有着非常出色的能力。所谓的视觉焦点,通过两种方式扫描场景图片,一种是快速的自底向上,saliency驱动,独立于任务的方式,一种是自顶向下,缓慢,意志控制并基于任务的方式。注意力模型包括动态路由模型,在这个模型中,只有视觉区域中的一小部分信息可以通过视觉皮层被处理。这些信息是通过自顶向下和自底向上控制下的皮层连接动态变化或者事件短时间模式建立的。该模型采用的是Koch和Ullman提出的第二种生物上可行的结构。模型的理论基础有许多模型。比如:特征结合理论,是对人类视觉搜索策略的一种解释。首先将视觉输入分解为一组特征图,接着空间上的不同位置会相互竞争,直到找出显著点,因此只有局部显著的点能够被保留下来。所有特征图自下而上汇总形成saliency图,这样就能找出整个场景的局部显著点。这种方式,是灵长类动物大脑的后顶叶形成的对视觉输入的处理结果图,模型的saliency图具有生成注意力转换的能力。因此此模型可以表示自底向上的saliency模型说明,而不需要自顶向下的帮助进行注意力转移。 这个框架的结构,对于计算机视觉计算技术而言,提供了大量的并行方法,我们可以通过快速选取出一组图片中感兴趣的点来分析更复杂和更消耗时间的物体识别过程。Saliency模型:程序输入是一张静态的彩色图片,通常采用640*480的图片,通过利用高斯金字塔构建9种不同的空间尺度,对输入图像进行低通过滤和二次采样,生成从1:1到1:256这8个幅度的横向和纵向的图像缩小因素。每一个特征都是通过计算一组线性的“center-surround”运算。类似于视觉接受域:典型的视觉神经元对视野中心的区域一小块区域特别敏感,而刺激更广泛的外围区域则会抑制神经元的反应。对局部不连续空间敏感的这样一种结构,特别适合用于检测明显与周围不同的局部特征,因此被用作模拟视网膜、外侧膝状体和初级视皮层的运算法则。Center-surround 在实现中会有从精细到粗犷的不同尺度。中心分别取每个像素取c为2倍、3倍、4倍,外围则是每个像素对应s对应s = c + ,取3或4。两张图的跨尺度区分是通过修改精细尺度和点对点做减法获取的。通过使c和两方面,可以获取真正的中心区域和周围区域的多尺度特征提取。2.6 提取早期视觉特征模型研究的特征分为三种,分别为明暗特征,色彩特征和方向特征。r,g,b分别代表输入图像的红色、绿色和蓝色,图像的亮度通道I通过I=(r+g+b)/3计算得到的。I用于创建高斯金字塔I(), 其中取0到8的整数。r,g,b通道通过计算I进行正规化,将色彩从亮度中解耦。然而由于色彩变换在亮度特别低的时候是无法感知的,因此是不显著的,因此正规化仅仅作用于I大于整张图片亮度最大值十分之一的部位。4个调和后的色彩通道分别为红色通道R = r - (g + b)/2,绿色通道G = g - (r + b)/2,蓝色通道B = b - (r + g)/2和黄色通道Y = (r + g)/2 -|r -g|/2 -b, 通过这4个通道,由此,我们可以创建R(), G(), B(), and Y()四个高斯金字塔。前面定义的center-surroun d差值通过中心的精细比例c和外围的粗糙比例s的差值产生了特征图。第一组特征图考虑的是亮度的对比,哺乳动物是通过神经元对暗中心区域和亮外围区域或亮中心区域作用于暗外围区域的效果进行分别的。这两种类型的敏感是用6组亮度图I(c,s)同时计算的,c分别取2,3,4,s = c + ,分别取3或4:第二组特征图与前面类似,是为色彩通道构建的,在人类的视觉皮层中是通过一种称为“双色对比”的系统来处理色彩的:在感受野中部的神经元会被一种颜色(例如红色)刺激产生兴奋而被另一种颜色(例如绿色)抑制。反之对外围的神经元也成立。这种空间色彩的对比在人脑视觉感受皮层中存在红绿、绿红、蓝黄和黄蓝4组对比。因此,通过创建模型中的RG(c,s)特征图可以同时模拟红绿和绿红两种对比,BY(c,s)则可以模拟蓝黄和黄蓝两种对比:第三组特征图是局部方向特征图,通过Gabor金字塔作用于亮度图I产生方向显著图O(, ),取0到8的正整数来表示比例,是表示的方向,分别取0°,45°,90°和135°。Gabor过滤是余弦光栅和2D高斯包络的乘积,结果近似于初级视皮层感受野对方向的敏感辨识程度。方向特征图O(c, s, ),表示了中心和周围尺度的方向对比。 综上所述,共通过计算生成了42张特征图,其中包括6张亮度图,12张颜色图和24张方向图。2.7 显著图(The Saliency Map)显著图用于通过常量表示一个区域的显著性。显著图与特征图结合起来,以动态神经网络为模型提供了自低向上的构建特征图的方法。在结合不同的特征图时,由于各张特征图之间有着不同的值域,且提取方式不同,因此数值上不具有可比性。另外由于要结合所有的42张图,因此出现在少数几张图中几个位置的视觉显著可能会被噪声或者其他较为不显著的物体遮挡。由于缺少自顶向下的监督,我们提出一种对图进行正规化的方法,用N(.)来表示。通过正规化可以达到的效果为,增强只有少量显著点的显著图,削弱显著点较多的显著图,步骤如下:1.将每张图进行正规化到一个固定的值域0.M,以消除振幅的差别。2.找出每张图的全局极大值M,并计算所有局部极大值的平均值m3.对整个特征图进行运算,乘上(M-m)2只有局部极大值才会被计算,这样正规化就可以忽略同质的区域。比较整张图的极大值和平均值可以看出最活跃的部位和平均值的区别。当这个差别较大的时候,最活跃的区域就会较为明显,若这个差别较小,则这张图就会被抑制。正规化方法的生物学解释在于,它简单地重现了外侧皮层的抑制机制,相邻的类似特征会通过一种特殊的物理链接相互抑制。特征图分别被合并到尺度为4的三张显著图,分别为亮度图I,颜色图C和方向图O。计算方法如公式所示,其中跨尺度的加法是由将每幅图降尺度到尺度四再进行像素对像素的加法:对于方向而言,首先根据给定的角度和六张特征图生成中间步骤的四张图,接着整合成一张方向特征图。创建三张单独的通道图I,C,O和他们各自的正规化是基于假设:类似的特征会为了显著而激烈竞争,然而不同的特性对于显著图会有各自的表现。三张图片经过正规化后取平均值即可得到最终的saliency图。在任意时刻,saliency图的最大值定义了整张图片最显著的位置,也就是注意力焦点所在的位置(FOA)。我们可以简单地认为,图片中最活跃的区域就是模型关注的下一个焦点。然而,在一个神经元可行的实现中,我们利用比例为4的2D 积聚触发模型对saliency图进行建模。模型中的这些神经元有一个电容可以将突触输入的电量聚集起来进行充电,一个漏电导和一个电压阈值。当电压达到了这个阈值,就会生成一个触发原型, 并且电容的电量会减少到0。尺寸为4的saliency图会输入到一个2D的赢家通吃(WTA)神经网络,不同单元之间的突触交互可以保证最活跃的区域被保留,而其他的区域都被抑制。显著图(SM)兴奋接收区域的神经元都是独立的,在更加显著位置的SM神经元增长会更快(然而这些神经元仅用于单纯的聚集但不触发)。每一个SM神经元都会刺激周围的WTA神经元。所有的WTA神经元都是独自进化的,知道其中一个首先达到阈值,同时触发三个机制。过程可以概括成三个步骤,如下:1)FOA转移到赢家神经元的区域;2)对于WTA的抑制机制被处罚接着抑制WTA神经元;3)在SM区域,局部抑制被短暂触发,方式是在FOA的区域根据位置和大小进行抑制。这样不仅可以动态的转移FOA,从而使得次显著的点也能够成为赢家,还可以防止FOA立即回到之前的位置。这种“返回抑制”已经在人类视觉心理物理学中得到了证明。为了使得模型可以紧接着跳转到当前注意点附近的显著点区域,会短暂地刺激在FOA附近的SM区域。(这种方式被称为Koch和Ulman法则)。由于我们没有创建任何自顶向下的注意部件,FOA仅是一个半径固定为输入图片宽度或高度六分之一的圆盘,时间常数,电导,和模拟的神经元阈值都是被选定的,从而FOA可以从一个显著点在30-79毫秒左右跳到下一个显著点,并且上一个显著点的区域会被抑制500-900毫秒,这个过程与视觉心理物理学中是被观测到的。这些延迟使得可以充分扫描图片并且避免了在几个显著点间反复循环。在具体实现中,这些参数是固定的,在研究中所有图片在系统中的结果都是稳定的。2.8 与空间频率内容模型的比较Reinagel和Zador 使用了眼球追踪装置分析根据人类自由观看灰度图像生成的沿眼扫描局部空间频率分布。他们发现,总的来说,在关注区域的空间频率内容要显著高于随机区域。虽然在意志力控制下,眼轨迹是可以与注意力轨迹不同的,但是视觉注意力经常被认为是一个先于眼球运动的机制,对于自由的浏览有很大的影响。因此,我们便探究了是否我们的模型可以重现Reinagel和Zador的发现。对于空间频率内容(SFC)我们给出了一种简单的表示方式:对于一个给定的图像位置,从每个灰度、R、G、B、Y图中提出一个16*16的图像块,然后对这个图像块进行2D快速傅里叶变换(FFTs)。对于每个图像块而言,一个阈值用于计算不可忽略的FFT数系数,阈值对应于FFT刚感知光栅的丰富度(1%的对比度)。SFC表示五个相应图像块不可忽视系数数目的平均值。选定相应大小和尺度的图像块,从而使得SFC对RGB通道和灰度通道中进行计算。通过这种方式,可以生成一个尺度为4的SFC图,并于显著图进行比较。(a) 是色彩图片的例子;(b)是相应的显著图输入;(c)是空间频率内容(SFC)图;(d)黄色圈标出了通过显著图找出的显著点,红色方框标出了SFC找出的显著点,从结果可以看出,显著图对于噪声的容忍度很高,然而SFC受噪声干扰很大。显著图在FOA模型中常被用到,但是很少提到具体构建和动态变化,在这里,我们研究了如何进行前馈特征提取,图像组合策略和显著图的时间特性都对于整体系统性能有贡献。我们用许多人工图像对模型进行了测试从而确保它的正常运作。比如,很多相同形状但背景不同,按照对比度递减的顺序排列的物体。模型表现出了对于噪声良好的容忍性,尤其是对于噪声没有直接影响目标主要特征的图。模型可以重现人类对于许多弹出任务的视觉表现。当一个目标在方向,颜色,灰度或者大小方面,与周围干扰项不同时,它总是可以成为最显著的点。反之,如果目标与干扰项在多种特征中存在区别(比如在红色竖直条和绿色水平条图中,有一个唯一的红色水平条),找到显著点所需的搜索时间与干扰项数目成正比。这两种结果的结论已经被广泛地观察和记录在人类视觉研究中。我们还是用了真实图片进行了测试,比如真实的户外图片和人工图画,通过正规化对图片进行调整。由于这些图片没有被其他人作为实验素材使用,所以无从进行比较。我们建立的Saliency模型是一个架构和部件都模仿人类视觉属性的模型,本模型可以良好的处理复杂的自然环境图像,例如,它可以快速检测到车流中的显著交通信号(圆形,三角形,正方形,长方形),颜色(红色,蓝色,白色,橙色,黑色),和文字信息(字母,箭头,条纹,圆圈)。从计算机的角度而言,此模型最大的优势在于有大量并行运算,包括早期特征提取阶段的大量操作和视觉注意系统。我们模型的结构可以支持在硬件上进行实时操作,这与之前其他模型有较大不同。2.9 场景主旨模型(Gist)随着计算机视觉技术的发展,机器场景识别的能力也在不断提高,这方面的研究也日益丰富,目前主要分为基于物体场景识别、基于区域的场景识别、基于内容的场景识别和生物可行场景识别。因为尽管硬件性能和计算算法在不断提升和优化,目前的场景识别水平仍然和人眼相比差距甚远,所以采用生物可行场景识别是一个新颖而充满潜力的研究方向。gist算法是一种应用于机器人的场景识别算法。这种算法的优点在于,它具有生物学上的可行性,并且计算复杂度较低,与其他的视觉注意模型共享相同的底层特征,可以在机器人上与其他的模型进行并行计算,计算速度快,效率高。2.10 视觉皮层特征提取和视觉引导,Saliency计算机制相同,人类还有一项绝妙的快速获取图像“要点(Gist)”的能力,比如快速在镜头和人眼前闪过一张图像,仅仅是一闪而过,就足以让观察者回答图像是一张室内厨房的图,图中有很多五颜六色的物体。由此我们可以发现,仅仅需要100ms或者更短的时间,人们就可以对图像产生整体的印象(比如,室内还是室外,厨房还是办公室等)一些大体的特征也可以被获取,然而,更让人惊讶的是,如果需要观察者回答,图中是否有一只动物等问题,观察者只需要28ms就可以做出正确的回答。Gist是在大脑中优先相应“位置”的区域中计算的,也就是对应限制空间布局的视觉场景类型。空间内容和颜色判断会影响Gist的感知,这就促进了当前专门研究空间分析的计算机模型的发展。Gist广义的心理学定义是观察者看一眼获取的图像信息,我们讨论的Gist表示是建立与这个定义的基础上,指在一个短时间内获取的相对维度较低的场景图。我们将Gist表示为特征空间的向量,如果对应某个给定图像的Gist向量可以被分类到某个特定的场景类别,那么基于Gist的场景分类就是可实现的。我们目前研究的重心集中在通过多个域的功能从图片中提取Gist,计算它的整体特征,同时兼顾其大致的空间信息。现有模型是根据Saliency模型提出的。2.11 场景主旨(Gist)特征提取经过底层的center-surround进行特征提取后,每个子通道都会提取一个相应特征图的gist向量。将图片分割为4X4的16个子区域,对每个字区域进行均值计算。从获取的结果的角度看,Gist和Saliency是相对的,因为gist是对图像的子区域进行特征提取,而saliency是对整个区域进行特征提取。但是,人类只有一个大脑,同时要进行Gist和Saliency的计算,所以与saliency 相同 , 在Saliency模型中,输入图像经过一系列底层的视觉特征通道过滤,得到不同尺寸的色彩、亮度、方向特征图,有些通道有许多子通道。每个子通道都有9种不同尺寸的金字塔来表示过滤后的输出,在水平和竖直方向,比例都是从1:1到1:256,并且都要进行5*5的高斯平滑。对于每个子通道i,模型采用center-surround操作进行标准化。色彩和灰度通道公式如下:Mi(c, s) = |Oi(c) Oi(s)| = |Oi(c)Interpsc(Oi(s)|Gist模型复用Saliency模型的方向、色彩和灰度通道,对于方向通道,对灰度输入图像采用Gabor滤波器从四个不同的角度,四个空间尺度计算十六个子通道的和。需要注意的是,Gabor滤波器不进行center-surround因为这些滤波器本身已经各不相同了。Mi(c) = Gabor(i, c)对于色彩通道的处理,与Saliency相似。每个子通道从各自的特征图中都能提出一个Gist向量。公式是对16个小的区域进行亮度特征提取的方法,k和l分别是子区域在水平方向上和竖直方向上的序号。W和H分别是整张图片的宽度和高度。类似地,我们可以得到方向通道的特征提取。尽管其他的数据统计可以提供不同的有效信息,然而它们的计算开销太高,而且他们在生物学上的解释仍有争议,因此我们只进行一阶统计就可以进行有效的分类。2.12 颜色恒常算法利用这种基于统计的gist算法的优点在于它的稳定性可以屏蔽局部的或随机的噪声干扰。在gist算法中更重要的是全局的特征,例如光线对整张图片的改变。颜色恒常算法例如gray world算法和white patch算法就假设场景中的光线是恒定的。然而,在现实场景中光线并不一定会恒定。光线不仅会随着时间的推移而改变,而且在同一场景中,光源也不一定是单点光源。由于光源的不稳定性,场景中的不同物体会在不同的时间被照亮。值得注意的是,这一步的目标不是为了高精度地对色彩进行识别或正规化,而是生成稳定的颜色亮度gist特征图。我们也可以使用另一种正规化的方法,叫做Comprehensive Color Normalization(CCN),可用于全局和局部的正规化。当光线饱和的时候(即当摄像机捕捉的视频太亮或太暗的时候),物体的纹理信息会丢失,而且无论用多复杂的正规化方法都无法恢复。在这种情况下,考虑到gist计算的特性,最好的解决方就是在不同的光线条件下进行gist的识别。因此我们不应该进行任何处理,而应该在不同的光线条件下训练我们的gist分类器。gist本身的特性(Garbor或center-curround)就已经帮助我们将光照变化的影响降到了最低。通过分析在不同光线条件下的信号比峰值,我们发现底层特征处理产生的信息对于光线是合理而且稳定的。2.13 PCA/ICA 降维未经处理的gist特征分为16个区域,每个区域都有34张特征图,因此维度总数是544维。我们使用principal component analysis (PCA) 、 Independent Component Analysis(ICA)和FastICA将维度降到80,并且对于3000张测试图保留了97%的信息。2.14 场景分类上图展现了场景分类的完整过程。我们使用了一个三层神经网络(中间层有200和100个神经节点),使用1.667G赫兹的AMD机器和BP算法进行训练。这样做不仅获得了更高的成功率,同时大大减少了运算时间和训练时间。三,定位技术试验结果室外机器人定位的研究很多,然而由于绝大多数时间人们都在室内生活、工作、学习,室内将是智能机器人一个广泛的应用区域,而实现室内定位,就是智能机器人在室内进行智能化的第一步。从以上多张图可以看出,室内场景的图像无论是全局图还是局部图都存在着很大的相似性,辨识难度较高,也正因此,进行室内定位的研究才有很大的价值。我们运用了前文中提到的Gist、Saliency和多种算法进行室内定位的研究。我们以某学校的教学楼为数据集的采集对象采集图片。目前针对8间房间,有实验室和办公室,选定了62个不同的图像采集位置,拍摄了62个大约30秒的视频图像,并从中获取了1988张图像。选出其中的398张建立数据集,1590张作为训练集。研究的流程如上图流程图所示:首先输入一张图片,进行Gist和Saliency处理后可以获取有显著区域的Saliency图,将测试图片与所有的图片进行比较和匹配,选出十张最相似的图片,作为结果,检查这十张图片中是否有输入图片本身。若有,则表明匹配成功,否则,匹配失败。我们的实验成果是,对于每张测试图片,计算选出的前十张匹配图片中有一张是原图的概率,LDA为96.5%,PCA为91.7%。准确率都非常的高。四,总结XXX软件研究所有限公司所拥有的机器人室内定位,采取先进的视觉显著性Saliency模型、场景主旨Gist模型等算法,结合集成为一整套完整的视觉定位算法,在以多种室内场景中进行了测试,具有较高的准确性,为机器人室内定位技术进行了创新。