机器人的学习研究进展：深度学习及应用课件.ppt

上传人：小飞机

文档编号：3543141

上传时间：2023-03-13

格式：PPT

页数：85

大小：1.40MB

《机器人的学习研究进展：深度学习及应用课件.ppt》由会员分享，可在线阅读，更多相关《机器人的学习研究进展：深度学习及应用课件.ppt（85页珍藏版）》请在三一办公上搜索。

1、机器人的学习研究进展：深度学习及应用,内容,1.深度学习概述 2.深度学习应用研究,1.深度学习概述,1.1 概述1.2 背景1.3 人脑视觉机理1.4 关于特征1.5 深度学习的基本思想1.6 浅层学习（Shallow Learning）和深度学习（Deep Learning）,1.深度学习概述,1.7 Deep learning与Neural Network1.8 Deep learning训练过程1.9 Deep Learning的常用模型或者方法,1.1 概述,Artificial Intelligence，也就是人工智能，就像长生不老和星际漫游一样，是人类最美好的梦想之一。虽然计算

2、机技术已经取得了长足的进步，但是到目前为止，还没有一台电脑能产生“自我”的意识。的确如此，在人类和大量现成数据的帮助下，电脑可以表现的十分强大，但是离开了这两者，它甚至都不能分辨一个喵星人和一个汪星人。,1.1 概述,图灵（计算机和人工智能的鼻祖，分别对应于其著名的“图灵机”和“图灵测试”）在 1950 年的论文里，提出图灵试验的设想，即，隔墙对话，你将不知道与你谈话的，是人还是电脑。这无疑给计算机，尤其是人工智能，预设了一个很高的期望值。但是半个世纪过去了，人工智能的进展，远远没有达到图灵试验的标准。这不仅让多年翘首以待的人们，心灰意冷，认为人工智能是忽悠，相关领域是“伪科学”。,1.1 概

3、述,但是自 2006 年以来，机器学习领域，取得了突破性的进展。图灵试验，至少不是那么可望而不可及了。至于技术手段，不仅仅依赖于云计算对大数据的并行处理能力，而且依赖于算法。这个算法就是，Deep Learning。借助于 Deep Learning 算法，人类终于找到了如何处理“抽象概念”这个亘古难题的方法。,1.1 概述,2012年6月，纽约时报披露了Google Brain项目，吸引了公众的广泛关注。这个项目是由著名的斯坦福大学的机器学习教授Andrew Ng和在大规模计算机系统方面的世界顶尖专家Jeff Dean共同主导，用16000个CPU Core的并行计算平台训练一种称为“深度神

4、经网络”（DNN，Deep Neural Networks）的机器学习模型（内部共有10亿个节点。,1.1 概述,这一网络自然是不能跟人类的神经网络相提并论的。要知道，人脑中可是有150多亿个神经元，互相连接的节点也就是突触数更是如银河沙数。曾经有人估算过，如果将一个人的大脑中所有神经细胞的轴突和树突依次连接起来，并拉成一根直线，可从地球连到月亮，再从月亮返回地球）。“深度神经网络”在语音识别和图像识别等领域获得了巨大的成功。,1.1 概述,项目负责人之一Andrew称：“我们没有像通常做的那样自己框定边界，而是直接把海量数据投放到算法中，让数据自己说话，系统会自动从数据中学习。”另外一名负责

5、人Jeff则说：“我们在训练的时候从来不会告诉机器说：这是一只猫。系统其实是自己发明或者领悟了“猫”的概念。”,1.1 概述,2012年11月，微软在中国天津的一次活动上公开演示了一个全自动的同声传译系统，讲演者用英文演讲，后台的计算机一气呵成自动完成语音识别、英中机器翻译和中文语音合成，效果非常流畅。据报道，后面支撑的关键技术也是DNN，或者深度学习（DL，DeepLearning）。2013年1月，在百度年会上，创始人兼CEO李彦宏高调宣布要成立百度研究院，其中第一个成立的就是“深度学习研究所”（IDL，Institue of Deep Learning）。,1.1 概述,为什么拥有大数据

6、的互联网公司争相投入大量资源研发深度学习技术。听起来感觉deeplearning很牛那样。那什么是deep learning？为什么有deep learning？它是怎么来的？又能干什么呢？目前存在哪些困难呢？这些问题的简答都需要慢慢来。咱们先来了解下机器学习（人工智能的核心）的背景。,1.2 背景,机器学习（Machine Learning）是一门专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能的学科。1959年美国的塞缪尔(Samuel)设计了一个下棋程序，这个程序具有学习能力，它可以在不断的对弈中改善自己的棋艺。4年后，这个程

7、序战胜了设计者本人。又过了3年，这个程序战胜了美国一个保持8年之久的常胜不败的冠军。这个程序向人们展示了机器学习的能力，提出了许多令人深思的社会问题与哲学问题。,1.2 背景,机器学习虽然发展了几十年，但还是存在很多没有良好解决的问题：,1.2 背景,例如图像识别、语音识别、自然语言理解、天气预测、基因表达、内容推荐等等。目前我们通过机器学习去解决这些问题的思路都是这样的（以视觉感知为例子）：,1.2 背景,从开始的通过传感器（例如CMOS）来获得数据。然后经过预处理、特征提取、特征选择，再到推理、预测或者识别。最后一个部分，也就是机器学习的部分，绝大部分的工作是在这方面做的，也存在很多的学术

8、论文和研究。而中间的三部分，概括起来就是特征表达。良好的特征表达，对最终算法的准确性起了非常关键的作用，而且系统主要的计算和测试工作都耗在这一大部分。但是这块实际中一般都是人工完成的，即靠人工提取特征。,1.2 背景,截止现在，也出现了不少优秀特征表示方式（好的特征应具有不变性（大小、尺度和旋转等）和可区分性）。例如Sift的出现，是局部图像特征描述子研究领域一项里程碑式的工作。由于SIFT对尺度、旋转以及一定视角和光照变化等图像变化都具有不变性，并且SIFT具有很强的可区分性，的确让很多问题的解决变为可能。但它也不是万能的。,1.2 背景,然而，手工地选取特征是一件非常费力、启发式（需要专业

9、知识）的方法，能不能选取好很大程度上靠经验和运气，而且它的调节需要大量的时间。既然手工选取特征不太好，那么能不能自动地学习一些特征呢？答案是能！Deep Learning就是用来干这个事情的，看它的一个别名Unsupervised Feature Learning，就可以顾名思义了，Unsupervised的意思就是不要人参与特征的选取过程。,1.2 背景,那它是怎么学习的呢？怎么知道哪些特征好哪些不好呢？我们说机器学习是一门专门研究计算机怎样模拟或实现人类的学习行为的学科。那人类的视觉系统是怎么工作的呢？为什么在茫茫人海，芸芸众生，滚滚红尘中我们都可以找到另一个她（因为，你存在我深深的脑海里

10、，我的梦里、我的心里、我的歌声里）。,1.2 背景,人脑那么优秀，我们能不能参考人脑，模拟人脑呢？（注：好像和人脑扯上点关系的特征、算法，都不错，但不知道是不是人为强加的，为了使自己的研究变得神圣和高雅。）近几十年以来，认知神经科学、生物学等等学科的发展，让我们对自己这个神秘的而又神奇的大脑不再那么的陌生。也给人工智能的发展推波助澜。,1.3 人脑视觉机理,1981年的诺贝尔医学/生理学奖，颁发给了 David Hubel（出生于加拿大的美国神经生物学家）和Torsten Wiesel以及 Roger Sperry。前两位的主要贡献，是“发现了视觉系统的信息处理机制”，发现可视皮层是分级的。如

11、“人见到蛇的情景”。,1.3 人脑视觉机理,我们看看他们做了什么。1958 年，DavidHubel 和Torsten Wiesel 在 JohnHopkins University研究了瞳孔区域与大脑皮层神经元的对应关系。他们在猫的后脑头骨上开了一个3 毫米的小洞，向洞里插入电极，测量神经元的活跃程度。然后，他们在小猫的眼前，展现各种形状、各种亮度的物体。并且，在展现每一件物体时，还改变物体放置的位置和角度。他们期望通过这个办法，让小猫瞳孔感受不同类型、不同强弱的刺激。,1.3 人脑视觉机理,之所以做这个试验，目的是去证明一个猜测：位于后脑皮层的不同视觉神经元，与瞳孔所受刺激之间，存在某种对

12、应关系。一旦瞳孔受到某一种刺激，后脑皮层的某一部分神经元就会活跃。经历了很多天反复的枯燥的试验，同时牺牲了若干只可怜的小猫，David Hubel 和Torsten Wiesel 发现了一种被称为“方向选择性细胞（Orientation Selective Cell）”的神经元细胞。当瞳孔发现了眼前的物体的边缘，而且这个边缘指向某个方向时，这种神经元细胞就会活跃。这个发现激发了人们对于神经系统的进一步思考。神经-中枢-大脑的工作过程，或许是一个不断迭代、不断抽象的过程。,1.3 人脑视觉机理,这里的关键词有两个，一个是抽象，一个是迭代。从原始信号，做低级抽象，逐渐向高级抽象迭代。人类的逻辑思维

13、，经常使用高度抽象的概念。例如，从原始信号摄入开始（瞳孔摄入像素 Pixels），接着做初步处理（大脑皮层某些细胞发现边缘和方向），然后抽象（大脑判定，眼前的物体的形状，是圆形的），然后进一步抽象（大脑进一步判定该物体是只气球）。再比如人脸识别，如下图：,1.3 人脑视觉机理,这个生理学的发现，促成了计算机人工智能在四十年后的突破性发展。总的来说，人的视觉系统的信息处理是分级的。从低级的V1区提取边缘特征，再到V2区的形状或者目标的部分等，再到更高层，整个目标、目标的行为等。也就是说高层的特征是低层特征的组合，从低层到高层的特征表示越来越抽象，越来越能表现语义或者意图。而抽象层面越高，存在的可

14、能猜测就越少，就越利于分类。例如，单词集合和句子的对应是多对一的，句子和语义的对应又是多对一的，语义和意图的对应还是多对一的，这是个层级体系。,1.3 人脑视觉机理,敏感的人注意到这个关键词了：分层。而Deep learning的deep是不是就表示我存在多少层，也就是多深呢？对。那Deep learning是如何借鉴这个过程的呢？毕竟是归于计算机来处理，面对的一个问题就是怎么对这个过程进行建模？因为我们要学习的是特征的表达，那么关于特征，或者说关于这个层级特征，我们需要了解地更深入点。所以在说Deep Learning之前，我们下面有必要解释一下特征。,1.4 关于特征,特征是机器学习系统的

15、原材料，对最终模型的影响是毋庸置疑的。如果数据被很好地表达成了特征，通常线性模型就能达到满意的精度。那对于特征，我们需要考虑什么呢？,1.4 关于特征,1.4.1 特征表示的粒度1.4.2 初级（浅层）特征表示1.4.3 结构性特征表示1.4.4 需要有多少个特征,1.4.1 特征表示的粒度,学习算法在一个什么粒度上的特征表示，才有能发挥作用？就一个图片来说，像素级的特征根本没有价值。例如上面的摩托车，从像素级别，根本得不到任何信息，其无法进行摩托车和非摩托车的区分。,1.4.1 特征表示的粒度,而如果特征是一个具有结构性（或者说有含义）的时候，比如是否具有车把手（handle），是否具有车轮

16、（wheel），就很容易把摩托车和非摩托车区分开来，学习算法才能发挥作用。,1.4.2 初级（浅层）特征表示,既然像素级的特征表示方法没有作用，那怎样的表示才有用呢？1995 年前后，Bruno Olshausen和 David Field 两位学者任职 Cornell University，他们试图同时用生理学和计算机的手段，双管齐下，研究视觉问题。他们收集了很多黑白风景照片，从这些照片中，提取出400个小碎片，每个小碎片的尺寸均为 16x16 像素，不妨把这400个碎片标记为 Si,i=0,.399。接下来，再从这些黑白风景照片中，随机提取另一个碎片，尺寸也是 16x16 像素，不妨把这个

17、碎片标记为 T。,1.4.2 初级（浅层）特征表示,他们提出的问题是，如何从这400个碎片中，选取一组碎片Sk,通过叠加的办法，合成出一个新的碎片，而这个新的碎片应当与随机选择的目标碎片T尽可能相似，同时，Sk的数量尽可能少。用数学的语言来描述，就是：Sum_k(ak*Sk)-T,其中 ak 是在叠加碎片 Sk 时的权重系数。为解决这个问题，Bruno Olshausen和 David Field 发明了一个算法，稀疏编码（Sparse Coding）。,1.4.2 初级（浅层）特征表示,稀疏编码是一个重复迭代的过程，每次迭代分两步：1）选择一组 Sk，然后调整 ak，使得Sum_k(ak*S

18、k)最接近 T；2）固定住 ak，在 400 个碎片中，选择其它更合适的碎片Sk，替代原先的 Sk，使得Sum_k(ak*Sk)最接近 T。经过几次迭代后，最佳的 Sk 组合被遴选出来。令人惊奇的是，被选中的 Sk基本上都是照片上不同物体的边缘线，这些线段形状相似，区别在于方向。,1.4.2 初级（浅层）特征表示,Bruno Olshausen和 David Field 的算法结果，与 David Hubel 和Torsten Wiesel 的生理发现，不谋而合！也就是说，复杂图形往往由一些基本结构组成。比如下图：一个图可以通过用64种正交的edges（可以理解成正交的基本结构）来线性表示。比

19、如样例的x可以用1-64个edges中的三个按照0.8,0.3,0.5的权重调和而成。而其他基本edge没有贡献，因此均为0。,1.4.2 初级（浅层）特征表示,另外，许多专家还发现，不仅图像存在这个规律，声音也存在。他们从未标注的声音中发现了20种基本的声音结构，其余的声音可以由这20种基本结构合成。,1.4.3 结构性特征表示,小块的图形可以由基本edge构成，更结构化，更复杂的，具有概念性的图形如何表示呢？这就需要更高层次的特征表示，比如V2，V4。因此V1看像素级是像素级。V2看V1是像素级，这个是层次递进的，高层表达由底层表达的组合而成。专业点说就是基basis。V1区提出的basi

20、s是边缘，然后V2层是V1层这些basis的组合，这时候V2区得到的又是高一层的basis，上上层又是上一层的组合basis结果.所以有专家说Deep learning就是“搞基”，因为难听，所以美其名曰Deep learning或者Unsupervised Feature Learning.,1.4.3 结构性特征表示,直观上说，就是找到有意义的小碎片（patch），再将其进行组合（combine），就得到了上一层的特征（feature），递归地向上学习特征（learning feature）。,1.4.3 结构性特征表示,在不同对象（object）上做训练时，所得的边缘基（edge bas

21、is）是非常相似的，但对象部分（object parts）和模式（models）完全不同。这样便于图像的准确识别。,1.4.3 结构性特征表示,从文本来说，一个doc文档表示什么意思？我们描述一件事情，用什么来表示比较合适？用一个一个字嘛?不是，字就是像素级别了，起码应该是term（术语/词组），换句话说每个doc都由term构成;但这样表示概念的能力就够了嘛，可能也不够，需要再上一步，达到topic级，有了topic，再到doc就合理。但每个层次的数量差距很大，比如doc表示的概念-topic（千-万量级）-term（10万量级）-word（百万量级）。一个人在看一个doc的时候，眼睛看到的

22、是word，由这些word在大脑里自动切词形成term，在按照概念组织的方式，先验的学习，得到topic，然后再进行高层次的learning。,1.4.4 需要有多少个特征,我们知道需要层次的特征构建，由浅入深，但每一层该有多少个特征呢？任何一种方法，特征越多，给出的参考信息就越多，准确性会得到提升。但特征多意味着计算复杂，探索的空间大，可以用来训练的数据在每个特征上就会稀疏，都会带来各种问题，并不一定特征越多越好。,小结,上面我们谈到为什么会有Deep learning（让机器自动学习良好的特征，而免去人工选取过程。还有参考人的分层视觉处理系统），我们得到一个结论就是Deep learni

23、ng需要多层来获得更抽象的特征表达。那么多少层才合适呢？用什么架构来建模呢？怎么进行非监督训练呢？,1.5 深度学习的基本思想,假设我们有一个系统S，它有n层（S1,Sn），它的输入是I，输出是O，形象地表示为：I=S1=S2=.=Sn=O，如果输出O等于输入I，即输入I经过这个系统变化之后没有任何的信息损失。这意味着输入I经过每一层Si都没有任何的信息损失，即在任何一层Si，它都是原有信息（即输入I）的另外一种表示。现在回到我们的主题Deep Learning，我们需要自动地学习特征，假设我们有一堆输入I（如一堆图像或者文本），假设我们设计了一个系统S（有n层），我们通过调整系统中参数，使得

24、它的输出仍然是输入I，那么我们就可以自动地获取得到输入I的一系列层次特征，即S1，,Sn。,1.5 深度学习的基本思想,对于深度学习来说，其思想就是对堆叠多个层，也就是说这一层的输出作为下一层的输入。通过这种方式，就可以实现对输入信息进行分级表达了。另外，前面是假设输出严格地等于输入，这个限制太严格，我们可以略微地放松这个限制，例如我们只要使得输入与输出的差别尽可能地小即可，这个放松会导致另外一类不同的Deep Learning方法。上述就是Deep Learning的基本思想。,1.6 浅层学习和深度学习,1.6.1 浅层学习（Shallow Learning）：机器学习第一次浪潮1.6.2

25、深度学习（Deep Learning）：机器学习第二次浪潮,1.6.1 浅层学习：机器学习第一次浪潮,20世纪80年代末期，用于人工神经网络的反向传播算法（也叫Back Propagation算法或者BP算法）的发明，给机器学习带来了希望，掀起了基于统计模型的机器学习热潮。这个热潮一直持续到今天。人们发现，利用BP算法可以让一个人工神经网络模型从大量训练样本中学习统计规律，从而对未知事件做预测。这种基于统计的机器学习方法比起过去基于人工规则的系统，在很多方面显出优越性。这个时候的人工神经网络，虽也被称作多层感知机（Multi-layer Perceptron），但实际是一种只含有一层隐层节点

26、的浅层模型。,1.6.1 浅层学习：机器学习第一次浪潮,20世纪90年代，各种各样的浅层机器学习模型相继被提出，例如支撑向量机（SVM，Support Vector Machines）、Boosting、最大熵方法（如LR，Logistic Regression）等。这些模型的结构基本上可以看成带有一层隐层节点（如SVM、Boosting），或没有隐层节点（如LR）。这些模型无论是在理论分析还是应用中都获得了巨大的成功。相比之下，由于理论分析的难度大，训练方法又需要很多经验和技巧，这个时期深度人工神经网络反而相对沉寂。,1.6.2 深度学习：机器学习第二次浪潮,2006年，加拿大多伦多大学教授

27、、机器学习领域的泰斗Geoffrey Hinton和他的学生Ruslan Salak hutdinov在国际顶级期刊科学上发表了一篇文章，开启了深度学习在学术界和工业界的浪潮。这篇文章有两个主要观点：1）多隐层的人工神经网络具有优异的特征学习能力，学习得到的特征对数据有更本质的刻画，从而有利于可视化或分类；2）深度神经网络在训练上的难度，可以通过“逐层初始化”（layer-wise pre-training）来有效克服，在这篇文章中，逐层初始化是通过无监督学习实现的。,当前多数分类、回归等学习方法为浅层结构算法，其局限性在于有限样本和计算单元情况下对复杂函数的表示能力有限，针对复杂分类问题其泛

28、化能力受到一定制约。深度学习可通过学习一种深层非线性网络结构，实现复杂函数逼近，表征输入数据分布式表示，并展现了强大的从少数样本中集中学习数据集本质特征的能力。（多层的好处是可以用较少的参数表示复杂的函数）,1.6.2 深度学习：机器学习第二次浪潮,1.6.2 深度学习：机器学习第二次浪潮,深度学习的实质，是通过构建具有很多隐层的机器学习模型和海量的训练数据，来学习更有用的特征，从而最终提升分类或预测的准确性。因此，“深度模型”是手段，“特征学习”是目的。区别于传统的浅层学习，深度学习的不同在于：1）强调了模型结构的深度，通常有5层、6层，甚至10多层的隐层节点；2）明确突出了特征学习的重要性

29、，也就是说，通过逐层特征变换，将样本在原空间的特征表示变换到一个新特征空间，从而使分类或预测更加容易。与人工规则构造特征的方法相比，利用大数据来学习特征，更能够刻画数据的丰富内在信息。,1.6.2 深度学习：机器学习第二次浪潮,1.7 Deep learning与Neural Network,深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本。深度学习是无监督学习的一种。深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征

30、，以发现数据的分布式特征表示。,1.7 Deep learning与Neural Network,Deep learning本身算是machine learning的一个分支，简单可以理解为neural network的发展。大约二三十年前，neural network曾经是ML领域特别火热的一个方向，但是后来确慢慢淡出了，原因包括以下几个方面：1）比较容易过拟合，参数比较难调整，而且需要不少窍门；2）训练速度比较慢，在层次比较少（小于等于3）的情况下效果并不比其它方法更优；,1.7 Deep learning与Neural Network,所以中间有大约20多年的时间，神经网络被关注很少，这

31、段时间基本上是SVM和boosting算法的天下。但是，一个痴心的老先生Hinton，他坚持了下来，并最终（和其它人一起Bengio、Yann.lecun等）提成了一个实际可行的deep learning框架。,1.7 Deep learning与Neural Network,Deep learning与传统的神经网络之间有相同的地方也有很多不同。相同点：deep learning采用了神经网络相似的分层结构，系统由包括输入层、隐层（多层）、输出层组成的多层网络，只有相邻层节点之间有连接，同一层以及跨层节点之间相互无连接，每一层可以看作是一个逻辑回归模型；这种分层结构，是比较接近人类大脑的结构

32、的。,1.7 Deep learning与Neural Network,Deep learning与Neural Network异同,而为了克服神经网络训练中的问题，DL采用了与神经网络很不同的训练机制。传统神经网络中，采用的是反向传播（BP）的方式进行。即采用迭代的算法来训练整个网络，随机设定初值，计算当前网络的输出，然后根据当前计算的输出值和实际的标记值之间的差去改变前面各层的参数，直到收敛（整体是一个梯度下降法）。deep learning整体上是一个layer-wise的训练机制。这样做的原因是因为，如果采用back propagation的机制，对于一个deep network（7层

33、以上），残差传播到最前面的层已经变得太小，出现所谓的gradient diffusion（梯度扩散）。这个问题在后面有所讨论。,1.8 Deep learning训练过程,1.8.1 传统神经网络的训练方法为什么不能用在深度神经网络1.8.2 deep learning训练过程,1.8.1 传统神经网络的训练方法为什么不能用在深度神经网络,BP算法作为传统训练多层网络的典型算法，实际上对仅含几层网络，该训练方法就已经很不理想。深度结构（涉及多个非线性处理单元层）非凸目标代价函数中普遍存在的局部最小是训练困难的主要来源。,1.8.1 传统神经网络的训练方法为什么不能用在深度神经网络,BP算法存在

34、的问题：（1）梯度越来越稀疏：从顶层越往下，误差校正信号越来越小；（2）收敛到局部最小值：尤其是从远离最优区域开始的时候（随机值初始化会导致这种情况的发生）；（3）一般，我们只能用有标签的数据来训练：但大部分的数据是没标签的，而大脑可以从没有标签的数据中学习；,1.8.2 deep learning训练过程,如果对所有层同时训练，时间复杂度会太高；如果每次训练一层，偏差就会逐层传递。这会面临跟上面监督学习中相反的问题，会严重欠拟合（因为深度网络的神经元和参数太多了）。,1.8.2 deep learning训练过程,2006年，hinton提出了在非监督数据上建立多层神经网络的一个有效方法，简

35、单的说，分为两步，一是每次训练一层网络，二是调优，使原始表示x向上生成的高级表示r和该高级表示r向下生成的x尽可能一致。方法是：1）首先逐层构建单层神经元，这样每次都是训练一个单层网络。2）当所有层训练完后，Hinton使用wake-sleep算法进行调优。,1.8.2 deep learning训练过程,将除最顶层的其它层间的权重变为双向的，这样最顶层仍然是一个单层神经网络，而其它层则变为了图模型。向上的权重用于“认知”，向下的权重用于“生成”。然后使用Wake-Sleep算法调整所有的权重。让认知和生成达成一致，也就是保证生成的最顶层表示能够尽可能正确的复原底层的结点。比如顶层的一个结点表

36、示人脸，那么所有人脸的图像应该激活这个结点，并且这个结果向下生成的图像应该能够表现为一个大概的人脸图像。,1.8.2 deep learning训练过程,Wake-Sleep算法分为醒（wake）和睡（sleep）两个部分。1）wake阶段：认知过程（从现实到概念），通过外界的特征和向上的权重（认知权重）产生每一层的抽象表示（结点状态），并且使用梯度下降修改层间的下行权重（生成权重）。如：“如果现实跟我想象的不一样，改变我的权重使得我想象的东西就是这样的”。,1.8.2 deep learning训练过程,2）sleep阶段：生成过程（从概念到现实），通过顶层表示（醒时学得的概念）和向下权重（

37、生成权重），生成底层的状态，同时修改层间向上的权重。如：“如果梦中的景象不是我脑中的相应概念，改变我的向上的权重（认知权重）使得这种景象在我看来就是这个概念”。,deep learning具体训练过程,1）使用自下上升非监督学习（就是从底层开始，一层一层的往顶层训练）2）自顶向下的监督学习（就是通过带标签的数据去训练，误差自顶向下传输，对网络进行微调）,1）使用自下上升非监督学习,采用无标定数据（有标定数据也可）分层训练各层参数，这一步可以看作是一个无监督训练过程，是和传统神经网络区别最大的部分（这个过程可以看作是feature learning过程）：具体的，先用无标定数据训练第一层，训练时

38、先学习第一层的参数（这一层可以看作是得到一个使得输出和输入差别最小的三层神经网络的隐层），由于模型capacity的限制以及稀疏性约束，使得得到的模型能够学习到数据本身的结构，从而得到比输入更具有表示能力的特征；在学习得到第n-1层后，将n-1层的输出作为第n层的输入，训练第n层，由此分别得到各层的参数；,2）自顶向下的监督学习,基于第一步得到的各层参数进一步调整整个多层模型的参数，这一步是一个有监督训练过程；第一步类似神经网络的随机初始化初值过程，由于DL的第一步不是随机初始化，而是通过学习输入数据的结构得到的，因而这个初值更接近全局最优，从而能够取得更好的效果；所以，deep learni

39、ng效果好很大程度上归功于第一步的feature learning过程。,1.9 Deep Learning的常用模型或者方法,1.9.1 AutoEncoder 自动编码器1.9.2 Sparse Coding 稀疏编码1.9.3 Restricted Boltzmann Machine(RBM)限制波尔兹曼机1.9.4 Deep Belief Networks 深度信念网络1.9.5 Convolutional Neural Networks卷积神经网络,1.9.1 AutoEncoder 自动编码器,Deep Learning最简单的一种方法是利用人工神经网络的特点，人工神经网络（ANN

40、）本身就是具有层次结构的系统，如果给定一个神经网络，我们假设其输出与输入是相同的，然后训练调整其参数，得到每一层中的权重。自然地，我们就得到了输入I的几种不同表示（每一层代表一种表示），这些表示就是特征。自动编码器就是一种尽可能复现输入信号的神经网络。为了实现这种复现，自动编码器就必须捕捉可以代表输入数据的最重要的因素，就像PCA那样，找到可以代表原信息的主要成分。,具体过程,1）给定无标签数据，用非监督学习学习特征2）通过编码器产生特征，然后训练下一层，这样逐层训练3）有监督微调,1）给定无标签数据，用非监督学习学习特征,在我们之前的神经网络中，如第一个图，我们输入的样本是有标签的，即（in

41、put,target），这样我们根据当前输出和target（label）之间的差去改变前面各层的参数，直到收敛。但现在我们只有无标签数据，也就是右边的图。那么这个误差怎么得到呢？,1）给定无标签数据，用非监督学习学习特征,如下图，我们将input输入一个encoder编码器，就会得到一个code，这个code也就是输入的一个表示，那么我们怎么知道这个code表示的就是input呢？我们加一个decoder解码器，这时候decoder就会输出一个信息，那么如果输出的这个信息和一开始的输入信号input是很像的（理想情况下就是一样的），那很明显，我们就有理由相信这个code是靠谱的。所以，我们就通

42、过调整encoder和decoder的参数，使得重构误差最小，这时候我们就得到了输入input信号的第一个表示了，也就是编码code了。因为是无标签数据，所以误差的来源就是直接重构后与原输入相比得到。,1.9.4 Deep Belief Networks 深度信念网络,DBNs是一个概率生成模型，与传统的判别模型的神经网络相对，生成模型是建立一个观察数据和标签之间的联合分布，对P(Observation|Label)和 P(Label|Observation)都做了评估，而判别模型仅仅评估了后者而已，也就是P(Label|Observation)。对于在深度神经网络应用传统的BP算法的时候，D

43、BNs遇到了以下问题：（1）需要为训练提供一个有标签的样本集；（2）学习过程较慢；（3）不适当的参数选择会导致学习收敛于局部最优解。,1.9.4 Deep Belief Networks 深度信念网络,1.9.4 Deep Belief Networks 深度信念网络,DBNs由多个限制玻尔兹曼机（Restricted Boltzmann Machines）层组成，一个典型的神经网络类型如图三所示。这些网络被“限制”为一个可视层和一个隐层，层间存在连接，但层内的单元间不存在连接。隐层单元被训练去捕捉在可视层表现出来的高阶数据的相关性。,1.9.4 Deep Belief Networks 深度

44、信念网络,在最高两层，权值被连接到一起，这样更低层的输出将会提供一个参考的线索或者关联给顶层，这样顶层就会将其联系到它的记忆内容。而我们最关心的，最后想得到的就是判别性能，例如分类任务里面。,1.9.4 Deep Belief Networks 深度信念网络,在预训练后，DBN可以通过利用带标签数据用BP算法去对判别性能做调整。在这里，一个标签集将被附加到顶层（推广联想记忆），通过一个自下向上的，学习到的识别权值获得一个网络的分类面。这个性能会比单纯的BP算法训练的网络好。这可以很直观的解释，DBNs的BP算法只需要对权值参数空间进行一个局部的搜索，这相比前向神经网络来说，训练是要快的，而且收

45、敛的时间也少。,1.9.4 Deep Belief Networks 深度信念网络,DBNs的灵活性使得它的拓展比较容易。一个拓展就是卷积DBNs（Convolutional Deep Belief Networks(CDBNs)）。DBNs并没有考虑到图像的2维结构信息，因为输入是简单的从一个图像矩阵一维向量化的。而CDBNs就是考虑到了这个问题，它利用邻域像素的空域关系，通过一个称为卷积RBMs的模型区达到生成模型的变换不变性，而且可以容易得变换到高维图像。DBNs并没有明确地处理对观察变量的时间联系的学习上，虽然目前已经有这方面的研究，例如堆叠时间RBMs，以此为推广，有序列学习的dub

46、bed temporal convolutionmachines刺激颞叶卷积机，这种序列学习的应用，给语音信号处理问题带来了一个让人激动的未来研究方向。,1.9.4 Deep Belief Networks 深度信念网络,目前，和DBNs有关的研究包括堆叠自动编码器，它是通过用堆叠自动编码器来替换传统DBNs里面的RBMs。这就使得可以通过同样的规则来训练产生深度多层神经网络架构，但它缺少层的参数化的严格要求。与DBNs不同，自动编码器使用判别模型，这样这个结构就很难采样输入采样空间，这就使得网络更难捕捉它的内部表达。但是，降噪自动编码器却能很好的避免这个问题，并且比传统的DBNs更优。它通过在训练过程添加随机的污染并堆叠产生场泛化性能。训练单一的降噪自动编码器的过程和RBMs训练生成模型的过程一样。,