计算机新技术深度学习.ppt

上传人：小飞机

文档编号：6376296

上传时间：2023-10-22

格式：PPT

页数：103

大小：15.32MB

《计算机新技术深度学习.ppt》由会员分享，可在线阅读，更多相关《计算机新技术深度学习.ppt（103页珍藏版）》请在三一办公上搜索。

1、计算机新技术概论之深度学习技术Deep Learning,主要内容,4.深度学习的应用,3.深度学习的典型模型与方法,1.百度大脑中的深度学习,2.深度学习简介,5.深度学习的意义与展望,百度大脑,百度打造最大计算机大脑,baidueye,Baidueye宣传片,百度“慧眼识花”宣传片,“百度识图”app与中国科学研究院专家的花卉识别准确率进行PK,百度大脑百度识图,人脸搜索,百度大脑图片搜索,相似图像搜索：,百度大脑百度魔图,单日最高上载9000张图片，在IOS APP排名榜总榜排名第一长达3周之久。,百度大脑OCR文字识别,百度大脑百度翻译,打开百度翻译App实物翻译功能，对着物体拍张照

2、，就能迅速识别并翻译成英文。,百度大脑拍照实物搜索,百度大脑百度钱包,百度全新研发出“拍照付”功能，将植入“百度钱包”，成为接棒“二维码”的移动支付方式。目前“拍照付”在平面广告类的识别率高达90。,百度大脑广告搜索,百度大脑广告搜索,百度大脑,OCR识别,图像识别,人脸识别,语音识别,助力大数据应用推理预测,图像搜索和网页搜索,百度大脑,百度大脑,百度创始人李彦宏对外披露，百度目前正在推进一个名为“百度大脑”的项目，利用计算机技术模拟人脑，已经可以做到2-3岁孩子的智力水平。,百度大脑的定义：从功能上来定义可以说它是以大规模机器学习和深度学习为基础的人工智能在搜索引擎中的应用，旨在优化搜索业

3、务和提升用户体验。,百度大脑,能做什么提高语音识别、图像搜索准确率，助力大数据应用推理预测等；怎么做模仿人类大脑的神经网络，通过多层次的网络模型结构认知事物；前景几何人工智能技术得到全世界互联网巨头青睐，成为衡量科技创新能力的重要标志。,深度学习,深度学习简介,深度学习：一种基于无监督特征学习和特征层次结构的学习方法。定义：,为什么要自动学习特征,良好的特征表达，对最终算法的准确性起了非常关键的作用；识别系统主要的计算和测试工作耗时主要集中在特征提取部分；特征的样式目前一般都是人工设计的，靠人工提取特征，而深度学习中特征是自动学习的。,传统的模式识别方法：,为什么要自动学习特征,机器学

4、习中，获得好的特征是识别成功的关键目前存在大量人工设计的特征，不同研究对象特征不同，特征具有多样性,如：SIFT,HOG,LBP等手工选取特征费时费力，需要启发式专业知识，很大程度上靠经验和运气是否能自动地学习特征？,连续,平行,连接,拐角,物体部件:,他们对于人工而言是十分困难的，那么如何学习呢？,为什么要自动学习特征,中层特征中层信号,“Tokens”from Vision by D.Marr:,为什么要自动学习特征,一般而言，特征越多，给出信息就越多，识别准确性会得到提升；但特征多，计算复杂度增加，探索的空间大，可以用来训练的数据在每个特征上就会稀疏。结论：不一定特征越多越好！需要有多少

5、个特征，需要学习确定。,为什么要采用层次网络结构,人脑视觉机理1981年的诺贝尔医学奖获得者 David Hubel和TorstenWiesel发现了视觉系统的信息处理机制。发现了一种被称为“方向选择性细胞的神经元细胞，当瞳孔发现了眼前的物体的边缘，而且这个边缘指向某个方向时，这种神经元细胞就会活跃。,为什么要采用层次网络结构,人脑视觉机理人的视觉系统的信息处理是分级的高层的特征是低层特征的组合，从低层到高层的特征表示越来越抽象，越来越能表现语义或者意图抽象层面越高，存在的可能猜测就越少，就越利于分类,为什么要采用层次网络结构,Speech,Image,特征的逐层提取,为什么要采用层次网络结构

6、,视觉的层次性属性学习，类别作为属性的一种组合映射,图像特征,类别标签,属性,为什么要采用层次网络结构,特征表示的粒度具有结构性（或者语义）的高层特征对于分类更有意义,为什么要采用层次网络结构,初级（浅层）特征表示,高层特征或图像，往往是由一些基本结构（浅层特征）组成的,为什么要采用层次网络结构,结构性特征表示,深度学习,2006年，加拿大多伦多大学教授、机器学习领域的泰斗Geoffrey Hinton在科学上发表论文提出深度学习主要观点：1）多隐层的人工神经网络具有优异的特征学习能力，学习得到的特征对数据有更本质的刻画，从而有利于可视化或分类；2）深度神经网络在训练上的难度，可以通过“逐层初

7、始化”（layer-wise pre-training）来有效克服，逐层初始化可通过无监督学习实现的。,深度学习,2013年4月，麻省理工学院技术评论杂志将深度学习列为2013年十大突破性技术之首。,深度学习,本质：通过构建多隐层的模型和海量训练数据（可为无标签数据），来学习更有用的特征，从而最终提升分类或预测的准确性。“深度模型”是手段，“特征学习”是目的。与浅层学习区别：1）强调了模型结构的深度，通常有5-10多层的隐层节点；2）明确突出了特征学习的重要性，通过逐层特征变换，将样本在原空间的特征表示变换到一个新特征空间，从而使分类或预测更加容易。与人工规则构造特征的方法相比，利用大数据来学

8、习特征，更能够刻画数据的丰富内在信息。,深度学习,好处：可通过学习一种深层非线性网络结构，实现复杂函数逼近，表征输入数据分布式表示。,深度学习 vs 浅层神经网络,神经网络：人工提取特征,深度学习：从原始特征出发自动学习高级特征组合,深度学习 vs 浅层神经网络,相同点：二者均采用分层结构，系统包括输入层、隐层（多层）、输出层组成的多层网络，只有相邻层节点之间有连接，同一层以及跨层节点之间相互无连接，每一层可以看作是一个logistic 回归模型。不同点：神经网络：采用BP算法调整参数，即采用迭代算法来训练整个网络。随机设定初值，计算当前网络的输出，然后根据当前输出和样本真实标签之间的差去改变

9、前面各层的参数，直到收敛；深度学习：采用逐层训练机制。采用该机制的原因在于如果采用BP机制，对于一个deep network（7层以上），残差传播到最前面的层将变得很小，出现所谓的gradient diffusion（梯度扩散）。,深度学习的训练过程,第一步：采用自下而上的无监督学习1）逐层构建单层神经元。2）每层采用wake-sleep算法进行调优。每次仅调整一层，逐层调整。这个过程可以看作是一个feature learning的过程，是和传统神经网络区别最大的部分。,深度学习的训练过程,wake-sleep算法:1）wake阶段：认知过程，通过下层的输入特征（Input）和向上的认知（En

10、coder）权重产生每一层的抽象表示（Code），再通过当前的生成（Decoder）权重产生一个重建信息（Reconstruction），计算输入特征和重建信息残差，使用梯度下降修改层间的下行生成（Decoder）权重。也就是“如果现实跟我想象的不一样，改变我的生成权重使得我想象的东西变得与现实一样”。2）sleep阶段：生成过程，通过上层概念（Code）和向下的生成（Decoder）权重，生成下层的状态，再利用认知（Encoder）权重产生一个抽象景象。利用初始上层概念和新建抽象景象的残差，利用梯度下降修改层间向上的认知（Encoder）权重。也就是“如果梦中的景象不是我脑中的相应概念，改变

11、我的认知权重使得这种景象在我看来就是这个概念”。,深度学习训练过程,Encoder,Decoder,Input Image,Class label,Features,Encoder,Decoder,Features,Encoder,Decoder,AutoEncoder:,深度学习的训练过程,第二步：自顶向下的监督学习这一步是在第一步学习获得各层参数进的基础上，在最顶的编码层添加一个分类器（例如罗杰斯特回归、SVM等），而后通过带标签数据的监督学习，利用梯度下降法去微调整个网络参数。深度学习的第一步实质上是一个网络参数初始化过程。区别于传统神经网络初值随机初始化，深度学习模型是通过无监督学习

12、输入数据的结构得到的，因而这个初值更接近全局最优，从而能够取得更好的效果。,一个简单的深度神经网络,一个简单的深度神经网络,前向传播和反馈传播过程：,一个简单的深度神经网络,前向传播和反馈传播过程：,深度学习的典型模型及方法,深度学习的典型模型及方法,自动编码器（AutoEncoder）稀疏自动编码器(Sparse AutoEncoder)降噪自动编码器(Denoising AutoEncoders)深度限制玻尔兹曼机（Deep Restricted Boltzmann Machine）深度置信网络（Deep Belief Networks）卷积神经网络（Convolutional Neura

13、l Networks）,深度学习的典型模型及方法,Encoder,Decoder,Input(Image/Features),Output Features,Feed-back/generative/top-downpath,Feed-forward/bottom-up path,自动编码器（AutoEncoder）,深度学习的典型模型及方法,(Wx),(WTz),(Binary)Input x,(Binary)Features z,Encoder filters WSigmoid function(.),Decoder filters WTSigmoid function(.),自动编码器（

14、AutoEncoder）,深度学习的典型模型及方法,稀疏自动编码器(Sparse AutoEncoder),限制每次得到的表达code尽量稀疏,限制每次得到的表达code尽量稀疏,深度学习的典型模型及方法,稀疏自动编码器(Sparse AutoEncoder),Filters,Features,Sparse Coding,Input Patch,深度学习的典型模型及方法,(Wx),Dz,Input Patch x,Sparse Features z,Encoder filters WSigmoid function(.),Decoder filters D,L1 Sparsity,Traini

15、ng,稀疏自动编码器(Sparse AutoEncoder),深度学习的典型模型及方法,稀疏自动编码器(Sparse AutoEncoder)1）Training阶段：给定一系列的样本图片x1,x 2,，我们需要学习得到一组基1,2,，也就是字典。可使用K-SVD方法交替迭代调整ak，k，直至收敛，从而可以获得一组可以良好表示这一系列x的字典。,深度学习的典型模型及方法,稀疏自动编码器(Sparse AutoEncoder)2）Coding阶段：给定一个新的图片x，由上面得到的字典，利用OMP算法求解一个LASSO问题得到稀疏向量a。这个稀疏向量就是这个输入向量x的一个稀疏表达。,深度学习的典

16、型模型及方法,稀疏自动编码器(Sparse AutoEncoder),Feature representation,稀疏编码图示：,深度学习的典型模型及方法,降噪自动编码器(Denoising AutoEncoders)在自动编码器的基础上，对训练数据加入噪声，自动编码器必须学习去去除这种噪声而获得真正的没有被噪声污染过的输入。因此，这就迫使编码器去学习输入信号的更加鲁棒的表达，这也是它的泛化能力比一般编码器强的原因。,深度学习的典型模型及方法,限制波尔兹曼机（Restricted Boltzmann Machine）定义：假设有一个二部图，同层节点之间没有链接，一层是可视层，即输入数据层（v

17、)，一层是隐藏层(h)，如果假设所有的节点都是随机二值（0，1值）变量节点，同时假设全概率分布p(v,h)满足Boltzmann 分布，我们称这个模型是Restricted Boltzmann Machine(RBM)。,深度学习的典型模型及方法,限制波尔兹曼机（Restricted Boltzmann Machine）定义联合组态（jointconfiguration）能量：这样某个组态的联合概率分布可以通过Boltzmann 分布和这个组态的能量来确定：,深度学习的典型模型及方法,限制波尔兹曼机（Restricted Boltzmann Machine）对比散度算法：RBM的快速学习算法，

18、即k步Markov Chain(k=1)。限制波尔兹曼机（RBM）是一种深度学习模型。,深度学习的典型模型及方法,限制波尔兹曼机（Restricted Boltzmann Machine）给定隐层h的基础上，可视层的概率确定：（可视层节点之间是条件独立的）给定可视层v的基础上，隐层的概率确定：,深度学习的典型模型及方法,限制波尔兹曼机（RBM）对比散度算法,深度学习的典型模型及方法,限制波尔兹曼机（Restricted Boltzmann Machine）待求问题：给定一个满足独立同分布的样本集：D=v(1),v(2),v(N)，需要学习模型参数=W,a,b。求解：最大似然估计：我们需要选择一

19、个参数，让我们当前的观测样本的概率最大对最大对数似然函数求导，即可得到L最大时对应的参数W：若隐藏层层数增加，可得到Deep Boltzmann Machine(DBM),深度学习的典型模型及方法,深度限制玻尔兹曼机（Deep Boltzmann Machine),深度学习的典型模型及方法,深信度网络（Deep Belief Networks）,DBN是在靠近可视层的部分使用贝叶斯信念网络（即有向图模型），而在最远离可视层的部分使用Restricted Boltzmann Machine的模型。,深度学习的典型模型及方法,深信度网络（Deep Belief Networks）,深度学习的典型

20、模型及方法,卷积神经网络（Convolutional Neural Networks）,卷积神经网络是一个多层的神经网络，每层由多个二维平面组成，而每个平面由多个独立神经元组成。两类神经元：承担特征抽取的S-元和抗变形的C-元。,深度学习的典型模型及方法,减少参数的方法：每个神经元无需对全局图像做感受，只需感受局部区域（Feature Map），在高层会将这些感受不同局部的神经元综合起来获得全局信息。每个神经元参数设为相同，即权值共享，也即每个神经元用同一个卷积核去卷积图像。,卷积神经网络（Convolutional Neural Networks）权值共享,深度学习的典型模型及方法,卷积神经

21、网络（Convolutional Neural Networks）隐层神经元数量的确定,神经元数量与输入图像大小、滤波器大小和滤波器的滑动步长有关。例如，输入图像是1000 x1000像素，滤波器大小是10 x10，假设滤波器间没有重叠，即步长为10，这样隐层的神经元个数就是(1000 x1000)/(10 x10)=10000个,深度学习的典型模型及方法,卷积神经网络（Convolutional Neural Networks）多滤波器情形,每层隐层神经元的个数按滤波器种类的数量翻倍每层隐层参数个数仅与滤波器大小、滤波器种类的多少有关例如：隐含层的每个神经元都连接10 x10像素图像区域，同

22、时有100种卷积核（滤波器）。则参数总个数为：（10 x10+1）x100=10100个,不同的颜色表示不同种类的滤波器,深度学习的典型模型及方法,卷积神经网络（Convolutional Neural Networks）,卷积过程：用一个可训练的滤波器fx去卷积一个输入的图像（第一阶段是输入的图像，后面的阶段就是Feature Map了），然后加一个偏置bx，得到卷积层Cx。子采样过程：每邻域n个像素通过池化（pooling）步骤变为一个像素，然后通过标量Wx+1加权，再增加偏置bx+1，然后通过一个sigmoid激活函数，产生一个大概缩小n倍的特征映射图Sx+1。,深度学习的典型模型及方法

23、,卷积神经网络（Convolutional Neural Networks）,CNN的关键技术：局部感受野、权值共享、时间或空间子采样CNN的优点：1、避免了显式的特征抽取，而隐式地从训练数据中进行学习；2、同一特征映射面上的神经元权值相同，从而网络可以并行学习，降低了网络的复杂性；3、采用时间或者空间的子采样结构，可以获得某种程度的位移、尺度、形变鲁棒性；3、输入信息和网络拓扑结构能很好的吻合，在语音识别和图像处理方面有着独特优势。,深度学习性能比较,Deep nets VS.Boosting,深度学习性能比较,Deep nets VS.Probabilistic Models,深度学习的应

24、用,深度学习的应用,深度学习在图像识别上的应用,空间金字塔（Spatial Pyramids）,深度学习的应用,深度学习在图像识别上的应用,深度学习的应用,深度学习的应用,深度学习在图像识别上的应用,深度学习的应用,深度学习在图像识别上的应用,深度学习的应用,深度学习在图像识别上的应用几种不同模型识别正确率比较：,深度学习的应用,深度学习在多模态学习中的应用,深度学习的应用,深度学习在多模态学习中的应用,深度学习的应用,深度学习在多模态学习中的应用,深度学习的应用,深度学习在多模态学习中的应用,深度学习的应用,深度学习在多模态学习中的应用,深度学习的应用,深度学习在多模态学习中的应用,如果模

25、态间存在着内在的联系，即存在shared Representation，那么理论上模型应支持训练一个模态，而测试另一个模态时，仍能获得好的分类性能。,深度学习的应用,深度学习在多任务学习中的应用,深度学习的应用,深度学习在多任务学习中的应用在深度学习模型中，对于相关任务的联合学习，往往会取得较好的特征表达；多任务联合学习，能够增强损失函数的作用效能；比如：单独进行人脸检测会比较难（光照、遮挡等因素），但是当人脸检测与人脸识别这两个相关的任务联合学习时，人脸检测的难度反而降低了。,深度学习的应用,基于深度学习的迁移学习应用,深度学习的应用,基于深度学习的迁移学习应用,特征共享,深度学习的应用,基

26、于深度学习的迁移学习应用,工业中的深度学习,微软：2012年11月微软在天津的一次活动上公开展示了一个全自动的同声传译系统，前台演讲者用英文演讲，后台的计算机自动完成语音识别、英中文翻译，以及中文语音合成，一气呵成，语音流畅，效果非常好，其中支持的关键技术是深度学习。,工业中的深度学习,谷歌的Google Brain项目、猫脸识别,工业中的深度学习,Facebook1、借助深度学习技术,Facebook可以自动识别用户上传的照片中人物的身份、自动添加相应的人名标签，以及让用户快速与亲朋好友分享照片。2、深度学习技术还能分析用户在Facebook上的一举一动，从而自动为用户显示他们想要看到的内容

27、。3、Facebook可以利用深度学习实现“无穷无尽”的可能性它每天都能搜集到人与人之间的关系、搜集到用户在一天里的所作所为，它知道你支持什么党派、买了什么产品。,工业中的深度学习,百度深度学习研究成果,工业中的深度学习,腾讯：2014年6月22日，腾讯深度学习平台（Tencent Deep Learning Platform）于国际机器学习领域顶级会议ICML2014上首次公开亮相。微信语音识别微信图像识别广点通广告推荐等应用场景。,工业中的深度学习,2010-至今深度学习在工业界取得较大成功成功条件：大数据+计算能力+复杂模型+高效算法,深度学习的意义与展望,深度学习的意义,目标：计

28、算机智能和人工智能手段：大数据复杂模型计算能力和算法系统合成深度学习：最接近人脑的复杂模型，是目前向人工智能走得最近的方法,深度学习的展望,未来需解决的问题：对于一个特定的框架，多少维的输入它可以表现得较优？如何对于一个给定的深度学习架构，融合多种感知的信息？如何分辨和利用学习获得的中、高层特征语义知识？有什么正确的机理可以去增强一个给定的深度学习架构，以改进其鲁棒性和对变形及数据丢失的不变性？模型方面是否有其他更为有效且有理论依据的深度模型学习算法？是否存在可能建立一个通用的深度模型或深度模型的建模语言，作为统一的建模框架来处理语音、图像和语言？针对具体的问题，如何设计一个最合适的深度模型来解决问题？需要多少个样本、多少计算量可以更好地学习特征？,深度学习的展望,值得研究的方向：探索新的特征提取模型有效的可并行训练算法突破深度学习技术面临的一系列难题，我们将大大加速推进人工智能的发展！,Thank You!,