欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    深度学习及其视觉应用.ppt

    • 资源ID:6173061       资源大小:11.29MB        全文页数:51页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    深度学习及其视觉应用.ppt

    深度学习及其视觉应用,丁贵广,Guiguang Ding清华大学软件学院,深度学习及视觉应用,深度学习概述视觉应用,深度学习,神经网络是多层函数嵌套形成的模型,受到生物神经机制的启发构建多隐层的模型,深度学习,本质:通过构建多隐层的模型和海量训练数据(可为无标签数据),来学习更有用的特征,从而最终提升分类或预测的准确性。“深度模型”是手段,“特征学习”是目的。与浅层学习区别:1)强调了模型结构的深度,通常有5-10多层的隐层节点;2)明确突出了特征学习的重要性,通过逐层特征变换,将样本在原空间的特征表示变换到一个新特征空间,从而使分类或预测更加容易。与人工规则构造特征的方法相比,利用大数据来学习特征,更能够刻画数据的丰富内在信息。,深度学习的里程碑,2006年,加拿大多伦多大学教授、机器学习领域的泰斗Geoffrey Hinton在科学上发表论文提出深度学习主要观点:1)多隐层的人工神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类;2)深度神经网络在训练上的难度,可以通过“逐层初始化”(layer-wise pre-training)来有效克服,逐层初始化可通过无监督学习实现的。,Deep Learning的效果,CNN,卷积神经网络(Convolutional Neural Networks,CNN),深度学习的具体模型及方法,深度学习的具体模型及方法,卷积波尔兹曼机(Convolutional RBM)局部感受权值共享,减少参数的方法:每个神经元无需对全局图像做感受,只需感受局部区域(Feature Map),在高层会将这些感受不同局部的神经元综合起来获得全局信息。每个神经元参数设为相同,即权值共享,也即每个神经元用同一个卷积核去卷积图像。,深度学习的具体模型及方法,卷积波尔兹曼机(Convolutional RBM)隐层神经元数量的确定,神经元数量与输入图像大小、滤波器大小和滤波器的滑动步长有关。例如,输入图像是1000 x1000像素,滤波器大小是10 x10,假设滤波器间没有重叠,即步长为10,这样隐层的神经元个数就是(1000 x1000)/(10 x10)=10000个,深度学习的具体模型及方法,卷积波尔兹曼机(Convolutional RBM)多滤波器情形,不同的颜色表示不同种类的滤波器,每层隐层神经元的个数按滤波器种类的数量翻倍每层隐层参数个数仅与滤波器大小、滤波器种类的多少有关例如:隐含层的每个神经元都连接10 x10像素图像区域,同时有100种卷积核(滤波器)。则参数总个数为:(10 x10+1)x100=10100个,深度学习的具体模型及方法,卷积波尔兹曼机(Convolutional RBM),CNN的关键技术:局部感受野、权值共享、时间或空间子采样CNN的优点:1、避免了显式的特征抽取,而隐式地从训练数据中进行学习;2、同一特征映射面上的神经元权值相同,从而网络可以并行学习,降低了网络的复杂性;3、采用时间或者空间的子采样结构,可以获得某种程度的位移、尺度、形变鲁棒性;3、输入信息和网络拓扑结构能很好的吻合,在语音识别和图像处理方面有着独特优势。,对象识别CNN,5个卷积层和2个全连接层每层卷积核个数96,256,384,384,256,监督学习卷积神经网络,96个低级卷积核,监督学习卷积神经网络,网络庞大,但容易收敛唯一不需要特定初始化参数就可以训练成功比较容易并行化训练,并且可以利用GPU加速在计算机视觉(CV)领域取得成功,深度学习及视觉应用,深度学习概述深度视觉应用,ClassificationDetectionSegmentation,Image Captioning&Image Generator,Image Captioning,Image Generator,CNN Model,Convolutional Neural Network Based on Caffe FrameworkBasic ModelZFNetVGGNetGoogleNetResNetDenseNetSqueezeNet,Classification,Object Detection,模型:R-CNN,Fast R-CNN,Faster R-CNN,YOLO,SSD等知名框架精度:PASCAL VOC上的mAP,从R-CNN的53.3%,Fast RCNN的68.4%,Faster R-CNN的75.9%,Faster RCNN结合残差网(Resnet-101),达到83.8%速度:从最初的RCNN模型,处理一张图片要用2秒多,到Faster RCNN的198毫秒/张,再到YOLO的155帧/秒,最后出来了精度和速度都较高的SSD,精度75.1%,速度23帧/秒,Object Detection:R-CNN(2013),Object Detection:Fast R-CNN(2015),Results,Faster R-CNN,Faster R-CNN,Faster RCNN 物体检测系统,Problem:Small Object Detection,Object Recognition,Person and Car Detection Based on Faster R-CNN,Input,conv3,conv4,conv5,fc6,pooling,normalize,concatenate,convolute,IRNN,Context Information,Skip Layer Pooling,Improvement Based on Faster R-CNN,Improvement Based on Faster R-CNN,扩大输入图像分辨率修改Anchor的长宽比Hard Negative Sample Mining。,Some Results,Some Results,VOC Object Detection Task,Some Results,Pedestrian Detection&Tracking,Car Detection&Tracking,Detection and Classification,Detection and Classification,行人检索与属性识别,监控视频分析原型系统系统演示,监控视频中的汽车分类,Face Detection&Recognition,Segmentation,Fully Convolutional Networks,Fully Convolutional Networks,Semantic Segmentation,检测与分割,语义分割,Image Captioning,Image Captioning,the big ben clock tower towering over the city of London,Based Structure-NIC,Encoder-decoder model NIC(Neural Image Caption)model CNN:encode the image for sentencesLSTM:decode the image vector to a sentence,Model,GAN及Reinforcement Learning,生成器网络编码器-解码器结构NIC模型为图像生成描述解码器网络分类网络分辨句子是真实数据还是生成的有多种结构可以选择Gated-CNNText-CNN基准值网络(MLP)优化分布;减少策略梯度过程中估计的方差,Experiments,Dataset MS COCO123,287 images labeled with at least 5 captionsFollowing the evaluation API provided by the MS COCO serverThe beam size K used in the beam search is set to 10,Case Study,Image Captioning,Thanks!,

    注意事项

    本文(深度学习及其视觉应用.ppt)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开