深度学习ppt幻灯片课件.ppt
《深度学习ppt幻灯片课件.ppt》由会员分享,可在线阅读,更多相关《深度学习ppt幻灯片课件.ppt(45页珍藏版)》请在三一办公上搜索。
1、1,深度学习及其硬件加速,2,报告提纲,深度学习硬件加速方式,2,3,人工智能为机器赋予人的智能,人工智能、机器学习与深度学习,人工智能,机器学习,深度学习,1950s 1960s 1970s 1980s 1990s 2000s 2010s,模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的技术科学;让机器象人一样思考应用:国际跳棋程序,人工智能的分支,研究机器模拟或实现人类的学习行为,以获取新的知识技能,并改善自身性能应用:垃圾邮件过滤,一种机器学习方法,模拟人脑机制解释数据,通过组合低层特征形成更加抽象的高层属性类别或特征应用:谷歌视频寻猫,4,训练阶段:输入大量带标注动物图片,训练网
2、络学会辨别推理阶段:输入未标注图片提取图片内容的低层特征,如轮廓分析提取高层的结构特征,如四肢分析获得顶层的抽象概念,如动物类型基于前期训练结果,预测图片内容,深度学习的流程,5,深度学习典型算法为卷积神经网络,以2层卷积为例,算法为:输入图像与滤波器、偏置进行卷积,产生卷积层的特征映射图卷积层特征映射图经求和,加权值,偏置,函数处理得到采样层采样层重复上述流程处理后产生新的采样层全连接层提取归类获得足够好的高层特征表达信息,深度学习的算法,6,一层卷积学到的特征是局部的,层数越高,特征就越全局化。卷积和采样具体过程为:卷积过程:滤波器fx卷积输入图像后,加偏置项bx,得卷积层Cx采样过程:每
3、邻域4个像素求和得一个像素,通过标量Wx+1加权,加偏置项bx+1,通过sigmoid激活函数产生缩小4倍的特征图Sx+1,深度学习的算法,7,深度学习开源框架层出不穷,用来实现深度学习算法避免重复工作,降低算法门槛Google、Microsoft、Facebook 等均发布深度学习框架谷歌TensorFlow占绝对优势强大的人工智能研发水平、快速的迭代更新,深度学习的开源框架,8,谷歌2015年底发布开源深度学习框架TensorFlowTensor(张量):多维数组在高维空间的数学运算Flow(流):基于数据流图的计算TensorFlow关键特性代码简洁多语言支持分布式算法执行效率高移值灵活
4、伸缩性好支持多种神经网络算法,深度学习的开源框架,9,报告提纲,深度学习硬件加速方式,2,10,深度学习硬件加速方式,当前深度学习硬件加速方式主要有 CPU、GPU 、FPGA 、DSP、ASIC,11,深度学习硬件加速方式CPU,通用级加速方式,高度灵活性和易用性架构上有先天弱势运算能力较弱访存带宽受限代表:Intel Xeon Phi系列芯片、高通骁龙820案例:Google Brain项目用16000个CPU Core的并行计算平台保证训练算法速度,通过观看YouTube的视频,识别出猫,12,SIMD方式,计算能力强,并行度支持好通用性,并非针对深度学习运行效率受影响能耗仍较大代表:
5、NVIDIA Tesla P100 GPU案例:基于GPU深度学习加速受到谷歌、微软、IBM以及百度等企业青睐;在汽车和先进驾驶辅助系统(ADAS)方面与众多车企进行合作,深度学习硬件加速方式GPU,13,能效较高且硬件配置灵活顶级GPU性能的1/5,能效相当相比CPU,性能提升1个数量级,能效提升2个数量级增长的门资源和内存带宽带来更大的设计空间省去ASIC方案所需流片过程代表:DeephiTech(深鉴科技)、Xilinx 、Altera案例:微软用Altera FPGA 实现基于卷积神经网络的数据中心加速,效能优异。算法用于图像分类、图像识别及自然语言处理,深度学习硬件加速方式FPGA,
6、14,用传统SIMD/DSP架构来适配运算逻辑作修改,以适用卷积神经网络对深度学习全面计算能力支持不足核心数量较少,并行性支持较差代表:Cadence的Tensilica Vision P5处理器、Synopsys的EV处理器、中星微视频处理芯片星光智能一号案例:星光智能一号广泛应用于高清视频监控、智能驾驶辅助、无人机、机器人等嵌入式机器视觉领域,深度学习硬件加速方式DSP,15,阻碍深度学习发展的瓶颈仍是算法速度传统处理器需要多条指令才能完成一个神经元的处理ASIC根据深度学习算法定制:处理效率、能效均最高代表:Cambricon(寒武纪科技)DianNao芯片、谷歌的TPU芯片、Horiz
7、on Robotics(地平线机器人)BPU芯片案例:基于TPU的AlphaGo与围棋冠军李世石人机大战,总比分4:1获胜,深度学习硬件加速方式ASIC,16,深度学习硬件加速方式比较,17,上述均为基于深度学习的加速芯片。作为人工神经网络芯片,还有另外一支,是从类似或模拟生物神经系统来实现的神经形态网络芯片(类脑芯片)代表:IBM TrueNorth(真北)、Brainchip等,其他人工神经网络芯片,18,报告提纲,深度学习硬件加速方式,2,19,IBM,2014年发布能模拟人类大脑的超大规模神经突触芯片TrueNorth基于类似人脑、非冯诺依曼的计算架构含有100万神经元,通过 2.56
8、 亿个突触彼此通信4096个神经突触,每秒可执行 46 千兆突触运算三星28nm工艺,54亿晶体管,功耗仅为70mW,典型神经网络芯片IBM TrueNorth,20,TrueNorth芯片结构、功能、物理形态图,典型神经网络芯片IBM TrueNorth,21,人脑分成三个层次神经突触、脑功能区和脑皮层每个突触由诸多神经元组成,每个脑功能区由诸多突触组成,一个能完整执行任务的皮层由诸多个功能区组成TrueNorth芯片架构对应分为三个层次突触对应硬件neurosynaptic core,有256个输出与输入及对应的存储,并集成神经信号的路由器芯片有4096个core,组成脑功能区芯片与芯片间
9、互联,实现完整的脑皮层功能TrueNorth基于脉冲神经网络设计,采用1KHz帧时钟模拟生物上的脉冲,因而没有全局时钟控制的信号传递;数据和数据之间采用异步方式通讯,实现低功耗。,典型神经网络芯片IBM TrueNorth,22,IBM用48块TrueNorth芯片构建一个电子的啮齿类动物大脑,每一块芯片都可以模拟大脑的一个基本功能区。系统可模拟4800万个神经细胞,与小型啮齿动物大脑的神经细胞数齐平基于该模拟大脑编写的程序可识别照片和语音,并理解一些自然语言,典型神经网络芯片IBM TrueNorth,23,2016年12月,IBM公布了TrueNorth芯片的最新成果美国陆军研究实验室利用
10、TrueNorth芯片的低功耗和实时模式识别特性,帮助在部署数据收集时,减少延迟、降低数据复杂性、减少传输宽带需求,同时解决分布式系统终端的数据存储需求美国空军研究实验室利用TrueNorth横向扩展系统来执行并行数据的文本提取和识别任务。图像文本被分割成单独的字符后被TrueNorth系统进行并行字符识别。归类之后的结果将会被传送到基于推理的自然语言模型中来重建单词和句子劳伦斯利弗莫尔国家实验室训练一个16块TrueNorth芯片组成的网络追踪激光熔化机的焊点质量,可以识别7种等级。实时焊点质量监控使得闭环工艺改进和立即排除缺陷部件成为可能,典型神经网络芯片IBM TrueNorth,24,
11、对TrueNorth的评价不同于冯诺依曼架构,将处理、存储、通信集成在一起尝试在硅片中模仿人脑以大规模平行方式处理信息向社会步入认知计算机时代迈出重要一步短期看,TrueNorth情况不乐观生态系统差编程困难缺乏高效的训练算法不具备调整的灵活性,典型神经网络芯片IBM TrueNorth,25,2016年中科院计算所正式发布神经网络处理器寒武纪针对深度学习领域的专用芯片性能、功耗和面积上,比CPU/GPU有百倍优势寒武纪系列已包含四种原型处理器:寒武纪1号(英文名DianNao,面向神经网络的原型处理器结构)寒武纪2号(英文名DaDianNao,面向大规模神经网络)寒武纪3号(英文名PuDia
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 深度 学习 ppt 幻灯片 课件
链接地址:https://www.31ppt.com/p-1349301.html