欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPTX文档下载  

    深度强化学习与机器人控制.pptx

    • 资源ID:4696254       资源大小:163.95MB        全文页数:16页
    • 资源格式: PPTX        下载积分:10金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要10金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    深度强化学习与机器人控制.pptx

    深度强化学习与机器人控制,强化学习(reinforcement Learning,rl),Agent通过与环境交互学习一个从环境状态到行为的映射,学习的目标是使累积折扣奖赏最大。可用Markov决策过程描述,四个元素:S、A、P、R,深度强化学习(Deep reinforcement Learning,Drl)从感知到控制,结合深度学习的感知能力和强化学习的决策能力,直接从高维原始数据学习控制策略。解决了强化学习的1.函数逼近器:连续状态到连续动作空间映射问题;2.end to end:高维数据直接到动作的映射发展:Q-learningDQNPolicy Gradient:end to endDeep Deterministic Policy GradientAction network,Critic network,1 Mnih,Volodymyr,et al.Human-level control through deep reinforcement learning Nature 518.7540(2015),深度强化学习能干什么,(棋类)游戏自动驾驶飞行器控制机械臂操作多足行走,深度强化学习能干什么(对于我们),动目标捕获(在轨服务,工业,娱乐)自主装配(在轨构建,工业)自动驾驶、导航(星表探测)多目标识别(在轨监测)设计师助手,DRL应用于机器人控制的步骤,1.设计算法2.编写程序3.训练4.应用,1.设计算法,以动目标抓捕任务DQN方法为例明确任务,确定输入输(状态、动作),1.设计算法,制定奖赏规则,1.设计算法,更新Q值函数传统上采用查表的方式计算Q值函数,为了计算方便,可以利用上一周期的值用Bellman方程等更新Q值:由于状态动作空间巨大,我们训练一个深度递归网络(Deep Recurrent Neural Network,RNN)来拟合Q值表。,1.设计算法,制定动作策略-贪心:为了平衡探索和利用的矛盾,以(1-)的概率选取当前最优动作,以的概率随机选取其他动作。LSTM:从经验库提取数据提高学习效率。,2.编写程序,环境:Linux、Mac、Win架构:TensorFlow等语言:Python伪代码:,3.训练,两种训练方式:模拟训练:搭建模拟器、模拟训练、移植OpenAI Gym,MuJoCo,rllab,DeepMind Lab,TORCS,PySC2等一系列优秀的平台MuJoCo(Multi-Joint dynamics with Contact)是一个物理模拟器,可以用于机器人控制优化等研究。TensorFlow等均集成了OpenAI Gym,MuJoCo实物训练:单机;多机经验共享,3.训练,实物训练模拟训练+移植,4.应用,经过长时间训练,算法收敛,性能满足要求后可应用于真实场景,DRL顶尖成果(左:DeepMind 右:SIGGRAPH小组),总结,深度强化学习为决策类问题(包括机器人控制)带来有效的解决方案,在某些领域可达到优于人的效果。对于我们来说在机器人抓捕、装配、规划、导航、行走方面皆可利用,服务于在轨服务、深空探测、辅助设计、民用市场开拓等领域。但DRL(人工智能)不是什么都适合干,不是什么都能干。我们应该斟酌其可利用的领域,不能为了赶时髦而盲目代入。AlphaGo战胜人类的意义确实是划时代的,借用两位人类棋手的话结尾:“人类千年的实战演练进化,计算机却告诉我们,人类全都是错的”柯洁 围棋九段“机器人永远不能像人类那样理解这个游戏的美妙。”李世石 围棋九段,

    注意事项

    本文(深度强化学习与机器人控制.pptx)为本站会员(李司机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开