深度强化学习与机器人控制.pptx

上传人：李司机

文档编号：4696254

上传时间：2023-05-09

格式：PPTX

页数：16

大小：163.95MB

《深度强化学习与机器人控制.pptx》由会员分享，可在线阅读，更多相关《深度强化学习与机器人控制.pptx（16页珍藏版）》请在三一办公上搜索。

1、深度强化学习与机器人控制,强化学习（reinforcement Learning,rl）,Agent通过与环境交互学习一个从环境状态到行为的映射，学习的目标是使累积折扣奖赏最大。可用Markov决策过程描述，四个元素：S、A、P、R,深度强化学习（Deep reinforcement Learning,Drl）从感知到控制,结合深度学习的感知能力和强化学习的决策能力，直接从高维原始数据学习控制策略。解决了强化学习的1.函数逼近器：连续状态到连续动作空间映射问题；2.end to end:高维数据直接到动作的映射发展：Q-learningDQNPolicy Gradient:end to end

2、Deep Deterministic Policy GradientAction network,Critic network,1 Mnih,Volodymyr,et al.Human-level control through deep reinforcement learning Nature 518.7540(2015),深度强化学习能干什么,(棋类)游戏自动驾驶飞行器控制机械臂操作多足行走,深度强化学习能干什么（对于我们）,动目标捕获（在轨服务，工业，娱乐）自主装配（在轨构建，工业）自动驾驶、导航（星表探测）多目标识别（在轨监测）设计师助手,DRL应用于机器人控制的步骤,1.设计算法2

3、.编写程序3.训练4.应用,1.设计算法,以动目标抓捕任务DQN方法为例明确任务，确定输入输（状态、动作）,1.设计算法,制定奖赏规则,1.设计算法,更新Q值函数传统上采用查表的方式计算Q值函数，为了计算方便，可以利用上一周期的值用Bellman方程等更新Q值：由于状态动作空间巨大，我们训练一个深度递归网络（Deep Recurrent Neural Network,RNN）来拟合Q值表。,1.设计算法,制定动作策略-贪心：为了平衡探索和利用的矛盾，以（1-）的概率选取当前最优动作，以的概率随机选取其他动作。LSTM：从经验库提取数据提高学习效率。,2.编写程序,环境：Linux、Mac、Wi

4、n架构：TensorFlow等语言：Python伪代码：,3.训练,两种训练方式：模拟训练：搭建模拟器、模拟训练、移植OpenAI Gym，MuJoCo，rllab,DeepMind Lab,TORCS,PySC2等一系列优秀的平台MuJoCo（Multi-Joint dynamics with Contact）是一个物理模拟器，可以用于机器人控制优化等研究。TensorFlow等均集成了OpenAI Gym，MuJoCo实物训练：单机；多机经验共享,3.训练,实物训练模拟训练+移植,4.应用,经过长时间训练，算法收敛，性能满足要求后可应用于真实场景,DRL顶尖成果(左：DeepMind 右：SIGGRAPH小组),总结,深度强化学习为决策类问题（包括机器人控制）带来有效的解决方案，在某些领域可达到优于人的效果。对于我们来说在机器人抓捕、装配、规划、导航、行走方面皆可利用，服务于在轨服务、深空探测、辅助设计、民用市场开拓等领域。但DRL（人工智能）不是什么都适合干，不是什么都能干。我们应该斟酌其可利用的领域，不能为了赶时髦而盲目代入。AlphaGo战胜人类的意义确实是划时代的，借用两位人类棋手的话结尾：“人类千年的实战演练进化，计算机却告诉我们，人类全都是错的”柯洁围棋九段“机器人永远不能像人类那样理解这个游戏的美妙。”李世石围棋九段,