欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPTX文档下载  

    强化学习入门第二讲基于模型的强化学习ppt课件.pptx

    • 资源ID:1330851       资源大小:610.63KB        全文页数:17页
    • 资源格式: PPTX        下载积分:16金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要16金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    强化学习入门第二讲基于模型的强化学习ppt课件.pptx

    强化学习入门第二讲,郭宪2017.3.4,强化学习的形式化,强化学习目标:,max ,策略:,累积回报:, = + =0 1 , ,折扣回报:,= =0 ,值函数,最优策略:,序贯决策问题,强化学习方法分类,动态规划,动态规划是一类算法:包括离散和连续。,动态:蕴含着序列决策规划:蕴含着优化,如线性优化,二次优化或者非线性优化。,动态规划可以解决的问题:,1. 整个优化问题可以分解成多个子优化问题,2. 子优化问题的解可以被存储和重复利用,马尔科夫决策过程(MDP),贝尔曼最优性原理,得到贝尔曼最优化方程:, = max + ss , , = + max ,动态规划可以解决MDP的问题,核心:动态规划通过值函数来迭代构造最优解,策略评估(policy evaluation),模型已知,方程组中只有值函数是未知数,方程组是线性方程组。未知数的数目等于状态的数目。,采用数值迭代算法,策略评估(policy evaluation),高斯-赛德尔迭代,策略评估(policy evaluation),状态空间:S=1,2.14动作空间:东,南,西,北,回报函数:-1,直到终止状态,均匀随机策略:, 东| =0.25, 南| =0.25, 西| =0.25, 北| =0.25,策略评估(policy evaluation),策略改进(policy improvement),计算策略值的目的是为了帮助找到更好的策略,在每个状态采用贪婪策略。, +1 argmax ,=, 0 均匀策略:, 1 贪婪策略:,策略迭代(policy iteration),策略评估,策略改进,值函数迭代,策略改进一定要等到值函数收敛吗?,当K=1时便进行策略改进,得到值函数迭代算法, = max + ss ,值函数迭代与最优控制,值函数迭代算法,状态方程:,性能指标函数:,最优控制问题:,Bellman 最优性原理:,2. 利用变分法,将微分方程转化成变分代数方程,在标称轨迹展开,得到微分动态规划DDP,1. 将值函数进行离散,进行数值求解。,值函数迭代与最优控制,值函数迭代算法,此式是关于值函数的偏微分方程,利用数值算法可进行迭代计算值函数。,From 胡亚楠博士论文,值函数迭代与最优控制,值函数迭代算法, , = min , + 0 , , = min 0 0 + , , + +,+,贪婪策略:,利用变分法,将微分方程转化成变分代数方程,微分动态规划方法,微分动态规划:,1. 前向迭代:给定初始控制序列 正向迭代计算标称轨迹,(1),(3),(2),3. 正向迭代新的控制序列:,值函数迭代与最优控制,值函数迭代算法,基于模型的其他方法,逼近动态规划(逼近值函数)基于模型的策略搜索(dynamic)异步动态规划实时动态规划Guided policy search,

    注意事项

    本文(强化学习入门第二讲基于模型的强化学习ppt课件.pptx)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开