欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPTX文档下载  

    马尔科夫决策过程ppt课件.pptx

    • 资源ID:1466850       资源大小:1.48MB        全文页数:16页
    • 资源格式: PPTX        下载积分:16金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要16金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    马尔科夫决策过程ppt课件.pptx

    马尔科夫决策过程(MDP),目录,强化学习简介马尔科夫决策过程值迭代和策略迭代马尔科夫模型的创建,简介,在强化学习中,提供了一个回报函数,用于告诉learning agent的行动做的是好是坏。例如对于一个四足爬行机器人,向前移动给它奖励,翻到或者向后退就给予惩罚。强化学习可用于自动驾驶、手机网络的路由选择、营销策略的选择以及工厂控制等领域。,马尔科夫决策过程,五元组(S, A, sa , , R)S:状态集合A:动作集合 sa :状态转移概率:阻尼系数(discount factor),取值在01之间R: S * A - R, 回报函数,有时也为S - R,马尔科夫决策过称为整个决策过程的回报为如果回报函数只与状态有关,则回报为,马尔科夫决策过程的目标就是使整个决策过程的回报期望最大,即马尔科夫最终的结果就是得到一组策略,即在什么时候该做什么事。“策略”定义为: ,即 s =定义一个值函数 ,表示在某个策略下最终得到的回报根据Bellman equations, 上式可以表示为,最优回报根据Bellman equations,可以得到下式最优策略,得到最优策略,在知道马尔科夫五元组的情况下,可以通过两种算法得到最优策略,即值迭代和策略迭代这里只考虑有限状态和有限动作的情况。,值迭代,两种更新值函数的方法首先为所有状态计算新的V(s), 全部计算完成后,再一次性的替换原先旧的V(s).(同步更新)每计算出一个V(s), 就用新的V(s)值替换旧的V(s)值。(异步更新)计算出最优值函数后,就可以根据下式计算最优策略,策略迭代,值迭代与策略迭代的区别,值迭代和策略迭代都是解决马尔科夫决策过程的标准算法小规模的MDP,策略迭代计算快速且收敛地也较快对于有大规模状态空间的MDP来说,计算 比较复杂,因此,值迭代较策略迭代好因此,在实际操作中,值迭代使用地更频繁,创建马尔科夫模型,在之前的讨论中,状态转移概率和回报函数都是已知的,然而在实际情况中,这两个变量是未知的,需要经过实验得到。,状态转移概率可以通过下式得到回报函数可以通过下式得到R(s) = 1 在状态获得的回报之和,未知状态转移概率情况下MDP算法,Thank you,

    注意事项

    本文(马尔科夫决策过程ppt课件.pptx)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开