智能控制第6章学习控制-增强学习.ppt

资源ID：5989750 资源大小：652KB 全文页数：51页
资源格式： PPT 下载积分：15金币

快捷下载

会员登录下载

三方登录下载：

下载资源需要15金币

邮箱/手机：
温馨提示：	用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）
支付方式：
验证码：	换一换

加入VIP免费专享

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

智能控制第6章学习控制-增强学习.ppt

第6章学习控制增强学习,智能控制基础,6.2.1 增强学习的基本思想,6.2.2 增强学习的主要算法,6.2.3 增强学习在控制中的应用,6.2 增强学习,增强学习的基本思想,强化学习是介于监督学习和无监督学习之间的一种学习方法，它不需要训练样本，但需要对行为结果进行评价，通过这些评价来间接指导行为的改进，直至满足目标。,心理学基础,19世纪末，俄国生理学家巴甫洛夫（Pavlov）建立经典条件反射（classical conditioning）理论。美国心理学家桑代克（Thorndike）也通过动物实验发现了效果律（law of effect），即动物可以根据试错尝试（trial-and-error）中得到的赏罚信息，学得情景下的有效行为。这种行为的效果被随后的斯肯纳（Skinner）称为强化作用（reinforcement），而相应的学习则被称为操作条件学习（operant conditioning）。,发展历史,二十世纪五十年代，Minsky 首次提出。六十年代，Waltz和付京孙将这种思想应用在智能控制中。八十年代以后，大量标志性的成果涌现。,系统结构图,增强学习的建模,有限Markov决策过程MDP（Markov Decision Processes)。系统状态集合为S；允许行为集合为As，As与状态s有关；行动为at下的状态转移概率P(st+1|st,at)得到即时回报（immediate reward）rt+1的期望为,确定系统,其中，为状态转移函数,即时回报,举例,增强学习的问题,目标函数构造如何获得最优决策和最优目标函数值,目标函数,用累计回报(return)期望来作为学习的价值函数。无限折扣模型（infinite-horizon discounted model）有限模型（finite-horizon model）平均回报模型（average-reward model）,为策略,目标函数求解,迭代策略计算IPE（Iterative Policy Evaluation）,目标函数可写作递推形式V(s)是递推公式的不动点，可用迭代逼近,存在的问题,需要了解整个系统的模型（状态转移、即时回报等）。,Monte Carlo法,目标函数为期望，在统计上可以用累计回报采样的平均值来逼近。,存在的问题,要完成整个尝试才能进行目标函数估计的更新。离线学习。,瞬时差分法（Temporal Difference）,Sutton在1988年提出。根据可得：,特点,结合了迭代策略计算法和Monte Carlo法。不需要完整的模型可进行在线学习,最优策略的求解,动态规划法,将递推公式两边取最优得到,推广策略迭代GPI,推广策略迭代GPI（Generalized Policy Iteration）特点,6.2.1 增强学习的基本思想,6.2.2 增强学习的主要算法,6.2.3 增强学习在控制中的应用,6.2 增强学习,6.2.2 增强学习的主要算法,1.Q-学习算法,定义一个与行为有关的价值函数 Q函数：可知策略选取,具体算法,因为借鉴瞬时差分的思想,确定MDP下的收敛性,定理6-7：在确定MDP下采取Q学习算法，如果对任意允许的(s,a)，有|r(s,a)|和Q 0(s,a)有界，01，n=1，则当n，且每一个(s,a)会被无限访问时，以概率1趋向于最优值Q*(s,a)。,证明,n时，Qn0,不确定MDP下的收敛性,定理6-6：在不确定MDP下采取Q学习算法，如果对任意允许的(s,a)，有|r(s,a)|和Q 0(s,a)有界，01，0n1，且满足则当n，且每一个(s,a)会被无限访问时，以概率1趋向于最优值Q*(s,a)。其中，N(n,s,a)为第n次迭代时，单元(s,a)被访问的累计次数。,学习步长选择,上述定理告诉我们学习步长既不可衰减太快慢、又不可衰减太快，一般可取n为：,遍历性条件的策略选择,隐含了贪婪原则的选择策略，,无法同时保证遍历性，需要寻找其它选择策略,在下面的迭代过程中,-贪婪方法,其中|A(st)|为决策集合的大小，为探索概率，一般随时间的增长而递减。,Boltzman分布法,模仿热力学中的Boltzman分布，得到了一种新的策略选取方法，可以使价值函数值大的行为获得更大的被选概率。的取值一般也随时间的增长而减小。,2.Sarsa算法,Rummery和Niranjan于1994年提出由于算法中只用到了st、at、r、st1和at1五个量，所以Sutton在其书中将其命名为Sarsa。一种策略有关（on-policy）的学习算法,Sarsa学习算法的收敛性,定理6-8：有限MDP下，如果Sarsa学习算法的策略选择满足GLIE（Greedy in the Limit with Infinite Exploration）条件或RRR（Restricted Rank-based Randomized）条件，且Varr(s,a)有界，0n1，满足则当n，收敛于最优值Q*(s,a)。,策略选择条件,GLIE(Greedy in the Limit with Infinite Exploration)条件每一个(s,a)会被无限访问；Q函数的策略选择随着迭代次数的增长，以概率1收敛于贪婪方法 RRR条件是另一类常见的策略选择思想，这一条件要求对某一行为的选择概率应与该行为的价值函数值呈非减关系，即：,存在问题,收敛速度慢（状态空间、决策空间规模）因为在一步学习中，获得的即时回报只能影响相邻状态的价值函数值预测。Markov条件,3.多步学习算法,学习公式改为：en(s)资格迹(eligibility trace)（时间信度）01为衰减因子，dn(st,at,st+1)为TD误差，例如：,6.2.1 增强学习的基本思想,6.2.2 增强学习的主要算法,6.2.3 增强学习在控制中的应用,6.2 增强学习,6.2.3 在控制中的应用,西洋跳棋倒立摆控制任务调度机器人动作学习与神经网络结合,1.pH值控制,连续搅拌釜CSTR（Continuous Stirred Tank Reactor）控制系统，该控制系统的目的是保持搅拌釜中溶液的pH值保持在一个给定的水平。pH值y(t)可由pH计读出。pH值的控制由一个滴定系统完成，控制信号u(t)由计算机给出。,状态设计,High if y(t)SP+1 High：if SP+0.2 y(t)SP+1Goal：if SP-0.2 y(t)SP+0.2Low：if SP-1 y(t)SP-0.2Lower：if y(t)SP-1,行为设计,滴定系统采用增量式控制a为行为编号，具体有：大减、减、小减、等待、小增、增、大增7种，依次编号。例如等待的行为编号为4。,状态转移图,即时回报设计,除了在Goal区域，其余区域的回报均是惩罚,学习策略,单步Q-学习控制行为选择采用贪婪算法，具体参数如下：折扣因子0.98，学习率0.3，探索概率0.3。,控制效果,假设机器人欲前往目的地G，不同行为的即时回报r如下图所示。,2.移动机器人路径规划,一步迭代,第2步迭代,第3步迭代,第4步迭代,

注意事项

本文（智能控制第6章学习控制-增强学习.ppt）为本站会员（牧羊曲112）主动上传，三一办公仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三一办公（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。