毕业设计(论文)基于强化学习的Gambler策略研究与评价.doc
《毕业设计(论文)基于强化学习的Gambler策略研究与评价.doc》由会员分享,可在线阅读,更多相关《毕业设计(论文)基于强化学习的Gambler策略研究与评价.doc(38页珍藏版)》请在三一办公上搜索。
1、本科毕业设计(论文)学院(部)计算机科学与技术学院题目基于强化学习的Gambler策略研究与评价年级专业软件工程(嵌入式)班级学号姓名指导教师职称论文提交日期目 录摘 要1ABSTRACT2第一章 前 言 31.1背景概述31.2 强化学习的应用31.3论文结构安排4第二章 强化学习52.1强化学习的原理和模型52.2强化学习系统的主要组成要素62.3马尔可夫决策过程 (MDP)72.4强化学习的基本算法82.4.1 动态规划(Dynamic Programming, DP)82.4.2 蒙特卡罗算法 (Monte Carlo method, MC)92.5强化学习中有待解决的问题92.6本章
2、小结9第三章 动态规划分析103.1动态规划的适用条件103.1.1最优化原理103.1.2无后向性103.1.3子问题的重叠性103.2算法流程113.2.1策略评估113.2.2策略改进113.3寻找最优策略123.3.1策略迭代123.3.2值迭代123.4动态规划的效率133.5本章小结13第四章 实验平台分析与实现144.1实验平台描述144.1.1系统概述144.1.2系统运行环境144.2Gambler问题仿真144.3实验平台概要设计154.3.1底层框架模型154.3.2 Gambler问题模型174.3.3界面设计174.4实验平台的详细设计194.4.1类和接口194.4
3、.2核心算法示例224.5本章小结25第五章 实验结果分析265.1实验结果265.2Gambler仿真结果分析275.2.1Gambler 在不同P值下的策略275.2.2策略分析与评价275.2.3计算误差对策略的影响285.3本章小结29第六章 总结与展望306.1课题总结306.2进一步的研究与展望30参考文献32致 谢34摘 要 强化学习是一种重要的机器学习方法。强化学习通过感知环境状态信息来学习动态系统的最优策略,通过试错法不断地与环境进行交互来改善自己的行为,并具有对环境的先验知识要求低的优点,是一种可以应用到实时环境中的在线学习方式。因此在智能控制,机器学习等领域中强化学习得到
4、了广泛研究。强化学习的任务就是学习从状态空间到动作空间的映射。环境对不同动作做出的评价性反馈信号决定了强化学习系统的动作选择策略。如果一个动作得到了最多的奖励,则该动作就会被采取。本文的特点是在强化学习理论研究的基础上,以Gambler问题为仿真实验平台,对强化学习中的动态规划算法进行实现,并对不同P值下的实验结果进行分析。关键词:强化学习,机器学习,动态规划,Gambler 作 者:李天琳指导老师:刘 全ABSTRACTReinforcement learning is an important machine learning method. It could learn the opti
5、mal policy of the dynamic system through environment state observation and improve its behavior through trial and error with the environment. Reinforcement learning has the quality of low requirement for a priori knowledge and is also a kind of online learning method for the real-time environment, w
6、hich is extensively explored in the field of intelligent control and machine learning.The aim of reinforcement learning is to learn the mapping from the state space to the action space. The selection policy of actions in the reinforcement learning system is determined by the evaluative feedback sign
7、al which is made by environment on different actions. If one action leading to the largest reward, it will be taken. The feature of this paper is that based on the basic theories and methods of reinforcement learning, this paper applies the Gambler problem simulation experiment to implement the dyna
8、mic programming algorithms and analyses the results according to different P value thereafter.Key Words: Reinforcement Learning, Machine Learning, Dynamic Programming, GamblerAuthor: Tianlin LiSupervisor: Quan Liu第一章 前 言1.1 背景概述学习是人类获取知识的主要形式,也是人类具有智能的显著标志,是人类提高智能水平的基本途径。建造具有类似人的智能机器是智能控制、人工智能研究的一个核
9、心问题。要使机器具有一定智能,一种方式是靠人事先编程来建立知识库和推理机制,这具有明显的局限性。我们希望智能机具有向环境学习的能力,即自动获取知识、积累经验、不断更新和扩充知识,改善知识性能。一个学习系统是具有这样一种能力的系统,它通过与控制对象和环境的闭环交互作用,根据过去获得的经验信息,逐步改进系统自身的未来性能1。在机器学习范畴,根据反馈的不同,学习技术可以分为监督学习(Supervised learning)、非监督学习(Unsupervised learning) 和强化学习(Reinforcement learning)三大类。监督学习也称有导师的学习,这种学习方式需要外界存在一个
10、“教师”,它可以对给定一组输入提供应有的输出结果,这种已知的输入-输出数据称为训练样本集,学习的目的是减少系统产生的实际输出和预期输出之间的误差,所产生的误差反馈给系统来指导学习。非监督学习又称无导师学习,它是指系统不存在外部教师指导的情形下构建其内部表征。研究者发现,生物进化过程中为适应环境而进行的学习有两个特点:一个是人从来不是静止的被动的等待而是主动的对环境作试探;二是环境对试探动作产生的反馈是评价性的,生物根据环境的评价来调整以后的行为,是一种从环境状态到行为映射的学习,具有以上特点的学习就是强化学习(或称再励学习,评价学习,简记为RL)2。强化学习是一种以环境反馈作为输入的、特殊的、
11、适应环境的机器学习方法。该方法不同与监督学习技术那样通过正例、反例来告知采取何种行为,而是通过试错(trial-and-error)的方法来发现最优行为策略3。强化学习的概念是由Minsky在20世纪60年代最先提出的,从80年代末开始,随着对强化学习的数学基础研究取得突破性进展后,对强化学习的研究和应用也日益开展起来,成为目前机器学习领域的研究热点之一。1.2 强化学习的应用现在,强化学习已经成为制造业过程控制、作业调度、路径规划、WEB信息搜索、企业供应链、电子商务等领域,对目标行为优化的一种重要技术4。例如,目前将强化学习理论与企业分销系统相结合,目的是将多个制造商与一个零售商组成的分销
12、系统,他们以各自的利润最大化为目标。制造商给零售商提供奖金激励,零售商提供对应于奖金激励的服务水平,制造商需要进行为零售商提供多大奖金激励的决策,利用强化学习的启发式学习算法来优化制造商应提供的最优奖金激励。在调度管理中,强化学习体现出了很大的经济价值。Crites和Barto将强化学习算法用于一个4个电梯、10层楼的系统中5。每一个电梯都有各自的位置、方向、速度和一系列表示乘客要离开的位置状态。这个系统的状态集合超过1022个,用传统方法很难管理,因此他们用反传算法训练表示Q函数的神经网络,与其它算法相比较,强化学习更加优越。另外强化学习在蜂窝电话系统中动态信道分配和Job shop规划问题
13、上都有应用。在游戏比赛中,强化学习理论也被广泛地应用。最早应用的例子是Samuel的下棋程序,近来,Tesauro把瞬时差分法应用于Backgamon,这就是著名的TD-Gammon。Backgammon大约有1020个状态6,Tesauro 采用三层BP神经网络把棋盘上的棋子位置与棋手获胜率联系起来,通过训练取得在40盘比赛中仅负1盘的战绩。强化学习在多移动机器人系统中的应用研究正日益受到关注。Turcher Balch提出Clay控制结构应用于机器人足球赛,不同于基于行为控制结构的强化学习,他将强化学习与motor schemas 有机结合,使得系统既具有强化学习的自适应能力,又有moto
14、r schemas的实时性能。Mataric 利用改进的Q学习算法实现四个机器人执行foraging任务,事先利用领域知识将状态空间到动作空间的映射转化为条件行为来压缩状态空间的规模,加速学习7。1.3 论文结构安排本文以强化学习理论为基础,在Gambler仿真平台中实现了动态规划算法,并对实验结果进行了深入分析。论文结构安排如下:第一章,前言。该章介绍了强化学习的背景及其应用。第二章,强化学习。该章介绍了强化学习的基本原理和模型,强化学习系统的主要组成要素以及马尔可夫决策过程 (MDP),然后介绍了强化学习的基本算法,包括动态规划,蒙特卡罗算法,最后提出了强化学习过程中有待解决的问题。第三章
15、,动态规划分析。该章重点介绍了动态规划理论,包括动态规划的适用条件,算法流程以及寻找最优策略的两种迭代方式,最后分析了动态规划的效率。第四章,实验平台分析与实现。该章详细分析了实验平台的概要设计和详细设计。第五章,实验结果分析。该章分析了仿真平台的实验结果,对Gambler在不同P值下的策略进行了深入比较和分析。第六章,总结与展望。该章对本文的研究工作进行了总结,对强化学习课题的前景做了进一步的展望。第二章 强化学习强化学习技术是从控制理论、统计学、心理学等相关学科发展而来,最早可以追溯到巴普洛夫的条件反射实验8。强化学习要解决的是这样一个问题:一个能够感知环境的自治Agent,怎样通过学习选
16、择能够达到其目标的最优动作9。当Agent在环境中做出每个动作时,施教者会提供奖励或惩罚信息,以表示结果状态正确与否。例如,在训练Agent进行棋类对弈时,施教者可在游戏胜利时给出正回报,而在游戏失败时,给出负回报,其他的时候给出零回报。2.1 强化学习的原理和模型强化学习的基本原理为:如果Agent的某个行为策略导致环境正的奖励,那么Agent产生这个行为策略的趋势将会加强;如果Agent的某个行为策略导致环境负的奖励,那么Agent产生这个行为策略的趋势将会减弱,最终消亡。由于强化学习不像监督学习那样有教师信号,它仅有一个强化信号来判断动作的好坏,所以它的学习过程必定是漫长的。强化学习把学
17、习看作试探过程,基本模型如图2.l所示。在强化学习中,Agent选择一个动作a作用于环境,环境接收该动作后发生变化,同时产生一个强化信号(奖或罚)反馈给Agent,Agent再根据强化信号和环境的当前状态S再选择下一个动作,选择的原则是使受到正的报酬的概率增大10。选择的动作不仅影响立即回报值而且还影响下一时刻的状态及最终回报值。强化学习的目的就是寻找一个最优策略,使得Agent在运行中所获得的累计回报值最大11。Agent环境奖赏r动作a状态S图2.1 强化学习的基本结构Agent与环境进行交互是,在每一时刻循环发生如下事件序列:(1) Agent感知当前的环境状态;(2) 针对当前的状态和
18、强化值,Agent选择一动作执行;(3) 当Agent所选择的动作作用于环境时,环境发生变化,即环境状态转移至新状态并给出奖赏(强化信号r);(4) 奖赏(强化信号r)反馈给Agent。2.2 强化学习系统的主要组成要素模型瞬时奖惩策略状态值函数图2.2 强化学习的四个要素如图2.2所示,除了Agent和环境,一个强化学习系统还有四个主要的组成要素:策略(policy)、状态值函数(value function)、瞬时奖惩函数(reward function)和环境的模型(model)。Agent的任务是产生控制动作,动作的选定则是根据策略得到的,所以说策略是状态到动作的映射:。策略是强化学习
19、的核心,因为策略直接决定了Agent的动作,即告诉Agent选择什么动作,策略的好坏最终决定了Agent的行动和整体性能,策略具有随机性。瞬时奖惩函数是在与环境交互的过程中,获取的奖励信号,该函数反应了Agent所面临的任务的性质,同时,它也可以作为Agent修改策略的基础。奖赏信号R是对所产生动作的好坏作一种评价,奖赏信号通常是一个标量信号,例如用一个正数表示奖,而用负数表示罚,一般来说正数越大表示奖的越多,负数越小表示罚的越多。强化学习的目的就是使Agent最终得到的总的奖赏值达到最大。瞬时奖惩函数往往是确定的、客观的,为策略的选择提供依据,即告诉Agent选择什么动作是好的。如果说瞬时奖
20、惩函数是对一个状态(或状态-动作对)的即时评价,那么状态值函数就是从长远的角度来考虑一个状态(或状态-动作对)的好坏。值函数又称为评价函数。状态st的值,是指Agent在状态st根据策略执行动作at及采取后续策略所得到的积累奖赏的期望,记为。环境的模型是某些强化学习系统的另一个元素,并不是所有的强化学习系统都需要建立环境的模型。图2.2中给出了这四种要素之间的关系。它们自底向上地构成了强化学习的学习结构。首先,系统所面临的环境由环境模型定义,模型是学习环境的基础。但是由于模型中函数和函数未知,只能使用瞬时奖惩选择策略。又因为考虑到环境模型的不确定性和目标的长远性,所以产生了介于策略和瞬时奖惩之
21、间的状态值函数。即: (2.1)这里是一个参数,称为折扣率。 (2.2)根据Bellman最优策略公式,在最优策略下,其值函数的定义如下: (2.3)2.3 马尔可夫决策过程 (MDP)在理想状况下,往往希望一个状态能够简练地抽象总结过去的感觉,然而这种方式又能保留所有相关信息。正常的来说,这比只要求即时感觉要求得更多,但是比要求全部的过去感知历史要少得多。一个成功保留所有相关信息的状态信号称为马尔可夫的,或者说具有马尔可夫性质。比如,一个棋子的位置当前的在棋盘上所有棋子的结构将作为一个马尔可夫状态,因为它汇集了所有关于引导它完成位置序列的重要的东西。虽然关于这个序列的很多信息丢失了,但是所有
22、有关于这个游戏的最重要的东西被保留下来了。对于所有在过去事件中的,和所有的可能值:来说,如果状态信号有马尔可夫特性,那么环境在的响应只取决于在时刻的状态和动作的表示,在此情况下,环境和任务是一体的,都称为具有马尔可夫性质,环境的动态量可以定义为: (2.4)满足马尔可夫性质的强化学习任务被称为是马尔可夫决策过程或者MDP。很多强化学习问题基于的一个关键假设就是Agent与环境之间的交互可以被看成一个马尔可夫决策过程(MDP),因此强化学习的研究主要集中于对Markov的问题处理。Markov决策过程的模型可以用一个四元组表示:为可能的状态集合,为可能的动作集合,是状态转移函数;是奖赏函数1。在
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 毕业设计 论文 基于 强化 学习 Gambler 策略 研究 评价
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-3981430.html