硕士学位论文-时序差分学习在非完备信息机器博弈中的应用.doc
《硕士学位论文-时序差分学习在非完备信息机器博弈中的应用.doc》由会员分享,可在线阅读,更多相关《硕士学位论文-时序差分学习在非完备信息机器博弈中的应用.doc(65页珍藏版)》请在三一办公上搜索。
1、 工学硕士学位论文时序差分学习在非完备信息机器博弈中的应用*工业大学2008年国内图书分类号:TM151.3国际图书分类号:621.3工学硕士学位论文时序差分学习在非完备信息机器博弈中的应用硕士研究生 :导 师 :申 请 学 位 :工学硕士学科、专业 :计算机科学与技术所在单位 :答辩日期 :2008年授予学位单位:*工业大学Classified Index: TP399U.D.C: 621.3Dissertation for the Master Degree of EngineeringIMPERFECT INFORMATION GAMES BASED ON TEMPORAL DIFFER
2、ENCE LEARNING Candidate:Supervisor:Academic Degree Applied for:Master of EngineeringSpecialty: Computer ScienceAffiliation: Date of Defence:2008Degree-Conferring-Institution:摘 要完备信息博弈已经有很多应用比较成功的解决方案。当电脑走棋的时候,根据当前棋局创建一个部分的博弈树,利用估值函数对叶结点进行估值,通过估值的结果来进行极大极小值搜索,找到一个在根结点的最佳走步。这是很多的人工智能程序的核心架构。然而,迄今为止非完备
3、信息下的非常成功的人工智能博弈程序很少。非完备信息博弈问题的解决技术和完备信息有很大的差异,应用于完备信息的技术不一定能够成功的应用到非完备信息博弈中。在非完备信息博弈中,博弈双方仅拥有当前游戏状态的部分知识。在信息不明了的情况下,随机策略成为一个可行的选择。例如,对于桥牌游戏来讲,在评估玩家的出牌时,蒙特卡罗技术对各张看不到的牌进行抽样,随机的确定这些牌的种类,然后对获得的完备信息牌局进行极大极小值搜索,就好像每个玩家都知道所有的牌是什么一样。上述过程多次进行,选择平均来说最好的出牌。时序差分学习是机器学习领域强化学习技术的一种。传统的学习技术通过预测值和真实结果之间的差值来调整描述状态的各
4、种参数,而时序差分学习根据连续的预测之间的差值来调整。对现实生活中的大多数预测问题来说,时序差分相对于传统方法而言需要更少的内存,更低的计算时间复杂度。时序差分侧重于对运算效率的提升,结果和传统学习方法比较接近。本文探讨了时序差分学习在非完备信息机器博弈估值函数中的应用,并基于该算法结合蒙特卡罗抽样技术实现了一个具有自学习能力的四国军棋博弈系统。本文的主要研究成果和创新之处在于:1. 进一步扩充和精确化了四国军旗博弈中的蒙特卡罗抽样技术;2. 在已有四国军旗系统搜索框架的基础上,对估值函数、搜索算法等进行了优化,实现了适用于四国军棋游戏的历史启发搜索算法,大大提高了搜索速度;3. 实现了四国军
5、旗系统中基于时序差分学习的估值函数,可以动态调整智能体的行为。关键词 时序差分学习;非完备信息博弈;蒙特卡罗抽样;静态估值函数AbstractThere are many successful solutions to perfect information games. When it is the computers turn to move, it creates some part of the game tree starting at the current position, evaluates the leaves of this partial tree using an e
6、valuation funcion, and then does a minimax search of this tree to determine the optimal move at the root. This idea is the core of many game-playing programs. However, there have been far fewer successful programs in the domain of imperfect information games. The solutions to games with perfect info
7、rmation and those with imperfect information are very different. The techniques that apply to some do not usually apply to the others.In games of imperfect information, players have only partial knowledge about the current state. For the challenge of information gap, the only way to deal with this i
8、s to use randomized strategies. Take the Brige game for one example. When evaluating a players choices, the Monte-Carlo method randomly deals the remaining unseen cards. Then the game is searched using minimax as if these cards are all known to all the players. This is done a number of times and the
9、 move that is best on average is chosen as the final best move.Temporal Difference (TD) learning is a kind of Reinforcement Learning method.The conventional prediction-learning methods adjust itself by means of the difference between predicted and actual outcoms whereas TD adjust itself by means of
10、the difference between temporal successive predictions. For most real-world prediction problems, temporal-difference methods require less memory and less computation than conventional methods; and they produce more accurate predictions.This paper studies a machine learning method- TD(), a kind of te
11、mporal difference learning in the evaluation function of imperfect information games.We combined MonteCarlo Sampling with TD and developed a program SiGuoJunQi which could adjust itself in practice. The main contributions and innovations are as follows:1. The Monte-Carlo sampling framework is advanc
12、ed and optimized;2. Based on the traditional game tree search model, a more effective and efficient model is proposed, including board representation, search method and evaluation function. A variant of history heuristic search method is applied in SiGuoJunQi. It can greatly reduce the computation c
13、omplexity.3. The temporal difference learning machanism in the evaluation fucntion is discussed. An improved algorithm based on TD is also presented. The Agent in the Temporal Difference learning system can adjust its behavior and gain useful knowledge from the outside environment. Keywords Temporal
14、 Difference Learning, Imperfect Information Game, Monte-Carlo Sampling, Static Linear Evaluation Function目 录摘 要.IAbstractII第1章绪论.11.1 课题背景11.2 非完备信息博弈研究的目的和意义.11.3 时序差分学习研究的历史和现状.21.3.1 时序差分研究的历史21.3.2 时序差分研究的现状31.4 课题主要研究内容及论文结构.3第2章 基于蒙特卡罗抽样的非完备信息博弈52.1 完备信息博弈.52.1.1 机器博弈系统52.1.2 机器博弈中的搜索算法72.2 非完
15、备信息博弈和蒙特卡罗抽样.102.3蒙特卡罗抽样过程示例.132.3.1 对当前世界的猜测过程142.3.2 最佳走步链表的建立与查询172.4 本章小结.17第3章 基于时序差分方法的非完备信息博弈.193.1 时序差分方法原理.193.1.1 强化学习模型193.1.2 马尔可夫决策过程193.1.3 动态规划值迭代技术223.1.4 强化学习中的蒙特卡罗技术253.1.5 值函数估计时序差分263.2 时序差分在非完备信息博弈中的应用283.2.1 泛化时序差分学习技术283.2.1非完备信息机器博弈中的时序差分学习313.2.2 时序差分调整过程示例333.3 本章小结.34第4章 四
16、国军旗机器博弈系统.354.1 四国军旗系统简介.354.1.1 数据表示354.1.2 搜索算法364.1.3 估值函数384.2 实验结果分析.394.2.1 搜索算法394.2.2 实战棋局分析404.2.3 蒙特卡罗抽样过程414.3 本章小结.45结 论.46参考文献.49附录1.52攻读学位期间发表的学术论文54工业大学硕士学位论文原创性声明.55工业大学硕士学位论文使用授权书.55工业大学硕士学位涉密论文管理.55致 谢.56第1章 绪论1.1 课题背景目前,对于解决二人完备信息机器博弈已经有了一套基于搜索的通用技术,二人完备信息游戏诸如国际象棋、中国象棋等,机器棋手的博弈水平已
17、经超过了人类的顶尖棋手1 2。2006年8月,在象棋大师与浪潮天梭的人机大战中,总的成绩人方以2胜5和3负惜败于超级计算机浪潮天梭3。而非完备信息机器博弈领域的相关研究还不十分成熟。然而,到目前为止,对于非完备信息博弈,还没有能够达到世界级大师水平的机器程序。而现实生活中所要面对的博弈问题大部分属于非完备信息机器博弈的范畴,所以,在非完备信息多人机器博弈中如何提高人工智能体的棋力,具有更广泛的现实意义。本文将一种机器学习算法时序差分学习引入到机器博弈的研究中,分析和比较了国内外机器博弈领域的几种搜索算法,结合蒙特卡罗抽样技术对非完备信息多人博弈进行了探索性的研究。以四国军旗这种典型的非完备信息
18、多人游戏来验证本文给出的时序差分算法的有效性。四国军棋是我国特有的一种棋类游戏,其复杂度要超过国外流行的同类游戏如桥牌和扑克。本文通过将时序差分学习算法融合进估值函数,同时结合在桥牌和扑克等游戏中取得成功的蒙特卡罗技术来处理非完备信息,设计并实现了一个四国军旗机器博弈系统。1.2 非完备信息博弈研究的目的和意义人工智能研究如何用计算机去模拟、延伸和扩展人的智能,如何把计算机用得更聪明,如何设计和建造具有高智能水平的计算机应用系统,如何设计和制造更聪明的计算机以及智能水平更高的智能计算机等4。非完备信息机器博弈作为人工智能的重要研究领域,是检验人工智能发展水平的一个重要方面。博弈是人类社会中普遍
19、存在的社会现象,小到益智游戏、各种争论、各种场合下的讨价还价,大到商家的竞争、国家的外交、各种流血和不流血的战争,只要局中的双方主体存在着某种利益冲突,博弈便表现为矛盾表现和求解的一种方式5。和完备信息博弈不同之处在于,非完备信息博弈中的博弈方由于无法获得所有的信息知识,因而无法准确预知对手会采取哪些对策。这和社会中商业竞争、军事战争等的情形十分类似,它的研究对于建立现实社会的决策支持系统有很强的参考价值。 1947年,Neumann和Morgenstern提出的博弈论6中,几乎所有的工作集中于非完备信息的博弈。博弈论大部分用来处理现实生活中的模型,尤其是经济生活中的应用。现实生活中,完备信息
20、的情况是很少的。在完备信息中,最优策略是一目了然的,但是非完备信息只能采用随机化策略(randomized strategies)来解决。1994年Bampton提出了蒙特卡罗抽样方法来解决非完备信息博弈问题7。他使用扑克作为典型案例来进行研究,首先随机的确定牌的种类,获得一个完备信息的牌局,然后使用极大极小树来进行搜索。进行多次抽样搜索后,选择平均情况下最好的那个出牌。加拿大Alberta大学的红心大战程序结合时序差分学习技术实现了一个自学习的系统8 9。工业大学深圳研究生院智能计算研究中心对非完备信息机器博弈进行了立项研究,在国内尚属首例。1.3 时序差分学习研究的历史和现状1.3.1 时
21、序差分研究的历史时序差分在棋类游戏中的应用有着很长的历史。时序差分学习技术最早是由Arthur Samuel发明的。1959年Arthur Samuel编制了一个通过和自己下棋来进行自学习的checker程序10。受到Samuel程序中的学习算法的启发,1988年Sutton提出了TD()算法11。Tesauro的TD-Gammon是TD()算法最成功的应用之一1213。它使用了人工神经网络,棋力可以和最好的backgammon人类棋手相媲美。很多作者已经讨论过TD()算法特别适用于backgammon游戏的原因14 15。TD-Gammon从几十万个游戏棋局中进行自学习,它的估值函数是位置的
22、一个平滑函数,这使得它可以比较容易的构建一个很好的人工神经网络来进行模拟。同时,由于backgammon游戏的随机性,TD-Gammon仅仅向下搜索一步,这样的浅搜索已经能够很好的对抗人类了,更深的搜索并不能大幅度的提高棋力(最新版本的TD-Gammon搜索三步深,但棋力的提高并不显著)。与之形成对比的是,为国际象棋、黑白棋和围棋找到一个恰当的人工神经网络,期望仅搜索一步深来达到人类的水平,是非常困难的。Baxter和Weaver提出了TD()算法在极大极小值搜索中的变种-TD-Leaf()算法,并将之应用于国际象棋,开发出了KnightCap程序16。KnightCap仅仅下了308盘棋后积
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 硕士学位 论文 时序 学习 完备 信息 机器 博弈 中的 应用
链接地址:https://www.31ppt.com/p-4029998.html