《马尔科夫决策》PPT课件.ppt
《《马尔科夫决策》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《马尔科夫决策》PPT课件.ppt(43页珍藏版)》请在三一办公上搜索。
1、第一节 基本原理,一、基本概念 1.随机变量、随机函数与随机过程 一变量x,能随机地取数据(但不能准确地预言它取何值),而对于每一个数值或某一个范围内的值有一定的概率,那么称x为随机变量。假定随机变量的可能值xi发生概率为Pi 即P(x=xi)=Pi 对于xi的所有n个可能值,有离散型随机变量分布 列:Pi=1 对于连续型随机变量,有 P(x)dx=1,在试验过程中,随机变量可能随某一参数(不一定是时间)的变化而变化.如测量大气中空气温度变化x=x(h),随高度变化。这种随参变量而变化的随机变量称为随机函数。而以时间t作参变量的随机函数称为随机过程。也就是说:随机过程是这样一个函数,在每次试验
2、结果中,它以一定的概率取某一个确定的,但预先未知的时间函数。,2、马尔科夫过程 随机过程中,有一类具有“无后效性性质”,即当随机过程在某一时刻to所处的状态已知的条件下,过程在时刻tto时所处的状态只和to时刻有关,而与to以前的状态无关,则这种随机过程称为马尔科夫过程。即是:ito为确知,it(tto)只与ito有关,这种性质为无后效性,又叫马尔科夫假设。,3、马尔科夫链 时间和状态都是离散的马尔科夫过程称为马尔科夫链。例:蛙跳问题 假定池中有N张荷叶,编号为1,2,3,N,即蛙跳可能有N个状态(状态确知且离散)。青蛙所属荷叶,为它目前所处的状态;因此它未来的状态,只与现在所处状态有关,而与
3、以前的状态无关(无后效性成立),写成数学表达式为:P(xt+1=j|xt=it,xt-1=it1,x1=i1)=P(xt+1=j|xt=it)定义:Pij=P(xt+1=j|xt=i)即在xt=i的条件下,使 xt+1=j的条件概率,是从 i状态一步转移到j状态的概率,因此它又称一步状态转移概率。由状态转移图,由于共有N个状态,所以有,1,2,3,4,P33,P22,P44,P41,P42,P31,P32,二状态转移矩阵 1.一步状态转移矩阵 系统有N个状态,描述各种状态下向其他状态转移的概率矩阵 P11 P12 P1N 定义为 P21 P22 P2N:PN1 PN2 PNN 这是一个N阶方阵
4、,满足概率矩阵性质 1)Pij 0,i,j=1,2,N 非负性性质 2)Pij=1 行元素和为1,i=1,2,N,NN,P=,如:W1=1/4,1/4,1/2,0 W2=1/3,0,2/3 W3=1/4,1/4,1/4,1/2 W4=1/3,1/3,-1/3,0,2/3 3)若A和B分别为概率矩阵时,则AB为概率矩阵。,概率向量,非概率向量,2.稳定性假设 若系统的一步状态转移概率不随时间变化,即转移矩阵在各个时刻都相同,称该系统是稳定的。这个假设称为稳定性假设。蛙跳问题属于此类,后面的讨论均假定满足稳定性条件。,3.k步状态转移矩阵 经过k步转移由状态i转移到状态j的概率记为 P(xt+k=
5、j|xt=i)=Pij(k)i,j=1,2,N 定义:k步状态转移矩阵为:P11(k)P12(k)P1N(k)P=:PN1(k)PN2(k)PNN(k)当系统满足稳定性假设时 P=P=P P P 其中P为一步状态转移矩阵。即当系统满足稳定性假设时,k步状态转移矩阵为一步状态转移矩阵的k次方.,k,k,k,例:设系统状态为N=3,求从状态1转移到状态2的 二步状态转移概率.解:作状态转移图 解法一:由状态转移图:1 1 2:P11 P12 1 2 2:P12 P22 1 3 2:P13 P32 P12=P11 P12+P12 P22+P13 P32=P1i Pi2,1,3,2,P13,P32,P
6、11,P12,P12,P22,解法二:k=2,N=3 P11(2)P12(2)P13(2)P=P21(2)P22(2)P23(2)P31(2)P32(2)P33(2)P11 P12 P13 P11 P12 P13=PP=P21 P22 P23 P21 P22 P23 P31 P32 P33 P31 P32 P33 得:P12(2)=P11 P12+P12 P22+P13 P32=P1i Pi2,例:味精销售问题 已连续统计六年共24个季度,确定畅销,滞销界限,即只允许出现两种状态,且具备无后效性。设状态1为畅销,状态2为滞销,作出状态转移图:图中:P11为当前畅销,连续畅销概率;P12为当前畅
7、销,转滞销概率;P22为当前滞销,连续滞销概率;P21为当前滞销,转畅销概率。,1,2,P22,P11,P12,P21,数据在确定盈亏量化界限后的统计表如下:t 1 2 3 4 5 6 7 8 9 10 11 12 13状态 t 14 15 16 17 18 19 20 21 22 23 24状态 进行概率计算时,第二十四个季度为畅销,但后续是什么状态不知,故计算时不能采用,只用于第二十三季度统计。有:P11=7/(7+7)=0.5;P12=7/(7+7)=0.5;P21=7/(7+2)=0.78;P22=2/(7+2)=0.22则 0.5 0.5 0.78 0.22此式说明了:若本季度畅销,
8、则下季度畅销和滞销的可能性各占一半 若本季度滞销,则下季度滞销有78%的把握,滞销风险22%,P=,二步状态转移矩阵为:0.5 0.5 0.5 0.5 0.78 0.22 0.78 0.22 0.64 0.36 0.5616 0.4384 P11(2)P11(2)P11(2)P11(2),=,=,P=P=,2,2,三.稳态概率:用于解决长期趋势预测问题。即:当转移步数的不断增加时,转移概率矩阵 P 的变化趋势。1.正规概率矩阵。定义:若一个概率矩阵P,存在着某一个正整数m,使P 的所有元素均为正数(Pij o),则该矩阵称为正规概率矩阵,k,例:1/2 1/4 1/4 P=1/3 1/3 1/
9、3 为正规概率矩阵 2/5 1/5 2/5 0 1 P11=0 1/2 1/2 但当 m=2,有 有Pij 0它也是正规概率矩阵。(P 每个元素均为正数)但 1 0 0 1 就找不到一个正数m,使P 的每一个元素均大于0,所以它不是正规概率矩阵。,P=,2,2,P=,m,P=,2,2.固定概率向量(特征概率向量)设 P为NN概率矩阵,若U=U1,U2,UN为概率向量,且满足UP=U,称U为P的固定概率向量 例 0 1 1/2 1/2 为概率矩阵 P的固定概率向量 U=1/3,2/3 检验 UP=1/3 2/3 0 1 1/2 1/2=1/3 2/3,P=,3.正规概率矩阵的性质 定理一 设P为
10、NXN正规概率矩阵,则 A.P有且只有一个固定概率向量 U=U1,U2,UN 且U的所有元素均为正数 Ui 0 B.NXN方阵P的各次方组成序列 P,P,P,P 趋于方阵T,且T的每一个行向量都是固定概率向量U。即 U1 U2 UN U lim Pk=T=:=:U1 U2 UN U 这个方阵T称稳态概率矩阵。,2,3,k,这个定理说明:无论系统现在处于何种状态,在经过足够多的状态转移之后,均达到一个稳态。因此,欲求长期转移概率矩阵,即进行长期状态预测,只要求出稳态概率矩阵T;而T的每个行向量都是固定概率向量,所以只须求出固定概率向量U就行了!,定理二:设X为任意概率向量,则XT=U 即任意概率
11、向量与稳态概率矩阵之点积为固定概率向量。事实上:U1 U2 UN XT=X:=U1Xi U1Xi U1Xi U1 U2 UN=U1 U2 UN=U,例:若 0.4 0.3 0.3 P=0.6 0.3 0.1 求T 0.6 0.1 0.3 解:设 U=U1 U2 U3=U1 U2 1U1U2 由 UP=U 有 0.4 0.3 0.3U1 U2 1U1U2 0.6 0.3 0.1=U1 U2 U3 0.6 0.1 0.3,即-0.2U1+0.6=U1 U1=0.5 0.2U1+0.2U2+0.1=U2 U2=0.25-0.2U2+0.3=U3 U3=0.25 U=0.5 0.25 0.25 则 0
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 马尔科夫决策 马尔科夫 决策 PPT 课件
链接地址:https://www.31ppt.com/p-5677888.html