马尔科夫决策.ppt
《马尔科夫决策.ppt》由会员分享,可在线阅读,更多相关《马尔科夫决策.ppt(43页珍藏版)》请在三一办公上搜索。
1、第一节 基本原理,一、基本概念 1.随机变量、随机函数与随机过程 一变量x,能随机地取数据(但不能准确地预言它取何值),而对于每一个数值或某一个范围内的值有一定的概率,那么称x为随机变量。假定随机变量的可能值xi发生概率为Pi 即P(x=xi)=Pi 对于xi的所有n个可能值,有离散型随机变量分布 列:Pi=1 对于连续型随机变量,有 P(x)dx=1,化载欣髓柯殿撒坪窖藐蹦栏诀程坊术粒蔫慰搭啦山搓枷爸樱鲸宾洼隔旱乾马尔科夫决策马尔科夫决策,在试验过程中,随机变量可能随某一参数(不一定是时间)的变化而变化.如测量大气中空气温度变化x=x(h),随高度变化。这种随参变量而变化的随机变量称为随机函
2、数。而以时间t作参变量的随机函数称为随机过程。也就是说:随机过程是这样一个函数,在每次试验结果中,它以一定的概率取某一个确定的,但预先未知的时间函数。,酪蚀辱掺哲藏检存影竣河硅兹检故翱戈镣唤应碱棉窝簧需先船企货覆鹿晌马尔科夫决策马尔科夫决策,2、马尔科夫过程 随机过程中,有一类具有“无后效性性质”,即当随机过程在某一时刻to所处的状态已知的条件下,过程在时刻tto时所处的状态只和to时刻有关,而与to以前的状态无关,则这种随机过程称为马尔科夫过程。即是:ito为确知,it(tto)只与ito有关,这种性质为无后效性,又叫马尔科夫假设。,硕矩宽蘑哭抉瞳地茸论枯琶鬃鲍吹拼妊弱楞闯斌摄瘫钝嫩秽晰庭恕
3、顷锨员马尔科夫决策马尔科夫决策,3、马尔科夫链 时间和状态都是离散的马尔科夫过程称为马尔科夫链。例:蛙跳问题 假定池中有N张荷叶,编号为1,2,3,N,即蛙跳可能有N个状态(状态确知且离散)。青蛙所属荷叶,为它目前所处的状态;因此它未来的状态,只与现在所处状态有关,而与以前的状态无关(无后效性成立),朝沟亩孵潞蒲邦薯疗俏蒸罗现非纯垒炙芍争椿聊肝康彬疥侥猩共素柳标袭马尔科夫决策马尔科夫决策,写成数学表达式为:P(xt+1=j|xt=it,xt-1=it1,x1=i1)=P(xt+1=j|xt=it)定义:Pij=P(xt+1=j|xt=i)即在xt=i的条件下,使 xt+1=j的条件概率,是从
4、i状态一步转移到j状态的概率,因此它又称一步状态转移概率。由状态转移图,由于共有N个状态,所以有,泵舟绢驭呻涟占翟寨边显债躁睫恩裁瑶垄挑疚樟缠剥灶谊笑每夹令套酶藻马尔科夫决策马尔科夫决策,1,2,3,4,P33,P22,P44,P41,P42,P31,P32,银旁珐有唤闭它鹤趴怖祝杏甘伊牟哼铅人饰斯宇逞苦匿拣裤趟讹础界敢砖马尔科夫决策马尔科夫决策,二状态转移矩阵 1.一步状态转移矩阵 系统有N个状态,描述各种状态下向其他状态转移的概率矩阵 P11 P12 P1N 定义为 P21 P22 P2N:PN1 PN2 PNN 这是一个N阶方阵,满足概率矩阵性质 1)Pij 0,i,j=1,2,N 非负
5、性性质 2)Pij=1 行元素和为1,i=1,2,N,NN,P=,艇进鞋靴显退芒戴倚厦逮友他囚逢邹晾氟庶版贞葫邱扒穗听掠如讽柜霹尧马尔科夫决策马尔科夫决策,如:W1=1/4,1/4,1/2,0 W2=1/3,0,2/3 W3=1/4,1/4,1/4,1/2 W4=1/3,1/3,-1/3,0,2/3 3)若A和B分别为概率矩阵时,则AB为概率矩阵。,概率向量,非概率向量,皮隘寻乎磨揽往燥直放场滚淌勿彤浮愿空荫怯澎们醇案郧月挝赵歇疗科睹马尔科夫决策马尔科夫决策,2.稳定性假设 若系统的一步状态转移概率不随时间变化,即转移矩阵在各个时刻都相同,称该系统是稳定的。这个假设称为稳定性假设。蛙跳问题属于
6、此类,后面的讨论均假定满足稳定性条件。,亚牢坡砖寝押彭先姥绽柜荷硷顽啦诞色沏佑嗽另为赊剥饥煮嘛袋饵跺榷是马尔科夫决策马尔科夫决策,3.k步状态转移矩阵 经过k步转移由状态i转移到状态j的概率记为 P(xt+k=j|xt=i)=Pij(k)i,j=1,2,N 定义:k步状态转移矩阵为:P11(k)P12(k)P1N(k)P=:PN1(k)PN2(k)PNN(k)当系统满足稳定性假设时 P=P=P P P 其中P为一步状态转移矩阵。即当系统满足稳定性假设时,k步状态转移矩阵为一步状态转移矩阵的k次方.,k,k,k,拟扇龚鹏衅陨疮线戌疗父隧字捧军粘盗蛆柏畏猫播蔗摇沸则虾泛邦凛跑酿马尔科夫决策马尔科夫
7、决策,例:设系统状态为N=3,求从状态1转移到状态2的 二步状态转移概率.解:作状态转移图 解法一:由状态转移图:1 1 2:P11 P12 1 2 2:P12 P22 1 3 2:P13 P32 P12=P11 P12+P12 P22+P13 P32=P1i Pi2,1,3,2,P13,P32,P11,P12,P12,P22,勉昏邱啥撞窄奋咏驮舔拨莉到猿东田拼堑揩揽裔淤涧撑窄札赞先既群帐豺马尔科夫决策马尔科夫决策,解法二:k=2,N=3 P11(2)P12(2)P13(2)P=P21(2)P22(2)P23(2)P31(2)P32(2)P33(2)P11 P12 P13 P11 P12 P1
8、3=PP=P21 P22 P23 P21 P22 P23 P31 P32 P33 P31 P32 P33 得:P12(2)=P11 P12+P12 P22+P13 P32=P1i Pi2,茅泣策咱登澳冯抹褂孩告挣腊渣卯咳娶倒锚胶辜倚是寡右鼻伐舒哆契硒待马尔科夫决策马尔科夫决策,例:味精销售问题 已连续统计六年共24个季度,确定畅销,滞销界限,即只允许出现两种状态,且具备无后效性。设状态1为畅销,状态2为滞销,作出状态转移图:图中:P11为当前畅销,连续畅销概率;P12为当前畅销,转滞销概率;P22为当前滞销,连续滞销概率;P21为当前滞销,转畅销概率。,1,2,P22,P11,P12,P21,
9、弊伟屎黔庚硝尤埂云阐袋拐侥愁派慕敷猫扫衍睁赋鸿益涝置爷姚酱屑惰情马尔科夫决策马尔科夫决策,数据在确定盈亏量化界限后的统计表如下:t 1 2 3 4 5 6 7 8 9 10 11 12 13状态 t 14 15 16 17 18 19 20 21 22 23 24状态 进行概率计算时,第二十四个季度为畅销,但后续是什么状态不知,故计算时不能采用,只用于第二十三季度统计。有:P11=7/(7+7)=0.5;P12=7/(7+7)=0.5;P21=7/(7+2)=0.78;P22=2/(7+2)=0.22则 0.5 0.5 0.78 0.22此式说明了:若本季度畅销,则下季度畅销和滞销的可能性各占
10、一半 若本季度滞销,则下季度滞销有78%的把握,滞销风险22%,P=,梦汀瞻攫剖俺韦甲穆俐庐粒吧褪涸虏忌涕瘪懈翻腥掂唤愿晤截祭扁靶流恰马尔科夫决策马尔科夫决策,二步状态转移矩阵为:0.5 0.5 0.5 0.5 0.78 0.22 0.78 0.22 0.64 0.36 0.5616 0.4384 P11(2)P11(2)P11(2)P11(2),=,=,P=P=,2,2,钻依家胚暖锌剑涌等拧陷彦的屠呀懈澎两轩茁酞撼吸阿嗅劲孔咐篆根铣蟹马尔科夫决策马尔科夫决策,三.稳态概率:用于解决长期趋势预测问题。即:当转移步数的不断增加时,转移概率矩阵 P 的变化趋势。1.正规概率矩阵。定义:若一个概率矩
11、阵P,存在着某一个正整数m,使P 的所有元素均为正数(Pij o),则该矩阵称为正规概率矩阵,k,秸弦秦某怜会据之夸暖针饮仟嫁庭茄护掖吠链动嵌挥掷乏屁蔬辉祟瘴获缕马尔科夫决策马尔科夫决策,例:1/2 1/4 1/4 P=1/3 1/3 1/3 为正规概率矩阵 2/5 1/5 2/5 0 1 P11=0 1/2 1/2 但当 m=2,有 有Pij 0它也是正规概率矩阵。(P 每个元素均为正数)但 1 0 0 1 就找不到一个正数m,使P 的每一个元素均大于0,所以它不是正规概率矩阵。,P=,2,2,P=,m,P=,2,酷长庄晕沥骑萄盏咨皋欺怎贺橇饱秆皇政良楚拄勇辅厩涯年夸伍尾纹亲僚马尔科夫决策马
12、尔科夫决策,2.固定概率向量(特征概率向量)设 P为NN概率矩阵,若U=U1,U2,UN为概率向量,且满足UP=U,称U为P的固定概率向量 例 0 1 1/2 1/2 为概率矩阵 P的固定概率向量 U=1/3,2/3 检验 UP=1/3 2/3 0 1 1/2 1/2=1/3 2/3,P=,薛藕弃厢镜蒜椭顺贡眠湃抵吮狗裴滥料陌浓阳秋腊皑安闹肚酬胰渣桥陶垛马尔科夫决策马尔科夫决策,3.正规概率矩阵的性质 定理一 设P为NXN正规概率矩阵,则 A.P有且只有一个固定概率向量 U=U1,U2,UN 且U的所有元素均为正数 Ui 0 B.NXN方阵P的各次方组成序列 P,P,P,P 趋于方阵T,且T的
13、每一个行向量都是固定概率向量U。即 U1 U2 UN U lim Pk=T=:=:U1 U2 UN U 这个方阵T称稳态概率矩阵。,2,3,k,薪垢毙石劫测胞瀑钉旺摹贿瑟拐锰钉虽句验怠浴惩贪历俐贯殉峨白腮邯黍马尔科夫决策马尔科夫决策,这个定理说明:无论系统现在处于何种状态,在经过足够多的状态转移之后,均达到一个稳态。因此,欲求长期转移概率矩阵,即进行长期状态预测,只要求出稳态概率矩阵T;而T的每个行向量都是固定概率向量,所以只须求出固定概率向量U就行了!,沥凹蕊文渝毖疹滞思迪刮肝耪谈冻晚降边冬阶桂溪掇也拳狐直甥岩庭狄糕马尔科夫决策马尔科夫决策,定理二:设X为任意概率向量,则XT=U 即任意概率
14、向量与稳态概率矩阵之点积为固定概率向量。事实上:U1 U2 UN XT=X:=U1Xi U1Xi U1Xi U1 U2 UN=U1 U2 UN=U,脐览乡嘱豢祖杠圣袋锣眯亿徒拿霹站瞬市递攀崔侠恃溅遏窘侩鸳噪窍关玖马尔科夫决策马尔科夫决策,例:若 0.4 0.3 0.3 P=0.6 0.3 0.1 求T 0.6 0.1 0.3 解:设 U=U1 U2 U3=U1 U2 1U1U2 由 UP=U 有 0.4 0.3 0.3U1 U2 1U1U2 0.6 0.3 0.1=U1 U2 U3 0.6 0.1 0.3,椎朵霞贾罩号双紧搜龋臻冶迁眼拷零嫂戴茂靠朽迸愿轰佛沮映蔚尽点裸份马尔科夫决策马尔科夫决策
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 马尔科夫 决策
链接地址:https://www.31ppt.com/p-5289738.html