完全信息动态博弈ppt课件.ppt
《完全信息动态博弈ppt课件.ppt》由会员分享,可在线阅读,更多相关《完全信息动态博弈ppt课件.ppt(91页珍藏版)》请在三一办公上搜索。
1、2 完全信息动态博弈,扩展型博弈表述 扩展型博弈的战略及纳什均衡 子博弈精炼纳什均衡 子博弈精炼纳什均衡应用举例,2 完全信息动态博弈,动态博弈:参与人的行动有先后顺序,且后行动者能够观察到先行动者的行动(电信公司、电信用户及资费套餐)。 先行动者的选择影响后行动者的选择空间,后行动者可以观察到先行动者做了什么选择,因此,为了做出最优的行动选择,每个参与人都必须这样思考问题:如果我如此选择,对方将如何应对?给定他的应对,什么是我的最优选择?(美女;帅哥)例:欺负他人可以获得快乐,你会欺负他人吗?不会。欺负他人会担心他人的报复,抵消了从欺负他人的行为中获得快乐。先行动者在选择行动时要考虑自己的选
2、择对后行动者的影响。,一、动态博弈的扩展式表述I,如何用扩展式表述(extensive form representation)来描述动态博弈? 例1,解放初,美国总是寻找各种机会来侵犯我国。对此,毛主席提出了“人不犯我、我不犯人,人若犯我、我必犯人”的战略方针。 该动态博弈的战略式表述局中人:美国、中国行动空间:美国“犯我”或“不犯我”,中国“犯人”或“不犯人”行动顺序:美国先行动,我国依美国的行动而后动支付:这样假设支付情况: 若美国“犯我”,中国“犯人”,则支付向量为(-2,-2);,一 、动态博弈的扩展式表述,n人有限战略的扩展式表述:博弈树 (game tree),若美国“犯我”,中
3、国“不犯人”,则支付向量为(2,-4); 若美国“不犯我”,中国“犯人”,则支付向量为(3,-5); 若美国“不犯我”,中国“犯人”,则支付向量为(1,1)。,2人有限博弈的战略式表述:支付矩阵,决策结:行动的时点,枝,终点结,参与人集合: ,此外,虚拟参与人“自然” ;参与人的行动顺序(the order of moves):谁在什么时候行动;参与人的行动空间(action set):在每次行动时,参与人有些什么选择。参与人的信息集(information set):每次行动时,参与人知道些什么;参与人的支付函数;外生事件(即自然的选择)的概率分布,扩展式表述的要素:,一、动态博弈的扩展式表
4、述,一、动态博弈的扩展式表述,例2:两个房地产商A、B进行房地产开发博弈。市场需求大、小的概率各占50%。投入:1亿。假定市场上有两栋楼出售:需求大时,每栋售价1.4亿,需求小时,售价7千万;如果市场上只有一栋楼需求大时,可卖1.8亿需求小时,可卖1.1亿行动顺序:(1)开发商A首先行动,选择开发或不开发;(2)在A决策后,自然选择市场需求的大小;(3)开发商B在观测到A的决策和市场需求后,决定是否开发,A,开发,不开发,N,N,大,小,1/2,1/2,大,小,1/2,1/2,B,B,B,B,开发,不开发,开发,不开发,开发,不开发,开发,不开发,(4,4),(8,0),(-3,-3),(1,
5、0),(0,8),(0,0),(0,1),(0,0),房地产开发博弈(图2.1),注意:支付向量的顺序与博弈树上行动顺序是对应的!,A,开发,不开发,N,N,大,小,1/2,1/2,大,小,1/2,1/2,B,B,B,B,开发,不开发,开发,不开发,开发,不开发,开发,不开发,(4,4),(8,0),(-3,-3),(1,0),(0,8),(0,0),(0,1),(0,0),B在决策时不确切地知道自然的选择; B的信息集由4个变为2个,该参与人知道博弈进入该集合的某个决策结,但不知道自己究竟处于哪一个决策结,A,开发,不开发,N,N,大,小,1/2,1/2,大,小,1/2,1/2,B,B,B,
6、B,开发,不开发,开发,不开发,开发,不开发,开发,不开发,(4,4),(8,0),(-3,-3),(1,0),(0,8),(0,0),(0,1),(0,0),B知道自然的选择;但不知道A的选择(或A、B同时决策),房地产开发博弈,信息集(information set)的概念:是决策结集合的一个子集,该子集包括所有满足下列条件的决策结:每一个决策结都是同一参与人的决策结;该参与人知道博弈进入该集合的某个决策结,但不知道自己究竟处于哪一个决策结。只包含一个决策结的信息集称为单结信息集,如果博弈树的所有信息都是单结的,该博弈称为完美信息博弈 。(博弈中没有任何参与人同时行动,且后行动者能观察到先
7、行动者的行动,且所有参与人观察到N的行动),一、动态博弈的扩展式表述,A,开发,不开发,N,N,大,小,1/2,1/2,大,小,1/2,1/2,B,B,B,B,开发,不开发,开发,不开发,开发,不开发,开发,不开发,(4,4),(8,0),(-3,-3),(1,0),(0,8),(0,0),(0,1),(0,0),表示B在行动前既观察不到A的行动,也观察不到N的行动,房地产开发博弈,N,大,小,A,A,开发,不开发,开发,不开发,1/2,B,B,B,B,开发,不开发,开发,不开发,开发,不开发,开发,不开发,(4,4),(8,0),(0,8),(0,0),(-3,-3),(1,0),(0,1)
8、,(0,0),不同的博弈树可能代表相同的博弈,但有一个基本准则一个参与人决策之前知道的事情必须出现在该参与人的决策结之前,实际上是A先行动NB(图2.5),1/2,静态博弈用扩展式表述。例囚徒困境博弈,一、动态博弈的扩展式表述,二、动态博弈中的战略,令Hi为第i个参与人的信息集的集合, Ai=hiHiA(hi)为其行动集合,其中A(hi)是在信息集hi的行动集合。参与人i的一个纯战略是从信息集集合Hi到行动集Ai的一个映射,用Si:HiAi表示,其中,对于所有的hi Hi , Si(hi) A(hi),参与人的纯战略空间Si就是所有的Si的集合, 因为每一个纯战略都是从信息集到行动集的一个映射
9、, Si可以表示为每一个信息集hi上的行动空间A(hi)的笛卡尔积: Si=hiHiA(hi),二、动态博弈中的战略,战略是一个完备的行动计划:在博弈开始之前就规定出每一个决策点上的选择,即使这个决策点实际上不会出现。 例1:房地产开发博弈(映射关系),A,B,若A先行动,B在知道A的行动后行动,则A有一个信息集,两个可选择的行动,战略空间为:(开发,不开发);B有两个信息集,2个可选择的行动,B有四个纯战略:开发策略:不论A开发不开发,我开发开发,开发追随策略:A开发我开发,A不开发我不开发开发,不开发 ;反向策略:A开发我不开发,A不开发我开发不开发,开发 ;不开发策略:不论A开发不开发我
10、不开发)不开发,不开发;战略空间为:开发,开发、开发,不开发 、不开发,开发 (不开发,不开发。,什么是参与人的战略?,三、战略式表述下的纳什均衡,A,(不开发,开发,开发),三个纯战略NE:(开发,不开发,开发);(开发;不开发,不开发);(不开发,开发,开发) 问题:哪一个会出现呢?,三、战略式表述下的纳什均衡,NE(不开发,开发,开发):B威胁无论A是否开发自己都将开发,A相信了威胁,则最好选择不开发;如果A选择不开发,则B选择开发,开发是最优的。A会相信B的威胁吗?如果A选择了开发,B的最好选择不开发。B的威胁是不可置信的(not credible) :给定A选择了“开发”,“开发”不
11、是B的最优选择。 (不开发,开发,开发)不会是该博弈合理的均衡。为什么?,三、战略式表述下的纳什均衡,纳什均衡假定每一个参与人在选择自己的最优战略时假定所有其他参与人的战略是给定的,即参与人并不考虑自己的选择对他人的影响。但是如果参与人的行动有先有后,后行动者的选择空间依赖于前行动者的选择,先行动者在选择时不可能不考虑自己的行动对后行动者的影响。NE(开发,不开发,不开发):不开发,不开发不是B一个合理的战略,因为如果A选择了不开发,B的最优选择是开发而非不开发。NE(开发,不开发,开发):若A选择开发,B的最优选择是开发;若A选择不开发,则B选择开发。A预测到自己的选择对B产生的影响,选择开
12、发。,四、子博弈精炼纳什均衡I,不包含不可置信的行动的战略所组成的NE被称为“精炼纳什均衡”(Perfect Nash equilibrium);也就是说,不论过去发生了什么,构成精炼纳什均衡的战略,其所规定的行动在每一个决策点上都是最优的;首先必须是“纳什均衡”,但并非所有纳什均衡都是合理的;只有其战略不包含不可置信行动的纳什均衡才是合理的。,子博弈,。A 开发 不开发 B B 开发 不开发 开发不开发 (-3,-3) (1,0) (0,1) (0, 0) 定义:一个扩展式博弈的子博弈G由一个决策结和所有该决策结的后续结T(x)组成,它满足下列条件:1、x是单结信息集,即h(x)=x;2、对
13、于所有的x1T(x),如果x2h( x1),那么x2 T(x),有几个子博弈?,A U D B B L R LR C C C C l r l r l r l r(4,4) (8,0) (-3,-3) (1, 0) (0,8) (0,0) (0,1) (0,0),o,0,不开发,四、子博弈精炼纳什均衡,子博弈:由原博弈中某个决策点(信息集)开始的部分构成一个子博弈。,原博弈,开发,不开发,不开发,开发,四、子博弈精炼纳什均衡,一个纳什均衡是精炼纳什均衡,当只当参与人的战略在每个子博弈中都构成纳什均衡,也就是说,组成精炼纳什均衡的战略必须在每一个子博弈中都是最优的。泽尔腾(Selten)(1965
14、):子博弈精炼纳什均衡 (Subgame perfect Nash equilibrium, SPNE)序贯理性(sequential rationality):不管 过去发生什么,参与人在每一个决策结上最优化自己的行动。例,房地产开发博弈:(不开发,开发,开发)在子博弈上不构成NE;(开发, 不开发,不开发 )在子博弈不构成NE;(开发, 不开发,开发 )在所有子博弈上都构成NE。,四、子博弈精炼纳什均衡,例,1,U,D,L,R,2,NE(U,R)在子博弈上不构成NE;NE(D,L)在子博弈上构成NE,所以为SPNE;,四、子博弈精炼纳什均衡,逆向归纳法(backward induction
15、)求解有限博弈的精炼纳什均衡:从最后一个决策点开始,找出该子博弈的纳什均衡;然后再倒回到倒数第二个决策点,找出决策者的最优决策(假定最后一个决策者的决策是最优的;如此一直到初始决策点,所有子博弈上的最优选择就是精炼纳什均衡。又称“rollback”。逆向归纳法只适用于完美信息博弈。,犯人,犯我,不犯我,犯人,不犯人,不犯人,美国,我国,我国,(1,1),(3,-5),(2,-4),(-2,-2),例1:逆向归纳法找中美军事博弈的SPNE,均衡为(不犯我,犯人,不犯人),例2:,1,2,1,(2,0),(5,0),(4,2),(1,1),U,D,R,L,U,D,均衡为(U,U;L),均衡结果为1
16、选择U。,四、子博弈精炼纳什均衡,特定的纳什均衡下所经过的决策点和最优选择构成的路径,称为均衡路径(equilibrium path);其他的路径是非均衡路径(off-equilibrium path);SPNE与NE的实际区别:SPNE要求在每个子博弈上构成纳什均衡=构成SPNE的战略不仅在均衡路径的决策结上最优,而且在非均衡路径的决策结上也是最优的,轮流出价的讨价还价模型,两人分一块蛋糕,参与人1先出价,参与人2可以接受或拒绝.如果参与人2接受,博弈结束;如果参与人2拒绝,参与人2出价,参与人1此时必须接受.问此博弈的精炼的纳什均衡?用x表示参与人1的份额, (1-x)表示参与人2的份额,
17、假定参与人1与参与人2的贴现因子分别为1,2,乙,均衡路径:(2,2,1)(2,1,2),甲必胜,因为他始终在开局拿走2根火柴,剩下3根,不管乙拿1或2根,甲都可获得最后的2根或1根火柴从而获胜。但是,如果假设初始的火柴根数为30根或100根等等,那么结果如何? 仍然用逆向归纳法。假设参与人面临最后的1或2根,则必胜;但若面临最后的3根,则必输;当参与人面临的是4根或5根,则他可以拿走1根或2根,使对手面临3根的局面,则必胜;如果参与人面临的是6根火柴,则无论拿1根还是2根都不能使对手面临3根火柴的局面,而对手反而可以使他面临3根火柴的局面,则对手必胜;若参与人面临7根或8根火柴,则他可使对手
18、面临6根火柴而对手必输;若处于9根,则将被对手逼迫到6根火柴的位置而自己必输,例,最后通牒博弈 张三拾到100块,被李四见到。见者有份,于是2人决定如何分这笔钱。极端地假设他们的谈判只进行一个回合,即由张三提出一个分配比例(最小计算单位为元),然后李四表示接受不接受,如果接受就按照提议分,如果不接受则将钱交到警察局,谁都得不到。 张三如何提议?,最后通牒博弈实验结果:现实生活中提议者给回应者1元钱的话,常常会遭到回应者拒绝;不少被接受的分配方案是分给回应者30-50元,20元以下的分配被拒绝的频率很高。 人除了自利偏好还存在公平偏好( Fairness Preferences) ,即在追求个人
19、收益时还会关注收益分配或行为动机是否公平。“我的收益多过对方太多,我可能会不舒服”收益公平 “知恩图报,以牙还牙”:当别人对你友善时你也对别人友善,当别人对你不善时你也对别人不善 ,甚至牺牲自己利益去报复动机公平公平偏好会影响人们的行为决策。,分析动态博弈的思路:向前展望,向后推理,即面向未来,思考现在,站在未来的立场思考现在的行动方案。网络诗歌我站在未来的山坡上回头看过去和现在如同不再有悬念的平静湖面所有发生的一切都是如此清晰和必然,练习:,右,下,上,前,后,左,五、序贯理性与理性操纵I,甲,乙,甲,(2,0),(1,1),(100,0),(0,100),操纵理性的博弈,均衡结果为:甲选择
20、下结束博弈,五、序贯理性与理性操纵,现实中该均衡很可能不会出现。为什么? 甲可能会想,如果我选择“上”,即使乙选择了“左”,则我也可以得到1个单位支付;但是,如果乙认为我是傻子,则乙可能会冒险选择一次“右”而如果我选择前,我就可以获得100个单位的支付。 甲真的选择了“上” 如果乙认为甲真的是傻子,那么乙可能冒险选择“右”。 甲选择“前”。 理性操纵:利用对方的理性不足而引诱对方上钩,获取利益。如,三国中黄盖诈降,六、不可置信威胁I,不可置信的威胁(空头威胁,empty threat)精炼纳什均衡剔除了不可置信的威胁,使得我们可以更合理地对博弈中参与人行为的预测;为什么存在不可置信威胁? 例1
21、,司马相如与卓文君的恋爱故事,威胁所采取的策略会损害威胁者自己利益因而根本不会实施(根源是事前最优与事后最优不同);,六、不可置信威胁,其他例子 管教孩子 MBA复试录取,例2,市场进入博弈,七、承诺,如何将不可置信的威胁变成可置信的威胁?承诺(招聘,勤奋)例,市场进入博弈中的承诺行动 在位者事前扩大生产能力,维护费用30万,但打击进入者的成本降低了,扣除维护费用后也可获得30万,如果进入者进入而在位者默认,则在位者利润为50-30=20万,七、承诺,承诺行动:使威胁或承诺可信的行动,采取承诺行动过后,实施威胁或承诺符合威胁者或承诺者的利益扩大生产能力虽然产生30万维护费用,但这样做仍然是值得
22、的;这一模型解释了现实中大部分垄断企业有闲置生产能力(中国国情学生学习托福)其他承诺方式:召开新闻发布会公开宣称自己打击意图,有声望的企业言出必行。,七、承诺,其他承诺行动的例子:项羽破釜沉舟对秦军最惠条款: 生产耐用品的企业经常被“降价预期”所困扰:如果消费者预期企业将降价,他们将会等待,结果,企业只能降价。如汽车行业面临的问题; 最惠条款可以起到承诺的作用:企业不会降价了。(100,80.40.20),合同写入“差价赔付”,记者向该楼盘售楼处进行了了解,一位销售员表示“现在这批房子均价2万/平,一共只有100套,面积有145、168、180平三种,上午就卖了20多套了”。值得一提的是,这批
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 完全 信息 动态 博弈 ppt 课件

链接地址:https://www.31ppt.com/p-1412602.html