书签分享收藏举报版权申诉 / 244

立即下载加入VIP免费专享

当前位置：首页 > 建筑/施工/环境 > 农业报告 > 博弈论基础PPT课件.ppt

博弈论基础PPT课件.ppt

上传人：sccc

文档编号：5100014

上传时间：2023-06-04

格式：PPT

页数：244

大小：6.44MB

《博弈论基础PPT课件.ppt》由会员分享，可在线阅读，更多相关《博弈论基础PPT课件.ppt（244页珍藏版）》请在三一办公上搜索。

1、1,An introduction toGame Theory,博弈论基础,世事洞明皆学问人情练达即文章,2,3,4,5,启示：,6,博弈的划分：,7,静态博弈经常是一次性的行为，决策一旦作出就不能再更改结果。动态博弈有一个重复的性质，前边的所有信息影响到后边的决策，博弈的结果要经过多次博弈之后才能看到，所以是一个连续的过程，这就决定了同一参与者在动态博弈时和静态博弈时表现出不同的行为。如果把为人处世看作一个博弈过程，我们就会发现静态博弈和动态博弈的区别。,8,比如说一个坏人，他遇到了一个他从来都没遇到过的人而且以后再也不会和他见面的陌生人，他就可能会变得肆无忌惮，本来的面目暴露无遗，因为这

2、种情况是静态博弈，是一锤子买卖。同样一个坏人又会在经常打交道的人面前伪装成好人，因为这种情况是动态博弈，前边的所有信息会影响到后边的决策。为了自己的长远利益，他现在必须极力制造一些虚假的信息，让后边的决策对自己更加有利，所以见面时会很客气，表现得很好，以便让别人后边的行动不要对自己不客气。,9,例：猎人与猎狗的博弈,10,第三章完全且完美信息的动态博弈,本章讨论动态博弈，所有博弈方都对博弈过程和得益完全了解的完全且完美信息动态博弈。这类博弈也是现实中常见的基本博弈类型。由于动态博弈中博弈方的选择、行为有先后次序，因此在表示方法、利益关系、分析方法和均衡概念等方面，都与静态博弈有很大区别。本章

3、对动态博弈分析的概念和方法，特别是子博弈完美均衡和逆推归纳法作系统介绍，并介绍各种经典的动态博弈模型.,11,如果各方对各种局势下所有局中人的得益状况完全清楚,称为完全信息博弈。反之为不完全信息博弈。在动态博弈中还有一类信息:轮到行动的博弈方是否完全了解此前对方的行动。如果完全了解则称之为“具有完美信息”的博弈。反之称为“不完美信息的动态博弈”。由于信息不完美,博弈的结果只能是概率期望,而不能像完美信息博弈那样有确定的结果。,12,本章分六节,3.1动态博弈的表示法和特点3.2可信性和纳什均衡的问题3.3子博弈和子博弈完美纳什均衡3.4几个经典动态博弈模型3.5有同时选择的动态博弈模型3.6动

4、态博弈分析的问题和扩展讨论,13,3.1 动态博弈的表示法和特点,3.1.1 阶段和扩展性表示3.1.2 动态博弈的基本特点,14,3.1.1 阶段和扩展性表示,阶段：动态博弈中一个博弈方的一次选择行为例子：仿冒和反仿冒博弈,15,3.1.2 动态博弈的基本特点,策略是在整个博弈中所有选择、行为的计划结果是上述“计划型”策略的策略组合，构成一条路径得益对应每条路径，而不是对应每步选择、行为动态博弈的非对称性先后次序决定动态博弈必然是非对称的。先选择、行为的博弈方常常更有利，有“先行优势”。,16,战略式表述(strategic form representation)多用矩阵,2L S,L S

5、,1,扩展式表述(extensive form representation)多用博弈树,战略式与扩展式,17,1.1.2.1动态博弈扩展式表述,一般以扩展型式来表示：G=(N,H,P,I,U)，包括5要素：（1）局中人N；（2）历史H:博弈树是一个多环节与枝干的集合，从单一的起始环节，直到终结环节，代表博弈历史；（3）对每个环节的分配法则P:将每个环节（除终结环节外）分配给不同的局中人，并赋予行动时可选的策略；（4）局中人行动时的信息集合I；（5）对应局中人可能选择策略，各局中人在终结环节所得到的报酬U。,18,博弈的扩展式表述包括三个要素:参与人集合每个参与人的战略集合由战略组合决定的每个

6、参与人的支付,19,动态博弈的基本构造,1结(nodes)：结包括决策结(decition nodes)和终点结(terminal nodes)两类。决策结是参与人采取行动的时点，终点结是博弈行动路径的终点。在博弈树中，“谁在什么时候行动”用在决策结旁边标注参与人的办法来表示。参与人的支付标注在博弈树终点结处。2枝(branches)：在博弈树上，枝是从一个决策结到它的直接后续结的连线，每一个枝代表参与人的一个行动选择。3信息集(information sets)：博弈树上的所有决策结分割成不同的信息集。每一个信息集是决策结集合的一个子集。该子集包括所有满足下列条件的决策结：(1)每一个决策结

7、都是同一参与人的决策结；(2)该参与人知道博弈进入该集合的的某个决策结，但不知道自己究竟处于哪一个决策结。,20,结nodes,信息集分单节信息集和多节信息集；如果用虚线匡起来表示2知道自己位于信息集内，但不知道是哪一点，因为他没能观察到对手的行动；如果博弈树的所有信息集都是单结的，称为完美信息博弈,21,完美信息（perfect information）与不完美信息(imperfect information),不完美信息：2不能区分1是采用了L还是S,完美信息：2能区分1是选择了L还是S,22,案例-房地产开发项目-假设有A、B两家开发商市场需求：可能大，也可能小投入：1亿,假定市场上有两

8、栋楼出售：需求大时，每栋售价1.4亿，需求小时，售价7千万；如果市场上只有一栋楼需求大时，可卖1.8亿需求小时，可卖1.1亿,23,A,开发,不开发,N,N,大,小,1/2,1/2,大,小,1/2,1/2,B,B,B,B,开发,不开发,开发,不开发,开发,不开发,开发,不开发,(4,4),(8,0),(-3,-3),(1,0),(0,8),(0,0),(0,1),(0,0),参与人集合参与人行动顺序参与人的行动空间参与人的信息集参与人的支付函数外生事件的概率分布,房地产开发博弈,24,A,开发,不开发,N,N,大,小,1/2,1/2,大,小,1/2,1/2,B,B,B,B,开发,不开发,开发,

9、不开发,开发,不开发,开发,不开发,(4,4),(8,0),(-3,-3),(1,0),(0,8),(0,0),(0,1),(0,0),B在决策时不确切地知道自然的选择;B的决策结由4个变为2个,房地产开发博弈,25,A,开发,不开发,N,N,大,小,1/2,1/2,大,小,1/2,1/2,B,B,B,B,开发,不开发,开发,不开发,开发,不开发,开发,不开发,(4,4),(8,0),(-3,-3),(1,0),(0,8),(0,0),(0,1),(0,0),B知道自然的选择;但不知道A的选择(或A、B同时决策),房地产开发博弈,26,例：“人不犯我，我不犯人；人若犯我，我必犯人”的动态表示,

10、27,3.1.2.2 动态博弈的战略式表述,不开发,开发商A,开发,不开发,开发,不开发,开发商B,开发商A,开发,不开发,开发,开发商B,需求小的情况,需求大的情况,博弈的战略式表述,28,A,B,（进入，进入）,进入,不进入,（进入，不进入）,（不进入，进入）,（不进入，不进入）,市场进入博弈的战略式,市场进入的扩展式,29,在市场进入博弈中：A有两个行动：“进入”、“不进入”。由于是先行动者，只有两个战略：选择“进入”或“不进入”。B有两个行动：“进入”、“不进入”。但是，有4个战略：,(1)若A选择“进入”，B选择“进入”，若A选择“不进入”，B选择“进入”，即（进入，进入）(2)若A

11、选择“进入”，B选择“进入”，若A选择“不进入”，B选择“不进入”，即（进入，不进入）,(3)若A选择“进入”，B选择“不进入”，若A选择“不进入”，B选择“不进入”，即（不进入，进入）(4)若A选择“进入”，B选择“不进入”，若A选择“不进入”，B选择“不进入”，即（不进入，不进入）,30,练习：,31,32,扩展式表述动态博弈,若A先行动，B在知道A的行动后行动，则A有一个信息集，两个可选择的行动，战略空间为:(开发，不开发）；B有两个信息集，四个可选择的行动，B有四个纯战略：开发策略：不论A开发不开发，我开发；追随策略：A开发我开发，A不开发我不开发；对抗策略：A开发我不开发，A不开发我

12、开发；不开发策略：不论A开发不开发我不开发简写为：（开发，开发），（开发，不开发），（不开发，开发），（不开发，不开发），括号内的第一个元素对应A选择“开发”时B的选择，第二个元素对应A选择“不开发”时B的选择。,什么是参与人的战略？,33,扩展式表述动态博弈,足球,男的策略：足球，芭蕾选择足球；还是选择芭蕾。女的策略：（足球，芭蕾），（芭蕾，足球）（芭蕾，芭蕾），（足球，足球）1、追随策略：他选择什么，我就选择什么2、对抗策略：他选择什么，我就偏不选什么3、芭蕾策略：不管他选什么，我都选芭蕾；4、足球策略：不管他选什么，我都选足球。,策略即：如果他选择什么，我就怎样行动的相机行动方案。在扩展

13、式博弈里，参与人是相机行事，即“等待”博弈到达一个自己的信息集（包含一个或多个决策结后，再采取行动方案。,34,3.2 可信性和纳什均衡的问题,3.2.1 相机选择和策略中的可信性问题3.2.2 纳什均衡的问题,35,3.2.1相机选择和策略中的可信性问题,与静态博弈不同，在动态博弈情形，“战略”不等同于“行动”。在动态博弈中，在每一个信息集上有一个行动选择的问题，而一个局中人在由他进行行动选择的所有信息集所进行的行动选择构成他的一个战略，即战略是行动选择的一个谱系，一个战略规定了局中人在由他进行选择的所有信息集上所要选择的行动，即局中人在博弈开始之前所制定出的一个“相机行动计划”，它表明“如

14、果发生，我将选择。”,36,当博弈是动态进行的时，与静态博弈相比，局中人就有了一种额外的选择，即事后机会主义。如果博弈是静态的，则局中人所声明的行动选择就是他们实际进行的选择，但是，如果博弈在行动选择上局中人有选择行动的先后顺序，那么，一些轮到稍后进行行动选择的局中人完全可以不按事前所声明的战略所规定的行动选择选择其行动，而是根据博弈进行到此时对局中人最为有利的方式选择行动。,37,这就是说，在动态博弈中，即使局中人按事前所声明的战略组合构成一个纳什均衡，而这些均衡战略又规定了各个局中人在其所有信息集上的行动选择，这些行动选择也可能并非局中人在对应信息集上的最优行动选择。而当博弈实际进行到那些

15、由纳什均衡战略规定的行动并非最优行动选择的信息集时，按照理性人假设，可以预言局中人届时不会按纳什均衡战略所规定的方式去选择行动，而是机会主义地选择最优的行动。这样，具有这种特点的纳什均衡就是不可信的，即不能作为模型的预测结果，按照“精炼”纳什均衡的思想，应当将其消掉。,38,不同版本的开金矿博弈分钱和打官司的可信性,39,第三种开金矿博弈中，（不借-不打，不分）和（借-打，分）都是纳什均衡。但后者不可信，不可能实现或稳定。结论：纳什均衡在动态博弈可能缺乏稳定性，也就是说，在完全信息静态博弈中稳定的纳什均衡，在动态博弈中可能是不稳定的，不能作为预测的基础。根源：纳什均衡本身不能排除博弈方策略中包

16、含的不可信的行为设定，不能解决动态博弈的相机选择引起的可信性问题,40,女儿,父母,断绝关系,跳楼,不伤心,嫁张三,父母,父亲与女儿的动态博弈,女儿可以选择嫁给张三或者不嫁给张三，父母则威胁女儿要是嫁给张三就不给嫁妆，并断绝父女关系，另外一种可能当然是不断绝父女关系。女儿则说如果断绝父女关系就要跳楼，另一种选择是不跳楼。父母则说如果你跳楼了，我们也不会感到痛苦。,41,问题是：父亲的威胁是可置信的吗？结果：女儿会勇敢的恋爱下去直到结婚，父亲最终会承认那个他当初不喜欢的女婿。-完全信息动态子博弈精炼纳什均衡,42,“破釜沉舟”：项羽与秦兵交战，领兵过河后就砸锅沉船，就是一种承诺行动。朝鲜开战的威

17、胁是可置信的吗？为什么画家死后的画会升值？结婚为什么要送钻石？婚姻中的承诺：彩礼、昂贵的婚礼可以理解为一种对婚姻的承诺；订金、抵押物做为对交易的承诺；“安营扎寨”；固定资产投资可以作为承诺；所有权的承诺作用；,43,最惠条款,生产耐用品的企业经常被“降价预期”所困扰：如果消费者预期企业将降价，他们将会等待，结果，企业只能降价。如汽车行业面临的问题；最惠条款可以起到承诺的作用：企业不会降价了。,44,美国普林斯顿大学古尔教授在1997年的经济学透视里发表文章，提出一个例子说明威胁的可信性问题：两兄弟老是为玩具吵架，哥哥老是要抢弟弟的玩具，不耐烦的父亲宣布政策：好好去玩，不要吵我，不管你们谁向我告

18、状，我都把你们两个关起来，关起来比没有玩具更可怕。现在，哥哥又把弟弟的玩具抢去玩了，弟弟没有办法，只好说：快把玩具还我，不然我就要去告诉爸爸。各个想，你真要告诉爸爸，我是要倒霉的，可是你不告状不过没有玩具玩，而告了状却要被关禁闭，告状会使你的境遇变得更坏，所以你不会告状，因此哥哥对弟弟的警告置之不理。,45,的确，如果弟弟是会算计自己利益的理性人，在这样的环境下，还是不告状的好。可见，弟弟是理性人，他的告状威胁是不可置信的。,46,不可置信的威胁引出了信息经济学中一个很种要的概念：承诺行动承诺行动是当事人使自己的威胁战略变得的可置信的行动.一种威胁在什么时候可是可信的：只有在当事人若不施行这

19、种威胁时就会遭受更大的损失的时候。承诺是将不可置信的威胁变成可置信的威胁的行动：威胁不仅是事前最优的，也是事后最优的。,47,什么是承诺行动,如果一个局中人对已有博弈的均衡感到不满意，他（她）可以通过改变其行动空间从而导致其战略空间发生相应的变化来避开他不满意的均衡并获取其所需的均衡。当在一个博弈中，倘若某局中人希望一个本属含有不可置信威胁或承诺的行动的非精炼均衡能真正发生，他可以通过改变其行动空间（通常是减小其行动空间或战略空间）使其威胁或承诺变得不可置信，从而将原本非精炼的均衡变成精炼的均衡（战略或行动空间改变后，博弈本身也改变了），这类局中人改变其行动或战略空间的行为被称为“承诺行动”

20、,48,有些战略之所以不是精练纳什均衡,是因为它包含了不可置信的威胁战略,如果参与人能在博弈之前采取某种行动改变自己的行动空间或支付函数，原来不可置信威胁将变得可置信,博弈的精练纳什均衡也会随之改变.这些为改变博弈结果而采取的措施称为承诺行动.完全承诺:承诺可以使某项行动完全没有可能(破釜沉舟).不完全承诺:承诺只是增加了某个行动的成本而不是使该活动完全没有可能.,49,50,承诺行动(1)项羽的破釜成舟,秦朝末年，反秦义军在新上任的统帅项羽的率领下，渡过大河与秦军精锐主力决战。当时的情况是，秦军主力是由名将章钳率领的精锐之师，而项羽统领的义军是一群缺乏训练，给养不足的乌合之众，且项羽本人又是

21、刚刚通过斩了统帅宋义而自任统帅上台的，军心欠稳。两军相比，秦军无论在人数、装备及给养，还是士兵素质方面都远强于义军。一般人都会认为义军不是章钳大军的对手（宋义是在义军统帅项梁去世后接替项梁而出任义军统帅的，但在决战前夕就是因此顾虑而终日饮酒不敢出战被愤怒中的猛士项羽所杀）。这样，决定战争胜负的因素就取决于两军的士气了。,51,项羽这个粗人是深知这一点的，他在义军渡过河后令人击碎煮饭的大锅（破釜），还将渡河用的船只悉数尽沉河底（沉舟），然后告诉义军士兵：“我们已没有退路了，只有不顾一切地猛击秦军，才有一线生路”。结果义军果真一鼓作气大败秦军，俘虏了秦军大将章钳。此战实际上为彻底推翻秦王朝打下了基

22、础，从此义军一路顺风地打到了秦朝国都咸阳,52,用博弈论的语言来描述历史上的这一著名战役，我们说项羽的破釜沉舟就是一个“承诺行动”。对于义军士兵来说，其行动空间在项羽破釜沉舟之前可以说有四个元素:即勇猛进攻，与秦军僵持不下，投降秦军，乘船返回逃跑。如果两军相遇，义军选择“勇猛进攻”会冒很大风险，因为秦军太强大了；如果义军选择僵持不下，也不是个办法，因为拖延进攻时间对义军并无好处；如果义军选择投降，则按当时的情况无异于自取灭亡，因为秦军肯定会对投降的义军赶尽杀绝（当时的战争并无“优待俘虏”的说法）。因此，乘船逃跑很可能就是义军在强敌面前会出现的结果了。,53,然而，当项羽作了“破釜沉舟”的承诺行

23、动之后，义军士兵的行动空间就减少了三个元素，变为勇猛进攻，僵持不下，投降。两者比较，“勇猛进攻”是占优于“投降”和“僵持不下”的，因为根据当时的情况，投降无异于自取灭亡，而选择“勇猛进攻”还可能打败秦军而获取一条生路。,54,破釜沉舟是战争史上运用承诺行动的一个著名战例，在其他的古代战争故事中也不乏此类例子，如韩信赵国之战时，将被赵军追击下的大军故意引至绝无逃路的大海边，然后高呼我们无退路了，只有拼死一战才有逃生之望，结果绝望中的士兵拼死反击追军而大获全胜。事后韩信称此计为“置之死地而后生”。其它还有三国时的曹操与袁绍的仓亭之战等。有鉴于此，古兵书中有明训“穷寇勿追”，以免被追急了的对方反咬一

24、口。,55,承诺行动(2)企业的过剩生产能力,经济学家发现，在许多行业中，都存在过剩生产能力的现象；同时，特别是在新兴行业中，一些先进入的企业在并不知晓未来市场大小的情况下，一昧地建造大规模的生产基地和安装生产装备。这是为什么呢？博弈论专家对此给出的解释是，企业为了阻唬潜在的竞争对手，通过显示其过剩生产能力来给潜在竞争对手一个“可置信的”威胁：你要是进入行业与我竞争，我并不会减少产量。这样，企业保持过剩生产能力就是一种“承诺行动”.,56,57,承诺行动与子博弈精练纳什均衡,房地产开发博弈,如果在A决策之前,B与某客户签定了一个合同,规定B若不在特定时期内开发若干面积的写字楼,则将支付违约金3

25、.5,这个合同就是承诺行动.,(1,-3.5),58,曹操与袁绍的仓亭之战，曹操召集将领来献破袁之策，程昱献了十面埋伏之计，他让曹操退军河上，诱袁前来追击，到那时“我军无退路，必将死战，可退袁矣”。曹操采纳此计，令许褚诱袁军军至河上，曹军无退路，操大呼曰：“前无去路，诸军何不死战！”，众军奋力回头反击，袁军大败。,59,制造危机：边缘政策谢林在冲突的策略中提出“边缘政策”的概念。,意思是，局中人故意制造一种可以辨认的风险让对方知道，并且还让对方知道，这种风险是我不能完全控制的，一旦某种形势出现，不管我愿不愿意，我都只能越过边缘界线，采取行动与他同归于尽。这是一种威胁，但要创造条件使对方相信这种

26、威胁是可置信的，因此就要把自己推入一种看来不利的处境。谢林还证明了，对于局中人来说，报复的能力比抵抗的能力更有用；并且，不确定的报复比确定的报复更加可置信也更有效。,60,从核试验,到发射导弹,到海上对峙,朝鲜正在玩一场战争边缘游戏。一九五六年一月,杜勒斯提出美国“不怕走到战争边缘,但要学会走到战争边缘,又不卷入战争的必要艺术”。这种主张被称为“战争边缘政策”边缘政策：通过创造一种印象来寻求利益的国际政治实践，即一个人情愿并能够把高度危险的局势推到极限而不是退避,61,台海问题博弈：,在这里，要运用博弈论中的边缘政策或者说是冒险主义模型。边缘政策（冒险主义）是创造和控制一种恰当的风险。它需要表

27、面上看来是相互不一致的两方面性质.一方面，你必须让局势在一定程度上失控，以致于你没有充分的自由度在启动了可怕行动之后又去抑制它的发展，所以你的威胁是可置信的。另一方面，你必须有对行动发生的风险足够大的控制力，使你能将风险控制在不会变得太大以致于你的威胁在一定的范围内。,62,在博弈论中，如果要采用“威胁”方式让对方就范，边缘政策（冒险主义）是十分重要的策略。台独份子宣布独立，则大陆使用原子弹攻击台湾是“可置信的”的威胁吗。台独份子宣布独立，我门应采取什么策略？,63,按照边缘政策，我们可以在台独份子搞独立时，通过宣布对台湾进行军事封锁。在军事封锁过程中，完全可能出现因为“搽枪走火“的事件而导致

28、战争爆发，即使双方实际上并不想真的开战也难以逆转。这样就对那些台独份子产生真正的战争威胁。另外，军事封锁的主动权掌握在大陆一方，这在博弈论中是十分重要的。叫”先动优势“。大陆可以根据需要使得军事对抗不断升级，也可以根据形势的需要而将封锁的强度调整得小一些。譬如，通过增加或者是减少参与军事封锁的核潜艇和飞机导弹的数量和级别，以及参加封锁行动的海军陆战队的规模，还有宣布的封锁持续的时间和海洋和天空的范围等等。不断升级的封锁会增加爆发不可逆转的战争的风险，直到对方感到不能继续对抗为止（此时对方投降）。这就是边缘政策或者冒险主义策略的意思。,64,当年在美国与前苏联的古巴导弹危机时，肯尼迪总统就是采用

29、的这种策略并且获得成功。我们在对付台独份子时也不妨拿来一用。,65,66,67,68,承诺的特点：A承诺不是空话，需要投资，花费代价。B承诺无法反悔。承诺行为一旦做出，就无法挽回。C承诺本质上是一种自残行为。D承诺可以达到默契同谋的目的。E.承诺是动态博弈里经常采用的手段。,69,70,扩展式,开发,开发,开发,不开发,不开发,开发,不开发,不开发,开发,不开发,开发商B,开发商A,战略式,开发,(开发,不开发),纳什均衡与均衡结果：存在三个纯战略纳什均衡：(不开发，（开发，开发），（开发，（不开发，开发），（开发,（不开发，不开发）两个均衡结果：（开发，不开发）（不开发，开发）注意：均衡不同

30、于均衡结果,71,3.3 子博弈和子博弈精炼纳什均衡,3.3.1 子博弈3.3.2 子博弈精炼纳什均衡3.3.3 逆推归纳法,72,3.3.1 子博弈,定义：由一个动态博弈第一阶段以外的某阶段开始的后续博弈阶段构成的，有初始信息集和进行博弈所需要的全部信息，能够自成一个博弈的原博弈的一部分，称为原动态博弈的一个“子博弈”。,73,即：在一个扩展型博弈中，如果一个博弈由它的一个决策结及其所有后续结构成，并满足（1）起始结是一个单结的信息结;（2）子博弈保留了原博弈的所有结构，则称它为原博弈的一个子博弈（子博弈）。,74,子博弈：是原博弈的一部分，它本身也可以作为一个独立的博弈进行分析：（1）子博

31、弈必须从一个单结信息点开始：只有决策者在原博弈中确切地知道博弈进入一个特定的决策结时，该决策结才能作为一个子博弈的初始结。如果信息集包含两个以上的决策结，则这两个都不可以作为子博弈的初始结（见下页）。（2）子博弈的信息集和支付向量都直接继承自原博弈，即当x和x在原博弈中属于同一信息集时，他们在子博弈中才属于同一信息集。习惯上，任何博弈的本身称为自身的一个子博弈。,75,3.3.2 子博弈精炼纳什均衡,定义：如果一个完美信息的动态博弈中，各博弈方的策略构成的一个策略组合满足，在整个动态博弈及它的所有子博弈中都构成纳什均衡，那么这个策略组合称为该动态博弈的一个“子博弈精炼纳什均衡”。子博弈完美纳什

32、均衡能够排除均衡策略中不可信的威胁和承诺，因此是真正稳定的。逆推归纳法是求完美信息动态博弈子博弈完美纳什均衡的基本方法。,76,考虑下列问题：一个博弈可能有多个（甚至无穷多个）纳什均衡，究竟哪个更合理？纳什均衡假定每一个参与人在选择自己的最优战略时假定所有其他参与人的战略是给定的，但是如果参与人的行动有先有后，后行动者的选择空间依赖于前行动者的选择，前行动者在选择时不可能不考虑自己的行动对后行动者的影响。子博弈精练纳什均衡的一个重要改进是将“合理纳什均衡”与“不合理纳什均衡”分开。,77,泽尔腾引入子博弈精练纳什均衡的概念的目的是将那些不可置信威胁战略的纳什均衡从均衡中剔除，从而给出动态博弈的

33、一个合理的预测结果，简单说，子博弈精练纳什均衡要求均衡战略的行为规则在每一个信息集上是最优的。,78,一个纳什均衡称为精练纳什均衡，当只当参与人的战略在每个子博弈中都构成纳什均衡，也就是说，组成精练纳什均衡的战略必须在每一个子博弈中都是最优的。一个精练纳什均衡首先必须是一个纳什均衡，但纳什均衡不一定是精练纳什均衡。承诺行动-当事人使自己的威胁战略变得可置信的行动。,79,不可置信威胁,精炼纳什均衡剔除了不可置信的威胁，使得我们可以更合理地对博弈中参与人行为的预测；不可置信威胁的根源是事前最优与事后最优不同，导致许多帕累托效率无法实现；劫机事件为什么会发生？管教孩子为什么困难？家族企业为什么难以

34、实行制度化管理？大企业为什么效率低？（TBTF）,80,举例,1,2,1,（2，0）,（5，0）,（4，2）,（1，1）,U,D,R,L,U,D,81,均衡路径与非均衡路径,精炼纳什均衡下所经过的决策点和最优选择构成的路径，称为均衡路径（equilibrium path);其他的路径是非均衡路径（off-equilibrium path);均衡结果依赖于非均衡路径上的选择：1只所以一开始就选择U，是因为他预期如果选择D的话，2将选择L；而2只所以选择L，是因为她预期如果选择R的话，1将选择U。,82,例：我们以“开金矿博弈”为例来讨论可信性问题。甲要开采一价值4万元的金矿，缺1万元的资金，向乙

35、借1万元，许诺采到金子后与乙平分。乙是否借钱给甲呢？,83,乙最需要关心的就是甲采到金子后是否会履行诺言跟自己平分，因为万一甲采到金子后不但不跟乙平分，而且还赖帐或卷款潜逃，则乙连自己的本钱都收不回来。关键的是要判断的许诺是否可信！以自身利益最大化原则，甲必然选择不分！乙清楚甲的行为准则，最好的选择是不借！对乙来说，甲的许诺是不可信的！,84,可信的诺言和威胁法律保障不足的开金矿博弈,85,子博弈精练纳什均衡,A,开发,不开发,B,B,开发,不开发,开发,(-3,-3),(1，0),（0，1),(0,0),不开发,(不开发，（开发，开发），（开发，（不开发，开发），（开发,（不开发，不开发）

36、,如果A选择开发，B的最优选择是不开发，如果A选择不开发，B的最优选择是开发，A预测到自己的选择对B的影响，因此开发是A的最优选择。子博弈精练纳什均衡结果是：A选择开发，B选择不开发。,x,x,对于(不开发，（开发，开发），这个组合之所以构成纳什均衡，是因为B威胁不论A开发还是不开发，他都将选择开发，A相信了B的威胁，不开发是最优选择，但是A为什么要相信B的威胁呢？毕竟，如果A真开发，B选择开发得-3，不开发得0，所以B的最优选择是不开发。如果A知道B是理性的，A将选择开发，逼迫B选择不开发。自己得1，B得0，即纳什均衡(不开发，（开发，开发）是不可置信的。因为它依赖于B的一个不可置信的威胁。

37、同样：（不开发，不开发）也是一个不可置信威胁，纳什均衡（开发,（不开发，不开发）是不合理的。,86,进入者,进入,不进入（0，300）,在位者,默许（40，50）,斗争（-10，0）,市场进入阻挠博弈树,特点：剔除博弈中包含的不可置信威胁。承诺行动-破釜沉舟-背水一战给定进入者进入，剔除（进入，斗争），（进入，默许）是唯一的子博弈精练纳什均衡-举例（结婚-反对）,不可置信威胁,支付函数,行动,87,子博弈精练纳什均衡：扩展式博弈的战略组合是一个子博弈精练纳什均衡，如果:（1）它是原博弈的纳什均衡；（2）它在每一个子博弈上给出纳什均衡。,88,完全信息动态博弈-子博弈精练纳什均衡泽尔腾（1965

38、）,如果一个博弈有几个子博弈，一个特定的纳什均衡决定了原博弈树上唯一的一条路径，这条路径称为“均衡路径”，博弈树上的其他路径称为“非均衡路径”。纳什均衡只要求均衡战略在均衡路径的决策结上是最优的；而构成子博弈精练纳什均衡不仅要求在均衡路径上策略是最优的，而且在非均衡路径上的决策结上也是最优的。这是纳什均衡与子博弈精练纳什均衡的实质区别。,89,A,开发,不开发,B,B,开发,不开发,开发,(1，0),（0，1),(0,0),(-3,-3),x,x,房地产开发博弈,(不开发，（开发，开发），（开发，（不开发，开发），（开发，（不开发，不开发）在c上构成均衡，在b上不构成；在b和c上都构成在c上

39、构成均衡，在b上不构成,完全信息动态博弈-子博弈精练纳什均衡泽尔腾（1965）,不开发,判断下列均衡结果哪个构成子博弈精练纳什均衡？,不开发,b,c,90,乙左，左左，右右，左右，右,上下,甲,91,纳什均衡子博弈精炼纳什均衡,三个纳什均衡：（上，左，左）（下，左，右）（下，右，右）排除（上，左，左），（下，右，右），只有（下左，右）是子博弈精炼纳什均衡,92,泽尔腾引入子博弈精练纳什均衡的概念的目的是将那些不可置信威胁战略的纳什均衡从均衡中剔除，从而给出动态博弈的一个合理的预测结果，简单说，子博弈精练纳什均衡要求均衡战略的行为规则在每一个信息集上是最优的。有没有更好的方法找到子博弈精练

40、纳什均衡？,93,3.3.3 逆推归纳法,定义：从动态博弈的最后一个阶段博弈方的行为开始分析，逐步倒推回前一个阶段相应博弈方的行为选择，一直到第一个阶段的分析方法，称为“逆推归纳法”。逆推归纳法是动态博弈分析最重要、基本的方法。,乙,不借,借,（1，0）,94,逆推归纳法,逆推归纳法实际上是重复剔除劣战略方法在扩展式博弈中的应用。我们从最后一个决策结开始往回倒推，每一步剔除在该决策结上参与人的劣选择，因此，在均衡路径，每一个参与人在每一个信息集上的选择都是占优选择。逆推归纳法可以用于许多动态博弈的分析求解，除了有些不完美信息动态博弈以外，是解析动态博弈的基本方法。,95,用逆推归纳法求-子博弈

41、精练纳什均衡,1,U,D,L,（3，1),(0,0),2,2，2,R,给定博弈达到最后一个决策结，该决策结上行动的参与人有一个最优选择，这个最优选择即该决策结开始的子博弈的纳什均衡倒数第二个决策结，找倒数第二个的最优选择，这个最优选择与我们在第一步找到的最优选择构成一个纳什均衡。,如此重复直到初始结。每一步都得到对应于子博弈的一个纳什均衡，并且根据定义，该纳什均衡一定是该子博弈的子博弈的纳什均衡，这个过程的最后一步得到整个博弈的纳什均衡,96,用逆推归纳法求子博弈精练纳什均衡对于有限完美信息博弈，逆推归纳法求解子博弈精练纳什均衡是一个最简便的方法。,房地产开发博弈,97,逆推法：例1,98

42、,逆推法：例2,99,逆推法：例3,100,例：承诺行动与博弈结果,春节前夕，某小镇上两个商铺主甲和乙同时看到一个赚钱机会：去城里贩一批鞭炮回来零售，购货款加上运输费用共5000元，如果没有竞争对手，这批货在小镇上能卖6000元；但如果另一家商铺同时在小镇上卖鞭炮，价格下跌使得这批鞭炮只能卖4000元。纳什均衡是什么？假设甲先行动，商铺乙看到对方的选择后再决定是否进货，子博弈精炼纳什均衡是什么？,101,承诺行动与博弈结果,如果甲先行动，但在博弈开始前商铺主乙有一次行动A的机会，利用子博弈精炼均衡概念分析下述两种情况下的博弈结果：（1）A：商铺主乙逢人便说自己一定要进货，无论对方如何行动他都不

43、会改变这个决定；（2）A：商铺主乙与某个嘲笑他说大话的第三者丙打赌：如果自己到时不进货，向丙支付1500元；如果自己到时候进货，丙向他支付100元。并且，乙将这个赌局通知甲。,102,103,练习：,104,105,106,设一四阶段两博弈方之间动态如下图所示，找出全部子博弈讨论该博弈的可信行问题，求子博弈精练纳什均衡。,107,108,109,110,111,用逆推归纳法求解的子博弈精练纳什均衡也要求“所有的参与人是理性的”是共同知识。如果博弈由多个阶段组成，则从逆向归纳法得到的均衡可能并不非常令人信服。,112,你想当几号？,强盗分赃有5个强盗抢得10枚硬币，在如何分赃上争论不休，于是他们

44、决定：（1）抽签决定个人的号码（1，2，3，4，5）（2）由1号提出分配方案，然后5人表决，如果方案超过半数同于就通过，否则他被扔进大海喂鲨鱼；（3）1号死后，2号提方案，4人表决，当且仅当超过半数同意时方案通过，否则2号被扔进大海；（4）依次类推，知道找到一个每个人都接受的方案（当然，如果只剩5号，他独吞）结果会如何？,113,蜈蚣博弈：理性考验,1,D,(1,0),A,2,D,(0,2),A,2,D,(0,N),A,（0,N+1),A,1,D,(N-1,0),A,1,D,(3,0),A,2,D,(0,4),A,每个参与人有多个行动机会的蜈蚣博弈,1、2进行游戏决策，如果1在第一轮决策，得1

45、，2得0，否则进入第二轮，2决策得2，A得0,114,例：大智若愚中的智慧:聪明过头没好处美国19世纪有一个颇有成就的政治家，其幼年时是流浪街头的孤儿。他经常在大街上向行人讨钱，但当有人让他在一块钱和两块钱之间选择时，他选择了一块钱。于是，许多人都为了亲眼验证关于他的“犯傻”行为的传闻，专门来找他并让他在一块钱和两块钱之间选择。他仍然依然故我地只选择一块钱，于是来找他的人愈来愈多。,115,终于有一天，有一位女士问他：难道你不知道两块钱比一块钱更多一些钱吗？他如此回答道：如果我有一次选择了两块钱，就不会有人来找我让我在一块钱与两块钱之间选择了，我也讨不到钱了。这个故事告诉我们有时候“扮傻”也

46、许是有好处的。下面再来看一个例子，这是一个动态博弈，局中人A有两次决策机会，一次在局中人B决策之前，另一次在B决策之后。,116,大智若愚，大巧若拙,常言说聪明难糊涂更难，是说我们在处理事情的时候，要保持清醒的头脑很难，但要在适当的时候糊涂也更加难。聪明是一件好事，因为聪明的人明白如何少犯错误，但是聪明也未必尽是好事，尤其是自认聪明、聪明过头的人，将会给自己招致不必要的麻烦，所谓聪明反被聪明误说的就是这个道理。因此在适当的时候，装傻不仅是真正的聪明，也是一种艺术，更是一种真正的人生大智慧。,117,图4 一个动态博弈运用“逆推归纳法”，A在第二次决策时会选择，B选择L；给定这些结果，A在开始

47、会选择U，纳什均衡是(U,),L)。,118,但是，如果局中人A开始“装傻”，选择D而不是U，当B认为A是傻子时，B会以为当他选R后A会选，而这正是B所乐意看到的结果。于是，当A开始装傻后，造成B对A的类型的误解，B以为A是傻子，从而预期当他自己选R后A还会“犯傻”选。于是B就选R而不是均衡中的L。但是，当B选了R后，A不再“装傻”而一举选达到最大支付3。这就是A通过“装傻”骗过B使A获利。,119,第二种情形是，局中人B“装傻”，并使A相信他是傻子。这样，A会认为当他选D时B会选R。于是，A开始就选D，但一旦A选了D，B就不再“装傻”，一举选L。这是B骗过A的情形。下面的一个例子是当所有局

48、中人都“装傻”时，所有人都受益的情形。,120,图5 所有人都“装傻”使所有人都受益的博弈由逆向归纳法，博弈均衡是所有人都选择D，即（D，D）。结果是博弈在一开始就结束了，每个局中人都获得支付1。,121,3.4 几个经典动态博弈模型,3.4.1 寡占的斯塔克博格模型3.4.2 劳资博弈3.4.3 讨价还价博弈3.4.4 委托人代理人理论,122,3.4.1斯坦克尔伯的寡头竞争模型,企业1,企业2,参与人：企业1、企业2；行动顺序：企业1先选择产量q1，企业2观测到q1，然后选择自己的产量q2。支付：利润，利润是两个企业产量的函数,123,斯坦克尔伯的寡头竞争模型,qi：第i个企业的产量

49、C：代表单位不变成本假定逆需求函数为：第i个企业的利润函数为：,124,斯坦克尔伯的寡头竞争模型,用你向归纳法求解，首先考虑给定q1的情况下，企业2的最优选择。企业2的问题是：,最优化一阶条件意味着：,因为企业1预测到企业2将根据S2（q1）来选择q2，企业1在第1阶段的问题是：,125,斯坦克尔伯的寡头竞争模型,均衡结果比较,126,斯坦克尔伯的寡头竞争模型,从上述计算可以看出：斯坦克尔伯的均衡总产量大于库诺特均衡总产量，企业1的斯坦克尔伯的均衡产量大于库诺特均衡产量，企业2的斯坦克尔伯的均衡产量小于库诺特均衡产量。同样，企业1在斯坦克尔伯博弈中的利润大于在库诺特博弈中的利润，企业2的利润却

50、有所下降，这就是所谓的“先动优势”。拥有信息优势可能使参与人处于劣势。企业1先行动的承诺价值：企业1之所以获得斯坦克尔伯利润而不是库诺特利润，是因为它的产品一旦生产出来就变成了一种积淀成本，无法改变，从而使企业2不得不承认它的威胁是可置信的。而假如企业1只是宣布了它将生产，企业2是不会相信她的威胁的。,127,练习：,128,129,130,131,132,133,134,3.4.2 劳资博弈模型,里昂惕夫1946年提出，分别代表劳资双方的工会与厂商之间的博弈模型。该模型假设工资完全由工会决定，而厂商则根据工会要求的工资高低决定雇用工人的数量。工会代表的劳方效用u=u(W,L)。厂商的利润函数