完全信息动态博弈ppt课件.ppt

上传人：小飞机

文档编号：1412602

上传时间：2022-11-21

格式：PPT

页数：91

大小：709KB

《完全信息动态博弈ppt课件.ppt》由会员分享，可在线阅读，更多相关《完全信息动态博弈ppt课件.ppt（91页珍藏版）》请在三一办公上搜索。

1、2 完全信息动态博弈,扩展型博弈表述扩展型博弈的战略及纳什均衡子博弈精炼纳什均衡子博弈精炼纳什均衡应用举例,2 完全信息动态博弈,动态博弈：参与人的行动有先后顺序，且后行动者能够观察到先行动者的行动(电信公司、电信用户及资费套餐）。先行动者的选择影响后行动者的选择空间，后行动者可以观察到先行动者做了什么选择，因此，为了做出最优的行动选择，每个参与人都必须这样思考问题：如果我如此选择，对方将如何应对？给定他的应对，什么是我的最优选择？(美女；帅哥）例：欺负他人可以获得快乐，你会欺负他人吗？不会。欺负他人会担心他人的报复，抵消了从欺负他人的行为中获得快乐。先行动者在选择行动时要考虑自己的选

2、择对后行动者的影响。,一、动态博弈的扩展式表述I,如何用扩展式表述（extensive form representation）来描述动态博弈？例1，解放初，美国总是寻找各种机会来侵犯我国。对此，毛主席提出了“人不犯我、我不犯人，人若犯我、我必犯人”的战略方针。该动态博弈的战略式表述局中人：美国、中国行动空间：美国“犯我”或“不犯我”，中国“犯人”或“不犯人”行动顺序：美国先行动，我国依美国的行动而后动支付：这样假设支付情况：若美国“犯我”，中国“犯人”，则支付向量为(-2,-2)；,一、动态博弈的扩展式表述,n人有限战略的扩展式表述：博弈树（game tree）,若美国“犯我”，中

3、国“不犯人”，则支付向量为(2,-4)；若美国“不犯我”，中国“犯人”，则支付向量为(3,-5)；若美国“不犯我”，中国“犯人”，则支付向量为(1,1)。,2人有限博弈的战略式表述：支付矩阵,决策结：行动的时点,枝,终点结,参与人集合：，此外，虚拟参与人“自然” ；参与人的行动顺序（the order of moves）：谁在什么时候行动；参与人的行动空间（action set）：在每次行动时，参与人有些什么选择。参与人的信息集（information set）：每次行动时，参与人知道些什么；参与人的支付函数；外生事件（即自然的选择）的概率分布,扩展式表述的要素：,一、动态博弈的扩展式表

4、述,一、动态博弈的扩展式表述,例2：两个房地产商A、B进行房地产开发博弈。市场需求大、小的概率各占50%。投入：1亿。假定市场上有两栋楼出售：需求大时，每栋售价1.4亿，需求小时，售价7千万；如果市场上只有一栋楼需求大时，可卖1.8亿需求小时，可卖1.1亿行动顺序：(1)开发商A首先行动，选择开发或不开发；(2)在A决策后，自然选择市场需求的大小；(3)开发商B在观测到A的决策和市场需求后，决定是否开发,A,开发,不开发,N,N,大,小,1/2,1/2,大,小,1/2,1/2,B,B,B,B,开发,不开发,开发,不开发,开发,不开发,开发,不开发,(4,4),(8,0),(-3,-3),(1,

5、0),(0,8),(0,0),(0,1),(0,0),房地产开发博弈（图2.1),注意：支付向量的顺序与博弈树上行动顺序是对应的！,A,开发,不开发,N,N,大,小,1/2,1/2,大,小,1/2,1/2,B,B,B,B,开发,不开发,开发,不开发,开发,不开发,开发,不开发,(4,4),(8,0),(-3,-3),(1,0),(0,8),(0,0),(0,1),(0,0),B在决策时不确切地知道自然的选择; B的信息集由4个变为2个,该参与人知道博弈进入该集合的某个决策结，但不知道自己究竟处于哪一个决策结,A,开发,不开发,N,N,大,小,1/2,1/2,大,小,1/2,1/2,B,B,B,

6、B,开发,不开发,开发,不开发,开发,不开发,开发,不开发,(4,4),(8,0),(-3,-3),(1,0),(0,8),(0,0),(0,1),(0,0),B知道自然的选择;但不知道A的选择(或A、B同时决策),房地产开发博弈,信息集（information set）的概念：是决策结集合的一个子集，该子集包括所有满足下列条件的决策结：每一个决策结都是同一参与人的决策结；该参与人知道博弈进入该集合的某个决策结，但不知道自己究竟处于哪一个决策结。只包含一个决策结的信息集称为单结信息集，如果博弈树的所有信息都是单结的，该博弈称为完美信息博弈。（博弈中没有任何参与人同时行动，且后行动者能观察到先

7、行动者的行动，且所有参与人观察到N的行动）,一、动态博弈的扩展式表述,A,开发,不开发,N,N,大,小,1/2,1/2,大,小,1/2,1/2,B,B,B,B,开发,不开发,开发,不开发,开发,不开发,开发,不开发,(4,4),(8,0),(-3,-3),(1,0),(0,8),(0,0),(0,1),(0,0),表示B在行动前既观察不到A的行动，也观察不到N的行动,房地产开发博弈,N,大,小,A,A,开发,不开发,开发,不开发,1/2,B,B,B,B,开发,不开发,开发,不开发,开发,不开发,开发,不开发,(4,4),(8,0),(0,8),(0,0),(-3,-3),(1,0),(0,1)

8、,(0,0),不同的博弈树可能代表相同的博弈，但有一个基本准则一个参与人决策之前知道的事情必须出现在该参与人的决策结之前,实际上是A先行动NB（图2.5),1/2,静态博弈用扩展式表述。例囚徒困境博弈,一、动态博弈的扩展式表述,二、动态博弈中的战略,令Hi为第i个参与人的信息集的集合, Ai=hiHiA(hi)为其行动集合，其中A(hi)是在信息集hi的行动集合。参与人i的一个纯战略是从信息集集合Hi到行动集Ai的一个映射，用Si：HiAi表示，其中，对于所有的hi Hi , Si(hi) A(hi),参与人的纯战略空间Si就是所有的Si的集合，因为每一个纯战略都是从信息集到行动集的一个映射

9、， Si可以表示为每一个信息集hi上的行动空间A(hi)的笛卡尔积： Si=hiHiA(hi),二、动态博弈中的战略,战略是一个完备的行动计划：在博弈开始之前就规定出每一个决策点上的选择，即使这个决策点实际上不会出现。例1：房地产开发博弈(映射关系),A,B,若A先行动，B在知道A的行动后行动，则A有一个信息集，两个可选择的行动，战略空间为:(开发，不开发）；B有两个信息集，2个可选择的行动，B有四个纯战略：开发策略：不论A开发不开发，我开发开发，开发追随策略：A开发我开发，A不开发我不开发开发，不开发；反向策略：A开发我不开发，A不开发我开发不开发，开发；不开发策略:不论A开发不开发我

10、不开发）不开发，不开发；战略空间为：开发，开发、开发，不开发、不开发，开发（不开发，不开发。,什么是参与人的战略？,三、战略式表述下的纳什均衡,A,（不开发,开发,开发）,三个纯战略NE：（开发，不开发，开发）；（开发；不开发，不开发）；（不开发，开发，开发）问题：哪一个会出现呢？,三、战略式表述下的纳什均衡,NE(不开发,开发,开发)：B威胁无论A是否开发自己都将开发，A相信了威胁，则最好选择不开发；如果A选择不开发，则B选择开发,开发是最优的。A会相信B的威胁吗？如果A选择了开发，B的最好选择不开发。B的威胁是不可置信的(not credible) ：给定A选择了“开发”，“开发”不

11、是B的最优选择。 (不开发,开发,开发)不会是该博弈合理的均衡。为什么？,三、战略式表述下的纳什均衡,纳什均衡假定每一个参与人在选择自己的最优战略时假定所有其他参与人的战略是给定的，即参与人并不考虑自己的选择对他人的影响。但是如果参与人的行动有先有后，后行动者的选择空间依赖于前行动者的选择，先行动者在选择时不可能不考虑自己的行动对后行动者的影响。NE(开发,不开发,不开发)：不开发，不开发不是B一个合理的战略,因为如果A选择了不开发，B的最优选择是开发而非不开发。NE（开发，不开发，开发）：若A选择开发，B的最优选择是开发；若A选择不开发，则B选择开发。A预测到自己的选择对B产生的影响，选择开

12、发。,四、子博弈精炼纳什均衡I,不包含不可置信的行动的战略所组成的NE被称为“精炼纳什均衡”(Perfect Nash equilibrium)；也就是说，不论过去发生了什么，构成精炼纳什均衡的战略，其所规定的行动在每一个决策点上都是最优的;首先必须是“纳什均衡”，但并非所有纳什均衡都是合理的；只有其战略不包含不可置信行动的纳什均衡才是合理的。,子博弈,。A 开发不开发 B B 开发不开发开发不开发 (-3,-3) （1,0) (0,1) (0, 0) 定义：一个扩展式博弈的子博弈G由一个决策结和所有该决策结的后续结T（x）组成，它满足下列条件：1、x是单结信息集，即h(x)=x;2、对

13、于所有的x1T(x),如果x2h( x1),那么x2 T(x),有几个子博弈？,A U D B B L R LR C C C C l r l r l r l r(4,4) (8,0) (-3,-3) (1, 0) (0,8) (0,0) (0,1) (0,0),o,0,不开发,四、子博弈精炼纳什均衡,子博弈：由原博弈中某个决策点（信息集）开始的部分构成一个子博弈。,原博弈,开发,不开发,不开发,开发,四、子博弈精炼纳什均衡,一个纳什均衡是精炼纳什均衡，当只当参与人的战略在每个子博弈中都构成纳什均衡，也就是说，组成精炼纳什均衡的战略必须在每一个子博弈中都是最优的。泽尔腾（Selten）（1965

14、）：子博弈精炼纳什均衡 (Subgame perfect Nash equilibrium, SPNE)序贯理性（sequential rationality）：不管过去发生什么，参与人在每一个决策结上最优化自己的行动。例，房地产开发博弈：（不开发，开发，开发）在子博弈上不构成NE；（开发，不开发，不开发）在子博弈不构成NE；（开发，不开发，开发）在所有子博弈上都构成NE。,四、子博弈精炼纳什均衡,例,1,U,D,L,R,2,NE（U,R）在子博弈上不构成NE；NE（D,L)在子博弈上构成NE，所以为SPNE；,四、子博弈精炼纳什均衡,逆向归纳法(backward induction

15、)求解有限博弈的精炼纳什均衡：从最后一个决策点开始，找出该子博弈的纳什均衡；然后再倒回到倒数第二个决策点，找出决策者的最优决策（假定最后一个决策者的决策是最优的；如此一直到初始决策点，所有子博弈上的最优选择就是精炼纳什均衡。又称“rollback”。逆向归纳法只适用于完美信息博弈。,犯人,犯我,不犯我,犯人,不犯人,不犯人,美国,我国,我国,(1,1),(3,-5),(2,-4),(-2,-2),例1：逆向归纳法找中美军事博弈的SPNE,均衡为（不犯我，犯人，不犯人）,例2：,1,2,1,（2，0）,（5，0）,（4，2）,（1，1）,U,D,R,L,U,D,均衡为（U,U；L）,均衡结果为1

16、选择U。,四、子博弈精炼纳什均衡,特定的纳什均衡下所经过的决策点和最优选择构成的路径，称为均衡路径（equilibrium path);其他的路径是非均衡路径（off-equilibrium path);SPNE与NE的实际区别：SPNE要求在每个子博弈上构成纳什均衡=构成SPNE的战略不仅在均衡路径的决策结上最优，而且在非均衡路径的决策结上也是最优的,轮流出价的讨价还价模型,两人分一块蛋糕,参与人1先出价,参与人2可以接受或拒绝.如果参与人2接受,博弈结束;如果参与人2拒绝,参与人2出价,参与人1此时必须接受.问此博弈的精炼的纳什均衡?用x表示参与人1的份额, (1-x)表示参与人2的份额,

17、假定参与人1与参与人2的贴现因子分别为1,2,乙,均衡路径：（2，2，1）（2，1，2）,甲必胜，因为他始终在开局拿走2根火柴，剩下3根，不管乙拿1或2根，甲都可获得最后的2根或1根火柴从而获胜。但是，如果假设初始的火柴根数为30根或100根等等，那么结果如何？仍然用逆向归纳法。假设参与人面临最后的1或2根，则必胜；但若面临最后的3根，则必输；当参与人面临的是4根或5根，则他可以拿走1根或2根，使对手面临3根的局面，则必胜；如果参与人面临的是6根火柴，则无论拿1根还是2根都不能使对手面临3根火柴的局面，而对手反而可以使他面临3根火柴的局面，则对手必胜；若参与人面临7根或8根火柴，则他可使对手

18、面临6根火柴而对手必输；若处于9根，则将被对手逼迫到6根火柴的位置而自己必输,例，最后通牒博弈张三拾到100块，被李四见到。见者有份，于是2人决定如何分这笔钱。极端地假设他们的谈判只进行一个回合，即由张三提出一个分配比例（最小计算单位为元），然后李四表示接受不接受，如果接受就按照提议分，如果不接受则将钱交到警察局，谁都得不到。张三如何提议？,最后通牒博弈实验结果：现实生活中提议者给回应者1元钱的话，常常会遭到回应者拒绝；不少被接受的分配方案是分给回应者30-50元，20元以下的分配被拒绝的频率很高。人除了自利偏好还存在公平偏好( Fairness Preferences) ，即在追求个人

19、收益时还会关注收益分配或行为动机是否公平。“我的收益多过对方太多，我可能会不舒服”收益公平 “知恩图报，以牙还牙”：当别人对你友善时你也对别人友善，当别人对你不善时你也对别人不善，甚至牺牲自己利益去报复动机公平公平偏好会影响人们的行为决策。,分析动态博弈的思路：向前展望，向后推理，即面向未来，思考现在，站在未来的立场思考现在的行动方案。网络诗歌我站在未来的山坡上回头看过去和现在如同不再有悬念的平静湖面所有发生的一切都是如此清晰和必然,练习：,右,下,上,前,后,左,五、序贯理性与理性操纵I,甲,乙,甲,(2,0),(1,1),(100,0),(0,100),操纵理性的博弈,均衡结果为：甲选择

20、下结束博弈,五、序贯理性与理性操纵,现实中该均衡很可能不会出现。为什么？甲可能会想，如果我选择“上”，即使乙选择了“左”，则我也可以得到1个单位支付；但是，如果乙认为我是傻子，则乙可能会冒险选择一次“右”而如果我选择前，我就可以获得100个单位的支付。甲真的选择了“上” 如果乙认为甲真的是傻子，那么乙可能冒险选择“右”。甲选择“前”。理性操纵：利用对方的理性不足而引诱对方上钩，获取利益。如，三国中黄盖诈降,六、不可置信威胁I,不可置信的威胁（空头威胁,empty threat)精炼纳什均衡剔除了不可置信的威胁，使得我们可以更合理地对博弈中参与人行为的预测；为什么存在不可置信威胁？例1

21、，司马相如与卓文君的恋爱故事,威胁所采取的策略会损害威胁者自己利益因而根本不会实施（根源是事前最优与事后最优不同）；,六、不可置信威胁,其他例子管教孩子 MBA复试录取,例2，市场进入博弈,七、承诺,如何将不可置信的威胁变成可置信的威胁？承诺（招聘，勤奋）例，市场进入博弈中的承诺行动在位者事前扩大生产能力，维护费用30万，但打击进入者的成本降低了，扣除维护费用后也可获得30万，如果进入者进入而在位者默认，则在位者利润为50-30=20万,七、承诺,承诺行动：使威胁或承诺可信的行动，采取承诺行动过后，实施威胁或承诺符合威胁者或承诺者的利益扩大生产能力虽然产生30万维护费用，但这样做仍然是值得

22、的；这一模型解释了现实中大部分垄断企业有闲置生产能力(中国国情学生学习托福）其他承诺方式：召开新闻发布会公开宣称自己打击意图，有声望的企业言出必行。,七、承诺,其他承诺行动的例子：项羽破釜沉舟对秦军最惠条款：生产耐用品的企业经常被“降价预期”所困扰：如果消费者预期企业将降价，他们将会等待，结果，企业只能降价。如汽车行业面临的问题；最惠条款可以起到承诺的作用：企业不会降价了。(100,80.40.20),合同写入“差价赔付”,记者向该楼盘售楼处进行了了解，一位销售员表示“现在这批房子均价2万/平，一共只有100套，面积有145、168、180平三种，上午就卖了20多套了”。值得一提的是，这批

23、房源还有一个“最低价保证”，“我们还承诺，在交房前3个月，如果房价低于现在这批房子的价格，那么我们会按照差价金额补偿给你，这是写入购房合同的”，这也是此番宏观调控下首个承诺差价赔付的项目。某房产调查显示，该楼盘为今年9月25日开盘的新项目，当时报价为低区26500元/平，高区28000元/平，购房享5万抵20万的优惠。10月中旬左右，该案也曾推出10套特价房，在减15万的基础上再打95折。但网上房地产最新数据显示，其9月份推出的340套房源，仅有10套完成签约销售。,九、子博弈精炼纳什均衡应用举例,Stackelberg(1934)寡头竞争模型企业1为领头企业，首先选择自己的产量；企业2为

24、跟随者，根据企业1的产量选择自己的产量。,设市场需求函数为,企业i的利润为,逆向归纳法求解SPNE结果。第二阶段企业2的问题为,一阶条件，也就是反应函数为,九、子博弈精炼纳什均衡应用举例,企业1会预测到企业2的反应，因此第一阶段的问题为,代入企业2的反应函数得,一阶条件为,代入反应函数，即得企业2的最优产量为,九、子博弈精炼纳什均衡应用举例,比较stackelberg模型和counot模型结果：均衡总产量：企业1均衡产量：企业2均衡产量：,为什么？,企业1存在先动优势（first-mover advantage）,九、子博弈精炼纳什均衡应用举例,宏观经济政策的动态一致性（dynamic

25、consistency） 2004年诺贝尔经济学奖（Kydland & Prescott, 1977）背景1970年代以前，经济学领域基本上是凯恩斯主义思想统治着经济政策的研究。经济学家通常把宏观经济波动主要归因于需求方的变动，经济学家对宏观经济政策的分析也通常集中在解释和说明应该执行什么样的货币和财政政策来抵消需求的波动，这个时候还几乎没有人致力于解释实际经济政策的运作。,从1970年代开始，该分析方法的缺陷日益显现，基于当时的经济理论所制定的经济稳定政策根本无法实现预定的目标。所以，在很长一段时间里，西方世界的经济都处于一种滞胀状态失业和通货膨胀并存，而盛行的理论却无法对此作出有说服力的

26、解释。与此同时，宏观经济波动并非仅仅缘于需求波动的特征也表现得十分明显，供应方面的波动（比如石油价格上涨、劳动生产率增长下降等）在经济周期中的作用变得越来越突出。正是在这样一种背景下， Kydland & Prescott对宏观经济及政策的观察、解释和分析运用新的方法，提供了一个独特的视角。,九、子博弈精炼纳什均衡应用举例,九、子博弈精炼纳什均衡应用举例,Dynamic Consistency or time consistency动态不一致：政策在制定时是最优的，但是在执行时不再是最优的，因而制定政策的政府不会实施政策。模型：Kyland and Prescott的货币政策模型参与人：政府

27、与私人部门行动顺序：私人部门选择预期的通货膨胀率，政府根据私人部门的预期通胀率选择实际的通胀率政府关心通货膨胀和失业率，设其效用函数为,其中，为通货膨胀率，为实际产量，为自然失业率下的产量，和为系数，容忍某种程度的通货膨胀。,九、子博弈精炼纳什均衡应用举例,设含有通货膨胀的菲力普斯曲线(expectational Phillips curve)，又称意外产出函数(surprise production function)，为,其中，为私人部门预期的通货膨胀率。,政府选择最优的通货膨胀率，即,表示产出对于未预期到的通胀率的敏感程度,九、子博弈精炼纳什均衡应用举例,设有理性预期，即,那

28、么,政府的效用为,如果承诺实行零通胀率，政府的效用为,则有，均衡通货膨胀率为,但是政府不会真的保证零通货膨胀率，因为一旦私人部门相信零通货膨胀，政府的最优通货膨胀率和效用分别为,越大，扭曲程度越大，均衡通常率越高,九、子博弈精炼纳什均衡应用举例,政府根本没有积极性兑现自己的承诺，而会正的通胀率；进一步，私人部门具有理性预期，能够正确预测政府行为，政府无法获得的效用水平。零通胀率非SPNE结果，或者说是一个动态不一致的政策。,十、讨价还价（Bargaining）博弈,讨价还价问题的普遍性几乎所有的交易都涉及讨价还价：买卖双方之间雇员与雇主之间合伙人之间夫妻之间政治领域之间中央政府与地方政府国

29、家之间,十、讨价还价（Bargaining）博弈,所有的讨价还价问题的共同之处：首先，参加谈判各方通过达成协议所能够产生和得到的总收益应该比他们独立行动所能得到的个人收益之和要大。达成某种协议是当事人的共同利益，但他们之间在究竟达成哪一个协议的问题上存在利益冲突；协议的多重性可能阻止任何协议的出现。例，假定2个人分1美元。要求每个人同时报出其想要的数量。如果他们所报数量x和y加起来等于或小于1，每个人得到其所报的量。否则一无所获。NE 为？典型的“合作与竞争”问题；,十、讨价还价（Bargaining）博弈,这不是一个零和博弈。表面看起来是一个零和博弈：当剩余存在时，谈判就是为了瓜分它。每

30、个讨价还价者都试图让自己多得，而留给别人更少。但在这背后隐藏着一个危险，如果协议未能达成，没有人可以得到任何一点剩余。这一不利于双方的结果，以及双方都要避免之的愿望，为威胁（明显的或隐含的）创造了可能，这就使得讨价还价成为一个策略问题。,十、讨价还价（Bargaining）博弈,分析讨价还价问题的两种思路：合作博弈思路（cooperative game approach)：参与人联合作出决定，协议对双方具有约束力；强调集体理性非合作博弈思路(non-cooperative approach)：每个参与人独立决策，协议是一个纳什均衡，没有约束力；强调的是个人理性；注意：这里“合作”与“非合作”

31、指的是“联合决策”(joint action)和“独立决策”(separate action)。,十、讨价还价（Bargaining）博弈,纳什合作解各方共同寻找和实施一个解决方案，可能找一个中立的第三方来作为执行的仲裁者。,考虑一个画家与拍卖商之间的讨价还价问题：如果画家自己出售画，可得1000元；如果拍卖商干其他事情（如拍卖别人的画），收入是500元；如果画家委托拍卖商出售画，画的价格是3000元。他们之间如何分配这3000元？请同学们给出建议。,十、讨价还价（Bargaining）博弈,问题的一般化：设想两个人，A和B，之间要就总价值等于V的分配问题讨价还价；如果他们之间能达成协议，V

32、按照协议规定分配；如果不能达成协议，A得到a，B得到b。(a,b)被称“威胁点”或非合作状态（status quo)，是不能达成协议的最好选择。a+bV; S=V-a-b是合作带来的剩余(surplus),讨价还价（Bargaining）博弈,分配规则：我们用x表示A得到的价值，y表示B得到的价值，假定A和B分别从剩余价值S中达到h和k的份额，那么： x=a+h（V-a-b）; x-a=h（V-a-b） y=b+k（V-a-b）；y-b=k（V-a-b）,十、讨价还价（Bargaining）博弈,纳什讨价还价解图示,威胁点,十、讨价还价（Bargaining）博弈,纳什证明：如果满足以下原则：

33、（1）帕累托有效性Pareto efficiency;（2）效用测度的无关性 Invariance of linear transformation;（3）无关选择的独立性 independence of irrelevant alternatives 那么，讨价还价的唯一结果是最大化如下纳什福利函数的解：,十、讨价还价（Bargaining）博弈,P,a,b,Q,(x-a)h(y-b)k=c2,(x-a)h(y-b)k=c2,(x-a)h(y-b)k=c1,V,V,十、讨价还价（Bargaining）博弈,纳什福利函数的解释（a，b）对最后的分配具有决定性的意义，可以理解为“谈判砝码”(ba

34、rgaining power)；h和k：是剩余价值的分配比例，又可以理解为谈判力（bargaining strength),可能与个人的耐心有关，或与个人的边际贡献（可替代性）有关；纳什：如果两个人是对称的（即可分配价值以过（a，b）点的45度线对称），h=k=1/2,十、讨价还价（Bargaining）博弈,非合作博弈思路：谈判实际上是一个讨价还价的过程，一个动态博弈；用非合作博弈的方法更合理；,十、讨价还价（Bargaining）博弈,最常见的讨价还价方式：序贯讨价还价基本特征：两人，A和B，分一块钱；A先出价，B决定接受还是拒绝；如果接受，按照A提出的方案分配，谈判结束；如果B拒绝，B提

35、出方案，A决定接受还是拒绝；如果接受，按B的方案分配，谈判结束；如果不接受，再由A提出方案；如此等等。,十、讨价还价（Bargaining）博弈,决定结果的关键因素：谁先出价？谈判有无最后时限？谁最有耐心（时间偏好）？谈判的固定成本多大？,十、讨价还价（Bargaining）博弈,我们先考虑没有固定谈判成本的情况。假定：x：A得到的份额；y：B得到的份额；x+y=1s：A的贴现率；a=1/（1+s）：A的贴现因子；r：B的贴现率；b=1/（1+r）：B的贴现因子；贴现因子：反映参与人的耐心程度。每个人的耐心不同，对将来货币的主观贴现率是不同的,十、讨价还价（Bargaining）博弈,有限期谈

36、判的情况如果只有一次谈判：逆向归纳意味着SPNE结果是： x=1，y=0；如果允许谈判两次：SPNE结果是：x=1-b，y=b；如果谈判三次，SPNE结果是： x=1-b(1-a), y=b(1-a);如果谈判四次，SPNE结果是： x=1-b(1-a(1-b), y=b(1-a(1-b)如果谈判五次，SPNE结果是： x=1-b(1-a(1-b(1-a), y=b(1-a(1-b(1-a)可以推导出任何给定的T情况下的SPNE结果,十、讨价还价（Bargaining）博弈,SPNE结果与a、b及博弈期限T关系：如果a=b=0,无论T, SPNE结果为x=1（先出价者得全部）；如果b=0(无论

37、a大小),则SPNE结果为x=1；如果a=0(无论b大小),则SPNE结果为x=1-b 一个人对未来越没有耐心，得到的越少 SPNE结果与博弈期限T的关系（不妨考虑a=b=1）：如果T=1,3,5,均衡结果为x=1(先动后动为一个人)；如果T=2,4,6,均衡结果为x=0（后动优势）（给定其贴现因子为1 ，后出价者会拒绝任何自己不能得到整个利润的出价，一直等到博弈最后阶段得到全部）,十、讨价还价（Bargaining）博弈,有限期讨价还价博弈一般结论：如果两人贴现因子都较高，也就是对未来有足够的耐心，谈判有“后动优势”(last-mover advantage)（在奇数次谈判，先动和后动是一

38、个人）。无论如何，一个人对未来越没有耐心，得到的越少,十、讨价还价（Bargaining）博弈,无限期谈判（Rubinstein，1982)不能用逆向归纳法求解，但可以使用类似的思路得到均衡解（x，y） Shaked and sutton(1984)：博弈是无限期的，因此从参与人A第二次报价(也就是博弈的第3阶段)开始的子博弈(记为)与原博弈(记为I)是相同的。所以，均衡时参与人A在博弈I和博弈中所得份额应该是相同的。假定第三阶段时，A出价，得到x；在第二阶段时，B出价，给A为ax就可以了,B得到y=1-ax；在第一阶段时，A出价，给B为b(1-ax)就可以了，自己得到x=1-b(1-ax),

39、十、讨价还价（Bargaining）博弈,因为从第三阶段开始的博弈与从第一阶段开始的博弈完全相同，参与人A在第一阶段能得到的最大份额一定等于其在第三阶段得到的最大份额相同，因此,即在均衡状态下参与人A（先行者）的份额为,参与人B（后行者）的份额为,十、讨价还价（Bargaining）博弈,贴现因子的含义及其对均衡结果的影响,二人的均衡份额为 (先行者), (后行者),贴现因子表示耐心程度，其值越大说明越有耐心耐心优势：越有耐心，得到的利益越大先动优势：当双方具有相同耐心程度a=b时，先行者获得份额大于二分之一；特别地，具有无限耐心（即给定b，）的先行者可以获得全部利益，而具有无限耐心的后行者

40、不能获得全部利益,十、讨价还价（Bargaining）博弈,谈判的另一类成本是固定成本，如劳资谈判拖延的话，企业可能要为客户支付违约金。这类似于冰淇淋随时间而变小。,十、讨价还价（Bargaining）博弈,举例设想100g冰淇淋,每次融化25g，到第5期时，冰淇淋已化完，第4期等于25g, 第3期是50g, 第2期是75g, 第1期是100g。第4期：B出价，将把整个冰淇淋(25g)留给自己; 第3期：A出价，A必须分给B 25g的冰淇淋，此时冰淇淋为50g，所以分1/2给B,自己得1/2(25g)；第2期：B出价，B只需给A 25g （此时冰淇淋75g)，自己得到2/3冰淇淋（50g)；第

41、1期：A出价，分给B 50g，自己得到一半（50g)。PNE: 每人1/2。,十一、重复博弈,重复博弈（Repeated Game）同样结构的博弈重复多次，就是重复博弈。其中，每次博弈称为阶段博弈（stage game）重复无限次，为无限次重复博弈；反之，为有限次重复博弈重复博弈的基本特征：各阶段博弈相互独立，前阶段博弈不会改变后阶段博弈的结构所有参与人都能看到博弈历史参与人的支付等于各阶段支付的贴现值之和,十一、重复博弈,如果博弈不是一次的，而是重复进行的，参与人过去行动的历史是可以观察到的，参与人就可以将自己的选择依赖于其他人之前的行动，因而有了更多的战略可以选择，均衡结果可能与一次博

42、弈大不相同。,坦白,抵赖,坦白,抵赖,十一、重复博弈,假定上属博弈重复多次或无限次；那么，每个参与人有多个可选择的战略。仅举几例：All-D：不论过去什么发生，总是选择不合作；All-C：不论过去什么发生，总是选择合作；合作-不合作交替进行；tit-for-tat：从合作开始，之后每次选择对方前一阶段的行动；trigger strategies：从合作开始，一直到有一方不合作，然后永远选择不合作。,十一、重复博弈,重复博弈理论的最大贡献是对人们之间的合作行为提供了理性解释；在囚徒困境中，一次博弈的唯一均衡是不合作（即坦白）。但如果博弈无限重复，合作就可能出现。,十一、重复博弈,有限次重复博弈

43、例1，囚徒困境博弈重复N次博弈的第N个阶段：双方都会坦白逆向推理，在每一阶段博弈：双方都会坦白结论：无论博弈重复多少次，只要重复次数是有限次的，双方在每一阶段都会坦白,十一、重复博弈,例2，市场进入博弈唯一的SPNE为进入者进入，在位者默许假定在位者有N个连锁店博弈重复N次有限次重复博弈中，斗争不是一个可置信战略。因为逆向归纳法得到唯一的SPNE为在位者在每个市场选择默许，进入者选择进入。,Chain Store Paradox,十一、重复博弈,定理：如果阶段博弈只有唯一的纳什均衡，那么重复N次的重复博弈唯一的子博弈纳什均衡是，阶段博弈的纳什均衡重复N次。如果阶段博弈有多个纳什均衡，那么上述

44、结论不再成立。,十一、重复博弈,博弈重复无限次存在不同于一次博弈的均衡冷酷战略(grim strategies)或触发战略(trigger strategies)开始选择抵赖；如果对方也选择抵赖，将继续选择抵赖；一旦对方选择坦白，将永远选择坦白无限次重复中不能再用逆向归纳法求解SPNE。假设双方贴现因子为,坦白,抵赖,坦白,抵赖,十一、重复博弈,给定别人选择触发战略，“我”一直选择抵赖的支付为,给定别人选择触发战略，“我”选择坦白的支付为,给定别人选择触发战略，“我”一直选择抵赖的条件是,当合作作为均衡结果出现,对的解释：耐心程度；博弈继续的概率；一般化：未来收益的重要程度,十一、重复博弈

45、,古诺竞争博弈的无限次重复单阶段垄断产量，垄断利润单阶段古诺产量，古诺利润冷酷战略首先选择垄断产量，继续选择垄断产量直到对方偏离垄断产量，然后永远选择古诺产量。子博弈精炼纳什均衡：当贴现因子大于9/17时，双方选择垄断产量成为是一个SPNE结果（非唯一的）,十一、重复博弈,无限次重复博弈中SPNE的多重性无限次重复囚徒困境博弈中，双方选择(坦白，坦白)为一个SPNE）无限重复古诺竞争博弈的全部冷酷战略精炼均衡：各阶段都选择的任何产量q*，都是一个SPNE（冷酷战略：首先选择q* ，继续选择q*直到对方偏离q* ，然后永远选择古诺产量）。,十一、重复博弈,无名氏定理（Friedman1971)：在无限次重复博弈中，当贴现因子足够大时，任何帕累托优于单阶段博弈纳什均衡的收益组合(支付向量)都可以实现，即都能够成为子博弈精炼纳什均衡结果。含义：在无限次重复博弈中，如果参与人对未来足够重视（足够大），那么，任何程度的合作都可以通过一个特定的子博弈精炼纳什均衡得到。,十一、重复博弈,囚徒困境博弈的可行支付集合,坦白,抵赖,坦白,抵赖,纳什威胁点,十一、重复博弈,例2：无限重复古诺竞争博弈的可行支付集合,