书签分享收藏举报版权申诉 / 179

立即下载加入VIP免费专享

当前位置：首页 > 生活休闲 > 在线阅读 > exfd经济博弈论3—完全且完美信息动态博弈ppt课件.ppt

exfd经济博弈论3—完全且完美信息动态博弈ppt课件.ppt

上传人：牧羊曲112

文档编号：1966902

上传时间：2022-12-28

格式：PPT

页数：179

大小：882KB

《exfd经济博弈论3—完全且完美信息动态博弈ppt课件.ppt》由会员分享，可在线阅读，更多相关《exfd经济博弈论3—完全且完美信息动态博弈ppt课件.ppt（179页珍藏版）》请在三一办公上搜索。

1、第三章完全且完美信息动态博弈,本章讨论动态博弈(Dynamic Games)，所有博弈方都对博弈过程和得益完全了解的完全且完美信息动态博弈。这类博弈也是现实中常见的基本博弈类型。由于动态博弈中博弈方的选择、行为有先后次序，因此在表示方法、利益关系、分析方法和均衡概念等方面，都与静态博弈有很大区别。本章对动态博弈的概念和分析方法，特别是子博弈完美均衡和逆推归纳法作系统介绍，并介绍各种经典的动态博弈模型。,本章分六节,3.1动态博弈的表示法和特点3.2可信性和纳什均衡的问题3.3子博弈和子博弈完美纳什均衡3.4几个经典动态博弈模型3.5有同时选择的动态博弈模型3.6动态博弈分析的问题和扩展讨论,

2、3.1 动态博弈的表示法和特点,3.1.1 阶段和扩展形表示3.1.2 动态博弈的基本特点,3.1.1 阶段和扩展形表示,动态博弈各个博弈方的选择行为有先后次序，每个博弈方的选择行为会形成依次相连的时间阶段，因此动态博弈中一个博弈方的一次选择行为常称为一个“阶段”(Stage)。动态博弈中也可能存在几个博弈方同时选择的情况，此时博弈方的同时选择构成一个阶段。有些动态博弈的阶段很多，或者博弈方在一个阶段有许多可以选择的行为，此时扩展形表示动态博弈会很困难，或者根本不可能。无法用扩展形表示的动态博弈，通常可以直接用文字描述和数学函数式表示。,例子：仿冒和反仿冒博弈,设有一家企业的产品被另一家企业仿

3、冒，如果被仿冒企业采取措施制止，仿冒企业就会停止仿冒；如果被仿冒企业不采取措施制止，那么仿冒企业就会继续仿冒。这两个企业在仿冒和制止仿冒的问题上，存在着一个行为和利益相互依存的博弈问题。假设仿冒最多进行2次，每种情况下得益情况如图所示。,3.1.2 动态博弈的基本特点,一、动态博弈的策略和结果在动态博弈中，各个博弈方的选择和行为不仅有先后之分，而且一个博弈方的选择很可能有几次甚至多次，并且在不同阶段的多次行为之间有内在联系，是不可分割的整体。动态博弈博弈方决策的内容，也是决定博弈结果的关键，不是博弈方在单个阶段的行为，而是各博弈方在整个博弈中轮到选择的每个阶段，针对前面阶段的各种情况作相应选

4、择和行为的完整计划，以及由不同博弈方的这种计划构成的组合。这种计划就是动态博弈中博弈方的“策略”。,动态博弈的结果首先是指各博弈方上述类型的策略构成的策略组合。其次，动态博弈的结果是各博弈方的策略组合形成的一条联结各个阶段的“路径”。最后，实施上述策略组合的最终结果，就是上述路径终端处得益数组中的数字。所以，在一个动态博弈中，博弈的结果包括双方（或多方）采用的策略组合，实现的博弈路径和各博弈方的得益。,二、动态博弈的非对称性动态博弈的非对称性先后次序决定动态博弈必然是非对称的。由于后行为的博弈方有更多的信息帮助自己选择行为，可减少决策的盲目性，针对性地作选择，因此处于较有利的地位。对单人博弈，

5、信息越多越有利；而对两人以上的博弈问题来说，信息较多的博弈方并不一定能得到更大的利益。先选择、行为的博弈方常常更有利，有“先行优势”。,3.2 可信性和纳什均衡的问题,3.2.1 相机选择和策略中的可信性问题3.2.2 纳什均衡的问题3.2.3 逆推归纳法,3.2.1 相机选择和策略中的可信性问题,动态博弈仍然是具有策略和利益相互依存性的决策问题。静态博弈分析中针对具有策略和利益相互依存特性决策问题的核心分析方法纳什均衡分析，在动态博弈分析中适用吗？纳什均衡分析在动态博弈中的失效，与动态博弈各博弈方策略中选择行为的“可信性”问题紧密相关。,3.2.1 相机选择和策略中的可信性问题,在实施中，只

6、要符合自己的利益就可以在博弈过程中改变计划。这种问题称为“相机选择”（Contingent play） “相机选择”的存在，使得博弈方在各个阶段、各种情况下会采取行为的“可信性”产生怀疑？,动态博弈中博弈方的策略是他们自己预先设定的，在各个博弈阶段针对各种情况的相应行为选择的计划。这些策略实际上并没有强制力，而且实施起来有一个过程，因此只要符合博弈方自己的利益，他们完全可以在博弈过程中改变计划。我们称这种问题为动态博弈中的“相机选择（Contingent Play）”。相机选择的存在使得博弈方的策略中，所设定的各个阶段、各种情况下会采取行为的“可信性（Credibility）”有了疑问。,不同

7、版本的开金矿博弈分钱和打官司的可信性,基本问题：甲在开采一价值4万元的金矿时缺1万元资金，而乙正好有1万元资金可以投资。设甲想说服乙将这1万元资金借给自己用于开矿，并许诺在采到金子后与乙对半分成，乙是否该将钱借给甲呢？假设金矿的价值是经过权威部门探测确认的，没必要怀疑，则乙最需要关心的就是甲采到金子后是否会履行诺言跟自己平分。,2022/12/28,14,(0,0),3.2.1.1 动态博弈中的扩展式描述I,博弈树game tree,犯人,犯我,不犯我,犯人,不犯人,不犯人,美国,我国,我国,(2,-5),(1,-4),(-2,-3),2022/12/28,15,3.2.1.1 动态博弈中的扩

8、展式描述II,博弈树game tree新产品开发博弈中美战略博弈,开发,开发,不开发,开发,不开发,不开发,A企业,B企业,B企业,(0,0),(0,1),(1,0),(-3,-3),最上方的圆圈表示乙的选择信息集或称选择节点（node）。如果乙选择“不借”则博弈结束，他能保住1万元本钱而甲得不到开矿的利润；如乙选择“借”则到达甲的选择信息集，轮到甲进行选择。三个终端黑点处的数组，表示由各博弈方各阶段行为依次构成的，到达这些终端的“路径”所实现的各博弈方得益。乙决策的关键是要判断甲的许诺是否可信。,一、开金矿博弈I的扩展形,模型描述：甲开采一价值4亿元的金矿时缺1亿元资金,乙有1亿元可投资资金

9、。甲希望乙能投资自己1亿元资金用于开矿，并许诺在采到金子后与乙对半分成问题：乙是否该将钱投资给甲呢？,一般假设博弈方都是以自身利益（得益）最大化为目标的，即他们不考虑道德因素。在这样的原则下，甲轮到行为时的选择必然是“不分”。乙当然清楚甲的行为准则，因此他最终合理的选择是“不借”。对乙来说，本博弈中甲有一个不可信的许诺。有不可信的许诺，使得甲、乙的合作最终成为不可能，这样开金矿的3万元社会净利益无法实现。有什么办法能使甲的许诺变成可信的，从而使乙愿意选择“借”，然后甲遵守诺言选择“分”，最终增加双方的利益呢？,二、有法律保障的开金矿博弈II的扩展形,确实可信的威胁通过法律武器确实可信的威胁（c

10、redible threat）是指，博弈的参与人通过某种行动改变自己的支付函数，从而使得自己的威胁显得可信。参与人为改变博弈结果而采取的措施称为承诺（commitment）,如果乙在甲违约时可以用法律武器，即“打官司”保护自己的利益，则双方的选择，以及相关的对对方选择的判断，都会发生变化，进而得到不同的博弈结果。假设打官司的结果是乙能收回本钱1万元，而甲则会失去全部采金收入。,乙打官司的得益比不打官司的得益大，因此即使不考虑惩罚见利忘义的甲的心理快慰，乙的唯一选择也是打官司。甲完全清楚乙的思路，知道乙打官司的威胁是可信的，因此甲符合个体理性的选择是分钱。此时，甲“分”的许诺成了可信的诺言。,在

11、乙的利益受到法律保障的情况下，甲的分钱许诺变成可信的许诺。这样，乙第一阶段选择“借”就成了合理的选择。最终结果是乙在第一阶段选择“借”，甲在第二阶段选择“分”，从而博弈结束。此时乙的完整策略是“第一阶段选择借，若第二阶段甲选择不分，第三阶段选择打官司”，甲的完整策略就是“第二阶段选择分钱”。这就是这个三阶段动态博弈的解。,乙的完整策略：第一阶段选择“投资”，若第二阶段甲选择“不分”，第三阶段选择“打”甲的完整策略：第二阶段选择“分”。动态博弈的解。,结论：在一个由都有私心、都更重视自身利益的成员组成的社会中，完善公正的法律制度不但能保障社会的公平，而且还能提高社会经济活动的效率，是实现最有效率

12、的社会分工合作的重要保障。但是要充分保障社会公平和经济活动的效率，法律制度必须要满足两方面的要求：一是对人们正当权益的保护力度足够大；二是对侵害他人利益者有足够的威慑作用。否则，法律制度的作用就是很有限的甚至完全无效。,如果第三阶段乙选择打官司，并不能收回自己的本钱，而且要进一步承受1万元的损失。此时乙在第三阶段打官司是一种不可信的空头威胁（Incredible Empty Threats）。甲非常清楚乙的这种思路，他知道乙第三阶段打官司的威胁并不是可信的，这样他在第二阶段分钱的许诺自然也就不可信了。乙非常清楚在第一阶段选择不借才是保险的。,三、法律保障不足的开金矿博弈III的扩展形,不可信的

13、空头威胁乙在第三个阶段“打官司”的威胁是一种不可信的空头威胁 (incredible empty threats),结论：在动态博弈问题中，各个博弈方的选择和博弈的结果，与各个博弈方在各个博弈阶段选择各种行为的可信程度有很大关系。有时候虽然有些博弈方很想或会声称要采取特定的行为，以影响和制约对方的行为，但如果这些行为缺乏以经济利益为基础的可信性，那么这些想法或声明最终就不会有真正的效力。,3.2.2 纳什均衡的问题,由乙的策略“第一阶段借，当甲第二阶段选择不分时，第三阶段选择打”，甲的策略“第二阶段无条件分”，构成的策略组合是一个纳什均衡。因为给定对方的策略，双方的策略都是符合自己最大利益的最

14、佳策略，单独偏离对自己都是不利的。在双方的策略下，乙第三阶段的“打”并不需要真正实施，但因为它是保证第二阶段甲会选择“分”的关键，因此乙的策略中必须包含这个选择，即使单独改变这个选择不会影响利益（给定甲没有想到也改变策略），乙也不能随便改变该选择。,3.2.2 纳什均衡的问题,博弈中（不投资-不打，不分）和（投资-打，分）都是纳什均衡。但后者不可信，不可能实现或稳定。为什么会出现这种情况呢？,其实，该博弈中（不借-不打，不分）和（借-打，分）都是纳什均衡。但后者不可信，不可能实现或稳定。上述纳什均衡不稳定的原因，主要在于如果甲在第二阶段选择了“不分”而不是“分”，乙策略中设定的第三阶段“打”

15、是不可信的，不可能真正实施，理由是该行为对乙自身也是不利的，追求自身利益最大化的乙的理性不允许他这么做。甲只要稍作分析就可以掌握乙的这个弱点，因此不可能理睬乙策略中的“打”官司威胁，在第二阶段不会选择“分”。反过来，乙也不会愚蠢到想靠一个明显不可信的威胁撑腰，冒险将资金借给甲，因此他在第一阶段也不可能“借”。,结论：纳什均衡在动态博弈可能缺乏稳定性，也就是说，在完全信息静态博弈中稳定的纳什均衡，在动态博弈中可能是不稳定的，不能作为预测的基础。,Cont.,根源：纳什均衡本身不能排除博弈方策略中包含的不可信的行为设定，不能解决动态博弈的相机选择引起的可信性问题,结论：纳什均衡在动态博弈可能缺乏稳

16、定性，也就是说，在完全信息静态博弈中稳定的纳什均衡，在动态博弈中可能是不稳定的，不能作为预测的基础。根源：纳什均衡本身不能排除博弈方策略中包含的不可信的行为设定，不能解决动态博弈的相机选择引起的可信性问题。解决途径：动态博弈的有效分析概念，除了要符合纳什均衡的基本要求以外，还必须满足另一个关键的要求，即它必须能够排除博弈方策略中不可信的行为设定，也就是各种不可信的威胁和承诺。,2022/12/28,34,3.2.2.eg 空头威胁I,故事模型历史故事青年作家司马相如与寡妇卓文君相恋，遭到父亲反对。于是，私奔，后得到认可。博弈模型空头威胁Empty Threats会损害威胁者自己利益因而根本不会

17、实施的威胁，常见的例子有子女教育、夫妻关系、研究生复试等。,默认,结婚,断绝父女关系,文君,父亲,(-1,1),(0,-2),(1,-1),2022/12/28,35,3.2.2.eg 空头威胁II,市场进入博弈模型描述均衡结果(进入，默认)在位者打击进入者的威胁是空头的，不可置信的。,打击,不进入,进入,默认,进入者,在位者,(0,100),(50,50),(-10,30),2022/12/28,36,3.2.2.eg 空头承诺I,爱的承诺笑话故事有一位小伙子给心爱的姑娘写了一份情书：亲爱的，我爱你爱得如此之深，以至愿意为你赴汤蹈火，上刀山、下火海在所不惜。我非常想见到你，任凭艰难险阻也挡不

18、住我的脚步。本周六如果不下雨，我就来接你。5.12汶川大地震中的感人故事“先救他”“我会做你的左手”一对分不开的夫妻，最终合葬我们都应该记住，太动听的承诺是往往空头的。但是，我们也应该相信真爱。回顾在前述产品开发博弈中，均衡结果(不开发，(开发，开发)就是企业A的空头承诺，是不可置信的。,2022/12/28,37,3.2.2.eg 空头承诺II,回顾在前述产品开发博弈中，均衡结果(不开发，(开发，开发)就是企业A的空头承诺，是不可置信的。生活中的空头承诺学生对老师的承诺老师，这回让我过吧，以后我会好好学习的老师，先发表一篇达到毕业要求，以后一定会写核心期刊的山盟海誓爱你一万年海枯石烂包过包会

19、不过退款不会再学,2022/12/28,38,3.2.2.egm 空头威胁I,故事模型历史故事青年作家司马相如与寡妇卓文君相恋，遭到父亲反对。于是，私奔，后得到认可。博弈模型空头威胁Empty Threats会损害威胁者自己利益因而根本不会实施的威胁，常见的例子有子女教育、夫妻关系、研究生复试等。,默认,结婚,断绝父女关系,文君,父亲,(-1,1),(0,-2),(1,-1),39,2.2.2.egm 空头威胁II,市场进入博弈模型描述均衡结果(进入，默认)在位者打击进入者的威胁是空头的，不可置信的。,打击,不进入,进入,默认,进入者,在位者,(0,100),(50,50),(-10,30),

20、2022/12/28,40,3.2.2.egmp 承诺行动I,承诺行动Committed Actions使威胁或承诺可信的行动，采取承诺行动过后，实施威胁或承诺符合威胁者或承诺者的利益。在位者的承诺行动在潜在者进入之前，扩大生产能力这解释了现实中大部分垄断企业有闲置生产能力注意：是实实在在的扩大投资，而不是说说而已行胜于言！,扩大生产能力,打击,不进入,进入,默认,进入者,在位者,(0,100,70),(50,50,20),(-10,30,25),在位者,2022/12/28,41,3.2.2.emp承诺行动II,历史和生活中的承诺行动人质与通婚秦王赢政就是人质四大美女之一的王昭君就是政治通婚

21、康熙之女蓝齐儿更是政治牺牲品截断后路项羽破釜沉舟对秦军三国姜维对王经南宋韩世忠对李复恋爱婚姻中的承诺行动为什么要戴戒指？为什么要见双方朋友和双方父母？为什么有厚重的彩礼和隆重的婚礼？,2022/12/28,42,3.2.2.emp 承诺行动III,商业中的承诺行动订金与抵押订餐要交订金按揭购房要抵押质量承诺三包条款“假一赔十”价格承诺国美等补差价措施最后一天血价处理加薪策略不断接到猎头公司的电话信函不断接到竞争对手老总的邀请,2022/12/28,43,3.2.2.emp 承诺行动IV,绑架与劫持中的承诺行动绑架与劫持影视作品中的一种常见情节现实生活中也时有发生歹徒的威胁是空头的吗？可能是，因

22、为他们不想罪上加罪可能不是，因为他们要树立自己言出必行的声誉歹徒的承诺行动有哪些？电话里人质的痛苦和呐喊声照片、录像带、人质的衣物甚至器官警方的威胁是空头的吗？可能是，特别是不知道歹徒是谁的时候可能不是，一旦知道歹徒是谁在哪,2022/12/28,44,2.2.2.emp 承诺行动IV,绑架与劫持中的承诺行动对峙中的谈判拒绝谈判历史上拒绝谈判曾是一种高效方法，汉武帝和曹操都用过实际生活中拒绝谈判也是一种重要策略交出控制权是拒绝谈判的一种具体形式谈判中的承诺歹徒的承诺可信吗？职业歹徒的承诺是可信的，因为他们在树立和维护自己的声誉非职业歹徒的承诺可能也是可信的，因为他们可能不想罪加一等警方的承诺可

23、信吗？是，为了人质的安全不是，为了社会的正义,3.2.3 逆推归纳法,定义：从动态博弈的最后一个阶段博弈方的行为开始分析，逐步倒推回前一个阶段相应博弈方的行为选择，一直到第一个阶段的分析方法，称为“逆推归纳法（Backwards Induction）”。逆推归纳法是动态博弈分析最重要、基本的方法。逆推归纳法的逻辑基础：动态博弈中先行为的理性的博弈方，在前面阶段选择行为时必然会考虑后行为博弈方在后面阶段中将会怎样选择行为，只有在博弈的最后一个阶段选择的，不再有后续阶段牵制的博弈方，才能直接作出明确选择。而当后面阶段博弈方的选择确定以后，前一阶段博弈方的行为也就容易确定了。,46,(0,0),3.

24、2.3.1 逆向归纳法I,逆向推理reasoning backward中美战略博弈均衡结果美不犯我，我不犯人我方具有后动优势,犯人,犯我,不犯我,犯人,不犯人,不犯人,美国,我国,我国,(2,-5),(1,-4),(-2,-3),47,3.2.3.2 逆向归纳法II,逆向推理reasoning backward新产品开发博弈均衡结果企业A开发，B不开发企业A具有先动优势,开发,开发,不开发,开发,不开发,不开发,A企业,B企业,B企业,(0,0),(0,1),(1,0),(-3,-3),48,3.2.3.3 逆向归纳法III,逆向推理reasoning backward求以下动态博弈的均衡结果

25、,右,下,上,前,后,左,甲,乙,甲,(2,0),(1,1),(0,2),(3,0),逆推归纳法的一般方法：从动态博弈的最后一个阶段开始分析，每一次确定出所分析阶段博弈方的选择和路径，然后再确定前一个阶段的博弈方选择和路径。逆推归纳到某个阶段，那么这个阶段及以后的博弈结果就可以肯定下来，该阶段的选择节点等于一个结束终端。,50,3.2.3.4 序贯理性与理性操纵I,序贯理性Sequential Rationality每一个行动点上都选择最优行为逆向归纳法遵循了序贯理性原则理性操纵Controlled Rationality利用对方的理性缺点，引诱对方上钩，获取利益有时候就是“大智若愚”比如，黄

26、盖诈降成功；孙权却赔了夫人又折兵,右,下,上,前,后,左,甲,乙,甲,(2,0),(1,1),(100,0),(0,100),51,3.2.3.5 序贯理性与理性操纵II,两个游戏夺宝战nim game桌子上有100根火柴，两个人轮流拿火柴，每次可以拿一根或两根，拿到最后一根者胜出，可以享受一次港澳游。如果你是先行者，应该如何行动？海盗分赃微软公司用过的面试题5个加勒比海盗抢来100个金币，大家决定如下分配规则：先由甲提议，若获半数通过，就分；反之，把甲扔进海里，再由乙提议，若获半数通过，就分；反之，把乙扔进海里，又由丙提议如果你是甲，该如何提议?,我们甚至可以用不包括该阶段与其后所有阶段博弈

27、的等价博弈来代替原来的博弈。,乙,不借,借,（0，4）,法律保障不足开金矿博弈的等价博弈（二）,（1，0）,逆推归纳法事实上就是把多阶段动态博弈化为一系列的单人博弈，通过对一系列单人博弈的分析，确定各博弈方在各自选择阶段的选择，最终对动态博弈结果，包括博弈的路径和各博弈方的得益作出判断，归纳各个博弈方各阶段的选择则可得到各个博弈方在整个动态博弈中的策略。由于逆推归纳法确定的各个博弈方在各阶段的选择，都是建立在后续阶段各个博弈方理性选择基础上的，因此自然排除了包含不可信的威胁或承诺的可能性，因此它得出的结论是比较可靠的，确定的各个博弈方的策略组合是有稳定性的。,3.3 子博弈和子博弈完美纳什均衡

28、,3.3.1 子博弈3.3.2 子博弈完美纳什均衡子博弈精炼纳什均衡-泽尔腾则在60年代中期将纳什均衡概念引入动态分析。在1965年发表需求减少条件下寡头垄断模型的对策论描述一文，提出了“子博弈精炼纳什均衡”的概念，又称“子对策完美纳什均衡”。这一研究对纳什均衡进行了第一次改进，选择了更具说服力的均衡点。海萨尼在60年代末把不完全信息引入博弈分析。,由于在动态博弈中纳什均衡不能排除不可信的行为选择，不是真正具有稳定性的均衡概念，因此需要发展能排除不可能行为选择的新的博弈概念，以满足动态博弈分析的需要。塞尔顿（1965）提出的“子博弈完美纳什均衡”（Subgame Perfect Nash E

29、quilibrium）正是满足上述需要的博弈均衡概念。,3.3.1 子博弈,定义：由一个动态博弈第一阶段以外的某阶段开始的后续博弈阶段构成的，有初始信息集和进行博弈所需要的全部信息，能够自成一个博弈的原博弈的一部分，称为原动态博弈的一个“子博弈”。,完美信息多阶段动态博弈基本上都有一级或多级子博弈。子博弈不仅在可以用扩展形表示的动态博弈中存在，事实上在无法用扩展形表示的无限多种策略动态博弈中也存在。注意：并不是动态博弈的任何部分都能构成子博弈，也不是所有多阶段动态博弈都有子博弈。首先子博弈不能包括原博弈的第一阶段，这也意味着动态博弈本身不会是它自己的子博弈。其次子博弈必须有一个明确的初始信息集

30、，以及必须包含初始阶段之后的所有博弈阶段，这意味着子博弈不能分割任何信息集，也意味着在有多节点信息集的不完美信息博弈中可能不存在子博弈。,3.3.2 子博弈完美纳什均衡,定义：如果在一个完美信息的动态博弈中，各博弈方的策略构成的一个策略组合满足，在整个动态博弈及它的所有子博弈中都构成纳什均衡，那么这个策略组合称为该动态博弈的一个“子博弈完美纳什均衡”。子博弈完美纳什均衡能够排除均衡策略中不可信的威胁和承诺，因此是真正稳定的。子博弈完美纳什均衡能够排除策略组合中不可信行为选择的原因：虽然包含不可信行为选择的策略组合可以构成整个博弈的纳什均衡，但其中的不可信行为选择，至少在博弈的某些子博弈中不符合

31、博弈方的自身利益，因而不构成纳什均衡。因此要求在所有子博弈中都是纳什均衡的子博弈完美纳什均衡，就排除了其中存在不可信行为选择的可能性，从而在动态博弈分析中具有真正的稳定性。,子博弈完美纳什均衡能够排除均衡策略中不可信的威胁和承诺，因此是真正稳定的。逆推归纳法是求完美信息动态博弈子博弈完美纳什均衡的基本方法。,2022/12/28,60,3.3 子博弈精炼纳什均衡I,子博弈sub-game原博弈的一部分，从单结信集开始，拥有独立信息集子博弈精炼纳什均衡sub-game perfect Nash Equilibrium完全信息动态博弈的均衡概念是在任意一个子博弈上都是纳什均衡的均衡也是剔除了所有空

32、头威胁和空头承诺的均衡用逆向归纳法求出的均衡一定是子博弈精炼纳什均衡,右,下,上,前,后,左,甲,乙,甲,(2,0),(1,1),(0,2),(3,0),2022/12/28,61,h,3.3 子博弈精炼纳什均衡II,均衡路径与序贯理性均衡路径与非均衡路径精炼纳什均衡构成的路径是均衡路径，其它就是非均衡路径序贯理性不但在均衡路径上寻求最优，而且在非均衡路径上也寻求最优在经济学中，序贯理性有时候又称为动态(不)一致性练习求以下博弈的子博弈精炼纳什均衡,c,b,a,e,f,d,甲,乙,甲,(5,3),(2,4),(4,3),(3,6),乙,g,(8,5),由乙的策略“第一阶段借，当甲第二阶段选择不

33、分时，第三阶段选择打”，甲的策略“第二阶段无条件分”，构成的策略组合是一个纳什均衡。但这个策略组合中乙的策略要求乙在第三阶段单人博弈构成的子博弈中选择的“打”，不是该子博弈的一个纳什均衡，因此根据子博弈完美纳什均衡的定义判断，这个策略组合确实不是一个子博弈完美纳什均衡。,相反，策略组合“乙在第一阶段选择“不借”，如果有第三阶段选择则选“不打”；甲如果有第二阶段选择选“不分”，则是该博弈的子博弈完美纳什均衡。该策略组合的双方策略不仅在整个博弈中构成纳什均衡，而且在两级子博弈中也都构成纳什均衡，从而不存在任何不可信的威胁或承诺，所以该策略组合构成这个动态博弈的一个子博弈完美纳什均衡。因为是唯一的，

34、所以也是这个博弈的真正稳定的结果。,在该博弈中如果两博弈方按照子博弈完美纳什均衡（不借-不打，不分）策略组合行动时，实际上不会进行到博弈的第二、第三阶段。我们称此时第二阶段甲的选择节点和第三阶段乙的选择节点为“不在均衡路径上”的，两博弈方的策略中在这两个阶段的选择称为“不在路径上的选择”。一个子博弈完美纳什均衡必须对博弈方在所有选择节点处的选择都作出规定，包括最终不在均衡路径上的阶段，而且不管是在均衡路径上的选择还是不在均衡路径上的选择，都必须在相应子博弈中构成纳什均衡，不能包含任何不可信的威胁或承诺，否则就不能保证一个策略组合是子博弈完美纳什均衡。,数学定义纳什均衡的定义：在博弈G=S1,S

35、n：u1,，un中，如果由各个博弈方的各一个策略组成的某个策论组合（s1*,，sn*）中，任一博弈方i的策论si*，都是对其余博弈方策略的组合（s1*,s*i-1,s*i+1,，sn*）的最佳对策，也即ui（s1*,s*i-1,si*,s*i+1,，sn*）ui（s1*,s*i-1,sij*,s*i+1,，sn*）对任意sijSi都成立，则称（s1*,，sn*）为G的一个纳什均衡。经济学定义所谓纳什均衡，指的是参与人的这样一种策略组合，在该策略组合上，任何参与人单独改变策略都不会得到好处。换句话说，如果在一个策略组合上，当所有其他人都不改变策略时，没有人会改变自己的策略，则该策略组合就是一个纳

36、什均衡。,3.2.2 纳什均衡的问题,博弈中（不投资-不打，不分）和（投资-打，分）都是纳什均衡。但后者不可信，不可能实现或稳定。为什么会出现这种情况呢？,子博弈完美纳什均衡能够排除均衡策略中不可信的威胁和承诺，因此是真正稳定的。逆推归纳法是求完美信息动态博弈子博弈完美纳什均衡的基本方法。,逆推归纳法是求完美信息动态博弈子博弈完美纳什均衡的基本方法。逆推归纳法事实上是从动态博弈的最后一级子博弈开始，逐步找博弈方在各级子博弈中的最优选择，最终找出动态博弈的子博弈完美纳什均衡。逆推归纳法确定的各博弈方的策略是不包含不可信行为选择的，因此，逆推归纳法与子博弈完美纳什均衡之间在本质上是完全一致的，找出

37、的策略组合一定是子博弈完美纳什均衡。,3.4 几个经典动态博弈模型,3.4.1 寡占的斯塔克博格模型3.4.2 劳资博弈3.4.3 讨价还价博弈3.4.4 委托人代理人理论,70,3.4.1斯塔克伯格模型I,Stackelberg(1934)基本假设企业1为领头企业，首先选择自己的产量企业2为跟随者，根据企业1的产量选择自己的产量设市场需求函数为企业i的利润为模型求解第二阶段，企业2的决策问题为由一阶条件得，反应函数为,71,3.4.1 斯塔克伯格模型II,模型求解企业1会预测到企业2的反应。因此，第一阶段的问题为代入企业2的反应函数得一阶条件为代入反应函数，即得企业2的最优产量为结论企业1具

38、有先行优势，会占据大部分市场份额。其市场效率高于古诺寡头竞争(产量为2(a-c)/3)，说明让市场存在相对垄断者(先行者)可能对提高市场效率是有利的。,3.4.1 寡占的斯塔克博格(Stackelberg) 模型,假设市场上有两个厂商，决策内容是产量，一个是领头(leader)企业，一个是跟随(follower)企业。领头企业先选择自己的产量，跟随企业根据领头企业的产量选择，选择自己的产量。显然，他们选择有先有后，所以是一个动态博弈。,斯塔克博格(Stackelberg)模型,假设条件: 在一个寡头市场上两企业生产销售同质产品,市场总产量Q =q1+q2 ,企业1是领头(leader)企业,

39、企业2是追随(follower)企业.2. 市场出清价格 P=8 - Q3. 生产无固定成本,边际成本 c=c1=c2=24. 二企业先后决定各自的产量q10, q2 0问题：两个企业应如何决策？该动态的寡头市场产量博弈是一无限策略动态博弈,Stackelberg模型分析,企业1的得益(利润):u 1 (q1, q2) =Pq1c1q1 = (8-Q) q1 - 2q1 = 6 q1- q1 q2- q12 企业2的得益:u 2 (q1, q2) = Pq2 c2q2 = (8-Q) q2 - 2q2 = 6 q2- q1 q2- q22,用逆推归纳法求子博弈完美纳什均衡,在第2个阶段,企

40、业2是在企业1选择定q1下求解:max q2 u 2 (q1, q2) = max q2 (6 q2- q1 q2- q22) 一阶条件： 6- q1 - 2q2=0有企业2对企业1产量的反应函数:q2= ( 6 - q1 ) /2 = 3 - q1 /2 (1),Cont.,将式(1)代入企业1的的得益函数u 1 (q1, q2) = 6 q1- q1 q2-q12 =3 q1 q12 /2 max q1 (3 q1 q12 /2) 一阶条件： 3 - q1*= 0有 q1*=3 (单位), q2*=3 - q1* /2 = 1.5 (单位), 使 u 1= 4.5 , u 2 = 2.25

41、使市场总产量 Q =q1+q2=4.5, 得二企业总得益U = u 1 + u 2 =4.5+2.25=6.75,模型的均衡解,Stackelberg寡头竞争模型的子博弈完美纳什均衡解: 企业1在第1个阶段选择产量q1为3 单位, 企业2在第2个阶段选择产量q2为1.5单位,产量得益厂商1 3单位 4.5厂商2 1.5单位 2.25,先行优势,与Cournot模型的比较,与Cournot静态博弈模型的比较 Qs=3+1.5=4.5 Qc=2+2=4Ps=8 - Qs=3.5 Pc=8 - Qc=4 Us= us1 + us2 =4.5+2.25=6.75 Uc= uc1 + uc2 =4 +

42、 4 = 8,信息的悖论,在Stackelberg模型中企业1与2得益:u1= 4.5 u2 = 2.25 信息不对称的博弈中,信息较多的博弈方有可能吃亏即是：尽管跟随企业看到了领头企业的决策，掌握了更多的信息，但最终收益反而低。,文献阅读,中国3G时代运营策略分析供应链企业的竞争与合作电力市场寡头竞争模型的市场力分析比较,3.4.1 寡占的斯塔克博格（Stackelberg）模型,先后选择产量的产量竞争博弈把古诺模型改为厂商1先选择，厂商2后选择，而非同时选择即可。,产量得益厂商1 3单位 4.5厂商2 1.5单位 2.25,先行优势,厂商1在第一阶段选择3单位产量，厂商2在第二阶段选择

43、1.5单位产量，就是运用逆推归纳法分析得出的策略组合，也是该动态博弈唯一的子博弈完美纳什均衡。两厂商所处地位的不对称性：因为厂商1具有先行的主动，且他又把握了理性的厂商2必然会根据自己的选择进行理性选择这一点，从而能通过选择较大的产量得到较多的利益。本博弈也揭示了：在信息不对称的博弈中，信息较多的博弈方不一定能得到较多的利益。这一点正是两人以上的博弈与单人博弈的不同之处。,83,宏观经济政策动态不一致I,Dynamic Consistency (Kydland & Prescott, 1977)动态不一致宏观经济政策在制定时是最优的，但是在执行时不再是最优的。因而，制定政策的政府根本不会实施该

44、政策。政府关心通货膨胀和失业率，设其效用函数为其中，为通货膨胀率，为实际产量，为自然失业率下的产量，和为系数。含有通货膨胀的菲力普斯曲线(expectational Phillips curve)，又称意外产出函数(surprise production function)为其中，为私人部门预期的通货膨胀率。,84,宏观经济政策动态不一致II,Dynamic Consistency (Kydland & Prescott, 1977)政府选择最优的通货膨胀率，即解得设有理性预期，即则那么，政府的效用为,2022/12/28,85,宏观经济政策动态不一致III,Dynamic Con

45、sistency (Kydland & Prescott, 1977)而保证实行零通货膨胀率，政府的效用为但是，政府不会真的保证零通货膨胀率，因为一旦公众相信零通货膨胀，政府的最优通货膨胀率和效用分别为得政府做出零通货膨胀的承诺，公众一旦相信，政府就会选择实施高于零的通货膨胀率。,3.4.2 劳资博弈,里昂惕夫1946年提出的，分别代表劳资双方的工会和厂商之间的博弈模型。该博弈模型假设工资完全由工会决定，而厂商则根据工会要求的工资高低决定雇佣工人的数量。工会不会只追求较高的工资这一个目标，必然还会同时希望有较多的工人得到雇佣，高工资加高失业率并不符合工人总体的利益，当然低工资水平实现的高就业也

46、不符合工会的利益。因此，工会代表的劳方效用应该是工资率和雇佣数两者的函数，即u=u（W，L）。,假设厂商只关心一个根本目标利润，利润是收益和成本之差，如果假设收益是劳动雇佣数量的函数R(L),再假设厂商只有劳动成本，因此总成本等于工资率乘雇佣劳动数量，这样厂商的利润函数为=（W,L）=R(L)-WL,也是工资率和劳动雇佣数两者的函数。假设先由工会决定工资率，再由厂商决定雇用多少劳动力。用逆推归纳法分析该博弈：第一步先分析第二阶段厂商的选择，也就是厂商对工会选择的工资率W的反应函数L(W).设工会提出的工资率为W，那么厂商实现自己最大得益（利润）的雇佣数L，就转变为最大值为题。,3.4.2 劳资

47、博弈,先由工会决定工资率，再由厂商决定雇用多少劳动力。工会代表的劳方效用应该是工资率和雇佣数两者的函数，即：u=u(W,L), w和L分别表示工资率和厂商雇佣的人数。厂商的利润函数为: （W，L)R(L)WL由于该博弈先由工会决定工资率，然后厂商根据工会提出的工资率决定雇佣多少劳动。因此可以用逆推归纳法来分析这个博弈：先分析第二阶段厂商的选择，也就是厂商对工会选择的工资率的W的反应函数L(W)。,3.4.2 劳资博弈,先由工会决定工资率，再由厂商决定雇用多少劳动力,R(L)-W=0的经济意义是厂商增加雇佣的边际收益（即雇佣的最后一单位劳动所能增加的收益），等于雇佣一单位劳动的边际成本，在本

48、模型中也是平均成本，即工资率。在收益函数R(L)的图形上反映出来，就是厂商取得最大利润的雇佣数L*(W) 对应的R(L)曲线上点处的切线斜率一定等于工资率。在图中做出厂商的成本线WL与上述切线必然是平行的，意味着L*(W)处R(L)与WL之间的距离R(L)-WL最大。第二步回到第一阶段工会的选择。由于工会了解厂商的决策方法，因此它完全清楚对应自己选择的每种工资率W，厂商将会选择的雇佣数一点是用上述方式觉得的L*(W) 。因此工会需要解决的决策问题变成选择W*,使它满足工会效用最大值问题的解。,3.4.2 劳资博弈,该博弈过程为：先由工会决定工资率，再由厂商决定雇用多少劳动力工会代表的劳方效用：

49、厂商的利润函数：其中：W：工资率；L：厂商雇佣的工人数,第一步：先分析第二阶段厂商的选择，即厂商对工会选择的工资率W的反应函数L(W)设工会提出的工资率为W，则厂商实际自己最大利益的雇佣数L为以下最大值问题。对上式关于L求导，解出L，就是在给定工会选择工资率W时厂商的最优雇佣数量。一阶导为零R(L)-W=0的经济意义：厂商增加雇佣的边际收益。,3.4.2 劳资博弈,厂商取得最大利润的雇佣数对应的曲线上点A处的切线斜率一定等于工资率W，在L*(W)处，R(L)与WL之间的距离（正是厂商的利润）最大。,第二步：分析第一阶段工会的选择。由于工会了解厂商的决策方法，因此它完全清楚对应自己选择的每种工资

50、率W，厂商将会选择的雇佣数一定是由上述方式决定的L*(W)。因此，工会需要解决的决策问题变成选择W*，使它满足如下最大化问题：如果给出工会效用函数的具体形式，就可以通过解这个最大值问题，求出符合工会最大利益的工资率W*。,3.4.2 劳资博弈,工会的无差异曲线,3.4.3 讨价还价博弈,一、三回合讨价还价假设有两人就如何分享1万元现金进行谈判，并且已经定下了如下规则：首先由甲提出一个分割比例，对甲提出的比例乙可以接受也可以拒绝；如果乙拒绝甲的方案，则他自己应提出另一个方案，让甲选择接受与否在上述循环过程中，只要任何一方接受对方的方案，博弈就结束，而如果方案被拒绝，则被拒绝的方案与以后的讨价还价