书签分享收藏举报版权申诉 / 308

立即下载加入VIP免费专享

当前位置：首页 > 生活休闲 > 在线阅读 > 博弈论最全完整ppt 讲解课件.ppt

博弈论最全完整ppt 讲解课件.ppt

上传人：小飞机

文档编号：1917508

上传时间：2022-12-25

格式：PPT

页数：308

大小：1.75MB

《博弈论最全完整ppt 讲解课件.ppt》由会员分享，可在线阅读，更多相关《博弈论最全完整ppt 讲解课件.ppt（308页珍藏版）》请在三一办公上搜索。

1、a,1,博弈论与信息经济学Game Theory and Economics of Information,a,2,博弈论基本思想,人们在日常生活中进行着博弈，与配偶，朋友，陌生人，老板/员工，教授等。类似的博弈也在商业活动、政治和外交事务、战争中进行着在任何一种情况下，人们相互影响以达成彼此有利的协议或者解决争端。博弈论为众多学科提供了分析的概念和方法：经济学和商学,政治科学,生物学, 心理学和哲学。,a,3,如何在“博弈”中获胜？,日常生活中的博弈（“游戏”）往往指的是诸如赌博和运动这样的东西：赌抛硬币百米赛跑打网球/橄榄球How can you win such games?许多博

2、弈都包含着运气、技术和策略。策略是为了获胜所需要的一种智力的技巧。它是对于如何最好地利用身体（物质）的技巧的一种算计。,a,4,什么是策略博弈？What is a Game of Strategy?,策略思考本质上涉及到与他人的相互影响。其他人在同一时间、对同一情形也在进行类似的思考。博弈论就是用来分析这样交互式的决策的。理性的行为指的是：明白自己的目的和偏好，同时了解自己行动的限制和约束，然后以精心策划的方式选择自己的行为，按照自己的标准做到最好。博弈论对理性的行为又从新的角度赋予其新的含义与其他同样具有理性的决策者进行相互作用。博弈论是关于相互作用情况下的理性行为的科学。,a,5,如何

3、在博弈中获胜？, 真的能在博弈中（总是）获胜吗？对手和你一样聪明！许多博弈相当复杂，博弈论并不能提供万无一失的应对办法。,a,6,例1：无谓竞争（The GPA Rat Race）,你所注册的一门课程按照比例来给分：无论卷面分数是多少，只有40的人能够得优秀，40的人能得良好。所有学生达成一个协议，大家都不要太用功，如何？想法不错，但无法实施!稍加努力即可胜过他人，诱惑大矣。问题是，大家都这么做。这样一来，所有人的成绩都不比大家遵守协议来得高。而且，大家还付出了更多的功夫。正因为这样的博弈对所有参与者存在着或大或小的潜在成本，如何达成和维护互利的合作就成为一个值得探究的重要问题。存在双赢的博

4、弈吗？,a,7,例2：焦点博弈 “We Cant Take the Exam,Because We Had a Flat Tire”,两个学生想要推迟考试，谎称由于返校途中轮胎漏气，未能很好地备考。教授分别对他们提出了问题：“哪个轮胎漏气?”如何应答？他们本应该预计到教授的招数，提前准备好答案。在博弈中，参与者应该向前看到未来的行动，然后通过向后推理，推算出目前的最佳行动。如果双方都没有准备，他能够独立地编出一个相互一致的谎言吗？,a,8,例2：焦点博弈 “We Cant Take the Exam,Because We Had a Flat Tire”,“乘客侧前轮”看起来是一个合乎逻辑的选

5、择。但真正起作用的是你的朋友是否使用同样的逻辑，或者认为这一选择同样显然。并且是否你认为这一选择是否对他同样显然；反之，是否她认为这一选择对你同样显然。以此类推。也就是说，需要的是对这样的情况下该选什么的预期的收敛。这一使得参与者能够成功合作的共同预期的策略被称为焦点。心有灵犀一点通。,a,9,例2：焦点博弈 “We Cant Take the Exam,Because We Had a Flat Tire”,我们无法从所有这样的博弈的结构中找到一般和本质的东西，来保证这样的收敛。某些博弈中，由于偶然的外因可以对策略贴标签，或者参与者之间拥有某些共同的知识体验，导致了焦点的存在。没有某个这样的

6、暗示，默契的合作就完全不可能。,a,10,例3：为什么教授如此苛刻？,许多教授强硬地规定，不进行补考，不允许迟交作业或论文。教授们为何如此苛刻？如果允许某种迟交，而且教授又不能辨别真伪，那么学生就总是会迟交。期限本身就毫无意义了。避免这一“滑梯”通常只有一种办法，就是“没有例外”的策略。,a,11,例3：为什么教授如此苛刻？,问题是，一个好心肠的教授如何维持如此铁石心肠的承诺？他必须找到某种使拒绝变得强硬和可信的方法。拿行政程序或者学校政策来做挡箭牌在课程开始时做出明确和严格的宣布通过几次严打来获得“冷面杀手”的声誉,a,12,导论,博弈均衡与一般均衡博弈论与诺贝尔经济学奖获得者博弈论的基本概

7、念与类型主要参考文献,a,13,导论,一、博弈均衡与一般均衡,a,14,案例：囚犯困境,支付,嫌疑人B,嫌疑人A,a,15,与传统微观经济学的比较,一致性利益最大化原则均衡原则不一致人与人之间的关系-个人理性导致集体非理性-设计协调性机制-满足个人理性前提下达到集体理性信息不完全-委托-代理理论、信号传递与信息筛选模型,a,16,导论,二、博弈论与诺贝尔经济学奖获得者,a,17,1994年诺贝尔经济学奖获得者,美国人约翰-海萨尼(John C. Harsanyi) 和美国人约翰-纳什(John F. Nash Jr.)以及德国人莱因哈德-泽尔腾(Reinhard Selten) 获奖理由：在非

8、合作博弈的均衡分析理论方面做出了开创性的贡献，对博弈论和经济学产生了重大影响。,a,18,约翰纳什1928年生于美国,约翰海萨尼1920年生于美国,莱因哈德泽尔腾，1930年生于德国,a,19,1996年诺贝尔经济学奖获得者,英国人詹姆斯莫里斯 (James A. Mirrlees)和美国人威廉-维克瑞(William Vickrey) 获奖理由：前者在信息经济学理论领域做出了重大贡献，尤其是不对称信息条件下的经济激励理论的论述；后者在信息经济学、激励理论、博弈论等方面都做出了重大贡献。,a,20,詹姆斯莫里斯1936年生于英国,威廉维克瑞，1914-1996，生于美国,a,21,2001年

9、诺贝尔经济学奖获得者,三位美国学者乔治-阿克尔洛夫(George A. Akerlof)、迈克尔-斯彭斯(A. Michael Spence)和约瑟夫-斯蒂格利茨(Joseph E. Stiglitz) 获奖理由：在“对充满不对称信息市场进行分析”领域做出了重要贡献。,a,22,a,23,2005年诺贝尔经济学奖获得者,以罗伯特奥曼色列经济学家罗伯特奥曼（Robert J. Aumann）和美国经济学家托马斯谢林（Thomas C. Schelling）获奖原因：“通过博弈论分析加强了我们对冲突和合作的理解”所作出的贡献而获奖。,a,24,a,25,导论,三、博弈论的基本类型,a,26,合作

10、博弈与非合作博弈,合作博弈（cooperative game）达成有约束力的协议（binding agreement），强调团体理性，强调效率、公正、公平非合作博弈（non-cooperative game）强调个人理性，其结果可能有效率，也可能无效率。,a,27,非合作博弈的基本分类,a,28,静态博弈与动态博弈(static games and dynamic games),同时决策或者同时行动的博弈属于静态博弈；先后或序贯决策或者行动的博弈，属于动态博弈即使决策或行动有先后，但只要局中人在决策时都还不知道对手的决策或者行动是什么，也算是静态博弈,a,29,完全信息博弈与不完全信息博弈

11、(games of complete information and games of incomplete information),按照大家是否清楚对局情况下每个局中人的得益。“各种对局情况下每个人的得益是多少” 是所有局中人的共同知识（common knowledge）。据“共同知识”的掌握分为完全信息与不完全信息博弈。,a,30,完美信息博弈与不完美信息博弈(games with perfect information and games with imperfect information),是关于动态博弈进行过程之中面临决策或者行动的参与人对于博弈进行迄今的历史是否清楚的一种刻划。

12、如果在博弈进行过程中的每一时刻，面临决策或者行动的参与人，对于博弈进行到这个时刻为止所有参与人曾经采取的决策或者行动完全清楚，则称为完美信息博弈；否则位不完美信息。,a,31,零和博弈与非零和博弈(zero-sum game and non-zero-sum game),如果一个博弈在所有各种对局下全体参与人之得益总和总是保持为零，这个博弈就叫零和博弈；相反，如果一个博弈在所有各种对局下全体参与人之得益总和不总是保持为零，这个博弈就叫非零和博弈。零和博弈是利益对抗程度最高的博弈。,a,32,常和博弈与非常和博弈（constant-sum game and variable-sum game）,

13、如果一个博弈在所有各种对局下全体参与人之得益总和总是保持为一个常数，这个博弈就叫常和博弈；相反，如果一个博弈在所有各种对局下全体参与人之得益总和不总是保持为一个常数，这个博弈就叫非常和博弈。常和博弈也是利益对抗程度最高的博弈。非常和（变和）博弈蕴含双赢或多赢。,a,33,导论,四、主要参考文献,a,34,张维迎著，博弈论与信息经济学，上海三联书店、上海人民出版社，1996年版。Roger B. Myerson著：Game Theory（原文版、译文版），中国经济出版社，2001年版。王则柯、李杰编著，博弈论教程，中国人民大学出版社，2004年版。艾里克.拉斯缪森（Eric Rasmusen）著

14、，博弈与信息：博弈论概论，北京大学出版社，2003年版。因内思马可-斯达德勒,J.大卫佩雷斯-卡斯特里罗著，信息经济学引论：激励与合约,上海财经大学出版社，2004年版。施锡铨编著，博弈论上海财大出版社，2000年版。谢识予编著，经济博弈论，复旦大学出版社，2002年版。谢识予主编，经济博弈论习题指南，复旦大学出版社，2003年版。,a,35,课程主要内容,第一章完全信息静态博弈第二章完全信息动态博弈第三章不完全信息静态博弈第四章不完全信息动态博弈第五章委托-代理理论第六章逆向选择与信号传递,a,36,第一章完全信息静态博弈,博弈论的基本概念及战略式表述纳什均衡纳什均衡应用举例混

15、合战略纳什均衡纳什均衡的存在性与多重性,a,37,第一节博弈论的基本概念与战略式表述,a,38,博弈论的基本概念与战略式表述,博弈论（game theory）是研究决策主体的行为发生直接相互作用时候的决策以及这种决策的均衡问题。博弈的战略式表述：G=N,(Si)iN,(Ui)iN有三个基本要素：（1）参与人（players）iN=1,2,n ；（2）战略（strategies）,siSi(战略空间)；（3）支付（payoffs）,ui=ui(s-i,si)。,a,39,案例1：囚犯困境,支付,嫌疑人B,嫌疑人A,a,40,均衡与均衡结果,均衡战略（坦白，坦白）均衡支付（-6，-6）,a,41

16、,第二节纳什均衡,占优战略均衡重复剔除的占优战略均衡纳什均衡,a,42,完全信息静态博弈的几点特性,同时出招，出招一次；知道博弈结构与游戏规则（共同知识）；不管是否沟通过，无法做出有约束力的承诺（非合作）,a,43,一、占优战略均衡,占优战略：不管对手战略为何，该参与人可找到一最佳战略。定义：在博弈G=N,(Si)iN,(Ui)iN中，如果对所有的参与人i,si*是它的占优战略，那么所有参与人选择的战略组合（s1*,sn*）成为该对策的占优战略均衡。,a,44,案例1：囚犯困境,支付,嫌疑人B,嫌疑人A,a,45,“囚犯困境” 的扩展,两个寡头企业选择产量公共产品的供给军备竞赛经济改革

17、结论：一种制度安排，要发生效力。必须是一种纳什均衡；否则，制度安排便不能成立。,a,46,价格大战,支付,百事可乐,可口可乐,a,47,案例2：智猪博弈,猪圈里圈两头猪，一头大猪，一头小猪。猪圈的一头有一个猪食槽，另一头安装一个按钮，控制着猪食的供应。按一下按钮会有10个单位的猪食进槽，但谁按按钮谁就要付出2个单位的成本。若大猪先到，大猪吃到9个单位，小猪只能吃1个单位；若同时到，大猪吃7个单位，小猪吃3个单位；若小猪先到，大猪吃6个单位，小猪吃4个单位。支付如表。,a,48,案例2：智猪博弈,支付,小猪,大猪,a,49,智猪博弈的扩展,股份公司承担监督经理职能的大股东与小股东股票市场上炒股

18、票的大户与小户市场中大企业与小企业在研发、广告上的博弈公共产品的提供（富户与穷户）改革中不同利益分配对改革的推动,a,50,二、重复剔除的占优战略均衡,绝对劣势战略：si是一绝对劣势战略当且仅当存在另一战略siSi使得ui(si,s-i) ui(si,s-i) 对所有s-iS-i均成立。（ si 未必是优势战略）重复剔除的占优战略均衡：逐次删去绝对劣势战略得到唯一的占优战略。,a,51,例：重复剔除的占优战略均衡,参与人2 L M R,参与人1,U,D,a,52,例重复剔除的占优战略均衡,参与人2L M R,参与人1,U,D,M,a,53,例重复剔除的占优战略均衡,参与人2L M R,参与

19、人1,U,D,M,a,54,三、纳什均衡,定义：指一战略组合有以下特性：当参与人持此战略后，任一参与人均无诱因偏离这一均衡；s*=(s1*,sn*)=(si*,s-i*)是一纳什均衡，当且仅当对所有参与人而言，ui (si*,s-i*) ui (si,s-i*)对所有siSi 均成立。简单而言，当s1*是对s2*的最适反应，s2*也是s1*的最适反应时，（s1*,s2*）就是二人博弈的纳什均衡。命题1：纳什均衡在占优战略重复剔除解法中不会被剔除命题2：重复剔除的严格占优战略均衡一定是纳什均衡。,a,55,例纳什均衡求解,参与人2L M R,参与人1,U,D,M,a,56,作业,乙左中右

20、,上中下,甲,一个两人同时博弈的支付竞争如下所示，试求纳什均衡。是否存在重复剔除占优战略均衡？,a,57,第三节纳什均衡应用举例,古诺（Cournot）寡头模型沙滩卖冰豪泰林（Hotelling）价格竞争模型公共地的悲剧,a,58,一、古诺寡头模型,特点：存在两家厂商；同时行动确定产量。通过预测另一家厂商的产量来选择自己的利润最大化产量，寻求预测均衡。厂商1表示为：max p(y1+y2e)y1-c(y1)，得出y1=f1(y2e)，同理得出y2=f2(y1e)，称为反应函数，两条曲线的交点为古诺模型的解。,a,59,古诺寡头模型的纳什均衡,反应函数 y1=f1(y2) y2=f2(y1)（

21、y1*,y2*）是该对策的纳什均衡解。,a,60,例题：古诺模型的解,假设p=a-(y1+y2)，C1=y1c，C2=y2c则根据利润最大化的一阶条件分别得到反应函数y1=f1(y2)=(a-y2-c)/2，y2=f2(y1)=(a-y1-c)/2，求出均衡产量为（1/3(a-c)，1/3(a-c)），为纳什均衡，均衡利润为（1/9(a-c)2，1/9(a-c)2）,a,61,古诺模型的解：与垄断市场的比较,假设为一垄断企业，则有： Max =y(a-y-c), 得到垄断企业的最优产量 y=1/2(a-c) y1+y2=2/3(a-c) 垄断利润为=1/4(a-c)2 2/9(a-c)2寡头竞

22、争的总产量大于垄断产量的原因在于每个企业在选择自己的最优产量时，只考虑对本企业利润的影响，而忽视对另一个企业的外部负效应。,a,62,寡头厂商与垄断厂商的比较,a,63,0 1,二、沙滩卖冰,假设游客沿沙滩0，1间均匀分布，现有两位卖冰者，他们会将摊位选在哪个位置？假设游客就近购买。,生活中还有哪些类似的例子？,a,64,三、豪泰林模型,寡头企业竞争战略是价格伯川德（Bertrand）模型：产品同质，均衡价格等于边际成本，类似于完全竞争市场均衡。豪泰林（Hotelling）模型：存在产品差异，均衡价格不等于边际成本，垄断性提高,a,65,假定长度为1的线性城市，消费者均匀分布在0，1区间内，分

23、布密度为1；两个商店1、2分别位于x=0，x=1，即城市的两端；消费者购买商品的旅行成本与商店的距离成反比，单位距离的成本为t；住在x的消费者在两个商店之间是无差异的，需求D1=x，D2=1-x，x满足：p1+tx=p2+t(1-x),解得x=(p2-p1+t)/2t。,豪泰林模型：以空间上差异为例,a,66,豪泰林模型：以空间上差异为例,根据两个商店的利润函数，1=(p1-c)x, 2=(p2-c)(1-x)选择使利润最大化的价格，得到一阶条件，求得p1*=p2*=c+t，均衡利润1=2=t/2旅行成本越高，产品差异越大，均衡价格从而均衡利润也越高。原因：随着旅行成本上升，不同商店出售的产品

24、之间的替代性下降，每个商店对附近的消费者的垄断能力加强，当旅行成本为零时，不同商店的产品之间具有完全的替代性，则为伯川德均衡结果。,a,67,四、公共地的悲剧,生物学家和生态学家哈丁（Garrett Harden）在科学（1968年，第162卷）发表公地的悲剧。考虑一块对所有的人都开放的牧场，在着的制度下，可以预期，每一个放牧的人都会在公地上放牧尽可能多的牲口。增加一头牲口既有正效用，也有负效用。正效用是牲口的销售收入，增加一头为+1负效用使每增加一头带来的过度放牧的损失，每一个放牧着承担-1/n放牧者合理的决策是增加牲口，直至马瘦毛长，公地毁灭。,a,68,四、公共地的悲剧,资源没有排他性产

25、权：草地放牧、公海捕鱼、小煤窑的过度开发；另一类是人们向其中排放废物的公地。草地放牧：n个农民，每个拥有羊的数量为gi，G=gi，v(G)代表每只羊的价值，与草地上放牧的总数G相关，饲养量增加到一定程度，随着数量继续增加，羊的价值会下降，即v(G)0农民的利润函数i=giv(gj)-gic最优化的一阶条件：i/gi=v(G)+giv(G)-c=0增加一只羊有正效应（羊的价值）、负效应（新增羊使之前所有羊的价值下降）个人边际成本小于社会边际成本，个人最优决定的饲养总量大于社会最优决定的饲养总量,a,69,五、斗鸡博弈,1,2,支付,a,70,“斗鸡博弈”的扩展,夫妻间吵架警察与游行队伍公共产品的

26、供给（两富户修路）,a,71,第四节混合战略纳什均衡,a,72,混合战略（mixed strategies）,定义：*=(1*,n*)=(i*,-i *)是一纳什混合战略均衡，当且仅当对所有参与人而言， i*是-i*的最适反应，ui(i*,-i *) ui(I,-i *)，对所有ii成立)。持混合战略的前提是在均衡时两种战略的报酬会相等，是预期支付最大化的推导结果。,a,73,掷硬币,参与人1:max Eu=q(p(-1)+(1-p)1)+(1-q)(p1+(1-p)(-1) =-pq+q-pq+p-pq-1+q+p-pq =-4pq+2q+2p-1一阶条件为零求得：p=1/2,a,74,掷

27、硬币的分析,给定参与人1（q,1-q），参与人2的支付是：q+(-1)(1-q)（正面）=(-1)q+(1-q)（反面）; 给定参与人2（p,1-p），参与人1的支付为： p(-1)+(1-p)（正面）=p+(-1)(1-p)（反面）；求得（1/2，1/2）是纳什混合战略均衡如果两种战略报酬不相等，那么就变为纯战略（pure strategies）了。,a,75,混合战略均衡的博弈原则,两博弈方不能让对方知道或猜到自己的选择，因而必须在决策时利用随机性；两博弈方选择每种策略的概率一定要恰好使对方无机可乘，即让对方无法通过针对性地倾向某一策略而在博弈中占上风。例：在掷硬币的博弈中，参与人1

28、选正面、反面的概率q,1-q，一定要使参与人2选正面的和反面的期望得益相等。,a,76,单纯战略与混合战略的定义,G=N,S,U是一个战略式有限博弈，参与人i的战略空间S中的任一元素si称为i的一个单纯战略（pure strategy）；定义在Si上的一个概率分布函数pi(si)代表了一个混合战略（mixed strategy）这个战略的内容是：参与人i以概率pi(sij)选择单纯战略sij，而pi(sij)=1。单纯战略是混合战略的特例，因为任一单纯战略si都可以理解为i以概率1选择si，以0概率选取其他所有单纯战略。引入混合战略，参与人的目标需要修改为“最大化自己的期望支付”,a,77,S

29、elton：小偷和守卫的博弈,一小偷欲偷窃有一守卫看守的仓库，如果小偷偷窃时守卫在睡觉，则小偷就能得手，偷得价值为V的赃物；如果小偷偷窃时守卫没有睡觉，则小偷就会被抓住。设小偷被抓后要坐牢，负效用为-P，守卫睡觉而未遭偷窃有S的正效用，因睡觉被窃要被解雇，其负效用为-D。而如果小偷不偷，则他既无得也无失，守卫不睡意味着出一份力挣一分钱，他也没有得失。,a,78,小偷,守卫,支付,小偷与守卫的博弈,a,79,小偷的混合策略,S到-D连线的纵坐标是在横坐标对应的小偷“偷”窃概率下的守卫选择“睡”的期望得益，即S(1-pt)+(-D)pt,加重对守卫的处罚在短期中的效果是使守卫真正尽职，但在长期中恰

30、恰是会降低盗窃发生的概率（激励的悖论）,a,80,守卫的混合策略,小偷的混合策略分布不受P的影响，因此政府加重对小偷的惩罚在长期中并不能抑制盗窃，最多只能抑制短期的盗窃发生率，它的作用主要是使守卫可以更多地偷懒,a,81,齐威王田忌赛马,古代齐威王与大将田忌赛马，田忌的谋士孙膑运用计谋帮助田忌以弱胜强。比赛规则：田忌与齐威王各出三匹马，一对一比赛三场，每一场的输方要赔1000斤铜给赢方。双方的马按实力都可以分为上、中、下，但齐威王的上、中、下均优于田忌的上、中、下。实际上，田忌的上马、中马要优于齐威王的中马、下马。比赛结果：田忌连输三场；后孙膑建议，以上对中、以中对下、以下对上，结果以2：1赢

31、得比赛。,a,82,前述为单方面运用策略的故事，如果齐威王预料到田忌的做法，必然会改变各匹马出场的次序。本博弈中博弈双方的利益是完全对立的，是严格竞争的零和博弈，不会有纯策略纳什均衡，必然是一个混合策略均衡。假设齐威王采取六种战略的概率分别为pa,pb,pc,pd,pe,pf（加总为1）,则田忌采取六种战略的期望得益相等，则得出齐威王与田忌均以1/6的相同概率随机选择各自的六个纯策略，构成本博弈唯一的混合策略纳什均衡。,齐威王田忌赛马,a,83,齐威王,田忌,齐威王田忌赛马,a,84,齐威王田忌赛马,在上述混合策略下，齐威王的期望得益为1/6（3+1+1+1+1-1）=1；田忌的期望得益为1/

32、6（1-3-1-1-1-1）=-1，即多次进行这样的赛马，齐威王平均每次能赢田忌1000斤铜，这是因为齐威王三匹马的总体实力略胜田忌三匹马总体实力的缘故,a,85,混合策略反应函数,将博弈方的策略空间扩展到包括混合策略，将纳什均衡扩展到包括混合策略纳什均衡以后，求纳什均衡反应函数的分析方法也可以扩展到求混合策略纳什均衡。反应函数即一博弈方对另一博弈方每种可能的决策内容的最佳反映决策构成的函数。在纯策略的范畴内，反应函数是各博弈方选择的纯策略对其他博弈方纯策略的反应。在混合策略的范畴内，博弈方的决策内容为选择概率分布，反应函数就是一方对另一方的概率分布的反应。,a,86,掷硬币,1,2,支付,q

33、 1-q,1-p,p,a,87,当2出正面的概率q1/2，1出正面的概率为1，因为他出正面得到的预期收益大于他出反面；当2出正面的概率q1/2，1出正面的概率为0，因为他出反面的期望收益大于他出正面。,a,88,第五节纳什均衡的存在性与多重性,a,89,混合战略纳什均衡,纯战略纳什均衡,重复剔除占优均衡,占优均衡,不同均衡概念之间的关系,a,90,纳什均衡的存在性每个有限战略式博弈（参与人与战略数目均为有限）都有纳什均衡存在，这均衡有可能是混合战略均衡纳什均衡的多重性纳什均衡不唯一，如性别战,a,91,案例性别战,a,92,性别战：混合策略均衡,给定妻子分别以q,1-q的概率选择时装、

34、足球，则丈夫选择时装、足球的期望收益相等，即1.q+0.(1-q)=0.q+3.(1-q)，解得妻子选择时装、足球的概率分别为（3/4，1/4）给定丈夫分别以p,1-p的概率选择时装、足球，则妻子选择时装、足球的期望收益相等，即2.p+0.(1-p)=0.p+1.(1-p)，解得妻子选择时装、足球的概率分别为（1/3，2/3）,a,93,当妻子以（3/4，1/4）的概率分布随机选择时装表演和足球，丈夫以（1/3，2/3）的概率随机选择时装表演和足球时，双方都无法通过单独改变策略，即单独改变随机选择纯策略的概率分布而提高利益，因此双方的上述概率分布的组合构成一个混合策略纳什均衡。该混合策略纳什均

35、衡给妻子和丈夫各自带来的期望收益分别为： q.p.2+q.(1-p).0+(1-q).p.0+(1-q).(1-p).1=2/3; q.p.1+q.(1-p).0+(1-q).p.0+(1-q).(1-p).3=3/4双方的期望收益均小于纯策略时的期望收益。,性别战：混合策略均衡,a,94,夫妻之争两博弈方的反应函数,如果p1/3，则妻子选择时装的期望得益小于选择足球，因此妻子应选择足球，即q=0；如果p1/3，则妻子选择时装的期望得益为大于选择足球的得益，因此选时装，即p=1,a,95,焦点均衡（focal point）,当一个博弈有多个纳什均衡时，博弈论并没有一个一般的理论来证明纳什均衡结

36、果一定会出现。在现实生活中，参与人可能使用某些被博弈模型抽象掉的信息来达到一个“焦点”均衡。这些信息可能与社会文化习惯、参与人过去博弈的历史有关。例，在性别战中，如果今天是丈夫的生日，（足球、足球）可能是一个焦点均衡；而如果是妻子的生日，（时装、时装）可能是一个焦点均衡。还有分蛋糕等。,a,96,课堂练习：求纳什均衡,a,97,市场进入阻挠,威胁是可置信的吗？,a,98,作业1,春节前夕，某小镇上两个商铺主甲和乙同时看到一个赚钱机会：去城里贩一批鞭炮回来零售，购货款加上运输费用共5000元，如果没有竞争对手，这批货在小镇上能卖6000元；但如果另一家商铺同时在小镇上卖鞭炮，价格下跌使得这批鞭炮

37、只能卖4000元。请用战略式表示支付矩阵；请找出纳什均衡。,a,99,作业二,乙左中右,上中下,甲,一个两人同时博弈的支付竞争如下所示，试求纳什均衡。是否存在重复剔除占优战略均衡？,a,100,第二章完全信息动态博弈,博弈的扩展式表述子博弈精炼纳什均衡子博弈精炼纳什均衡举例重复博弈和无名氏定理,a,101,第一节博弈的扩展式表述,a,102,完全信息动态博弈,一般以扩展型式来表示：G=(N,H,P,I,U)，包括5要素：（1）局中人N；（2）历史H:博弈树是一个多环节与枝干的集合，从单一的起始环节，直到终结环节，代表博弈历史；（3）对每个环节的分配法则P:将每个环节（除终结环节外）分

38、配给不同的局中人，并赋予行动时可选的策略；（4）局中人行动时的信息集合I；（5）对应局中人可能选择策略，各局中人在终结环节所得到的报酬U。,a,103,战略式表述(strategic form representation)多用矩阵,2L S,L S,1,扩展式表述(extensive form representation)多用博弈树,战略式与扩展式,a,104,A,B,（进入，进入）,进入,不进入,（进入，不进入）,（不进入，进入）,（不进入，不进入）,市场进入博弈的标准式,市场进入的扩展式,a,105,在市场进入博弈中：A有两个行动：“进入”、“不进入”。由于是先行动者，只有两个战略：选

39、择“进入”或“不进入”。 B有两个行动：“进入”、“不进入”。但是，有4个战略：,(1)若A选择“进入”，B选择“进入”，若A选择“不进入”，B选择“进入”，即（进入，进入）(2)若A选择“进入”，B选择“进入”，若A选择“不进入”，B选择“不进入”，即（进入，不进入）,(3)若A选择“进入”，B选择“不进入”，若A选择“不进入”，B选择“不进入”，即（不进入，进入）(4)若A选择“进入”，B选择“不进入”，若A选择“不进入”，B选择“不进入”，即（不进入，不进入）,a,106,博弈树的构成,1结(nodes)：结包括决策结(decition nodes)和终点结(terminal nodes

40、)两类。决策结是参与人采取行动的时点，终点结是博弈行动路径的终点。在博弈树中，“谁在什么时候行动”用在决策结旁边标注参与人的办法来表示。参与人的支付标注在博弈树终点结处。2枝(branches)：在博弈树上，枝是从一个决策结到它的直接后续结的连线，每一个枝代表参与人的一个行动选择。3信息集(information sets)：博弈树上的所有决策结分割成不同的信息集。每一个信息集是决策结集合的一个子集。该子集包括所有满足下列条件的决策结：(1)每一个决策结都是同一参与人的决策结；(2)该参与人知道博弈进入该集合的的某个决策结，但不知道自己究竟处于哪一个决策结。,a,107,结nodes,信息集

41、分单节信息集和多节信息集；如果用虚线匡起来表示2知道自己位于信息集内，但不知道是哪一点，因为他没能观察到对手的行动；如果博弈树的所有信息集都是单结的，称为完美信息博弈,a,108,完美信息（perfect information）与不完美信息(imperfect information),不完美信息：2不能区分1是采用了L还是S,完美信息：2能区分1是选择了L还是S,a,109,第二节子博弈精炼纳什均衡,子博弈子博弈精炼纳什均衡求解方法：逆向归纳法承诺行动与子博弈精炼纳什均衡,a,110,一、子博弈（sub-game）,子博弈定义：在一个扩展型博弈中，如果一个博弈由它的一个决策结及其所有后续

42、结构成，并满足（1）起始结是一个单结的信息结;（2）子博弈保留了原博弈的所有结构，则称它为原博弈的一个子博弈（子博弈）。,a,111,（1）起始结是一个单结的信息结,a,112,（2）子博弈保留了原博弈的所有结构：子博弈的信息集和支付向量都直接继承自原博弈,a,113,在市场进入博弈中，包含3个子博弈（包括原博弈）。而在囚徒博弈中，只有一个子博弈（？）,a,114,二、子博弈精炼纳什均衡,子博弈精炼纳什均衡定义：在博弈G中，如果s*=(s1,sn)是G的一个纳什均衡，并且对所有可能的子博弈而言仍是一个纳什均衡，则称s*=(s1,sn)为一个子博弈精炼纳什均衡,a,115,市场进入博弈的纳什均

43、衡,A,B,（进入，进入）,进入,不进入,（进入，不进入）,（不进入，进入）,（不进入，不进入）,该博弈中有三个纳什均衡：不进入，（进入，进入）进入，（不进入，进入）进入，（不进入，不进入）前两个均衡的结果(进入，不进入)，即A进入，B不进入；第二个均衡结果是(不进入，进入)，即A不进入，B进入,如果理论得到这样的结果，无助于预测博弈参与人的行为。此外，纳什均衡假定，每一个参与人选择的最优战略是在所有其他参与人的战略选择给定时的最优反应，即参与人并不考虑自己的选择对其他人选择的影响，因而纳什均衡很难说是动态博弈的合理解。,a,116,必须在多个纳什均衡中剔除不合理的均衡解，即所谓“不可置信威胁

44、”。子博弈精炼纳什均衡是对纳什均衡概念的最重要的改进。它的目的是把动态博弈中的“合理纳什均衡”与“不合理纳什均衡”分开。正如纳什均衡是完全信息静态博弈解的基本慨念一样，子博弈精炼纳什均衡是完全信息动态博弈解的基本概念。,不进入，（进入，进入）进入，（不进入，进入）进入，（不进入，不进入）,前边得到的三个纳什均衡中，均衡意味着当A不进入时，B选择进入；而当A选择进入时，B仍选择进入（B威胁无论如何都要进入市场）。,显然，当A选择进入时，B仍选择进入是不合理的，如果A进入市场，B选择“不进入”比选择“进入”收益要更大，理性的B不会选择进入，而A知道B是理性的，因此也不会把该战略视为B会选择的战略

45、。因此，B的战略（进入，进入）是不可置信威胁。,a,117,均衡意味着当A进入时，B选择不进入；而当A选择不进入时，B仍选择进入（B威胁无论如何都不进入市场）。显然，当A选择不进入时，B仍选择不进入是不合理的，B的战略是不可置信的。,不进入，（进入，进入）进入，（不进入，进入）进入，（不进入，不进入）,只有均衡是合理的：如果A进入，B不进入；如果A不进入，B进入。因为A是先行动者，理性的A会选择“进入”（他知道B是理性的，B不会选择“进入”），而理性的B选择“不进入”。观察博弈树上的三个均衡中，B的不可置信战略中的反应，在第二阶段B开始行动的两个子博弈中不是最优；而合理的纳什均衡中，B的

46、战略在所有子博弈中都是最优的，与A的第一阶段可能选择的行动构成该子博弈的纳什均衡。,a,118,只有当一个战略规定的行动规则在所有可能的情况下都是最优的时，它才是一个合理的、可置信的战略。子博弈精炼纳什均衡就是要剔除掉那些只在特定情况下是合理的而在其他情况下并不合理的行动规则。子博弈精炼纳什均衡：如果参与者的战略在每一个子博弈中都构成了纳什均衡，则称纳什均衡是子博弈精练的(泽尔滕，1965) 。,为简单起见，假定博弈有两个阶段，第一阶段参与人1行动，第2阶段参与人2行动，并且2在行动前观测到1的选择。令A1是参与人1的行动空间，A2是参与人2的行动空间。当博弈进入第二阶段，给定参与人1在第

47、一阶段的选择为a1 A1 ，参与人2面临的问题是：,显然参与人2的最优选择a2*依赖于参与人1的选择a1。用a2*R(a1)代表上述最优化问题的解(即2的反应函数)。因为参与人1应该预测到参与人2在博弈的第二阶段将按a2*R(a1)的规则行动，参与人1在第一阶段面临的问题是：,a,119,令上述问题的最优解为a1*。那么，这个博弈的子博弈精炼纳什均衡为a1*,R2(a1)，均衡结果为a1*,R2(a1*)。(a1*,R2(a1*)是一个精炼均衡，因为a2*R2(a1)在博弈的第二阶段是最优的。除a2*R2(a1)之外，任何其他的行为规则都不满足精练均衡的要求。上述思路就是逆向归纳法寻找子博弈

48、精炼纳是均衡的基本思路。,a,120,乙左，左左，右右，左右，右,上下,甲,a,121,纳什均衡子博弈精炼纳什均衡,三个纳什均衡：（上，左，左）（下，左，右）（下，右，右）排除（上，左，左），（下，右，右），只有（下左，右）是子博弈精炼纳什均衡,a,122,三、求解方法：逆推法,逆向归纳法求解子博弈精炼纳什均衡的过程，实质是重复剔除劣战略过程在扩展式博弈上的扩展：从最后一个决策结开始依次剔除掉每个子博弈的劣战略，最后生存下来的战略构成精炼纳什均衡。如同重复剔除的占优均衡要求“所有参与人是理性的”是共同知识一样，用逆向归纳法求解均衡也要求“所行参与人是理性的”是共同知识。,a,123,逆

49、推法：例1,a,124,逆推法：例2,a,125,逆推法：例3,a,126,四、承诺行动（commitment）与子博弈精炼纳什均衡,纳什均衡之所以不是精炼均衡，是因为不可置信的威胁存在，如父母与子女之间的博弈。如果参与人在博弈前采取措施改变行动空间或支付函数，原来不可置信威胁就变得可置信，博弈的精炼均衡就会改变；将改变博弈结果而采取的措施称为“承诺行动”完全承诺，如破釜沉舟、军事博弈不完全承诺，增加行动成本,a,127,承诺行动与博弈结果,春节前夕，某小镇上两个商铺主甲和乙同时看到一个赚钱机会：去城里贩一批鞭炮回来零售，购货款加上运输费用共5000元，如果没有竞争对手，这批货在小镇上能卖6

50、000元；但如果另一家商铺同时在小镇上卖鞭炮，价格下跌使得这批鞭炮只能卖4000元。纳什均衡是什么？假设甲先行动，商铺乙看到对方的选择后再决定是否进货，子博弈精炼纳什均衡是什么？,a,128,承诺行动与博弈结果,如果甲先行动，但在博弈开始前商铺主乙有一次行动A的机会，利用子博弈精炼均衡概念分析下述两种情况下的博弈结果：（1）A：商铺主乙逢人便说自己一定要进货，无论对方如何行动他都不会改变这个决定；（2）A：商铺主乙与某个嘲笑他说大话的第三者丙打赌：如果自己到时不进货，向丙支付1500元；如果自己到时候进货，丙向他支付100元。并且，乙将这个赌局通知甲。,a,129,a,130,开金矿博弈的基本