博弈论经典课件.ppt
博弈论,1,参考书目:,博弈论基础,罗伯特吉本斯,高峰译 中国社会科学出版社,1999年3月策略-博弈论导论,乔尔沃森,费方域,赖丹馨译,上海人民出版社,2010年11月经济博弈论(第二版),谢枳予 复旦大学出版社,2002年1月,2,主要内容,第一章 完全信息静态博弈第二章 完全信息的动态博弈第三章 非完全信息静态博弈第四章 非完全信息动态博弈,3,在所有社会,人们经常互动。互动有时是合作,有时是竞争。在这两种情况下,都可以用一个术语,即相互依赖性来表示一个人的行为对另外一个人的福利造成的影响。相互依赖的情形可称为策略环境。因为人们为了确定所采取的最优行动,必须考虑他周围的其他人会怎样选择行动。博弈就是策略对抗,博弈的定义,4,定义:博弈就是一些个人、队组或其他组织,面对一定的环境条件, 在一定的规则下,同时或先后,一次或多次,从各自允许选择的行为或策略中进行选择并加以实施,各自取得相应结果的过程。四个核心方面 博弈的参加人(Player)博弈方 各博弈方的策略(Strategies)或行为(Actions) 博弈的次序(Order) 博弈方的得益(Payoffs),5,目前,博弈论被许多来自不同领域的专业人士使用,这些领域包括经济学、政治学、法律、生物、国际关系哲学以及数学。事实上,大多数情形即包含了冲突元素,也包含了合作的元素。我们对博弈的组成要有一个广义的理解。简而言之,博弈是策略环境的正式描述。因此,博弈论是研究相互依赖情形的正式的方法论。这里,“正式”是指一种以数学化的精确,以及逻辑上的一致见长的结构。利用正确的理论工具,我们可以研究各种情况下的行为,从而更好地理解经济中的相互作用。,6,静态博弈:所有博弈方同时或可看作同时选择策略的博弈 石头剪刀布、猜硬币、古诺模型动态博弈:各博弈方的选择和行动有先后次序且后选择、后行动的博弈方在自己选择、行动之前可以看到其他博弈方的选择和行动 弈棋、市场进入、斯坦博格型市场结构,7,完全信息博弈:各博弈方都完全了解所有博弈方各种情况下的得益不完全信息博弈:至少部分博弈方不完全了解其他博弈方得益的情况的博弈,也称为“不对称信息博弈”完美信息博弈:每个轮到行动的博弈方对博弈的进程完全了解的博弈不完美信息博弈:至少某些博弈方在轮到行动时不完全了解此前全部博弈的进程的博弈,8,约翰福布斯纳什(John Forbes Nash Jr., 1950, 1951)利用不动点定理证明了均衡点的存在,为博弈论的一般化奠定了坚实的基础。1994年约翰福布斯纳什、约翰C海萨尼以及莱因哈德泽尔腾,三人同时因为他们对博弈论的研究,所作出的突出贡献,而获得诺贝尔经济学奖。,9,三位大师主要的贡献,1950年和1951年纳什的两篇关于非合作博弈论的重要论文,证明了非合作博弈及其均衡解,并证明了均衡解的存在性,即著名的纳什均衡。从而揭示了博弈均衡与经济均衡的内在联系。泽尔腾(1965)将纳什均衡概念引入了动态分析,提出了“精炼纳什均衡”概念。海萨尼发展了刻画不完全信息静态博弈的“贝叶斯纳什均衡”(19671968)。泽尔腾和海萨尼进一步将纳什均衡动态化,加入了接近实际的不完全信息条件。他们的工作为后人继续发展博弈论,提供了基本思路和模型 。,10,第一章 完全信息静态博弈,1.1 基本理论: 博弈的标准式和纳什均衡1.2 应用举例1.3 混合策略和均衡的存在,11,1.1 基本理论: 博弈的标准式和纳什均衡,例1 儿童游戏:“石头、剪刀、布”。参与人:1,2。策略空间:S1 = S2 = 石头、剪刀、布收益:两人出手的函数u1 (石头,石头) = 0, u1 (石头,剪刀) = 1, u1 (石头,布) = -1u2 (石头,石头) = 0, u2 (石头,剪刀) = -1,u2 (石头,布) = 1,12,博弈的标准式表示 (normal-form representation)(1) 参与人 ( player). n 个参与人:1, 2, , i, , n (2) 策略 (strategy). 一个参与人的策略是他采取的一个行动。 参与人 i 的策略:si 参与人 i 的策略空间: Si 策略的一个组合: s =s1,s2, , sn 简化表示:s- i= s1,, s i -1, s i+1, , sn (3) 收益 (payoff). 参与人 i 的收益:ui= ui(s1,s2, , sn)n 个参与人博弈的标准形式表示: G = S1, S2, , Sn;u1, u2, , un,13,博弈标准式特例:,s11 s12 s13,参与人1,参与人2s21 s22,S1=s11, s12, s13 S2=s21, s22,收益表(Payoff):两个参与人,有限个战略的博弈的表示方法,14,石头剪刀布,石头 剪刀 布,P1,P2,15,囚徒1的考虑:无论对方选沉默还是招认,自己选“招认”好于“沉默”。囚徒2的考虑: 无论对方选什么,“招认”好于“沉默”。两人的选择: (招认,招认)。,囚徒 2沉默 招认,沉默 招认,例 囚徒困境 (The Prisoners Dilemma),囚徒1,占优,16,17,每一个博弈都是一个你中有我,我中有你的情形,不同的博弈参与者可以选择不同的行动,但由于相互作用,一个博弈参与者的得益不仅取决于自己采取的行动,也取决于其他博弈参与者所采取的行动。博弈论的精髓在于基于系统思维基础上的理性换位思考,即在选择你的行动时,你应当用他人的得益去推测他人的行动,从而选择最有利于自己的行动。,17,鹰鸽博弈(斗鸡博弈)参与人:鹰和鸽策略:保持原方向和转向偏好:如果他们都保持原方向,就会撞车。如果都转向,就都保住了面子。如果只有对方转向,就会被称为硬汉。,鸽,鹰,18,公共财产的悲剧,19,智猪博弈,小猪,大猪,20,定义:si是si的严格劣势战略(strictly dominated),如果: ui(si,s-i) ui(si,s-i)“沉默”是“招认”的严格劣战略,囚徒 2沉默 招认,沉默 招认,囚徒1,理性的参与人不会选择严格劣策略,21,公共财产的悲剧,22,重复剔除严格劣策略,上下,参与人2左 中 右,参与人1,上下,参与人2左 中,参与人1,博弈结果(上,中),23,两人都没有严格劣策略,鸽,鹰,小猪,大猪,24,定义:s* = (s1*,sn*)是一个纳什均衡(Nash equilibrium), 如果对i,ui(si*,s i*) ui(si,s i *)纳什均衡为如下最大化问题的解 ui = ui (s1*, , si, , sn*),给定你的策略,我的策略是最好的策略给定我的策略,你的策略也是最好的策略因此没有一个参与人会轻率地偏离这个策略组合而使 自己蒙受损失,25,纳什均衡特例:,s11 s12 s13,参与人1,参与人2s21 s22,(s11*, s21*)是纳什均衡,如果 u1(s11*,s21*) u1(s12,s21*) u1(s11*,s21*) u1(s13,s21*) u2(s11*,s21*) u2(s11*,s22).,26,寻找纳什均衡的方法之一:划线法,囚徒 2 沉默 招认,沉默 招认,囚徒1,-6 ,-6,没有哪个博弈方有偏离这个预测结果的愿望,第一类决策矛盾:强烈的个人动机将导致集体的损失,27,对于策略组合S和S,如果所有的参与人相对于S都更偏好于采取S,而且至少对一个参与人来说是严格偏好的,我们就说S比S更有效率。用数学来表示,如果ui(S) ui(S)对每个参与人i都成立,并且不等式至少对一个参与人是严格成立的,那么S比S更有效率。,囚徒 2 沉默 招认,沉默 招认,囚徒1,(沉默,沉默)比(招认,招认)更有效率,28,如果不存在其他更有效率的策略组合,我们就称这个策略组合S是有效的。用数学来表示,不存在其他策略组合S对每个参与人i来说都满足ui(S) ui(S),同时对某个参与人j来说满足ui(S)ui(S) 。,囚徒 2 沉默 招认,沉默 招认,囚徒1,(沉默,沉默),(招认,沉默), (沉默,招认)都是有效的策略组合,29,寻找纳什均衡的方法之一:划线法,上下,参与人2左 中 右,参与人1,1 ,2,30,寻找纳什均衡的方法之一:划线法,上中下,参与人2左 中 右,参与人1,6 ,6,31,寻找纳什均衡的方法之一:划线法,帕特歌剧 拳击,歌剧 拳击,克里斯,性别战 (the battle of the Sexes),1 ,2,2 ,1,第二类决策矛盾:达成均衡的方式不止一种,策略不确定性有时会阻碍有效结果的获得,沟通,32,寻找纳什均衡的方法之一:划线法,鹰鸽博弈,鸽,鹰,制度、规则、行为及文化,第二类决策矛盾:达成均衡的方式不止一种,策略不确定性有时会阻碍有效结果的获得,33,现实生活中无效率均衡的例子-QWERTY的键位设计,第三类决策矛盾:习惯已经根深蒂固了,标准的键位设计(第三行以QWERTY开始)是由打字机的发明者为了防止按键卡死而修正的。对于机械打字机来说,当两个位置接近的按键同时按下的时候,会导致用来敲打色带的铅字杠杆之间发生纠结,因此发明者设计键位的原则是将那些经常连在一起使用的字母分开排列。但按键卡死在现代来说并不是一个问题。20实际30年代,August Dvorak和William Dealey通过对英语中单词运用的仔细研究,设计了一种新的键盘- Dvorak键盘,人们确信这种键盘比使用QWERTY键盘打字效率显著提高。为什么QWERTY键盘现在仍然是标准?,34,寻找纳什均衡的方法之一:划线法,公共财产的悲剧,35,寻找纳什均衡的方法之一:划线法,智猪博弈,小猪,大猪,为什么中小企业不会花钱去开发新产品?,36,协调博弈,帕累托协调博弈,帕累托上策均衡,37,5, 5,3, 0,0, 3,3, 3,鹿,兔子,猎人2,鹿,兔子,猎人1,猎鹿博弈风险上策均衡(兔子,兔子),设猎人2选抓兔子的概率为p,则猎人1选抓鹿的期望得益:5(1-p)选抓兔子的期望得益:3(1-p)+3p由 5(1-p)2/5,考虑其他博弈方可能发生错误等时,帕累托上策均衡并不一定是最优选择,需要考虑:风险上策均衡。,38,三个主要的广播电视台:A、B、C。所有这三个电视台都可以选择讲晚间新闻现场直播时间定在晚上6点或是推迟到7点,每个电视台的目标都是使他的收视率最大化。,6点,7点,C,39,缔约(contract),缔约不仅仅用于防止策略的不确定,还可以缓解共同利益和个体利益之间的冲突。即缔约为各参与者提供了一种防止无效率协调的方法。,40,让我们集中考虑z1+z2x1+y2,z1+z2x2+y1,且z1+z20的情况。这意味着各参与人的收益总和在采取(I,I)时达到最大化。(I,I)组合是这个基本博弈唯一的一个有效率的结果。问题:假设(I,I)是最好的结果,各参与人是否可以缔约,执行规定的(I,I) 组合?,基本博弈,41,只要(I,I)是一个纳什均衡,采取(I,I)的协定就是自我实施合同。而这只有当z1x1和z2x2的情况下才成立。但是,如果其中有一个不成立,那么各个参与人就无法依靠合同的自我实施去维持(I,I)的结果,他们需要第三方的加入,法庭就是作为这样一种第三方存在的。 如果一方选择了N,法庭的涉入可以在他们之间,强制进行货币收益的转移支付。,42,假设参与人知道转移的情况,那么法庭的干预就改变了参与人之间的博弈。这个新的博弈把转移的数字加到基本博弈中,显示各参与人的实际收益。这个博弈称为引发博弈(induced game)。,43,设计适当的合同,可以很容易引发有效率的(I,I)结果。只要符合z1x1+和z2 x2-的和都满足这个条件。-具体和的值自由决定。,=-3=0,44,但是,上例的最基本的条件是,法庭必须能够区分基本博弈中所有不同的结果。例如,法庭必须能够核实每个参与人在博弈中,是选择了I还是选择了N。我们称这个信息条件为完全可证实性(full verifiability)。结论:在完全可证实的条件下,存在一个合同,随着它的执行可以获得有效率的结果。不幸的是,完全可证实往往是特例,而不是通例。通常证据都不足以解释基本博弈的结果。法庭也许只能确定最终结果的好坏。好的结果意味着双方都进行了投入,坏的结果表示至少有一人没有投入。有限可证实性(limited verifiability) :法庭无法完美地对参与人的生产行为进行证实的情况。,45,在有限可证实的情况下,对博弈矩阵中的每一个单元格,规定不同的外部实施收益转移,是不可能的。即法庭无法区分(I,N),(N,I)和(N,N)。合同必须对所有这些结果规定相同的收益转移。从博弈论的角度看,这个合同中的外部实施部分只包含一个 。(见下图),46,在有限可证实的情况下,要维持(I,I)的结果很难,甚至是不可能的。例如虽然提高可以降低参与人2选择N的动机,但是又提高了参与人1选择N的动机。因此的选择必须平衡双方的动机。需要满足:z1x1+ 和 z2x2- 整理简化以后可得:x2-z2x1+x2时,存在一个同时满足这两个不等式。,47,下图所示的基本博弈为例设 =-3,得出的右下的引发博弈,其中(I,I)是纳什均衡。,下图所示的基本博弈在有限可证实的情况下,(I,I)不可能被执行。,48,(2)法庭实施违约赔偿情况下的缔约。法庭并不总是根据参与人起草的合同进行执行。事实上,美国法庭更可能根据某些法律原则,而不是根据合同的规定实施转移。在此,我们将对美国的商业环境下,对于赔偿的三个法律原则进行概括。,49,在预期利益赔偿的法律原则下,法庭要求被告转移给原告,使得原告获得在合同实现的情况下的收益。根据基本博弈,参与人1的期望收益是z1,参与人2的期望收益是z2。因此,如果参与人1违约,他被强制付给参与人2的钱数,必须使得参与人获得z2的收益。这意味着=y2-z2。类似地,如果参与人2违约,他付给参与人1的转移是=z1-y1。在引发博弈中,如果当且仅当z1x1+y2z2和z2x2+y1z1时,(I,I)是纳什均衡。不等式可以整理得:z1+z2x1+y2 和 z1+z2x2+y1它们正好是当(I,I)有效率时所满足的条件。结论:在预期利益赔偿原则下,当且仅当(I,I)是有效率的时候,(I,I)是可执行的。,50,第二种违约补偿非常适用于zi无法观察的情况。 在信赖利益损害赔偿原则下,法庭实施的转移,使得原告能够获得他在没有签署合同情况下的收益。,根据左下图,信赖利益损害赔偿意味着=y2和=-y1。引发博弈如右下图所示。注意,当且仅当z1x1+y2 和z2x2+y1时,(I,I)是引发博弈的纳什均衡。,51,违约情况下普遍采用的第三种法律原则指的是回复原状赔偿,这种原则是通过取消被告因违约而牟取的,相对于无合同情况下所增加的不当得利而得名。回复原状赔偿意味着=-x1,=x2。所得到的引发博弈形式如右下图所示。注意,当且仅当z10,z20时,(I,I)是引发博弈的纳什均衡。,52,在预期利益赔偿的法律原则下,(I,I) 能够被执行。,基本博弈,引发博弈,53,在恢复原状赔偿的法律原则下,(I,I) 能够被执行。,基本博弈,引发博弈,54,在信赖利益损害赔偿原则的法律原则下,(I,I) 不能够被执行。,基本博弈,引发博弈,55,两方严格竞争博弈(two-player, strictly competitive game)是指具有如下性质的两方博弈,对于任意两个策略组合s, sS,当且仅当u2(s)u1(s)。零和博弈是其中的一种,A B,参与人1,参与人2 A B,56,对于策略 来说,如果 是 的解,那么它就是一个安全策略,其中 参与人i采取策略si最差的得益,参与人i的安全得益水平为结论:如果一个两方博弈是严格竞争的,并且有一个纳什均衡s*=(s1*,s2*)S,那么s1*是参与人1的一个安全策略, s2*是参与人2的一个安全策略。,A B,参与人1,参与人2 A B,57,纳什均衡与重复剔除严格劣策略的关系,命题2.1:没有被剔除的唯一的策略组合是纳什均衡.命题2.2:如果策略是一个纳什均衡,它们在重复剔除严格劣策略后留下. 上述两个命题保证在进行纳什均衡分析之前先通过剔除严格劣策略简化博弈是可行的。,58,1.1 节习题与练习,1.2,TMB,L C R,59,1.3 设此博弈的纯策略纳什均衡是对于参与人1来说同理,对于参与人2因此,此博弈的纯策略纳什均衡是 且满足,60,例1 定位博弈例2 合伙人博弈-策略互补例3 犯罪与治安模型例4 古诺双头垄断模型(Cournot Model of Duopoly)例5 贝特兰德双头垄断模型(Bertrand Model of Duopoly)例6 最后要价仲裁 (Final-offer Arbitration)例7 公共财产问题,1.2 应用举例,61,例1 定位博弈帕特和克里斯为一家很大的软饮料公司工作,他们的工作是在人们喜欢的一个海滩上销售这家公司的灌装苏打饮料,他们在同一个海滩上工作,而且公司规定,必须卖一样的价格,并且承诺每卖一听饮料给他们25美分的佣金。帕特和克里斯需要作出的决定是:每天早晨要把售货棚设在哪里?,1,3,2,4,5,6,7,8,9,62,每个区域中都会有50个人想要买苏打水。如果一个售货员可以为其中区域中的所有顾客服务,他将赚的12.5美元。顾客们都会到最近的售货摊去买。,1,3,2,4,5,6,7,8,9,利润=43.75,利润=68.75,63,1,3,2,4,5,6,7,8,9,64,1,3,2,4,5,6,7,8,9,65,66,67,西方两党政治的稳定性和欺骗性,两党政治:英国保守党和工党;美国民主党和共和党。纲领越来越靠近,为什么?三个不相上下的党又如何呢?不稳定!,0,1/4,1/2,3/4,1,A,B,A,3/8,68,平面定位,每个区域两个顾客,每个顾客创造一美元的价值,69,70,例2 合伙人博弈-策略互补公司的利润是由合伙人分享公司利润:4(x+y+cxy),其中0 x,y4分别是合伙人1、2付出的努力,0c1/4是互补程度合伙人1、2付出努力的成本: x2,y2合伙人1的利润: 1=2(x+y+cxy)- x2合伙人2的利润: 2=2(x+y+cxy)- y2,71,博弈的描述: 参与人:合伙人1,合伙人2 策略:合伙人1、2付出的努力x、y 收益:合伙人1的利润 1=2(x+y+cxy)- x2 合伙人2的利润 2=2(x+y+cxy)- y2,72,合伙人1: 2(x+y+cxy)- x2一阶导数条件:2+2cy-2x=0合伙人2: 2(x+y+cxy)- y2一阶导数条件:2+2cx-2y=0,当 ui 是可微分的时候 , 纳什均衡为下列方程组的解:,= 0, i = 1, n,73,公司总利润: 4(x+y+cxy)- x2 - y2一阶导数条件:4+4cy-2x=0 4+4cx-2y=0,74,合伙人博弈的反应函数合伙人1: 2(x+y+cxy)- x2一阶导数条件:2+2cy-2x=0 x=1+cy合伙人2:2(x+y+cxy)- y2 一阶导数条件:2+2cx-2y=0 y=1+cx,75,例3 犯罪与治安模型参与人:罪犯(C),政府(G) 策略:政府选择执法的程度x0 罪犯选择犯罪的程度y0 收益:uG=-xc4-y2/x,其中-y2/x是犯罪对社会的负面效应(-y2/x随着执法治安的力度而趋于缓和),c4是执法治安的单位成本(c0) uC=y1/2/(1+xy),其中y1/2是罪犯未被逮捕时从事犯罪活动的价值,1/(1+xy)是罪犯逃逸的概率,76,政府(G): uG= -xc4-y2/x一阶导数条件: -c4+y2/x2=0罪犯(C): uC= y1/2/(1+xy)一阶导数条件:,77,例4 古诺双头垄断模型(Cournot Model of Duopoly)19世纪初,Augustin Cournot二个企业,生产产量: q1, q2,企业通过选择产量竞争,产品不存在差异,消费者并不关心从哪一家企业购买商品。市场中该产品的总供给:Q = q1 + q2 ,产品都能卖出。市场价格: P = a Q企业成本: Ci (qi) = cqi, i = 1, 2.企业利润:i (q1, q2) = Pqi Ci (qi) = (a (q1 + q2)qi cqi,78,博弈的描述: 参与人:企业1,企业2 策略:产量 qi 收益:i (q1, q2),企业 i 选择产量求 i (qi, , qj),79,一阶条件 = a c 2q1 q2 = 0 = a c q1 2q2 = 0厂商选择自己利润最大的产量q1 = q2 =解纳什均衡得 q1* = q2* =利润1 = 2 = ( a c ( + ) =,80,两厂商整体利益最大化:,总利润,Q*= (a - c)/2 ,总利润为(a -c)2/4,以两厂商总体利益最大:各生产(a - c)/4单位产量,各自得益为(a -c)2/8以自身最大利益为目标:各生产(a - c)/3单位产量,各自得益为(a -c)2/9,自由竞争的经济存在低效率的问题,政府对市场的调控、监管是必须的,81,古诺模型的反应函数,企业1对企业2产量的反应函数,企业2对企业1产量的反应函数,82,古诺模型的重复剔除严格劣策略,83,反应函数的问题和局限性,在许多博弈中,博弈方的策略是有限且非连续时,其得益函数不是连续可导函数,无法求得反应函数,从而不能通过解方程组的方法求得纳什均衡。即使得益函数可以求导,也可能各博弈方的得益函数比较复杂,因此各自的反应函数也比较复杂,并不总能保证各博弈方的反应函数有交点,特别不能保证有唯一的交点。,(a),(b),84,例5 贝特兰德双头垄断模型(Bertrand Model of Duopoly),19世纪末,Joseph Bertrand两个企业生产有差别的商品消费者对企业 i 的需求qi(pi, pj) = a pi + bpj,成本: Ci(qi) = cqi, i = 1, 2.策略 si: pi 0收益: i (pi, pj) = (a pi + bpj)( pi c),替代系数,85,若(p1*, p2*)是纳什均衡,对每个企业i, pi*满足max i (pi, pj) = max (a pi + bpj)( pi c)解得 即 p1* = p2* =,86,例6 最后要价仲裁 (Final-offer Arbitration),一个企业(firm)和一个工会(union),通过一个仲裁人决定工资。企业和工会同时提出工资: wf, wu 仲裁人有一个标准:x,选择双方提议中比较靠近x的提议:如果x ( wf + wu )/2,则 选择wu wf (wf + wu )/2 x wu 企业和工会不知道x,但知道x的分布函数F(x)和密度函数f(x)。,87,分析,wf 被选择的概率: Prob x = 1 F期望工资Ew = wf F + wu 1 F wf* 满足 wf F + wu* 1 F wu* 满足 wf* F + wu 1 F,88,双方要价的平均值一定等于仲裁者偏好方案的中值,89,双方的均衡要价以仲裁者偏好方案的期望值(即m)为中心对称,且要价之差随仲裁者偏好方案的不确定性(即2)的提高而增加。,90,例7 公共财产问题,公共财产是具有(1)没有哪个个人、企业或组织拥有所有权;(2)大家都可以自由利用。公共财产的悲剧证明:如果一种财产没有排他性的所有权,就会导致财产的过度使用、低效率使用和浪费。公海捕鱼小煤窑的过度开发,91,一个村庄,有n个村民,在公共草地上放羊。村民i放牧的羊数:gi全村的羊总数:G = g1 + . + gn一个村民养一只羊的成本:c养一只羊的价值:v(G)因为每只羊至少要一定数量的草才不至于饿死,有一个最大的可存活量Gmax当G G max, v(G) = 0当G 0, v(G) 0, v(G) 0当草地上羊很少时,增加一只羊不会对其他羊的价值有太大影响,但随着羊的不断增加,每只羊的价值将急剧下降。,92,93,假设G*G*,则vv(G*) v(G*),又因为G*/nG*,纳什均衡总饲养量大于社会最优饲养量,94,1.2 节习题与练习,1.4 对于第i个企业,其目标最大化自己的利润,即(1)两端乘以2,再减去qi*得,因为所有qi*相等,则带入(2)得到当n趋于无穷大时, qi*趋向于0, pi*趋向于边际成本c,市场趋向于完全竞争市场。,95,1.5(1)企业利润:i(q1,q2)=PqiCi(qi)=(a(q1+q2)qicqi双方都选择qm/2时,每一方的利润一方选择qm/2,另一方选择qc时,选择qm/2一方的利润为选择qc一方的利润为双方都选择qc时,每一方的利润,qm/2,qm/2,qc,qc,所以纳什均衡状态(qc ,qc ),均衡状态下每一企业的福利都比他们相互合作时下降,每一个企业都有一个严格劣策略。,96,1.5(2)令,qm/2,qm/2,qc,qc,此博弈符合要求,即纳什均衡状态是(qc ,qc ),在均衡状态下,每一企业的福利都比他们相互合作时下降,且都没有严格劣策略,q,q,97,1.6 1(q1,q2)=(a(q1+q2)q1c1q1 2(q1,q2)=(a(q1+q2)q2c2q2一阶条件 = a c1 2q1 q2* = 0 = a c2 q1* 2q2 = 0厂商选择自己利润最大的产量q1 = q2 =解纳什均衡得 q1* = ,q2* =当c1 c2 a, a+c1 2c2 , 则q2* =0, q1* =当企业间的成本有较大差异时,具有成本优势的企业将垄断整个企业,而处于劣势的企业将退出市场。,98,1.7 (1)给定对方定价c,如果自己定价是c,则利润为零;如果自己定价高于c,需求为零从而利润为零;如果自己定价低于c,利润为负。所以在给定对方定价为c,自己的最优反应是定价为c,这对于双方都成立。因此(c,c)是纳什均衡。(2)市场中的定价不可能低于c,当双方的定价都大于c时,每一方都尽可能低于对方并且无限接近对方,从而占据整个市场,从而此时没有稳定的均衡。同样一方定价高于c,另一方定价是c,也不是稳定的均衡,因为定价为c的一方倾向于定价高于c,但低于对方。所以(c,c)是唯一的纳什均衡。,99,1.8 如果有两个候选人,唯一的纯策略纳什均衡是x1*=x2*=0.5,即两候选人都聚集在中点,平分整个选票。因为两个候选人无论都在中点右侧,还是中点左侧,还是分局中点两侧,每一个候选人都倾向于比另一个候选人更接近中点以获得超过半数的选票,所以没有稳定的均衡。如果两个候选人都在中点,没有人会偏离中点,因为谁偏离中点谁将输掉,所以x1*=x2*=0.5是唯一的纳什均衡。如果有三个候选人,没有纯策略纳什均衡,100,1.3 混合策略和均衡的存在,猜硬币 (Matching Pennies),不存在纯策略纳什均衡,信念,概率,101,(1)不存在前面定义的纳什均衡策略组合(2)关键是不能让对方猜到自己策略(3)只有p=1/2, 对方无法占便宜,从而双方各选1/2作为正反面的概率也就成了一种“均衡”,p 1-p,盖硬币方选正面的期望收益 (-1)*p+1*(1-p)=1-2p盖硬币方选反面的期望收益 1*p+ (-1)* (1-p)=-1+2p,102,混合策略:在博弈 中,博弈方 的策略空间为 ,则博弈方 以概率分布 ,随机在其 个可选策略中选择的“策略”,称为一个“混合策略”,其中对 都成立,且 混合策略纳什均衡:包含混合策略的策略组合,构成纳什均衡。,103,104,该博弈无纯策略纳什均衡,可用混合策略纳什均衡分析,2, 3,5, 2,3, 1,1, 5,C,D,A,B,博弈方2,博弈方1,策略的概率一定要恰好使对方无机可乘,pApB,pC pD,105,2, 3,5, 2,3, 1,1, 5,C,D,A,B,博弈方2,博弈方1,混合策略 得益博弈方1 (0.8,0.2) 2.6博弈方2 (0.8,0.2) 2.6,期望收益,106,例:小偷和守卫的博弈,V,-D,-P,0,0,S,0,0,睡,不睡,偷,不偷,守卫,小偷,pt1-pt,守卫选择“睡”的得益:(-D)pt+S(1-pt),守卫选择“不睡”的得益:0,107,小偷和守卫的博弈,V,-D,-P,0,0,S,0,0,睡,不睡,偷,不偷,守卫,小偷,pt1-pt,小偷选择“偷”的得益:Vpg+(-P)(1-pg),小偷选择“不偷”的得益:0,pg 1-pg,108,小偷和守卫的博弈,V,-D,-P,0,0,S,0,0,睡,不睡,偷,不偷,守卫,小偷,加重对守卫的处罚:短期中的效果是使守卫真正尽职在长期中并不能使守卫更尽职,但会降低盗窃发生的概率,激励悖论:,109,加重对小偷的处罚:短期内能抑制盗窃发生率长期并不能降低盗窃发生率,但会使得守卫更多的偷懒,激励悖论:,V,-D,-P,0,0,S,0,0,睡,不睡,偷,不偷,守卫,小偷,小偷和守卫的博弈,110,性别战的混合策略纳什均衡,2, 1,0, 0,0, 0,1, 3,时 装C,足 球F,时装C,足球F,丈 夫husband,妻子wife,夫妻之争博弈的混合策略纳什均衡 策略 得益妻子wife (0.75,0.25) 0.67丈夫husband (1/3,2/3) 0.75,劣于纳什均衡的纯策略,111,3, 1,0, 2,0, 2,3, 3,1, 3,1, 1,L,R,U,M,D,博弈方2,博弈方1,两个博弈方都没有严格劣策略,(1)任何博弈方都不会采用任何严格劣策略,不管它们是纯策略还是混合策略(2)严格劣策略反复剔除法不会消去任何纳什均衡,包括纯策略纳什均衡和混合策略纳什均衡(3)如果经过反复消去后留下的策略组合是唯一的,那么一定是纳什均衡,112,当博弈方2采用纯策略L,博弈方1采用混合策略(1/2,1/2,0)时,博弈方1的得益,当博弈方2采用纯策略R时,博弈方1采用混合策略(1/2,1/2,0)时,博弈方2的得益,3, 1,0, 2,0, 2,3, 3,1, 3,1, 1,L,R,U,M,D,博弈方2,博弈方1,D策略相对于混合策略(1/2,1/2,0)为严格劣策略。,113,3, 1,0, 2,0, 2,3, 3,1, 3,1, 1,L,R,U,M,D,博弈方2,博弈方1,3, 1,0, 2,0, 2,3, 3,L,R,U,M,0, 2,3, 3,R,U,M,3, 3,博弈方2,博弈方1,博弈方1,博弈方2,114,3, 1,0, 2,0, 2,3, 3,2, 3,2, 1,L,R,U,M,D,博弈方2,博弈方1,无严格下策的情况,115,混合策略的反应函数,(r,1-r):盖硬币方选择正反面的混合策略概率分布(q,1-q):猜硬币方选择正反面的混合策略概率分布,-1, 1,1, -1,1, -1,-1, 1,猜硬币,盖硬币方,正面反面,猜硬币方正面 反面,r1-r,q 1-q,盖硬币方的收益:v1= rq(-1) + r(1-q) + (1-r)q + (1-r)(1-q)(-1)=2r(1-2q) + 2q -1盖硬币方的最优反应:如果 q 1/2 ,r =1; 如果q 1/2 , r = 0;如果q = 1/2 ,r 在0, 1中任意。,116,混合策略的反应函数,(r,1-r):盖硬币方选择正反面的混合策略概率分布(q,1-q):猜硬币方选择正反面的混合策略概率分布,-1, 1,1, -1,1, -1,-1, 1,猜硬币,盖硬币方,正面反面,猜硬币方正面 反面,r1-r,q 1-q,猜硬币方的收益:v2 = qr + q(1-r) (-1) + (1-q) r(-1) + (1-q)(1-r) =2q(2r-1) + 1 2r猜硬币方的最优反应:如果 r 1/2, q = 0; 如果r 1/2, q = 1;如果r = 1/2 , q在0, 1中任意。,117,混合策略的反应函数,r=1/2, q=1/2,猜硬币博弈,118,混合策略反应函数,2, 1,0, 0,0, 0,1, 3,时装,足球,丈夫,时装,足球,妻子,(r,1-r):妻子的混合策略概率分布(q,1-q):丈夫的混合策略概率分布,q 1-q,r1-r,妻子的收益:v1 = 2rq + (1-r)(1-q)=r(3q -1) +1 - q 她的最优反应当 q 1/3, r = 0;当 q 1/3, r = 1 ;, 当 q = 1/3, r 任意在0, 1中,,119,混合策略反应函数,2, 1,0, 0,0, 0,1, 3,时装,足球,丈夫,时装,足球,妻子,(r,1-r):妻子的混合策略概率分布(q,1-q):丈夫的混合策略概率分布,q 1-q,r1-r,丈夫的收益:v2 = qr +3 (1-q)(1-r)=q(4r -3) +3 -3r 他的最优反应:当 r 3/4, q = 0;当 r 3/4, q = 1 ;, 当 r = 3/4, q 任意在0, 1中,,120,r,q,1,1,1/3,3/4,(0,0),(1,1),(3/4,1/4):妻子(1/3,2/3):丈夫,混合策略反应函数,纳什均衡: (3/4,1/4 ), (1/3, 2/3) ;(0, 1), (0, 1);(1, 0), (1, 0).,121,122,123,124,125,最优反应曲线一共可以归结为4种情况,126,纳什均衡的存在性,纳什定理:在一个由n个博弈方的博弈 中,如果n是有限的,且 都是有限集(对 ),则该博弈至少存在一个纳什均衡,但可能包含混合策略。“每一个有限博弈都至少有一个混合策略纳什均衡”其证明主要根据是布鲁威尔和角谷的不动点定理。纳什均衡的普遍存在性正是纳什均衡成为非合作博弈分析核心概念的根本原因之一。,127,1.3 节习题与练习,1.11 首先剔除严格劣策略,得到如下博弈设参与人1选择策略T,M的概率为(p,1-p)设参与人1选择策略L,R的概率为(q,1-q)对于参与人1来说:2q+4(1-q)= 3q+2(1-q),得q=2/3对于参与人2来说:4(1-p)= 2p+3(1-p),得p=1/3所以原博弈的混合策略纳什均衡为(1/3 ,2/3 ,0), (2/3, 0 ,1/3 ),TM,L R,128,1.13 此博弈有两个纯策略纳什均衡,一个混合策略纳什均衡。 纯策略纳什均衡为:(向企业1申请,向企业2申请);(向企业2申请,向企业1申请)。混合策略纳什均衡为:,129,第二章 完全信息的动态博弈,2.1 完全和完美信息的动态博弈动态博弈(dynamic game):参与人在不同的时间选择行动。2.2 完全非完美信息二阶段博弈2.3 重复博弈2.4 有限理性和进化博弈2.5 完全非完美信息动态博弈,130,2.1 完全和完美信息的动态博弈,迪斯尼工作室的虫子的一生和梦工场的蚂蚁。卡曾伯格被迪斯尼的老板艾斯纳从派拉蒙招贤,以重振迪斯尼动画部。卡氏于1994年8月辞职。不久,艾斯纳接受了提议,于是虫子的一生进入了制作阶段。大概同时,卡氏与斯皮尔伯格等组建了梦工场。开始制作蚂蚁。两个工作室是在决定制作两部影片之后,才得知对方的决定的。迪斯尼准备在1998年感恩节期间,发行虫子的一生。而这正是梦工场原定埃及艳后的上映时间。梦工场于是决定,把埃及艳后 推迟到圣诞节。争取在虫子的一生上映之前,让蚂蚁上映。最后,蚂蚁为梦工场创造了超过0.9亿美元的利润,而虫子的一生确保了超过1.6亿美元的利润。,131,K,E,K,K,f,g,h,l,m,L,S,P,N,P,N,P,N,R,N,a,b,c,d,e,扩展型:节点表示博弈过程中事件的发生点,分支表示参与人能够选择的不同行为方案。a称为初始点,a,b,c,d,e称为决策点。f,g,h,l,m,n称为终止点,表示博弈的结果。,n,132,K,E,K,K,f,g,h,l,m,L,S,P,N,P,N,P,N,R,N,a,b,c,d,e,n,信息集:参与人在博弈中的决策节点所拥有的信息。每个信息集