博弈论完全信息动态博弈ppt课件.ppt
《博弈论完全信息动态博弈ppt课件.ppt》由会员分享,可在线阅读,更多相关《博弈论完全信息动态博弈ppt课件.ppt(77页珍藏版)》请在三一办公上搜索。
1、第二章完全信息动态博弈(3),五、重复博弈重复博弈 有限次重复博弈:连锁店悖论无限次重复博弈无名氏定理无限重复博弈的例子参与人不固定时的重复博弈 不确定环境下的重复博弈,0、重复博弈,动态博弈:序惯博弈 :参与人在前一阶段的选择将决定随后的子博弈的结构。 重复博弈 :是指同样结构的博弈重复多次,其中的每次博弈称为阶段博弈。 重复博弈的基本特征:(1)阶段博弈之间没有物质上的联系(前一阶段博弈不改变后一阶段博弈的结构);(2)所有人都观察到过去博弈的历史;(3)参与人的总支付是所有阶段博弈支付的贴现值之和或加权平均值。,在重复博弈的每个阶段博弈中,参与人可同时行动,也可不同时行动。在后一情形中,
2、每一阶段博弈本身就是一个动态博弈。影响重复博弈均衡结果的主要因素:博弈的重复次数:参与人可能为了长期利益而牺牲眼前利益从而选择不同的均衡策略。信息的完备性:当一个参与人的支付函数不为其他人所知时,该参与人可能有积极性建立一个好的声誉以换取长远利益(声誉模型)。,重复博弈的分类,根据阶段博弈的重复次数,可分为:有限重复博弈和无限重复博弈根据信息结构的出现,重复博弈可分为:(1)可观察行动的重复博弈:连锁店悖论、重复囚徒困境博弈、古诺寡头垄断重复博弈等;参与人不确定时的重复博弈(2)不完美信息重复博弈:双寡头重复博弈:厂商观察到每期的市场价格下选择产量,但不知道对手的产量;重复合伙关系:参与人观察
3、到实现的产出但不知对方的努力水平。,1、有限次重复博弈,(1)市场进入阻挠博弈通常,进入门槛越低的行业,其平均利润率越低。一种解释是,在位者为了阻止潜在进入者的进入,主动放弃高定价,选择较低的竞争性价格(以此表示自己是低成本),从而阻止潜在进入者进入。另一种解释是,潜在进入者只要看到有利可图,由于其进入成本低,就将进入该行业。,进入阻挠博弈,模型设定:一个新企业(进入者)想进入被垄断企业(在位者)所把持的市场。进入者有两种策略可选择:进入还是不进入;在位者也有两种策略:默许还是斗争。设进入前垄断利润为300,进入之后寡头利润为100,进入成本为10,进入后双方争斗时利润均为0。该博弈有两个纯策
4、略纳什均衡(默许,进入)和(斗争,不进入)。,市场进入阻挠博弈的子博弈精炼纳什均衡,在单阶段博弈中,唯一的子博弈精炼纳什均衡结果是在位者默许,潜在进入者选择进入。,有限重复次的市场进入阻挠博弈,现在假定同样的市场有100个(理解为在位者有100家连锁店),进入者每次进入一个市场,博弈就变成了100次重复博弈。在位者是否可以以斗争来威胁以阻止潜在进入者进入?在有限次重复博弈中,斗争并不是一个值得置信的威胁。,连锁店悖论,首先考虑第100个市场,在博弈最后阶段,斗争已没有任何意义,在位者将默许,进入者将选择进入。再考虑第99个市场,因为不论在位者选择什么行动,第100个市场的均衡结果不受影响,在位
5、者的最优选择仍然是默许。如此一直倒推回去,得到该博弈的唯一的子博弈精炼纳什均衡是在位者在每一个市场上都选择默许,进入者在每一个市场上选择进入。其他的纳什均衡如“在位者总选择斗争,进入者总选择不进入”,但不是子博弈精炼的。,(2)有限次重复囚徒困境博弈,在有限次重复囚徒困境博弈同样如此,“总是坦白”是唯一的子博弈精炼纳什均衡。,定理,定理:令G是阶段博弈,G(T)是G重复T次的重复博弈(T)。那么,如果G有唯一的纳什均衡,则重复博弈G(T)的唯一子博弈精炼纳什均衡是阶段博弈G的纳什均衡重复T次(即每个阶段博弈出现的都是一次性博弈的均衡结果)。G有唯一的纳什均衡是必不可少的条件。,例:有两个纯策略
6、纳什均衡的重复博弈,在单阶段博弈中有两个纯策略纳什均衡(L1,L2)和(R1,R2)。现考虑两阶段重复博弈情形。在子博弈精炼纳什均衡中,参与人能否在第一阶段实现合作(M1,M2),使其收益最大化?,预期,若参与人均有这样的预期,若第一阶段出现合作(M1,M2),则第二阶段预期的纳什均衡是(R1,R2),若第一阶段出现其他结果,则第二阶段预期的纳什均衡是(L1,L2)。考虑策略:参与人1(2)在第一阶段首先选择M1(M2);在第二阶段,若第一阶段的博弈结果是(M1,M2),则第二阶段选择合作的纳什均衡策略R1( R2),否则选择惩罚的纳什均衡策略L1 (L2)。该策略是一个子博弈精炼纳什均衡。,
7、两个阶段,模型启示,上述模型说明,对将来行动所作的可信的威胁或承诺可以影响当前的行动。上述模型亦表明,子博弈精炼的概念对可信性的要求并不严格。因为参与人会认为,过去的反正已经过去,即使第一阶段双方未能合作,在第二阶段选择较低的纳什均衡(1,1)也是一种愚蠢的行为。故参与人没有动机在第二阶段实施惩罚行为。,参与人没有动机在第二阶段实施惩罚,参与人有动机实施惩罚的例子,第二阶段,第二阶段预期策略(可视为一种谈判协议):若第一阶段出现合作(M1,M2)或(x,y), 这里x、y分别是除M1、M2外的任何策略,则第二阶段结果为(R1,R2);若第一阶段出现(M1,y),y是除M2外的任何策略,为(P1
8、,P2);若第一阶段出现(x,M2),x是除M1外的任何策略,为(Q1,Q2)。,第一阶段,((M1,M2),(R1,R2))是重复博弈的子博弈精炼均衡结果,且是帕累托最优的。 而((R1,R2),(R1,R2))、((L1,L2),(L1,L2))也是子博弈精炼均衡结果。,评析,G中纳什均衡的唯一性是一个重要条件:当阶段博弈有多个纳什均衡时,在博弈最后阶段,参与人可以使用不同的纳什均衡惩罚第一阶段的不合作行为或奖励第一阶段的合作行为。,解开连锁店悖论的方法,解开连锁店悖论的办法之一是引入信息的不完全性(声誉模型)。解开连锁店悖论的办法之二是引入无限重复博弈(或以某一概率随机地确定是否继续开张
9、新的连锁店)。当博弈重复无限多次时,存在着完全不同于一次博弈的子博弈精炼纳什均衡。,2、无限次重复博弈与无名氏定理,(1)无限重复囚徒困境博弈与有限次重复博弈不同,即使在每个阶段中有唯一纳什均衡的无限次重复博弈也存在多重纳什均衡。例如,在无限重复囚徒困境博弈中,单阶段博弈中不可能实现的合作也能作为子博弈精炼纳什均衡的结果出现。重复博弈的特点是参与人在每一阶段的行动空间和支付函数是完全一样的,新均衡的出现在于参与人的选择基于他们之前阶段获得的信息。,无限次重复囚徒困境博弈的冷酷策略,“冷酷策略(grim strategies)”,又称“触发策略(trigger strategies) ,是指:开
10、始选择抵赖(合作),然后一直选择抵赖(合作),直至有一方选择坦白(背叛),然后永远选择坦白(背叛)。,只要参与人有足够耐心(贴现因子1/8,这里=1/(1+r),r为贴现率),每一阶段(抵赖,抵赖)是一个子博弈精炼纳什均衡结果,双方都坚持“冷酷策略(触发策略)是一个子博弈精炼纳什均衡。,纳什均衡,首先,(冷酷策略,冷酷策略)是一个纳什均衡。给定对方选择冷酷策略,选择冷酷策略对自己是最优的:给定对方坚持冷酷策略(1/8) ,自己不会选择首先坦白;给定对方坚持冷酷策略,一旦某方选择坦白,由于对方将坚持坦白,因而自己坚持冷酷策略永远坦白也是最优的。,子博弈精炼纳什均衡,其次,(冷酷策略,冷酷策略)是
11、子博弈精炼的纳什均衡。将子博弈划分为两类:(1)类型A,没有任何参与人曾经坦白(与原博弈相同);(2)类型B,至少有一个参与人曾经坦白。在类型B中,冷酷策略要求参与人只是重复单阶段博弈的纳什均衡,自然也是整个子博弈的纳什均衡。,其他,但该博弈还有许多其他子博弈精炼均衡,例如,参与人在每一个阶段都选择坦白。针锋相对策略(tit-for-tat strategy)(又称投桃报李,一报还一报,以牙还牙):1)每个参与人开始选择抵赖(合作);2)然后,在阶段t,简单地重复t-1阶段对手的行动。若贴现因子为1,该策略是否是子博弈精炼的纳什均衡策略?,分析,若囚徒B选择针锋相对策略:首先,囚徒A没有激励在
12、开始时选择坦白(即囚徒B的针锋相对策略在均衡路径上是最优的)。其次,如果囚徒A开始时选择坦白,囚徒B对其进行惩罚是不理性的行为(即囚徒B在非均衡路径上不是最优的)。因此,针锋相对策略不是一个子博弈精炼纳什均衡策略。,无名氏定理,无名氏定理(弗里德曼,1971):令G为一个n人阶段博弈,G(,)为以G为阶段博弈的无限次重复博弈,a*是G的一个纳什均衡(纯策略或混合策略),e=(e1, e2, , en)是a*决定的支付向量,v=(v1, v2, , vn)是一个任意可行的支付向量,V是可行的支付向量的集合。那么,对于任何满足viei的vV,存在一个因子*1使得对于所有的*,v=(v1, v2,
13、, vn)是一个特定的子博弈精炼纳什均衡结果。,囚徒困境博弈中的可行支付集,子博弈精炼均衡可达到的可行集,(2)古诺寡头垄断的无限重复博弈,在古诺寡头垄断重复博弈中,某种形式的合谋就有可能作为均衡结果出现。考虑冷酷策略:首先选择生产qi=qM/2(qM表示垄断情形下的最优产量);继续选择qi=qM/2,直到有一个企业选择qjqM/2,然后永远选择qi=qic(qic表示企业i的古诺均衡产量)。如果:,即当9/17,则默契合作(合谋)将是一个子博弈精炼均衡结果。,特别地,对任何q*qM/2, qic都是冷酷策略精炼纳什均衡的一个特定结果。设想参与人选择如下冷酷策略:首先选择生产qi= q*;继续
14、选择qi= q*,直到有一个企业选择qjq*,然后永远选择qi=qic(qic表示企业i的古诺均衡产量) 。则当以下条件满足时,企业i没有积极性偏离q*:,其中,于是,只要又因对任何q*qM/2, qic都有:,故当9/17时,对任何的i*ic, M/2都将是一个子博弈精炼均衡结果。,当9/17时,若触发策略是一个子博弈精炼纳什均衡,则寡头公司的产量q*将满足:,当9/17时,q*下限接近于(a-c)/4,当 0时,q*下限接近于古诺产量(a-c)/3。,古诺重复博弈的可行集合,时间偏好性与博弈结束不确定性解释,无名氏定理意味着在无限次重复博弈中,对任何满足个人理性的可行的支付向量都可以通过一
15、个特定的子博弈精炼纳什均衡得到。在上述分析中,一直被解释为参与人时间偏好的变量,也可用来解释博弈在某个时间结束的不确定性。设博弈在某个阶段结束的概率为p,则博弈达到阶段t的概率为(1-p)t-1,于是参与人在阶段t的期望支付现值为t-1(1-p)t-1t,这可以完善无名氏定理:如果博弈重复无限次或每次结束的概率足够小,并且充分接近于1,则任何个人理性的可行支付向量都可以作为子博弈精炼均衡结果出现。,(3)无名氏定理的扩展,Fudenberg-Maskin证明,无名氏定理中的纳什均衡支付e=(e1, e2, , en)可用其保留支付v=(v1, v2, , vn)代替,表示参与人i可能受到的最大
16、惩罚支付。,古诺重复博弈的最大可行集合,胡萝卜加大棒,Abreu(1986)证明,即使不够大,如果使用最严厉(使不合作者得到最低可能支付)的可信惩罚(是子博弈精炼均衡)则能保证最大可能的合作策略。考虑古诺模型中的“胡萝卜加大棒”策略:首先选择生产qi=qM/2(qM表示垄断情形下的最优产量);在阶段t,如果两个企业在时期t-1都生产qM/2或x,继续生产qM/2,否则生产x,这里x为最大惩罚产量(大于古诺均衡产量)。,在合作子博弈中,参与者愿意合作,则:M /2 +/(1-) M/2d+V(x)其中,V(x)=(x)+/(1-) M/2即:M /2 +M/2d+(x)等价于:M/2 - (x)
17、 d - M /2 由(x) = (a-c-2x) x,d = 9(a-c) 2 /64,取=1/2,得:x(a-c)/8 或 x3(a-c)/8。在惩罚子博弈中,企业愿意执行惩罚产量,则:V(x) dp(x)+V(x)由dp(x) = (a-c-x) 2 /4,即得: 3(a-c)/10 x(a-c)/2,从而可得,当=1/2时, “胡萝卜加大棒”策略能保证垄断利润作为子博弈精炼均衡结果出现,条件是惩罚产量x满足:,虽然惩罚是一把双刃剑,但严厉的目的是阻止不合作行为的发生(处罚必须可信),惩罚实际并不发生。法律威信关键在于违法必究,否则,再严厉的法律也没用。市场经济中的信用问题:,无名氏定理
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 博弈论 完全 信息 动态 博弈 ppt 课件
链接地址:https://www.31ppt.com/p-1405636.html