第三章完全且完美信息动态博弈ppt课件.ppt
《第三章完全且完美信息动态博弈ppt课件.ppt》由会员分享,可在线阅读,更多相关《第三章完全且完美信息动态博弈ppt课件.ppt(86页珍藏版)》请在三一办公上搜索。
1、第三章 完全且完美信息动态博弈,本章讨论所有博弈方都对博弈过程和得益完全了解的完全且完美信息动态博弈。这类博弈也是现实中常见的基本博弈类型。由于动态博弈中博弈方的选择、行为有先后次序,因此在表示方法、利益关系、分析方法和均衡概念等方面,都与静态博弈有很大区别。本章对动态博弈分析的概念和方法,特别是子博弈完美均衡和逆推归纳法作系统介绍,并介绍各种经典的动态博弈模型。,本章主要内容,3.1 动态博弈的表示法和特点3.2 可信性和纳什均衡的问题3.3 子博弈和子博弈完美纳什均衡3.4 几个经典动态博弈模型3.5 有同时选择的动态博弈模型3.6 动态博弈分析的问题和扩展讨论,3.1 动态博弈的表示法和
2、特点,3.1.1 阶段和扩展性表示3.1.2 动态博弈的基本特点,3.1.1 阶段和扩展性表示,阶段:动态博弈中一个博弈方的一次选择行为,节点或信息集终点,例子:仿冒和反仿冒博弈,3.1.2 动态博弈的基本特点,策略是博弈方在整个博弈中轮到选择的每个阶段,针对前面阶段的各种情况作相应选择和行为的完整计划以及由不同博弈方的这种计划构成的组合。结果包括双方(或多方)采用的策略组合、实现的博弈路径以及各博弈方的得益。得益对应每条路径,而不是对应每步选择、行为。动态博弈的非对称性先后次序决定动态博弈必然是非对称的。后行为的博弈方有更多的信息,处于较为有利的地位,但是,有时先选择、行为的博弈方反而有利,
3、有“先行优势”。,案例一红色算我赢,黑色算你输 摘自策略思维,巴里毕业的时候,为了庆祝一番,参加了剑桥大学的五月舞会(这是英国版本的大学正式舞会)。庆祝活动的一部分包括在一个赌场下注。每人都得到相当于20美元的筹码,截至舞会结束之时,收获最大的一位将免费获得下一年度舞会的入场券。到了准备最后一轮轮盘赌的时候。纯粹处于一个令人愉快的巧合,巴里手里有了相当于700美元的筹码,独占鳌头,第二位是一名拥有300美元筹码的英国女子。其他参加者实际上已经被淘汰出局。就在最后一次下注之前,那个女子提出分享下一年舞会的入场券,但是巴里拒绝了。他占有那么大的优势,怎么可能满足于得到一半的奖赏呢?,为了帮助大家更
4、好地理解接下去的策略行动,我们先简单介绍一下轮盘赌的规则。轮盘赌的输赢取决于轮盘停止转动时小球落在什么地方。典型情况是,轮盘上刻有从0到36的37个格子。假如小球落在0处,就算庄家赢了。玩轮盘赌最可靠的办法就是赌小球落在偶数还是奇数格子(分别用黑色和红色表示),这种玩法的赔率是一赔一,比如一美元赌注变成两美元,不过取胜的机会只有18/37。在这种情况下,即使那名英国女子把筹码全部押上,也不可能稳操胜券;因此,她被迫选择一种风险更大的玩法。她把全部筹码押在小球落在3的倍数上。这种玩法的赔率是二赔一(假如她赢了,她的300美元就会变成900美元),但取胜的机会只有12/37。,现在,那名女子把她的
5、筹码摆在桌面,表示她已经下注,不能反悔。1、巴里应该怎么办?2、什么情况下,那名女子才有赢的可能?,案例讨论,巴里应该模仿那名女子的做法,同样把300美元筹码押在小球落在3的倍数上。那么这么做可以确保他领先对方400美元,最终赢得那张入场券:假如他们都输了这一轮,巴里将以400:0获胜;假如他们都赢了,巴里将以1300:900取胜。那名女子根本没有其他选择。她的唯一希望在于巴里先赌。假如巴里先在黑色下注200美元,她应该怎么做?她应该把她的300美元押在红色。把她的筹码押在黑色对她没有半点好处,因为只有巴里取胜她才能取胜(而她将是亚军),自己取胜而巴里失败就是她唯一的反败为胜的希望所在,这就意
6、味着她应该在红色下注。这个案例里,先行者处于不利的地位。,3.2 可信性和纳什均衡的问题,3.2.1 相机选择和策略中的可信性问题3.2.2 纳什均衡的问题3.2.3 逆推归纳法,3.2.1 相机选择和策略中的可信性问题,动态博弈中博弈方的策略是他们自己预先设定的,在各个博弈阶段,针对各种情况的相应行为选择的计划。这些策略实际上并没有强制力,而且实施起来有一个过程,因此只要符合博弈方自己的利益,他们完全可以在博弈中改变计划。我们称这种问题为动态博弈中的“相机选择”问题。,不同版本的开金矿博弈分钱和打官司的可信性,3.2.2 纳什均衡的问题,第三种开金矿博弈中, (不借-不打,不分)和(借-打,
7、分)都是纳什均衡。但后者不可信,不可能实现或稳定。结论:纳什均衡在动态博弈可能缺乏稳定性,也就是说,在完全信息静态博弈中稳定的纳什均衡,在动态博弈中可能是不稳定的,不能作为预测的基础。根源:纳什均衡本身不能排除博弈方策略中包含的不可信的行为设定,不能解决动态博弈的相机选择引起的可信性问题。,3.2.3 逆推归纳法,定义:从动态博弈的最后一个阶段博弈方的行为开始分析,逐步倒推回前一个阶段相应博弈方的行为选择,一直到第一个阶段的分析方法,称为“逆推归纳法”。 逆推归纳法是动态博弈分析最重要、基本的方法。,乙,不借,(1,0),借,乙,(1,0),(0,4),借,3.3 子博弈和子博弈完美纳什均衡,
8、3.3.1 子博弈3.3.2 子博弈完美纳什均衡,3.3.1 子博弈,定义:由一个动态博弈第一阶段以外的某阶段开始的后续博弈阶段构成的,有初始信息集和进行博弈所需要的全部信息,能够自成一个博弈的原博弈的一部分,称为原动态博弈的一个“子博弈”。,3.3.2 子博弈完美纳什均衡,定义:如果一个完美信息的动态博弈中,各博弈方的策略构成的一个策略组合满足,在整个动态博弈及它的所有子博弈中都构成纳什均衡,那么这个策略组合称为该动态博弈的一个“子博弈完美纳什均衡”。,子博弈完美纳什均衡能够排除策略组合中不可信行为选择的原因是:虽然包含不可信行为选择的策略组合可以构成整个博弈的纳什均衡,但其中的不可信行为选
9、择,至少在博弈的某些子博弈中不符合博弈方的自身利益,因而不构成纳什均衡,因此要求在所有子博弈中都是纳什均衡的子博弈完美纳什均衡,就排除了其中存在不可信行为选择的可能性,从而在动态博弈分析中具有真正的稳定性。逆推归纳法是求完美信息动态博弈子博弈完美纳什均衡的基本方法。,3.4 几个经典动态博弈模型,3.4.1 寡占的斯塔克博格模型3.4.2 劳资博弈3.4.3 讨价还价博弈3.4.4 委托人代理人理论,3.4.1 寡占的斯塔克博格模型,先后选择产量的产量竞争博弈 把古诺模型改为厂商1先选择,厂商2后选择,而非同时选择即可。,产量 得益厂商1 3单位 4.5厂商2 1.5单位 2.25,先行优势,
10、3.4.2 劳资博弈,先由工会决定工资率,再由厂商决定雇用多少劳动力。工会代表的劳方效用应该是工资率和雇佣数两者的函数, 即:u=u(W,L), w和L分别表示工资率和厂商雇佣的人数 。厂商的利润函数为: (W,L)R(L)WL由于该博弈先由工会决定工资率,然后厂商根据工会提出的工资率决定雇佣多少劳动。因此可以用逆推归纳法来分析这个博弈:先分析第二阶段厂商的选择,也就是厂商对工会选择的工资率的W的反应函数L(W)。,3.4.3 讨价还价博弈,甲乙二人分享1万元钱的三回合讨价还价博弈,不接受,出S2,不接受,出S(S10000),三回合讨价还价博弈结果的讨论,无限回合讨价还价,3.4.4 委托人
11、代理人理论,一、委托人代理人关系经济活动和社会活动中有很多委托人代理人关系,有明显的,也有隐蔽的。工厂和工人、店主和店员、客户和律师、市民和政府、基金购买者和基金管理人等都是。委托人代理人关系的关键特征:不能直接控制,监督不完全,信息不完全,利益的相关性委托人代理人涉及问题:激励机制设计、机制设计理论,委托合同设计问题等,二、无不确定性的委托人代理人模型,R(S)-w(S), w(S)-S,R(E)-w(E), w(E)-E,R(0),0,R(0),0,代理人的选择 激励相容约束:w(E)-E w(S)-S w(E) w(S)+E-S,参与约束:,参与约束,委托人的选择,数值例子,12, 2,
12、0,0,0,0,7,1,E=2, S=1,W(E)=4, w(S)=2,三、有不确定性但可监督的委托人代理人博弈,因为可监督,因此代理人报酬与成果无关,只与努力情况有关。不确定性风险由委托人承担。代理人选择同无不确定性情况。,努力:委托:0.9*20-w(E)+0.1*10-w(E)0不委托:0.9*20-w(E)+0.1*10-w(E)0,偷懒:委托: 0.1*20-w(S) +0.9*10-w(S)0不委托: 0.1*20-w(S) +0.9*10-w(S)0,四、有不确定性且不可监督的委托人代理人博弈,只能根据成果付酬,w是成果函数,而非努力程度函数。不确定性对代理人利益、选择有影响。,
13、努力:0.9*w(20)-E+0.1*w(10)-E0.1*w(20)-S+0.9*w(10-S),接受:0.9*w(20)-E+0.1*w(10)-E0,委托:0.9*20-w(20)+0.1*10-w(10)0,激励相容约束,促使代理人努力的激励相容约束、参与约束,以及委托人选择委托的条件,参与约束,对于委托人来说,就是要根据上述两个条件,以及 E、S的值,选择最佳的工资水平w(20)和w(10),或者它们的差额w(20)-w(10),五、选择报酬和连续努力水平的 委托人代理人博弈,店主和店员的问题,商店的利润 ,是均值为0的随机变量店员的负效用 , 是店员的努力机会成本为1店主采用的报酬
14、计算公式店员的得益店员期望得益为店主的得益为,参与约束:当店员风险中性时 符合其最大利益店主选择下限 代入得益公式得:期望得益为 ,易求得令 得 ,再代入参与约束得 ,求数学期望得 解得 ,则店主的最优激励工资计算公式是,3.5 有同时选择的动态博弈模型,3.5.1 标准模型3.5.2 间接融资和挤兑风险3.5.3 国际竞争和最优关税3.5.4 工资奖金制度,3.5.1 标准模型,博弈中有四个博弈方,分别称为博弈方1、博弈方2、博弈方3和博弈方4第一阶段是博弈方1和博弈方2的选择阶段,他们同时在各自的可选策略(行为)集合 和 中分别选择 和 第二阶段是博弈方3和博弈方4的选择阶段,他们在看到博
15、弈方1和博弈方2的选择 和 以后,同时在各自的可选策略(行为)集合 和 中分别选择 和各博弈方的得益都取决于所有博弈方的策略 即博弈方i的得益是各个博弈方所选择策略的多元函数,3.5.2 间接融资和挤兑风险,下一阶段,(到期,到期) (存款,存款),(提前,提前) (不存,不存),1.2,1.2,第二阶段,建立信贷保证、保险制度,对存款进行保护、保险的原因,非法集资问题,现代社会更容易引发金融、社会风险的主要是不正规的非法金融活动,如地下钱庄和非法集资等。因为非法金融活动常常通过恶意欺骗的手段吸引人们参加,用借新债还旧债的方法,而不是经营利润偿还到期资金,信用差、管理差而且缺乏保险措施,引起金
16、融风险并引发社会问题的可能性要大得多。,3.5.3 国际竞争和最优关税,厂商的得益函数为:,第二阶段厂商选择:由于企业的利润可以分为国内市场的利润和国外市场的利润之和,且国内市场的利润取决于hi和 国外市场的利润取决于ei和 ,因此企业利润最大值问题可分为下列两个最大值问题:,和,分别求导可得:,第一阶段政府选择:先把第二阶段根据厂商选择得到结果代入政府得益,再求最优化:,政府的得益函数;,3.5.4 工资奖金制度,模型假设:1.雇员i(i=1,2)的产出函数为 , 为雇员努力水平, 为随机扰动。 服从分布密度 ,均值为0的随机变量。 雇员努力的负效用函数为 ,且 。2.产量高的雇员得到高工资
17、 ,产量低的得到低工资 。3.两雇员在已知雇主宣布的工资奖金制度下,同时独立选择各自的努力程度。,雇员选择,雇主决定了工资以后,雇员同时决定努力程度:一阶条件这是雇员所选择努力程度必须满足的基本条件。,利用条件概率的贝叶斯法则:,代入得: 两雇员情况一样,对努力程度的选择也相同即: ,这样就得到:,这就是两雇员之间的静态博弈纳什均衡。 若进一步假设 ,那么,雇主选择由于雇员之间博弈的均衡是对称均衡,因此双方赢得竞赛的机会都是0.5,假设雇员能得到其他工作机会提供的得益是 ,则保证雇员接受工作的基本条件是: 此即“参与约束”。由于在雇员接受工作的前提下,雇主必然尽可能压低工资,因此约束条件可取等
18、号:,于是得到:设上述参与约束条件满足,雇主的利润函数为,雇主的期望利润为 ,因此雇主有如下的最优化问题:上述雇主决策可转化为促使雇员的努力程度满足: 一阶条件为: 代入两雇员的最优努力水平决定公式得到:,3.6 动态博弈分析的问题和扩展讨论,3.6.1 逆推归纳法的问题3.6.2 颤抖手均衡和顺推归纳法3.6.3 蜈蚣博弈问题,3.6.1 逆推归纳法的问题,1、逆推归纳法只能分析明确设定的博弈问题,要求博弈的结构,包括次序、规则和得益情况等都非常清楚,并且各个博弈方了解博弈结构,相互知道对方了解博弈结构。这些可能有脱实际的可能。2、逆推归纳法也不能分析比较复杂的动态博弈。3、遇到两条路径利益
19、相同的情况时,逆推归纳法就会发生选择困难。4、对博弈方的理性要求太高,不仅要求所有博弈方都有高度的理性,不允许犯任何错误,而且要求所有博弈方相互了解和信任对方的理性,对理性有相同的理解,或进一步有“理性的共同知识”。,3.6.2 颤抖手均衡和顺推归纳法,颤抖手均衡,(3, 3),(2, 3),颤抖手均衡的要求:,1、是一个纳什均衡。2、不能包含任何“弱式策略”,也就是偏离对偏离者没有损失的策略。,顺推归纳法,3.6.3 蜈蚣博弈问题,该博弈是说明逆推归纳法和博弈分析困难的经典博弈,案例二新加坡:高薪养廉和严厉处罚,众所周知,新加坡是世界上廉洁程度比较高的国家之一。这既得益于它的高薪养廉制度,还
20、得益于其对贪污贿赂行为的严厉处罚。 20世纪七八十年代,新加坡政府曾连续四次给公务员加薪20。1989年后,新加坡已成为世界上公务员工资最高的国家之一。如新加坡政府部长、常任秘书等级别的公务员工资,是参考该国银行家、会计师、工程师、律师、跨国企业负责人和本土制造业负责人等六种专业职务的薪水制定的。同时,政府每年还通过咨询机构调查私营企业工资水平,以保证公务员与私营企业职员的工资相差不大。2000年,新加坡部长级公务员月薪为484万新元,加上其他奖金,年收入超过100万新元,约合人民币500万元;局长级月薪为2万新元左右,年收入相当于200万元人民币;普通公务员的年收入也在八九万新元左右。 新加
21、坡对贪污受贿行为的处罚,更是雷厉风行,威慑力极大。,这从以下几个案例可见一斑。 黄循文,新加坡环境发展部原政务次长:1975年,因接受外商2000美元的旅游费,被判刑四年。 郑章远,新加坡国家发展部原部长。1986年,他的一个老朋友承认曾于1981年和1982年分别向他行贿40万元,帮助发展商取得土地。案发后,郑章远以为凭与李光耀的私交,李会压下此案。但李光耀不徇私情。郑最后畏罪自杀,他留给李光耀的信中称,自己是“用自杀来表达对新加坡法律的尊重”。 格林奈,新加坡商业事务局原局长。其在任职期间,曾因政绩显著被评为“杰出公务员”。1991年,他以购买新汽车为由向银行申请贷款,银行付款后他却没有购
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第三 完全 完美 信息 动态 博弈 ppt 课件
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-1469502.html