完全且完美信息动态博弈a.ppt
《完全且完美信息动态博弈a.ppt》由会员分享,可在线阅读,更多相关《完全且完美信息动态博弈a.ppt(68页珍藏版)》请在三一办公上搜索。
1、第三章 完全且完美信息动态博弈,完全得益完美过程动态先后请考虑以下问题:(1)是不是信息越多越有利?(2)过程是否重要?(3)动态博弈与静态博弈有哪些异同之处?(4)人们对已经过去的博弈是更注重结果还是更注重过程?其意义何在?,第三章 完全且完美信息动态博弈,可信性问题子博弈逆推归纳法有同时选择的两阶段动态博弈,3.1 可信性问题,在动态博弈中,由于过程十分重要,类似于对未来过程的了解,它本身依赖于其它博弈方的行为。那么就存在一个对其博弈方所可能采取策略的可信性问题。可信性:动态博弈中先行为的博弈方是否应该相信后行为博弈方会采取某种策略或行为。后行为博弈方将来采取对先行为博弈方有利的行为为“许
2、诺”,采取对先行方不利的行为为“威胁”。,3.1.1开金矿,条件:甲去开采一价值4万元的金矿,缺1万元,乙恰好有1万元可以投资。甲向乙借1万元可以可开金矿,并“许诺”成功后与对半分成。问题:乙是否该借钱给甲?,3.1.1开金矿,可能性 即甲可能成功之后不与乙分钱(分当然好),则乙损失1万元。由此,乙决策的关键在于他是否相信甲的“许诺”,而结局取决于甲是否遵守他的“许诺”。接下来乙可采取一些方法以使甲尽可能兑现他的许诺打官司。,3.1.1开金矿,根据自身利益最大化 原则,甲在轮到行为 时的唯一选择是不分,而乙清楚甲的行为准 则,则选择不借。对乙来讲,本博弈中甲有一个不可信的肯定不会信守的许诺。怎
3、样使甲的许诺变为可信的呢?关键在于必须增加一些对甲行为的约束。结点,信息集,3.1.1开金矿,若乙采取法律手段,即打官司保护自己的利益,则博弈进程如下图所示。,3.1.1开金矿,在本博弈中,乙的唯一选择是打官司,对甲来讲,乙打官司的威胁是可信的,是肯定会信守的,他最理智的选择就是分。即,乙的策略是在第一阶段借,如甲在第二阶段选择不分,则第三阶段选择打;甲的策略是如乙在第一阶段选择借,则他在第二阶段选择分。在双方这样的策略组合下,本博弈的路径是(借,分),双方得益为(2,2),实现有效率的理想的结果。,3.1.2 先来后到,在此博弈中,后进入者博弈方1要决定是否进入市场竞争,而先进入市场的博弈方
4、2有打击和不打击两种选择。,3.1.2 先来后到,根据利润最大化原则,博弈方2的唯一选择是无情打击对手,这时博弈方2的打击的威胁是可信的。了解博弈方2决策原则的博弈方1在第一阶段只会选择不进。该博弈的结果为(0,10),即先占领市场者独享利润。,3.1.2 先来后到,当得益变成右图情况以后,博弈方2的打击的威胁就不再是可信的了。这样,博弈方1在第一阶段的合理选择当然只有进。博弈的结果选择路径为(进,不打击),双方得益为(5,8)。后进者信息多,但利润不如先进入者。后来者不一定总是从前者利益中分出一部分,而可能创造更大的总利益,而先进入者的损失也不一定很大。,3.2 子博弈和逆推归纳法,动态博弈
5、中的子博弈逆推归纳法子博弈完美纳什均衡寡占的斯塔克博格模型工会和厂商的博弈讨价还价博弈,3.2.1 动态博弈中的子博弈,定义:子博弈即能够自成一个博弈的某个动态博弈的从其某个阶段开始的后续阶段,它必须有一个初始信息集,且具备进行博弈所需的各种信息。,3.2.1 动态博弈中的子博弈,注意:原博弈的初始节点开始的博弈为原博弈本身,不称它为原博弈的子博弈;第五章将说明在不完美信息博弈中有其它的不作为子博弈的起始信息集的 节点。,3.2.2 逆推归纳法,在动态博弈中如何求解?动态博弈的特点是:在采取某一种决策时必须对其后可能进行的子博弈有充分的了解,这样才能很好的进行博弈并得到合理的结果(基于理性和可
6、信性,相当于对后博弈行为的合理假设)。由此,对于完全且完美信息的动态博弈其基本求解方法可由最后阶段的子博弈逆推来决定采取合适的策略逆推归纳法。,3.2.2 逆推归纳法,定义:逆推归纳法就是从动态博弈的最后一个阶段或最后一个子博弈开始,逐步向前倒推以求解动态博弈的方法。例,3.2.2 逆推归纳法分金币,案例:5个海盗抢到了100颗宝石,每一颗都一样的大小和价值连城。他们决定这么分:1.抽签决定自己的号码(1,2,3,4,5)2.首先,由1号提出分配方案,然后大家5人进行表决,当且仅当超过半数的人同意时,按照他的提案进行分配,否则将被扔进大海喂鲨鱼。3.如果1号死后,再由2号提出分配方案,然后大家
7、4人进行表决,当且仅当超过半数的人同意时,按照他的提案进行分配,否则将被扔入大海喂鲨鱼。4.以次类推条件:每个海盗都是很聪明的人,都能很理智的判断得失,从而做出选择问题:第一个海盗提出怎样的分配方案才能够使自己的收益最大化,3.2.2 逆推归纳法分金币,逆推过程:1 2 3 4 5 0 100 99 1 0 97 0 2 1 97 0 1 0 2结果:(97,0,1,0,2),3.2.2 逆推归纳法动态规划,动态规划的理论基础是最优性原理。它是一种解决多阶段决策(序贯决策)过程最优化的一种数学方法。应用:最优路径问题、资源分配问题、生产调度、库存、装载、排序、设备更新、最优工艺等,3.2.2
8、逆推归纳法动态规划,它认为整个过程的最优策略有这样的特点:即无论过去的状态和决策如何,对于前面的决策所形成的状态而言,余下的诸决策必定构成最优策略。这就是说,任何一个完整的最优策略的子策略总是最优的。根据这个重要的原理,用动态规划方法求解一个优化问题首先应把问题的过程分成几个相互联系的阶段,这些阶段的状态可以用阶段的某种特征来描述,而决策过程可以通过状态的演变来说明。于是就可以根据问题的实际意义,找出由一个状态演变到另一状态的状态转移方程,再根据所求问题的有关效益指标,建立起能够联系局部与全局最优性的动态规划基本方程。,3.2.3 子博弈完美纳什均衡,在动态博弈中由于博弈过程是逐步深入的,这一
9、过程由每个阶段所采取的策略构成,由此引出“路径”的概念。路径:从第一阶段开始通过每阶段一个行为,最后达到博弈结束的一个终端各博弈方的行为组合。找到了路径也就找到了一个分阶段的策略组合,这一策略组合恰似一个完整的计划,计划的最终实现取决于过程中各阶段的实现。,3.2.3 子博弈完美纳什均衡,在开金矿案例中,策 略组合(借,分)是 一个稳定的策略组合,因为如果不分,则有 乙打官司的威胁,这 是双方都不愿得到的结果。“稳定”意味着博弈方都不会单独 改变策略,这恰似纳什均衡的概念。,3.2.3 子博弈完美纳什均衡,由于动态博弈与静态博弈有较大的差异,那么如何才能使静态博弈中的纳什均衡在动态博弈中亦有相
10、应的概念发展?以开金矿为例(注意此例与以前开金矿例子的差异),3.2.3 子博弈完美纳什均衡,此时打官司对乙亦无好处(此情况在现实中可能出现)。在此情况中,逆推可以得出乙不借,原因在于乙在第三阶段打官司的威胁是不可信的。由此导致甲在第二阶段分的许诺也变为不可信。结局是,甲开不成金矿,乙保本,甲失去挣钱的机会。,3.2.3 子博弈完美纳什均衡,如果按照静态博弈的分析方法,则(借,分,打)的策略组合为一个纳什均衡,因为任何一方都不会单独改变策略而降低自己的得益。这与逆推归纳法得到的结论相矛盾,原因在于路径(借,分)的纳什均衡策略组合包含了一个不可信的威胁,即乙在第三阶段会选择打官司的行为是不可信的
11、。,3.2.3 子博弈完美纳什均衡,由此需要对静态博弈中的纳什均衡的概念有所调整,即应满足:是纳什均衡,从而具有策略稳定性不能包含任何的不会信守的许诺或威胁 这样的动态博弈策略组合称为子博弈纳什均衡。,3.2.3 子博弈完美纳什均衡,定义(Selten塞尔顿):如果动态博弈中各博弈方的策略在动态博弈本身和所有子博弈中都构成一个纳什均衡,则称该策略组合为一个“子博弈完美纳什均衡”。,3.2.3 子博弈完美纳什均衡,注意,用逆推归纳法所得到的解应为子博弈完美纳什均衡。动态博弈所应注意的两点:要求各博弈方的策略对每阶段每种可能的情况都设定一个行为方案。其意义在于避免出现不会信守的许诺或威胁,从而使子
12、博弈完美纳什均衡可以用。假定所有博弈方都是理性的且不会犯错误的。,3.2.3 子博弈完美纳什均衡,与实际情况的差异:后续可能性太多而无法分析,于是考虑仅知道有限后续阶段的情况?许诺有限非理性,如何考虑?比如假设非理性的次数小于等于k?下棋K叉树算法博弈构成的“长短”与稳定性,不可预测性等,3.2.4 寡占的斯塔克博格模型,它是古诺模型在动态博弈中的体现例如,在古诺模型中二厂商同时决定产量q1,q2,Q=q1+q2,市场出清价格P=8Q,边际成本C1=C2=2。解得q1*=q2*=2,总得益为4+4=8。,3.2.4 寡占的斯塔克博格模型,然而,许多实际问题为各厂商进入市场有先后,尤其是厂家有强
13、弱之分,且后一厂商(跟随者)在决策时是看着前一厂商的选择的,由此引出斯塔克博格模型。斯塔克博格模型与古诺模型相比,唯一的不同是前者有一个选择的次序问题,其他如博弈方、策略空间和得益函数等完全都是相同的。,3.2.4 寡占的斯塔克博格模型,设两寡头为厂商1和厂商2;他们的策略空间(q1、q2的集合)都是0,Qmax)中的所有实数,其中Qmax可看做不至于使价格降到亏本的最大限度产量,或者是该产量与厂商生产能力之间的最大值;厂商1为先进入企业,设价格函数,边际生产成本,固定成本为零。,3.2.4 寡占的斯塔克博格模型,则两厂商的得益函数分别为:注意此时策略空间为连续变量,所以利用反应函数的方法和逆
14、推归纳法结合来求解。解得q1*=3,q2*=1.5,双方收益分别为4.5,2.25。以上分析是基于二厂商都很理性的情况下得到的均衡解。,3.2.4 寡占的斯塔克博格模型,以上模型说明:在信息不对称的博弈中,信息较多的博弈方(如厂商2决策之前已知厂商1的实际选择,因此他有较多的信息)不一定能得到较多的得益。原因:先行为或信息较少者认为后行为方或知识较多者作为理性的博弈方,不可能为了公平或赌气而采取任何对双方不利的行为,从而先发制人选择比同静态决策时更大的产量而获得利益和好处。,3.2.5 工会与厂商的博弈,Leontief1964年提出的一个工会与厂商之间关于工资与雇佣的博弈模型。条件:假设完全
15、由工会决定工资,而厂商则根据工资的高低来决定雇佣工人的数量。注意,此时应有一个均衡解,原因在于工资过高则雇佣的人数就会减少;而如果人数过多的,则工资过少亦非工会的希望,那就一定会存在一个较合适的值,促使工资和人数都比较合适。,3.2.5 工会与厂商的博弈,工会的目标就是求出适合的工资和人数,其效用函数应为工资W和人数L两者的函数,工会的的决策就是如何选择W*,使厂商关心的只有一个目标,即利润最大化。用逆推归纳法来求解,注意到此处只给出了示意性函数,在实际问题上可以构造对应的函数,并可得到相应的工会的无差异曲线。,3.2.5 工会与厂商的博弈,先由工会决定工资率,再由厂商决定雇用多少劳动力,3.
16、2.6 讨价还价博弈三阶段讨价还价博弈,条件:两个人就如何分割1万元进行谈判,规则如下图所示,3.2.6 讨价还价博弈三阶段讨价还价博弈,每个阶段包括一方提出一个方案和另一方选择是否接受该方案。每个阶段的费用(如谈判成本,利息等)导致收益减少,折扣率为,01 过程(阶段):1.甲S1,乙10000-S1;乙接受则终止,否则进行阶段二 2.甲S2,乙10000-S2;甲接受则终止,否则进行阶段三 注意此时甲的收益为 S2,乙为(10000-S2)3.甲S,乙10000-S,此时乙必须接受。收益分别为2S,2(10000-S),3.2.6 讨价还价博弈三阶段讨价还价博弈,注意此博弈的条件:,(1)
17、第三阶段的收益是必须接受的。(2)过程越长,双方的收益之和越小。由此,如果双方是理性的话,则选择合适的时期及早结束谈判则对双方都有利。,(2S,2(10000-S),(S2,(10000-S2),(S1,10000-S1),出S2,3.2.6 讨价还价博弈三阶段讨价还价博弈,用逆推归纳法来进行求解-第三阶段的收益2S和2(10000-S)对于双方都是知道的。于是第二阶段乙应该使自己的利益最大而不进行第三阶段(即甲也接受),那么乙应该如何出价呢?-如果出S2后,甲的收益小于第三阶段的收益,则甲会进行第三阶段。于是乙的策略就是第二阶段使甲的收益不少于甲在第三阶段的收益而使自己的收益最大(比第三阶段
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 完全 完美 信息 动态 博弈
链接地址:https://www.31ppt.com/p-6043777.html