第12章精炼贝叶斯Nash均衡ppt课件.ppt

上传人：小飞机

文档编号：1353960

上传时间：2022-11-13

格式：PPT

页数：65

大小：470KB

《第12章精炼贝叶斯Nash均衡ppt课件.ppt》由会员分享，可在线阅读，更多相关《第12章精炼贝叶斯Nash均衡ppt课件.ppt（65页珍藏版）》请在三一办公上搜索。

1、第四部分：不完全信息动态博弈,第十二章精炼贝叶斯Nash均衡,主要内容：一、均衡的精炼与信念二、信念设定三、精炼贝叶斯Nash均衡四、几种均衡概念的比较,主要内容：一、均衡的精炼与信念二、信念设定三、精炼贝叶斯Nash均衡四、几种均衡概念的比较,第十二章精炼贝叶斯Nash均衡,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,在完全信息动态博弈中，假设s*为一子博弈精炼Nash均衡，那么在参与人采用均衡战略s*的情况下，不管博弈的进程如何或是否发生，每个参与人的战略对从任一决策结开始的

2、子博弈(或在其后轮着他采取的行动)都是最优的。,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,子博弈精炼Nash均衡中的这种“均衡精炼”的思想，也可应用到不完全信息扩展式博弈中。作为上述“均衡精炼”思想的自然应用，必然要求每个参与人的均衡战略在其每个信息集上都为最优。,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,例如,Control Science and Engineering

3、, HUST All Rights Reserved, 2007, Luo Yunfeng,不仅要求参与人2的均衡战略在由单决策结构成的信息集上最优，而且还要求参与人3的均衡战略在由多决策结构成的信息集和上最优。,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,但对于位于由多决策结构成的信息集(I3(x4,x5)或I3(x6,x7)上的参与人3，当轮到他行动时，由于对已发生的历史即参与人2是选择了L还是R并不清楚，因此也就不知道自己是位于决策结x4 (或x6)还是决策结x5 (或x7)上。

4、,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,在这种情况下，参与人3对信息集 (I3(x4,x5)或I3(x6,x7)后的博弈进程就不清楚，因而对自己的选择所导致的博弈结果也就不清楚，从而使得参与人3无法确定自己的最优行动。,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,虽然位于多决策结信息集上的参与人，对自己到底位于信息集中哪一个决策结上不能给出一个明确的判断，但一般情况下还是

5、能够对自己位于哪一个决策结，给出一个“大概的估计”。,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,当位于多决策结信息集上的参与人能够用一个定义在该信息集上的概率分布，来对自己位于哪一个决策结进行描述时，就称参与人在该信息集上具有了关于自己位于哪一个决策结的信念(或推断)。而当参与人具有了关于自己位于哪一个决策结的信念(或推断)时，就可借助这种信念(或推断)来指导自己的决策(或选择)。,Control Science and Engineering, HUST All Rights Re

6、served, 2007, Luo Yunfeng,考察如下完全但不完美信息动态博弈：,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,如果参与人1选择R，则博弈结束(参与人2没有行动)。如果参与人1选择了L或M，则参与人2就会知道1没有选择R(但不清楚1是选择了L还是M)，并在L和R两个行动中进行选择，博弈随之结束。,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,给出了上述博弈的战

7、略式描述,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,在两个子博弈精炼Nash均衡中，均衡(R, R ) 明显要依赖于一个不可信的威胁，因此，该博弈只有一个合理的纯战略子博弈精炼Nash均衡(L, L ),Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,根据Selten所给出的子博弈精炼Nash均衡的定义，是无法将不合理的子博弈精炼Nash均衡(R, R )排除掉的。,Contro

8、l Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,如果能将子博弈精炼Nash均衡的思想推广到多决策结信息集，并在每个信息集上给出一个参与人关于自己位于该信息集中哪一个决策结的信念(或推断)，则可以将某些不合理均衡剔除掉。,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,给定参与人2的一个推断，p表示参与人2位于左边决策结的概率为p，1-p表示参与人2位于右边决策结的概率为1-p。参与人2选择L的期望

9、收益为：,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,而参与人2选择R的期望收益为：,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,由于对任意的p，都有2-p1-p，这就排除了参与人2选择R的可能性。因此，在上述博弈中，简单要求参与人2持有一个推断，并且在此推断下选择最优行动，就足以使我们排除不合理的均衡(R,R)。,Control Science and Engineering

10、, HUST All Rights Reserved, 2007, Luo Yunfeng,考察更一般情形的博弈：,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,在该博弈中，战略组合(R,R )也是参与人2的信息集未能达到的一个子博弈精炼Nash均衡。如果参与人2的信息集一旦能够达到，参与人2的最优选择就依赖于他关于已发生历史的信念，即一旦博弈进入参与人2的信息集，参与人2关于自己位于哪一个决策结的推断。,Control Science and Engineering, HUST All

11、 Rights Reserved, 2007, Luo Yunfeng,参与人2选择L与R的期望收益分别为2-p和1+p，因此，如果p1/2，则最优战略为R；如果p1/2 ，则最优战略为L。,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,要将子博弈精炼Nash均衡中“均衡精炼”的思想应用到不完全信息扩展式博弈中，就必须做到：,对每个参与人i，在其信息集上给出关于自己位于该信息集中哪一个决策结的信念(或推断)；对参与人i的每个信息集，在给定参与人i在该信息集上的信念(或推断)情况下，参与人

12、的战略是对其他参与人战略的一个最优反应，即参与人的选择必须满足序惯理性(sequential rationality)。,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,主要内容：一、均衡的精炼与信念二、信念设定三、精炼贝叶斯Nash均衡四、几种均衡概念的比较,第十二章精炼贝叶斯Nash均衡,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,精炼贝叶斯Nash均衡既包含了一个战略组合，

13、又包含一个信念系统。这里信念系统对每个信息集都确定了位于该信息集上的参与人所持有的信念。这种信念是信念持有人对已发生历史的一个推断，也可理解为他对自己位于信息集上哪一个决策结的“一种估计”。,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,通过给定参与人在信息集上的信念，来对不完全信息扩展式博弈的均衡进行精炼，是Selten子博弈精炼Nash均衡中“均衡精炼”的思想在不完全信息扩展式博弈中的自然应用。,Control Science and Engineering, HUST All Ri

14、ghts Reserved, 2007, Luo Yunfeng,给定参与人的均衡战略，参与人的信念必须满足：,与战略的一致性(consistency with strategies)原则；结构一致性(structural consistency)原则；共同信念(common beliefs)原则。,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,与战略的一致性原则指导不完全信息扩展式博弈中处于均衡路径之上信息集的信念设定；结构一致性原则应用于处于均衡路径之外信息集的信念设定；共同信念原则

15、是博弈问题解的特性所决定的对博弈问题的结构要求。,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,定义,对于一个给定的不完全信息扩展式博弈中给定的均衡，如果博弈根据均衡战略进行时将以正的概率达到某信息集，称此信息集处于均衡路径之上(on the equilibrium path)。反之，如果博弈根据均衡战略进行时，肯定不会达到某信息集，称之为处于均衡路径之外的信息集(off the equilibrium path)，简称非均衡路径信息集。,Control Science and Engi

16、neering, HUST All Rights Reserved, 2007, Luo Yunfeng,与战略的一致性：,指对于任一与参与人的战略相一致的信息集，即处于均衡路径之上的信息集，参与人关于已发生历史的信念即博弈如何到达该信息集的信念，应该由贝叶斯法则及参与人的均衡战略共同确定。,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng

17、,假设在所涉及到的均衡中，参与人1的均衡战略为(L,L,L)，也就是说，无论是什么类型的参与人1，他的选择都为L。因此，参与人2位于均衡路径上的信息集为I2(x1,x3,x5) 。,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,在给定参与人1的均衡战略为(L,L,L)的前提下，参与人2位于信息集I2(x1,x3,x5)中任一决策结的可能性都存在，所以，x0，x 0且1-x-x 0。,Control Science and Engineering, HUST All Rights Rese

18、rved, 2007, Luo Yunfeng,用表示当参与人2观测到参与人1的选择为L时，参与人1为类型ti的概率。因此，,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,根据贝叶斯法则，有,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,由全概率公式可得,Control Science and Engineering, HUST All Rights Reserved, 2007

19、, Luo Yunfeng,将全概率公式代入贝叶斯公式，可得,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,结构一致性,指对于给定均衡战略下未能达到的信息集，即处于非均衡路径之上的信息

20、集，参与人在该信息集上的信念由贝叶斯法则及参与人某个可能选择使用的均衡战略共同确定。,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,由于博弈能够到达非均衡路径上信息集的概率为0，因此，无法直接应用贝叶斯公式来确定非均衡路径上信息集的信念。在实际计算中，可先任确定一信念，但该信念必须与参与人“某个可能选择使用的均衡战略”相吻合。,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,共同信念

21、,指所有参与人在任一信息集(包括给定战略下能够到达的信息集与未能到达的信息集)上的信念相同。,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,主要内容：一、均衡的精炼与信念二、信念设定三、精炼贝叶斯Nash均衡四、几种均衡概念的比较,第十二章精炼贝叶斯Nash均衡,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,精炼贝叶斯Nash均衡是Selten子博弈精炼Nash均衡的“均衡精炼”

22、的思想，在不完全信息扩展式博弈中的自然推广。,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,一个精炼贝叶斯Nash均衡由满足以下条件的战略与信念构成：,对于每一个信息集，在该信息集采取行动的参与人关于博弈到达信息集中的哪一个结必须有一个信念。对于多决策结构成的信息集，信念是信息集中各个结上的概率分布。对于单决策结信息集，信念则置概率1于单决策结上；在给定的信念下，参与人的战略必须是序贯理性的。就是说，在每一个信息集，具有行动的参与人所采取的行动(以及参与人往后的行动)，在给定该参与人在该

23、信息集上的信念与其他参与人以后的战略的情况下必须是最优的；,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,一个精炼贝叶斯Nash均衡由满足以下条件的战略与信念构成：,参与人在均衡路径信息集上的信念设定应满足与战略一致性原则，即通过贝叶斯法则与参与人的均衡战略来确定；参与人在非均衡路径信息集上的信念设定应满足结构一致性原则，即通过贝叶斯法则和参与人可能的均衡战略来确定。,Control Science and Engineering, HUST All Rights Reserved, 2

24、007, Luo Yunfeng,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,参与人2和3之间的子博弈惟一的Nash均衡为(L,R )，于是整个博弈惟一的子博弈精炼Nash均衡为(D,L,R )。这一组战略和参与人3的推断p=1满足了精炼贝叶斯Nash均衡的定义，于是(D,L,R),p=1)构成了一个精炼贝叶斯Nash均衡。,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,该博弈是

25、否还存在其它纯战略精炼贝叶斯Nash均衡呢？,给出上述博弈的战略式描述：,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,原博弈问题中除了(D,L,R)为Nash均衡外，还存在其它3个纯战略Nash均衡(A,L,L)， (A,R,L)和(A,R,R) 。,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,通过分析可知，(A,L,L)， (A,R,L)和(A,R,R) 这3个Nash均衡与

26、任意信念一起都不构成精炼贝叶斯Nash均衡。,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,因此，在该博弈中(D,L,R),p=1)构成唯一精炼贝叶斯Nash均衡。,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,主要内容：一、均衡的精炼与信念二、信念设定三、精炼贝叶斯Nash均衡四、几种均衡概念的比较,第十二章精炼贝叶斯Nash均衡,Control Science and Eng

27、ineering, HUST All Rights Reserved, 2007, Luo Yunfeng,对完全信息静态博弈中的Nash均衡、完全信息动态博弈中的子博弈精炼Nash均衡、不完全信息静态博弈中的贝叶斯Nash均衡以及不完全信息动态博弈中的精炼贝叶斯Nash均衡的比较可以发现:,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,1) 在Nash均衡中，每一参与人的战略必须是其他参与人战略的一个最优反应，于是没有参与人会选择严格劣战略。在精炼贝叶斯Nash均衡中，定义中条件(1)

28、和(2)事实上就是要保证没有参与人的战略是始于任何一个信息集的劣战略。,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,Nash均衡及贝叶斯Nash均衡对处于均衡路径之外的信息集则没有这方面的要求，即使是子博弈精炼Nash均衡对某些处于均衡路径之外的信息集也没有这方面的要求。精炼贝叶斯Nash均衡弥补了这一缺陷：参与人不可以威胁使用始于任何信息集的严格劣战略，即使该信息集处于均衡路径之外。,Control Science and Engineering, HUST All Rights R

29、eserved, 2007, Luo Yunfeng,2) 随着研究的博弈逐步复杂，我们对均衡概念也逐渐强化，从而可以排除复杂博弈中不合理或没有意义的均衡，而如果我们运用适用于简单博弈的均衡概念就无法区分。,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,例如：,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,博弈存在3个纯战略Nash均衡：原博弈问题惟一合理的解应是均衡,Contr

30、ol Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,再例如：,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,博弈存在3个纯战略Nash均衡：子博弈精练Nash均衡：精炼贝叶斯Nash均衡：,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,3) 较强的均衡概念只在应用于复杂的博弈时才不同于

31、较弱的均衡概念，而对简单的博弈并没有区别。,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,具体讲就是，精炼贝叶斯Nash均衡在不完全信息静态博弈中即等同于贝叶斯Nash均衡，在完全信息动态博弈中等同于子博弈精炼Nash均衡，在完全信息静态博弈中等同于Nash均衡。,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,本章结束,Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng,