金融数学博弈课件第二章.ppt
23 重复博弈,2 3 A 理论:两阶段重复博弈,考虑将“囚徒困境”博弈重复进行两次,,过程博弈的收益等于两个阶段各自收益的简单相加,,次博弈开始前可观察第一次进行的结果,,(不考虑贴现因素),,且在第二,并假设整个,这叫两阶段“囚徒困境”重复博弈.,两阶段“囚徒困境”重复博弈属于第22.A节分析过的博弈,根据22.A节的求解此类博弈精炼解的程序,第,两人的收益为,二阶段博弈的结果,在此前提下分析第一阶段的情况.,的博弈,,该博弈有唯一的纳什均衡,为所余部分博弈的纳什均衡,,即为,由此两阶段“囚徒困,参与者在第一阶段的局势就可归纳为下图所示,其中第二阶段的收益(1,1),分别加到两人第一,不管第一阶段的结果如何.,境”中,,阶段每一收益组合上.,从而,两阶段囚徒困境唯一的子博弈精炼解就是第一,在子博弈精炼解中,任一阶段都不能达成合作,的结果.,阶段的 和第二阶段的,这一结论在更为一般的条件下同样成立.,表示一完全信息博弈,其中参与者1到n同时从各自的行动空间A1到An中分别,选择行动a1和an,得到收益分别为,以后我们称博弈G为重复博弈中的阶段博弈.,定义 对给定的阶段博弈G,令G(T)表示G 重复进,行T 次的有限博弈,并且在下一次博弈开始前,所有以,前博弈的进行都可被观测到.G(T)的收益为T 次阶段博,弈的简单相加.,意有限的T 次重复博弈G(T)有唯一的子博弈精炼解:,即G 的纳什均衡结果在每一阶段重复进行.,定理 如果阶段博弈G 有唯一的纳什均衡,则对任,下面,再回到两阶段博弈,进一步考虑阶段博弈,G 有多个纳什均衡的情况,,看下面例子:,容易看出,此博弈有两个纯战略纳什均衡:,设图2.33表示的阶段博弈重复进行两次,并在第二次博弈开始前可观察第一次进行的结果,,可以证明,这一重复博弈中存在一个子博弈精炼解,,其中第一阶,段的战略组合为,说明:严格地讲,我们只是对第2.2A节定义的博弈类型定义了子博弈精炼解,,后面将会看到,二者解的定义,对此类博弈我们还没有给出,子博弈精炼解的定义,,相差甚微.,(该例分析复杂,略去),这个例子要说明的主要观点是:,对将来行动所作,的可信的威胁或承诺可以影响到当前的行动.,另一方,面,,子博弈精炼的概念对可信性的要求并不严格.,2.3.B 理论:无限重复博弈,在有限重复博弈的例子中已经看到,如果阶段博,弈G 有多个纳什均衡,,重复博弈G(T)就可能会存在子,博弈精炼解,其中对任意,阶段 t 的结果都不是G,的纳什均衡.,进一步,即使阶段博弈G 有唯一的纳什均,衡,无限重复博弈中也可以存在子博弈精炼解,其中没,有一个阶段的结果是G 的纳什均衡.,定义 对给定的阶段博弈G,将G 重复进行无限次,,并且在下一次博弈开始前,所有以前博弈的进行都可被,观测到.,称此博弈为无限重复博弈.,无限重复博弈中的收益如何计算?,借助于贴现因子,,令 为贴现因子,,下一阶段的收益un+1相当于现,阶段的收益,把无限次的收益贴现相加.,无限重复“囚徒困境”博弈,(1)对任意t,在第t 阶段开始前的(t-1)次阶段的结果 都可观测到.,(2)必须考虑贴现因子(度量收益之和),无限重复“囚徒困境”博弈中,博弈双方能否走出困境?,解决方法:,略,,先入为主地给出一些自认为“合理”的策,然后再证明其为子博弈精炼均衡解.,给出以下触发,策略(trigger strategy):,参与者i:第一阶段选择合作(即,如果所有前面(t-1)阶段的结果都是,则选择,否则选择,若参与人i 第一阶段选择,按上述触发战略,参,“触发战略”的含义:,如果没有人选择不合作,,合作,将一直进行下去,,一旦有人选择不合作,就会触发其,后所有阶段都不再相互合作.,与者j 选择,参与人i 的总收益为,若参与人i 第一阶段选择,按上述触发战略,参,与者j 选择,参与人i 的总收益为,Ri)且在第t 阶段,,若选择,(合作)是参与者i 的最优反应,,当且仅当下式,成立:,即,解得,即当贴现因子,时,博弈各方一直选择合作是无限,次博弈,的子博弈的精炼NE.,也即,,当且仅当贴,现因子,时,,参与者双方都采取触发战略是博弈,的纳什均衡解.,时,各博弈方的选择,反之,当,是:从来不合作.,子博弈精炼解,为了给出子博弈精炼解的定义,,首先定义重复博弈,定义 对给定的阶段博弈G,令,表示相应的,无限重复博弈,,其中G将无限次地重复进行,且参与者,的贴现因子都为,对每一个t,之前的t-1次阶段博弈的,结果在 t 阶段开始进行前都可被观测到,每个参与者在,中的收益都是该参与者在无限次的阶段博弈中所,有收益的现值.,中的以下三个概念:,重复博弈中的战略、,重复博弈的,子博弈以及,重复博弈的子博弈精炼纳什均衡.,参与者的战略:,参与者的一个战略是行动的一个完,整计划,作出选择时的行动.,它包括了该参与者在所有可能的情况下,需要,完全信息静态博弈中,,参与者的一个战略,简单行动,,就是一个,因此,完全信息静态博弈表示为,但是在完全信息动态,因此,完全信息静态博弈也可,以表示为,博弈中,,一个战略就复杂了.,以两阶段“囚徒困境”博弈为例,,每一个参与者都有,两次行动,,那么参与者的一个战略是什么呢?,假设参与者在第一阶段的行动为b,,每一个参与者都可能针对这些情况做出,不同反应.,于是,每一个参与者的战略可以这样描述:,将,称为参与者战略的5条指令,,第一阶段有四个可能的结果:,第二阶段的行动,为c,,其中v为第一,阶段的行动,,则表示针对第一阶段的不同结果,分别应该在第二阶段,采取的行动.,使用指令,,“第一阶段选择b,,且不论第一阶,段出现什么结果,,均在第二阶段选择c”,就可表示为,但这一表示方法也可以表示第二阶段行,动依赖于第一阶段结果的战略,,比如,它,的含义是,“第一阶段选择b,,如果第一阶段的结果是,则在第二阶段选择 b,,否则第二阶段选择c”.,博弈到阶段 t 的进行过程(history of play stage t),(历史):,指各方参与者从阶段1到阶段t 所有行动的记录.,定义,在有限重复博弈G(T)或无限博弈,中,参与者的一个战略,特指在每一阶段,,针对其前面,阶段所有可能的进行过程,,参与者将会选择什么行动.,子博弈的直观描述,一个子博弈是全部博弈的一部分,,当全部博弈进行,到任何一个阶段,,到此为止的进行过程已成为参与者的,共同知识,,而其后尚未开始进行的部分就算是一个子,博弈.,定义,在有限重复博弈G(T)中,,由第(t+1)阶段开始,的一个子博弈为,G 进行(T-t)次的重复博弈,,可表示为,由第(t+1)阶段开始有许多子博弈,到t 阶段为,止的每一可能的进行过程之后都是不同的子博弈.,在无,限博弈 中,,由(t+1)阶段开始的每一个子博弈都,和在有限情况下相似,博弈,等同于初始博弈,到t 阶段为止有多少不同的可能进行过程,就,有多少从(t+1)阶段开始的子博弈.,注意:,重复博弈的第t 阶段本身(在有限情况下假定,并不是整个博弈的一个子博弈.,定义(塞尔滕 Selten,1965),则称纳什均衡是子,如果参与者的战略在,每一个子博弈中都构成纳什均衡,,博弈精炼的.,下面证明无限重复囚徒困境中的“触发战略”纳什,均衡是子博弈精炼的,,只须证明,“触发战略”在此无限,重复博弈中的每一个子博弈中都构成了纳什均衡.,注意:,无限重复博弈的每一个子博弈,都等同于原,博弈.,在无限重复囚徒困境中的“触发战略”纳什均衡,中,这些子博弈可分为两类:,一类是:,所有以前阶段,的结果都是,的子博弈,,二类是:,至少有一个前,面阶段的结果不是,的子博弈,,如果参与者在整,个博弈中采用“触发战略”,,对于一类,,已经证明“触发,战略”是整体博弈的纳什均衡,,对于二类,,参与者的战,略只是单纯重复阶段博弈的均衡,它同样是整个,博弈的纳什均衡.,从而得证.,无限重复囚徒困境中的“一报还一报”(Take for Lit),战略也是子博弈精炼的纳什均衡.,尽管囚徒困境有唯一的纳什均衡,,但在无限重复,下,,却不止一个子博弈精炼的纳什均衡.,“一报还一报”战略:,参与者i:第一阶段选择合作(即,在,Ri),且在第,的任意阶段选择的阶段战略等于对手,阶段选择的阶段战略.,通俗地说,,如果参与者j 在,上一阶段选择合作,,那么参与者i 在当前阶段选择合作,,如果参与者j 在上一阶段选择不合作,,那么参与者i 在当,前阶段选择不合作,,要使参与者i重新选择合作,,除非参,与者j 在上一阶段自动接受一次惩罚,,即在明知参与者i,选择不合作的情况下,,参与者j 仍然选择合作.,“一报还一报战略”和“触发战略”相比,,最大的不同,是先对最先不合作者进行惩罚,,然后原谅(如果不合作,者主动选择合作),,最先不合作者对对方进行补偿(在对,手选择合作下,他有一次选择不合作的机会).,在“触发战略”中,,惩罚会永远进行下去,,而且惩罚,对方者也受到了惩罚.,因而,,“一报还一报战略”比“触,发战略”,合理的多.,息静态博弈,令,定理(费里德曼,1971)令G 为一个有限的完全信,表示G 的一个纳什均衡下,的组合收益,且,表示G 的其他任意可,行收益.,如果对每一个参与者i,有,且如果贴,现因子,足够接近于1,,则无限重复博弈,存在一,个子博弈精炼纳什均衡,,其平均收益可达到,和定理证明有关的几个概念:,第一,,如果,是阶段博弈G 的纯战略收,益的凸组合(convex combination),,则称一组收益,为阶段博弈G 的可行收益.,凸组合的含义:,如,其中,则称,是,的凸组合.,图2.37中阴影区域,为囚徒困境的可行收益,集合.,如纯战略下的收益,都是可行收益.,其它可行,收益,如,的凸,组合,也是可行收益,,其中,各种可能的可行收益向量,一般地,,是,纯战略下所有收益的所有凸组合.,第二,,参与者收益的平均收益.,平均收益是指为,得到相等收益的现值而在每一阶段都应该得到的等额,收益值.,令贴现因子为,设无限收益序列,和的现值为V,,如果每一阶段都能得到的收益为,则,现值为,因为,,定义,给定贴现因子,无限收益序列,的平均收益为,和现值相比平均收益的优点:,平均收益能够和阶段,收益直接比较.,和,使平均收益最大化就是使,现值最大化.,证明:,令,为G 的纳什均衡,,纳什,均衡收益为,类似的,,令,为带来可行收益,的行动组合.,考虑参与者,在第一阶段选择,如果所有前面(t-1),则选择,否则选择,在第t 阶段,,个阶段的结果都是,假设除参与者i 之外的所有参与者都采用了这一触发,战略.,由于一旦某一阶段的结果不是,其,他参与者将永远选择,参与者i 的最优反,i 的如下触发战略(以下收益,理解为可,行收益),应为,一旦某一阶段的结果偏离了,就永远,令,为参与者i 对偏离,的最优反,应,即,为下式的解,令,为参与者i 从此偏离中得到的收益:,选择,选择,将会使当前阶段的收益为,但却将触发其,他参与人永远选择,对此参与者i 的最优,选择为,于是未来每一阶段的收益都将是,这一收益,序列的现值为,(由于任何偏离都将触发其他参与者的相同反应,,只需,考虑,能带来最大收益的偏离就足够了).,另一方面,选,择,和,之间可以进行相同的选择.,令,表示参与者,i 就此做出最优选择时各阶段博弈收益的现值(目前及,其后每一次面临这样选择时).,如果选择,或,是最优的,,则,如果选择,是最优的,则,再假设,为参与者i 为偏离可能得到的最大收益,,那么,当且仅当下式成立选择,是最优的,或,对于所有的参与者,,采用触发战略是纳什均衡,,且仅当,当,注意,对每一个i 一定有,所以,,对所有参与者也一定有,也就是说,,一定存在一个贴现因子,使得触发战略是纳,什均衡.,下证这一纳什均衡是子博弈精炼的,,即触发战略必,须在,的每一个子博弈中构成纳什均衡.,的每一个子博弈都等同于,本身.,在触发战略纳,什均衡中,,这些子博弈可分为两类:,(1)所有前面阶,段的结果都是,时的子博弈;,(2)前面,至少有一个阶段的结果偏离了,时的子博,弈.,如果参与者在整个博弈中采用了触发战略,,则(1),参与者在第一类子博弈中的战略同样也是触发战略,,已,证它是整个博弈的纳什均衡;,(2)参与者在第二类子博,弈中的战略,永远是简单重复阶段博弈均衡,它是整个博弈的一个纳什均衡.,证毕.,