金融数学博弈课件第二章.ppt

资源ID：6353914 资源大小：1,014KB 全文页数：24页
资源格式： PPT 下载积分：15金币

快捷下载

会员登录下载

三方登录下载：

下载资源需要15金币

邮箱/手机：
温馨提示：	用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）
支付方式：
验证码：	换一换

加入VIP免费专享

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

金融数学博弈课件第二章.ppt

23 重复博弈,2 3 A 理论:两阶段重复博弈,考虑将“囚徒困境”博弈重复进行两次，,过程博弈的收益等于两个阶段各自收益的简单相加，,次博弈开始前可观察第一次进行的结果，,(不考虑贴现因素)，,且在第二,并假设整个,这叫两阶段“囚徒困境”重复博弈.,两阶段“囚徒困境”重复博弈属于第22.A节分析过的博弈,根据22.A节的求解此类博弈精炼解的程序，第,两人的收益为,二阶段博弈的结果,在此前提下分析第一阶段的情况.,的博弈，,该博弈有唯一的纳什均衡,为所余部分博弈的纳什均衡，,即为,由此两阶段“囚徒困,参与者在第一阶段的局势就可归纳为下图所示,其中第二阶段的收益(1,1),分别加到两人第一,不管第一阶段的结果如何.,境”中，,阶段每一收益组合上.,从而，两阶段囚徒困境唯一的子博弈精炼解就是第一,在子博弈精炼解中，任一阶段都不能达成合作,的结果.,阶段的和第二阶段的,这一结论在更为一般的条件下同样成立.,表示一完全信息博弈,其中参与者1到n同时从各自的行动空间A1到An中分别,选择行动a1和an，得到收益分别为,以后我们称博弈G为重复博弈中的阶段博弈.,定义对给定的阶段博弈G，令G(T)表示G 重复进,行T 次的有限博弈，并且在下一次博弈开始前，所有以,前博弈的进行都可被观测到.G(T)的收益为T 次阶段博,弈的简单相加.,意有限的T 次重复博弈G(T)有唯一的子博弈精炼解：,即G 的纳什均衡结果在每一阶段重复进行.,定理如果阶段博弈G 有唯一的纳什均衡，则对任,下面，再回到两阶段博弈，进一步考虑阶段博弈,G 有多个纳什均衡的情况，,看下面例子：,容易看出，此博弈有两个纯战略纳什均衡：,设图2.33表示的阶段博弈重复进行两次，并在第二次博弈开始前可观察第一次进行的结果，,可以证明,这一重复博弈中存在一个子博弈精炼解，,其中第一阶,段的战略组合为,说明：严格地讲，我们只是对第2.2A节定义的博弈类型定义了子博弈精炼解，,后面将会看到，二者解的定义,对此类博弈我们还没有给出,子博弈精炼解的定义，,相差甚微.,（该例分析复杂，略去）,这个例子要说明的主要观点是：,对将来行动所作,的可信的威胁或承诺可以影响到当前的行动.,另一方,面，,子博弈精炼的概念对可信性的要求并不严格.,2.3.B 理论:无限重复博弈,在有限重复博弈的例子中已经看到，如果阶段博,弈G 有多个纳什均衡，,重复博弈G(T)就可能会存在子,博弈精炼解，其中对任意,阶段 t 的结果都不是G,的纳什均衡.,进一步，即使阶段博弈G 有唯一的纳什均,衡，无限重复博弈中也可以存在子博弈精炼解，其中没,有一个阶段的结果是G 的纳什均衡.,定义对给定的阶段博弈G，将G 重复进行无限次，,并且在下一次博弈开始前，所有以前博弈的进行都可被,观测到.,称此博弈为无限重复博弈.,无限重复博弈中的收益如何计算？,借助于贴现因子，,令为贴现因子，,下一阶段的收益un+1相当于现,阶段的收益,把无限次的收益贴现相加.,无限重复“囚徒困境”博弈,（1）对任意t，在第t 阶段开始前的(t-1)次阶段的结果都可观测到.,（2）必须考虑贴现因子（度量收益之和）,无限重复“囚徒困境”博弈中，博弈双方能否走出困境？,解决方法：,略，,先入为主地给出一些自认为“合理”的策,然后再证明其为子博弈精炼均衡解.,给出以下触发,策略(trigger strategy)：,参与者i：第一阶段选择合作(即,如果所有前面(t-1)阶段的结果都是,则选择,否则选择,若参与人i 第一阶段选择,按上述触发战略，参,“触发战略”的含义:,如果没有人选择不合作，,合作,将一直进行下去，,一旦有人选择不合作，就会触发其,后所有阶段都不再相互合作.,与者j 选择,参与人i 的总收益为,若参与人i 第一阶段选择,按上述触发战略，参,与者j 选择,参与人i 的总收益为,Ri)且在第t 阶段，,若选择,(合作)是参与者i 的最优反应，,当且仅当下式,成立：,即,解得,即当贴现因子,时，博弈各方一直选择合作是无限,次博弈,的子博弈的精炼NE.,也即，,当且仅当贴,现因子,时，,参与者双方都采取触发战略是博弈,的纳什均衡解.,时，各博弈方的选择,反之，当,是：从来不合作.,子博弈精炼解,为了给出子博弈精炼解的定义，,首先定义重复博弈,定义对给定的阶段博弈G，令,表示相应的,无限重复博弈，,其中G将无限次地重复进行，且参与者,的贴现因子都为,对每一个t，之前的t-1次阶段博弈的,结果在 t 阶段开始进行前都可被观测到，每个参与者在,中的收益都是该参与者在无限次的阶段博弈中所,有收益的现值.,中的以下三个概念：,重复博弈中的战略、,重复博弈的,子博弈以及,重复博弈的子博弈精炼纳什均衡.,参与者的战略：,参与者的一个战略是行动的一个完,整计划,作出选择时的行动.,它包括了该参与者在所有可能的情况下，需要,完全信息静态博弈中，,参与者的一个战略,简单行动，,就是一个,因此，完全信息静态博弈表示为,但是在完全信息动态,因此，完全信息静态博弈也可,以表示为,博弈中，,一个战略就复杂了.,以两阶段“囚徒困境”博弈为例，,每一个参与者都有,两次行动，,那么参与者的一个战略是什么呢？,假设参与者在第一阶段的行动为b，,每一个参与者都可能针对这些情况做出,不同反应.,于是，每一个参与者的战略可以这样描述：,将,称为参与者战略的5条指令，,第一阶段有四个可能的结果：,第二阶段的行动,为c，,其中v为第一,阶段的行动，,则表示针对第一阶段的不同结果,分别应该在第二阶段,采取的行动.,使用指令，,“第一阶段选择b，,且不论第一阶,段出现什么结果，,均在第二阶段选择c”,就可表示为,但这一表示方法也可以表示第二阶段行,动依赖于第一阶段结果的战略，,比如,它,的含义是,“第一阶段选择b，,如果第一阶段的结果是,则在第二阶段选择 b，,否则第二阶段选择c”.,博弈到阶段 t 的进行过程(history of play stage t),(历史)：,指各方参与者从阶段1到阶段t 所有行动的记录.,定义,在有限重复博弈G(T)或无限博弈,中，参与者的一个战略,特指在每一阶段，,针对其前面,阶段所有可能的进行过程，,参与者将会选择什么行动.,子博弈的直观描述,一个子博弈是全部博弈的一部分，,当全部博弈进行,到任何一个阶段，,到此为止的进行过程已成为参与者的,共同知识，,而其后尚未开始进行的部分就算是一个子,博弈.,定义,在有限重复博弈G(T)中，,由第(t+1)阶段开始,的一个子博弈为,G 进行(T-t)次的重复博弈，,可表示为,由第(t+1)阶段开始有许多子博弈，到t 阶段为,止的每一可能的进行过程之后都是不同的子博弈.,在无,限博弈中，,由(t+1)阶段开始的每一个子博弈都,和在有限情况下相似，博弈,等同于初始博弈,到t 阶段为止有多少不同的可能进行过程，就,有多少从(t+1)阶段开始的子博弈.,注意：,重复博弈的第t 阶段本身(在有限情况下假定,并不是整个博弈的一个子博弈.,定义(塞尔滕 Selten,1965),则称纳什均衡是子,如果参与者的战略在,每一个子博弈中都构成纳什均衡，,博弈精炼的.,下面证明无限重复囚徒困境中的“触发战略”纳什,均衡是子博弈精炼的，,只须证明,“触发战略”在此无限,重复博弈中的每一个子博弈中都构成了纳什均衡.,注意：,无限重复博弈的每一个子博弈,都等同于原,博弈.,在无限重复囚徒困境中的“触发战略”纳什均衡,中，这些子博弈可分为两类：,一类是：,所有以前阶段,的结果都是,的子博弈，,二类是：,至少有一个前,面阶段的结果不是,的子博弈，,如果参与者在整,个博弈中采用“触发战略”，,对于一类，,已经证明“触发,战略”是整体博弈的纳什均衡，,对于二类，,参与者的战,略只是单纯重复阶段博弈的均衡,它同样是整个,博弈的纳什均衡.,从而得证.,无限重复囚徒困境中的“一报还一报”(Take for Lit),战略也是子博弈精炼的纳什均衡.,尽管囚徒困境有唯一的纳什均衡，,但在无限重复,下，,却不止一个子博弈精炼的纳什均衡.,“一报还一报”战略：,参与者i：第一阶段选择合作(即,在,Ri)，且在第,的任意阶段选择的阶段战略等于对手,阶段选择的阶段战略.,通俗地说，,如果参与者j 在,上一阶段选择合作，,那么参与者i 在当前阶段选择合作，,如果参与者j 在上一阶段选择不合作，,那么参与者i 在当,前阶段选择不合作，,要使参与者i重新选择合作，,除非参,与者j 在上一阶段自动接受一次惩罚，,即在明知参与者i,选择不合作的情况下，,参与者j 仍然选择合作.,“一报还一报战略”和“触发战略”相比，,最大的不同,是先对最先不合作者进行惩罚，,然后原谅(如果不合作,者主动选择合作)，,最先不合作者对对方进行补偿(在对,手选择合作下，他有一次选择不合作的机会).,在“触发战略”中，,惩罚会永远进行下去，,而且惩罚,对方者也受到了惩罚.,因而，,“一报还一报战略”比“触,发战略”,合理的多.,息静态博弈，令,定理(费里德曼,1971)令G 为一个有限的完全信,表示G 的一个纳什均衡下,的组合收益，且,表示G 的其他任意可,行收益.,如果对每一个参与者i，有,且如果贴,现因子,足够接近于1，,则无限重复博弈,存在一,个子博弈精炼纳什均衡，,其平均收益可达到,和定理证明有关的几个概念：,第一，,如果,是阶段博弈G 的纯战略收,益的凸组合(convex combination)，,则称一组收益,为阶段博弈G 的可行收益.,凸组合的含义：,如,其中,则称,是,的凸组合.,图2.37中阴影区域,为囚徒困境的可行收益,集合.,如纯战略下的收益,都是可行收益.,其它可行,收益，如,的凸,组合,也是可行收益，,其中,各种可能的可行收益向量,一般地，,是,纯战略下所有收益的所有凸组合.,第二，,参与者收益的平均收益.,平均收益是指为,得到相等收益的现值而在每一阶段都应该得到的等额,收益值.,令贴现因子为,设无限收益序列,和的现值为V，,如果每一阶段都能得到的收益为,则,现值为,因为，,定义,给定贴现因子,无限收益序列,的平均收益为,和现值相比平均收益的优点：,平均收益能够和阶段,收益直接比较.,和,使平均收益最大化就是使,现值最大化.,证明：,令,为G 的纳什均衡，,纳什,均衡收益为,类似的，,令,为带来可行收益,的行动组合.,考虑参与者,在第一阶段选择,如果所有前面(t-1),则选择,否则选择,在第t 阶段，,个阶段的结果都是,假设除参与者i 之外的所有参与者都采用了这一触发,战略.,由于一旦某一阶段的结果不是,其,他参与者将永远选择,参与者i 的最优反,i 的如下触发战略（以下收益,理解为可,行收益）,应为,一旦某一阶段的结果偏离了,就永远,令,为参与者i 对偏离,的最优反,应，即,为下式的解,令,为参与者i 从此偏离中得到的收益：,选择,选择,将会使当前阶段的收益为,但却将触发其,他参与人永远选择,对此参与者i 的最优,选择为,于是未来每一阶段的收益都将是,这一收益,序列的现值为,（由于任何偏离都将触发其他参与者的相同反应，,只需,考虑,能带来最大收益的偏离就足够了）.,另一方面，选,择,和,之间可以进行相同的选择.,令,表示参与者,i 就此做出最优选择时各阶段博弈收益的现值（目前及,其后每一次面临这样选择时）.,如果选择,或,是最优的，,则,如果选择,是最优的，则,再假设,为参与者i 为偏离可能得到的最大收益，,那么，当且仅当下式成立选择,是最优的,或,对于所有的参与者，,采用触发战略是纳什均衡，,且仅当,当,注意,对每一个i 一定有,所以，,对所有参与者也一定有,也就是说，,一定存在一个贴现因子,使得触发战略是纳,什均衡.,下证这一纳什均衡是子博弈精炼的，,即触发战略必,须在,的每一个子博弈中构成纳什均衡.,的每一个子博弈都等同于,本身.,在触发战略纳,什均衡中，,这些子博弈可分为两类：,（1）所有前面阶,段的结果都是,时的子博弈；,（2）前面,至少有一个阶段的结果偏离了,时的子博,弈.,如果参与者在整个博弈中采用了触发战略，,则（1）,参与者在第一类子博弈中的战略同样也是触发战略，,已,证它是整个博弈的纳什均衡；,（2）参与者在第二类子博,弈中的战略,永远是简单重复阶段博弈均衡,它是整个博弈的一个纳什均衡.,证毕.,

注意事项

本文（金融数学博弈课件第二章.ppt）为本站会员（小飞机）主动上传，三一办公仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三一办公（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。