高级微观经济学 8 博弈论.docx

上传人：小飞机

文档编号：1659169

上传时间：2022-12-13

格式：DOCX

页数：56

大小：2.27MB

《高级微观经济学 8 博弈论.docx》由会员分享，可在线阅读，更多相关《高级微观经济学 8 博弈论.docx（56页珍藏版）》请在三一办公上搜索。

1、55第八章博弈论第八章博弈论前面章节对经济人最优决策的讨论，是在简单环境下进行的，没有考虑经济人之间决策相互影响的问题。本章讨论这个问题，建立复杂环境下的决策理论。开展这种研究的的理论叫做博弈论，也称为对策论(Game Theory)。最近十几年来，博弈论在经济学中得到了广泛应用，在揭示经济行为相互制约性质方面取得了重大进展。大部分经济行为都可视作博弈的特殊情况，比如把经济系统看成是一种博弈，把竞争均衡看成是该博弈的古诺-纳什均衡。博弈论的思想精髓与方法，已成为经济分析基础的必要组成部分。第一节博弈事例博弈是一种日常现象，例如棋手下棋，双方都要根据对方的行动来决定自己的行动，双方的目的都

2、是要战胜对方，互不相容，互相影响，互相制约。一般来讲，博弈现象的特征表现为两个或两个以上具有利害冲突的当事人处于一种不相容的状态中，一方的行动取决于对方的行动，每个当事人的收益都取决于所有当事人的行动。当所有当事人都拿定主意作出决策时，博弈的局势就暂时确定下来。博弈论就是研究这种不相容现象的一种理论，并把当事人叫做局中人(player)。博弈论推广了标准的一人决策理论。在每个局中人的收益都依赖于其他局中人的选择的情况下，追求收益最大化的局中人应该如何采取行动？显然，为了确定出可行的策略，每个局中人都必须考虑其他局中人面临的问题。下面来举例说明。例1便士匹配(Matching Pennies)(

3、二人零和博弈)设博弈中有两个局中人甲和乙，每个局中人都有一块硬币，并且各自独立安排硬币是否正面朝上。局中人的收益情况是这样的：如果两个局中人同时出示硬币正面或反面，那么甲赢得元，乙输掉元；如果一个局中人出示硬币正面，另一个局中人出示硬币反面，那么甲输掉元，乙赢得元。表1：便士匹配博弈局势表乙甲正面反面正面(正，正)(正，反)反面(反，正)(反，反)对于这个博弈，每个局中人可选择的策略都有两种：正面朝上和反面朝上，即甲和乙的策略集合都是正面，反面。当甲和乙都作出选择时，博弈的局势就确定了。显然，该博弈的局势集合是(正面,正面)，(正面,反面)，(反面,正面)，(反面,反面)，即各种可能的局势

4、的全体，也称为局势表，即表1。表2：甲和乙的收益表乙甲正面反面正面 ,反面, ,每个局中人的收益都取决于所有局中人的决策，也就是说，局中人的收益是博弈局势的函数。本例中，甲的收益函数为：，；乙的收益函数为：，。局中人的收益函数也可用表格或矩阵加以表示，并称其为收益表或收益矩阵。表2中，甲的收益列在左边，乙的收益列在右边。该博弈的特点在于每个局中人的收益都是另一个局中人的付出，即甲和乙的收益之和为零，收支发生在局内，不涉及任何局外人。这种博弈就是所谓的二人零和博弈。习惯上，人们喜欢把二人博弈的第一个局中人甲叫做“列”，第二个局中人乙叫做“行”，而且总是把列的收益写在前面(即左边)，行的收益写

5、在后面(即右边)。例2囚徒难题(Prisoners Delimma)(二人变和博弈)表3：囚徒博弈局势表乙甲合作背叛合作(合作,合作)(合作,背叛)背叛(背叛,合作)(背叛,背叛)有两个狂徒甲和乙因共同参与了一起犯罪活动而被囚禁收审。他们可以选择合作，拒绝供出任何犯罪事实；也可以选择背叛，供出对方的犯罪行径。这就是所谓的囚徒博弈，也叫做囚徒难题。博弈的局中人甲和乙都有两种可选择的策略：合作与背叛。囚徒博弈的意义在于它可以解释寡头垄断厂商的行为，关键是赋予合作与背叛具体的经济含义。比如在双头垄断的情况下，合作可以解释为“保持索要一个高价”，背叛可解释为“降价以争夺对手的市场”。右表给出了囚徒博

6、弈的局势表。局中人可以事先讨论这局博弈，但实际决策必须独立地做出。如果甲采取合作策略，不供出乙的犯罪事实，那么乙就能得到3000元的收益。同样，如果乙采取合作策略，那么甲就能得到3000元的收益。可见，如果甲乙双方都采取合作策略，双方各得3000元收益。但是，审讯者用1000元奖赏来鼓励局中人采取背叛策略。这样，只要局中人选择背叛，他就会得到1000元鼓励，而不管另一个局中人会采取什么策略。需要注意的是，囚徒博弈中的货币支付来自第三方局外人，这正是囚徒博弈同便士匹配博弈的不同之处。奥曼(Aumann)1987年对囚徒博弈给出了一个特别简单的描述：每个局中人都可以对仲裁人简单地宣告“给我1000

7、元”或“给对方3000元”。表4：甲和乙的收益表乙甲合作背叛合作3000, 3000 0, 4000背叛4000, 01000, 1000简单分析一下就会发现，如果一个局中人采取合作策略，而另一个局中人采取背叛策略，那么采取合作策略的局中人的收益为零，而采取背叛策略的局中人的收益为4000元(3000元收益再加上1000元的背叛鼓励)。如果双方都采取背叛策略，则双方的收益各为1000元。表4列出了甲乙双方的收益情况。从收益表可以看出，甲乙双方的收益之和不为零，而且收益和是变化的。因此，囚徒博弈是一种变和博弈。直觉上看，甲和乙都应采取合作策略(互不供出对方的犯罪事实)，各得3000元收益。

8、但从收益表可以得出这样的结论：如果一个局中人认为另一个局中人将合作，从而他将得到3000元收益，那么他若采取背叛策略，就将总共能获得4000元的收益；如果他认为另一个局中人为了得到1000元鼓励而将背叛，那么他也就只好为了自己也取得1000元鼓励而采取背叛策略(否则，他将一无所获)。总之，在收益最大化动机的驱使下，局中人的最优选择是背叛。这样一来，甲乙双方都采取背叛策略，各得1000元收益；而不是都采取合作策略，各得3000元。这是一个典型的博弈悖论，问题的关键在于每个局中人都有背叛的鼓励，而不管其他局中人将做什么。例3古诺博弈(双头垄断：产量较量)法国经济学家古诺(Cournot)于1838

9、年以天然矿泉井为例，首次建立了简单的双头垄断博弈模型，其特点是，垄断厂商双方都天真地以为对方不会改变原有产量水平，双方都追求各自利润最大化。古诺假定：有两个天然矿泉在一起，分别为厂商甲和乙占有；两个矿泉都为自流井，生产成本为零，边际成本也为零；甲和乙面对相同的需求曲线，采用相同的价格；双方都以为对方的产量水平不会改变。在这些假设前提下，甲和乙各自独立决定自己的产量水平，以求利润最大化。设是甲乙双方共同面临的反需求函数。当甲的矿泉水产量为，乙的产量为时，矿泉水的市场价格为，甲的利润, 乙的利润为。在这个博弈中，甲乙双方的策略都表现为选择产量水平，局中人的收益即为厂商的利润。当甲的产量为时，乙以为

10、甲不会改变这一产量，而选择一个合适的产量水平以使自己的利润达到最大。同样，当乙的产量水平为时，甲以为乙不会改变这一产量，而选择一个合适的产量水平以使自己的利润达到最大。为了说明这个博弈的结果，假设甲乙双方面临的反需求函数。用表示这局博弈中甲选择的最优产量，表示乙选择的最优产量水平，则甲乙各自的收益分别为和。由于实现了利润最大化，因此解之得：当乙的产量水平为时，甲决定的产量水平为(这是甲对乙的反应函数)；当甲的产量水平为时，乙决定的产量水平为(这是乙对甲的反应函数)。其中，表示矿泉水市场容量(即价格为零时的矿泉水需求量)。进一步求解可得：, 即博弈的结果是双方最终各占据矿泉市场的三分之一。反应函

11、数说明，古诺博弈中每个局中人的决策(选定的产量水平)不但依赖于其他局中人的决策，而且与市场的容量有关。例4贝特兰博弈(双头垄断：价格较量)古诺博弈模型描述了双头垄断厂商之间展开的产量较量。实际上厂商之间的产量较量并不如价格较量那么普遍，寡头之间应该有激烈的价格竞争。不论市场价格如何，只要某一厂商降低价格，而其他竞争对手保持原价格不变，那么降价厂商就能占有全部市场。这就是说，我们假定消费者只从最低价格厂商那里购买产品。为此，法国经济学家贝特兰(Bertrand)于1883年提出了以价格为选择策略的贝特兰博弈模型，反对古诺关于产量的博弈模型。还以矿泉水为例，在贝特兰博弈模型中各厂商都预期对手不会改

12、变价格，从而将自己的价格确定在利润最大化的水平之上。这就是说，贝特兰博弈的构建同古诺博弈相似，所不同的是贝特兰博弈中局中人的策略是选择价格，而古诺博弈局中人的策略是选择产量水平。贝特兰博弈中两个局中人甲和乙也是面临相同的市场需求函数，不过现在价格是自变量，产量为因变量(古诺模型正好相反)。设市场需求函数为, 为了分析上简单起见，进一步设(这里，,，即与古诺模型中的市场需求相同)。局中人的收益仍是他所获得的利润。如果甲和乙不相互勾结串通，当乙采取了价格水平时，甲认为乙不会改变这一价格水平，从而为了占领市场而要采取低于乙的价格水平的价格，于是甲的利润为，乙的利润为零；同样，当甲采取了价格水平时，乙

13、认为甲不会改变这一价格水平，从而为了占领市场而要采取低于甲的价格水平的价格，于是乙的利润为, 甲的利润为零。如果甲和乙相互勾结串通起来，采取相同的价格策略，即，那么甲和乙就能索要一个垄断价格，并且每人可收取一半的垄断利润。由此可见，甲和乙的利润函数分别为：，如果甲和乙勾结串通，合作起来，那么双方就能按照最大利润价格获得垄断价格，并且各得最大利润的一半。这里，利润最大化价格是按照确定的。但是，占领市场的诱惑对每个局中人都存在，只要他稍微降价，他就能获得全部市场。假如甲先进入该矿泉市场，那么甲就按照利润最大化价格$P_1=Q_o/(2b)$获取最大利润。继而乙进入这个市场，且乙认为甲不会改变

14、他的价格$P_1$，于是乙为了夺取市场而采取低于甲的价格水平的一个价格(。由于乙夺走了市场，甲同样又会采取低于乙的价格水平的价格，以夺回市场。这样不断往复下去，直至最后甲乙双方都把价格水平定为零时才可达到均衡，此时双方的收益为零，市场各占一半(即甲的销售量和乙的销售量相等，且)。这就是甲乙双方不合作的结果，双方都变得更差。以上分析表明：把贝特兰博弈与古诺博弈作比较，对同一市场来说，由于选择了不同的策略集合(一个以产量作为策略，另一个以定价作为策略)，得出了不同的博弈结果，贝特兰博弈的均衡价格、均衡产量和均衡利润都呈完全竞争状态(超额利润为零)，而古诺博弈的结果不是这样；再把贝特兰博弈同囚徒难题

15、博弈作比较，二者具有相似的结构，即局中人合作会取得最好的结果，但利益的诱惑促使他们采取不合作的行动，致使双方博弈的结局都变得更差。贝特兰博弈也可用囚徒博以来解释：合作是指两个厂商的勾结，背叛是指两个厂商独立行动，没有勾结。合作，可以索要一个高的垄断价格；背叛，则导致市场价格为零，双方利润为零。可见，双方合作起来，对两个厂商都有利，似乎应该合作。但博弈的最终结果是双方都采取背叛策略，导致谁也得不到利润。本节所举的这些事例说明，寡头垄断厂商之间展开的竞争与较量完全可以用博弈加以描述和研究。实际上，经济学中大部分经济现象都可以作为博弈的特殊情形进行研究，比如历史上解决竞争均衡的存在性这一经济学基本问

16、题时，就把经济系统看成为一局博弈。为了研究博弈，必须抓住博弈现象的基本要素，这些要素是：局中人、策略、收益。也就是说，博弈可以用局中人集合、策略集合和收益函数加以描述。局中人从策略集合中选择一种策略后所获得的效用或利益，就是局中人的收益(payoffs)，也叫做得失。我们假定每一个局中人都知道他自己和别人的策略集合与收益函数，这就是说，每个局中人的策略集合与收益函数为所有局中人所共知。当然，每个局中人都知道其他局中人掌握着这些信息和知识。局中人的收益不但依赖于他自己的策略选择，而且依赖于其他局中人的策略选择。我们再假定每个局中人在给定的主观信念下会选择收益最大化的行动，并且当新的信息根据贝叶斯

17、规则到来时，这些信息会得到修正(即根据贝叶斯全概率公式从先验概率计算后验概率)。第二节策略博弈为了能够正确地应用博弈论研究经济问题，需要对博弈加以准确地描述和定义。要定义一个博弈，需要确定三件事情：一是局中人集合(set of players)，一是局中人的策略集合(set of strategies)，一是局中人的收益函数(payoff function)。这三件事情中，确定策略集合是至关重要的。局中人以策略决定胜负，目标是使他的收益最大化。这种以策略定胜负的博弈，称为策略博弈(game of strategy)。正象比较古诺博弈和贝特兰博弈时说明的问题一样，用博弈论研究经济问题时，对于同

18、一经济现象，由于选择了不同的策略集合，得到的博弈结果截然不同。用表示博弈的局中人集合，表示局中人的策略集合，表示的收益函数，则就表示了一个博弈。根据局中人的多少，博弈可分为二人博弈和多人博弈。根据博弈的策略集合是否有限，博弈还又可分为有限博弈和无限博弈。例如，便士匹配和囚徒难题都是有限博弈，而古诺博弈和贝特兰博弈都是无限博弈。还可根据所有局中人的收益总和是否固定，把博弈分为常和博弈和变和博弈。常和博弈分为零和博弈(即收益总和为零的博弈)和非零和博弈。二人零和有限博弈是所有博弈中最简单、最重要的一类，通常称为矩阵博弈。本节以二人博弈为重点，介绍有关策略博弈的概念与理论。一策略表与收益矩阵设二人博

19、弈的局中人是甲和乙。甲有种可选策略，策略表为；乙有种可选策略，策略表为。当甲采取策略，乙采取策略时，称为博弈的局势，集合就是局势集合(局势表、局势矩阵)，即每个局中人选择自己的策略时，都要考虑对手的行动。这样每个局中人的收益不但与自己的选择有关，而且与对手的选择有关，收益函数是定义在局势集合上的函数，这里假定了局中人的收益是可以用实数来都来计量的。用表示局中人甲的收益函数，用表示局中人乙的收益函数。由于局势集合是有限集合，收益函数和都可用矩阵加以表示，这些矩阵就称为收益矩阵。记,，则甲和乙的收益矩阵分别为：，当(常数)时，该博弈就是常和博弈。否则，就是变和博弈。局中人的策略与收益也可用收益表加

20、以表达：表1：博弈的收益表乙的策略甲的策略，一般情况下，二人博弈可表示成。但对于二人常和博弈，则可简单地表示成，其中为收益的常数和。而矩阵博弈则可更简单地表示成，或者直接用甲的收益矩阵来表示矩阵博弈。二最小最大原理局中人的目标是选择使自己收益最大化的策略，我们来分析局中人如何决策。假定甲乙双方彼此了解对方的收益表。如果甲通过间谍获悉乙采取某种策略时，甲必然会采取相应的某种策略，以求自己的收益最大，即选择使下式成立：但是，当甲不知道乙会采取什么策略时，如果甲是一个避险者，那么他必将作最坏的打算，以求取得较好的效果。首先，甲要从收益表中找出自己的每一种策略下至少可获得的收益(即所能获得的最小收益

21、)，即先求解，然后从这些最小收益策略中选择出收益最大的策略，即“从最小收益中选择最大收益”。从收益矩阵来看这个决策过程，即甲首先选出自己的收益矩阵的各行的最小值，然后从这些最小值中再选出最大值：这就是求解策略博弈的最小最大原理，其合理性表现为：如果甲采取按照最小最大原理确定的策略，那么不论乙采取什么策略，甲都可至少得到这个最小最大收益。由此可见，最小最大原理是能够确保局中人收益的一种原理。今后，我们把局中人甲按照最小最大原理所确定的策略，叫做甲的稳妥策略。对于局中人乙来说，他的决策行为和决策过程同甲是一样的，只不过乙要依赖于收益矩阵。乙决策的最小最大原理是：乙先选出收益矩阵的各列的最小值，然后

22、从这些最小值中选出最大值：局中人乙按照最小最大原理确定的策略，称为乙的稳妥策略。读者可能会问：甲先找出他的收益矩阵各列的最大值，然后再从这些最大值中选出最小值，不也是一种很好的决策办法吗？其实，这种决策办法叫做最大最小法，照此办法做出的决策，在甲不知道乙会采取什么策略的情况下不能保证甲的最大最小收益能够达到。原因在于最大最小法需要确定出乙的每种策略下甲的最大可能的收益。假如甲按照最大最小法选出了策略, 那么当乙采用策略时，甲可得到最大最小收益。但是，若乙采用的不是策略, 而是策略，那么甲如不重新选择他的收益矩阵第列的最大值的话，他的最大最小收益就不一定能够达到，这正是最大最小法同最小最大原理的

23、区别。实际中，在甲不知道乙会采取什么策略的情况下选定了自己的策略以后，乙的策略才出台，为甲也获悉了乙的这一行动时，甲很有可能来不及调整自己原定的策略，从而给甲带来一定的损失。因此，最大最小法在保证局中人收益方面不如最小最大原理那么保险。当甲和乙的稳妥策略都已选定时，二者结合起来能否成为博弈的结果呢？答案是未必。请看下面二人零和博弈的事例。例1. 高度不确定的博弈考虑二人博弈，甲的策略集合，乙的策略集合，甲和乙的收益矩阵和通过博弈的收益表给出(见表2)。表2：甲和乙的收益表乙甲4，1，2，3，对于甲来说，；对于乙来说，。这说明甲的稳妥策略是，乙的稳妥策略是。但是，当甲采取时，乙采取的收益小于采

24、取的收益，因而乙要改用策略。在乙改用后，甲采取策略的收益小于采取的收益，因而甲也要改用策略。而当甲改用后，乙采用的收益小于采用的收益，于是乙又要改回到；在乙改回到后，甲也要改回到收益最大的策略。这就让我们看到：当甲采取时，乙要采用；然后甲改用，乙随之改用；甲再改用，乙又改用，如此不断往复下去，博弈的结局是高度不确定的。一般来讲，要想一个二人博弈具有确定的结局，必须存在这样的局势：满足这个条件的的局势，叫做博弈的均衡或最优解或最优局势，其中的和分别叫做局中人甲和乙的最优策略或均衡策略。这个条件也就叫做博弈的均衡条件。对于二人常和博弈来说，是博弈的最优解当且仅当数学中，满足这个条件的点叫做函数的鞍

25、点。因此，是博弈的最优解当且仅当是收益函数的鞍点。下面的定理给出了鞍点的判别条件。鞍点定理是收益函数的鞍点的充要条件是：证明：必要性. 设是的鞍点，即。从可知，对一切成立，这就蕴含着，即。注意，。这就证明了。充分性设满足。从可知；从可知。所以，即是函数的鞍点。既然二人常和博弈的最优解恰好就是收益函数的鞍点，鞍点定理告诉我们，当收益函数的鞍点存在时，利用最小最大原理确定的博弈局势就是二人常和博弈的最优解。但是，当收益矩阵不存在鞍点时，常和博弈就没有最优解，博弈的结局就是高度不确定的。鉴于此，我们将有鞍点的常和博弈称为严格确定的博弈。三反应函数博弈的局中人总是要考虑对手的行动，然后确定自己的对策。

26、当乙采取了某种策略，而且被甲所觉察时，甲必然有所反应，要确定出相应的对策以使自己的收益在乙选择的情况下达到最大，即要使。甲对乙的行动的这种反应，确定了一个从乙的策略集合到甲的策略集合的映射，即对任何，甲的反应策略是按照来确定的。这个映射就叫做甲对乙的反应函数。同样的道理，可以确定出乙对甲的反应函数，即对任何，是按照来确定的。利用反应函数，我们也可以解释博弈的结局。就象古诺博弈一样，假如甲先采取某种策略，乙通过某种途径获悉了甲的这一行动，并认为甲不会改变他的策略，于是作出反应，决定采取策略，以使自己的收益最大化。当乙采取策略时，甲掌握了这一信息，并认为乙不会改变他的策略，于是作出反应，改变原来的

27、策略，决定采用，以求收益最大化。这时，乙再次对甲的行为作出反应，采取新策略。甲也再次对乙的行动作出反应，采取新策略。这样的反应不断下去，直到最后达到且时博弈实现了均衡，此时的局势就是博弈的最优解(均衡、最优局势)。综上所述，博弈的结局是实现均衡，并且均衡由甲乙双方的反应函数确定，即由方程组决定。事实上，是该方程组的解当且仅当，而这正是博弈实现均衡的含义。注意，以上关于反应函数的讨论，没有要求策略集合的有限性，即集合和可以是任何集合。下面考虑二人无限博弈的一种特殊情况：策略集合和都是实数区间。比如，本章第一节例3中古诺博弈的局中人策略集合就是区间(半直线)，例4中贝特兰博弈的局中人策略集合也是半

28、直线。假设局中人甲和乙的收益函数和可微，则甲对乙的反应函数由方程(一阶条件)决定，乙对甲的反应函数由方程(一阶条件)决定，从而博弈的最优解就是如下方程组的解：例2二人博弈的反应函数及最优解设二人博弈中，甲和乙的策略集合和为，收益函数和分别如下：求偏导数得方程组。由此可知局中人甲和乙的反应函数分别为，博弈的最优解为。四策略选择的经济模拟第一节中曾经指出，描述一个博弈时策略集合的选择至关重要。比较古诺博弈和贝特兰博弈，虽然二者的目的都是要模拟同一经济现象双头垄断，但二者的结构却很不同。古诺博弈中厂商的策略是选择产量，厂商的收益是策略变量的连续函数；而贝特兰博弈中厂商的策略是选择价格，厂商的收益是策

29、略变量的非连续函数。这导致了相当不同的均衡，究竟哪一种是正确的呢？如果抽象地看待这个问题，那么“哪一种模型正确”这样的提问并无什么意义。要回答这个问题，就必须看模型试图模拟什么。不要问哪一种模型是正确的，而去问策略选择中什么样的考虑是切入主题的，这样的提问可能会更加有益一些。比如，如果我们观察OPEC公司的公告，就会发现OPEC企图为每一个员工决定产量配额，并且允许按照世界石油市场价格定价，这样按照产量水平而不是按价格水平来模拟博弈策略，就可能更加合理。在策略选择的经济模拟中还有另一方面的考虑，乃就是一旦对手的行为被观察到，那么对手的策略应该是被承诺的或者是难以改变的。然而到目前为止，所描述的

30、博弈是“一次性”(one-shot)博弈，其特点是一旦知道对手的行动，策略变量可以很快地进行调整。例如，假设我为我的产品选择一个价格，然后发现我的对手制定了一个略低一些的价格，在这种情况下我可以很快地调整我的价格。因此，尽管“一次性”博弈所描述的现象应该是发生在实际生活中的现实，但在“一次性”博弈中模拟这种能够很快调整的策略反应并不具有多大的意义。似乎应该使用多阶段博弈，这样才能捕获到策略选择行为的所有可能的内容。另一方面，如果我们把古诺博弈中的产量水平解释成为厂商的生产能力，那么一定产量的产品生产就可能是不可撤消或不可改变的资本投资。这种情况下，厂商一旦发现对手的产量水平，而要改变厂商自己的

31、产量水平，则可能是难以办到或非常昂贵的。生产能力或产量水平似乎是厂商策略的天然选择，即使一次性博弈中也是这样。同大部分经济模拟一样，在策略选择的经济模拟中，如果既要让博弈简单明了以便分析，又要能够说明实际策略的迭接要素，那么如何表示博弈的策略选择，就是一项艺术。第三节重复博弈到目前为止，所谈论的博弈是一次性的。其实，任何博弈都可以一次一次地重复进行，且每一次重复都不是简单地重复前一次的着法，而会考虑得比前一次更全面些，技法也会更高些。就好像棋手下棋一样，一局结束了再开一局，前一局在某些着法上吃了亏，这一局中就会吸取教训而加以注意，正所谓“吃一暂，长一智”。反反复复地开局，给棋手不断积累经验，

32、让棋手的技艺越来越高。通过博弈的重复进行，局中人的经验越来越丰富，这种经验源于博弈历史。实际上，重复博弈中的每一点处，局中人决定自己的选择时会考虑到达该点之前的全部博弈历史，比如象棋棋手在上一局中因出车慢而吃了亏，那么这一局中就会吸取前一局的教训而赶快把车开出来。这样一来，重复博弈中局中人的策略空间随着博弈被重复的次数的增加而变得越来越大，也就是说，博弈历史越长，局中人的策略空间越大，可以选择的着法越多。由于“我的对手会基于我的选择历史而修正他的行为，我必须在做出自己的选择时考虑到这种影响”，所以，重复博弈的结果不绝不是一次性博弈的简单重复。例1. 囚徒博弈的重复我们以囚徒博弈为例，来分析重复

33、博弈问题。囚徒博弈中，企图获得“(合作，合作)”解是两个局中人的长期利益所在。对于每个局中人来说，可行的做法是试着给另一个局中人发出“信号”以表明他的“善意”，并且在博弈一开始移动就进行合作。当然，背叛是另一个局中人的短期利益所在。如果他不合作而采取背叛策略，那么对方就可能失去耐心而从此以后永远只实行背叛。这样一来，背叛者就会因只看到眼前利益而丧失合作的长期利益。基于这种推理可以得到的事实是，一个局中人目前的做法将在未来将得到回应其他局中人的未来选择可能依赖于这个局中人当前的选择。现在来分析一下“(合作，合作)”局势能否成为重复囚徒博弈的一个均衡。我们分两种情况进行讨论，一种情况是有限次重复博

34、弈，另一种情况是无限次重复博弈。先讨论有限次重复博弈，为此假定每个局中人都知道博弈将重复一个固定的次数（比如重复次）。考虑最后一轮博弈实施之前局中人给予的推理，此时每个人都认为他们在进行一次性博弈。由于这是最后一次移动，将来不会再有，因此均衡的标准逻辑推理便得以应用，其结果是局中人双方都选择“背叛”策略。再考虑最后一次移动之前的移动，这里似乎每个局中人都重视合作，以向对方发出他是“好人”的信号，以便能在下一次以及最后一次移动中合作。但是，我们已经看到，最后一次移动中双方都将采取背叛，因此在倒数第二次的移动中合作就没有什么优势可言。采取合作是为了得到长期利益，为了在将来最后一次移动中得到回应。然

35、而，将来最后一次移动中并不能得到合作，双方都背叛了，结果倒数第二次移动中双方也只有采取背叛。同理不断向后归纳(backwards induction)，结果最后一次移动之前的所有移动中，合作并不能带来什么长期利益，没有什么优点，局中人惟有相信其他局中人将在最后一次移动中背叛，用现在的善意企图去影响未来下一次的移动是无利可图的。因此，在重复某一固定次数的囚徒难题重复博弈中，每一局博弈的均衡局势都是“(背叛，背叛)”，而不是“(合作，合作)”。再来考虑博弈可无限次重复的情况。当博弈的重复次数为无限时，情况就大不相同了。此时，局中人在每一个阶段都知道博弈至少还要重复一次以上，因而合作大有前景，长期利

36、益在望。在这种无限次重复的囚徒博弈中，每个人的策略都是一个函数序列，它表明每个局中人在每个阶段是选择合作还是选择背叛，都是作为此阶段之前博弈历史的函数。重复博弈中，局中人的收益是各阶段收益的贴现值之总和贴现和(向时刻0贴现）。具体地说，设局中人在时刻的收益(即第局重复中的收益)为，他在重复博弈中的收益就是贴现和，其中为贴现率。只要贴现率不很高，囚徒博弈每一局重复的均衡局势便都是“(合作，合作)”，每个人在各个阶段都会看到合作的利益。为了说明这个事实，我们采用第一节例2提供的数据。假设两个局中人一直合作，移动到了时刻。如果本次移动中一个人决定背叛，那么另一个人会因本次移动中采取合作而未得收益，从

37、而从下次以后永远采取背叛策略，给对方以惩罚。第一个背叛者从本次开始，以后只能继续背叛（因为合作的收益为零），结果他虽然在本次移动中立即得到了4000元的收益，但也以以后无限次的1000元收益这个低收益流来毁灭自己，他从背叛中得到的收益贴现和为元。另一方面，如果他持续合作下去，永不背叛，那么对方也不会背叛，于是他从合作中得到的收益贴现和为元。比较和可知，只要贴现率，就有。这就说明，只要贴现率不很高，当一方背叛时，另一方也采取背叛给其以惩罚，就能使背叛者偿其苦果。由此看来，只有双方互相合作下去。如有一方背叛，另一方就要执行惩罚策略来使背叛者饱偿苦果，因而没有一方能够从背叛中会有收获。所以，在贴现率

38、不很高的情况下，囚徒博弈重复的均衡是局中人双方在各阶段都采取合作策略。以上论述实际上是很有力的，有一个称为弗尔克(Folk)的著名定理支持了这一论述。该定理断言：在重复的囚徒博弈中，任何收益如果高于局中人双方一致背叛所能得到的收益，那么都将被作为重复博弈均衡而得到支持。上面我们还提到了惩罚策略，实际上这个策略可明确叙述成：“在当前移动中合作，除非其他局中人在最后移动中背叛”。采取这个策略的理由是，如果一个局中人背叛，那么他将在收益上得到永久性惩罚。另外，上面论述中还涉及到了贴现率，并要求贴现率不很高。实际上，当贴现率很高时，当前收益就是特别重要的，因为将来的货币贬值太大了，现在的收益要抵得上将

39、来收益的好几倍，因而当事人只好顾及当前收益，力求当前收益越多越好，而把未来长远利益放在次要位置上。下面再看一个双头垄断的重复博弈事例。例2维持卡特尔考虑一个简单的重复双头垄断，如果两个厂商都执行古诺博弈均衡策略，则得到利润；如果以共同利润最大化决定产量水平，即执行卡特尔行动，则得到利润。我们知道，一次性博弈中共同利润最大化的产量不是博弈均衡，每个厂商都有激励去倾销额外数量的产品，如果他认为其他厂商将保持产量不变的话。但是在重复博弈中，只要贴现率不太高，合作起来以使共同利润最大化之策略，将是重复博弈的最优解。可以证明，如果这种简单的双头垄断博弈是一次性的，那么每个厂商以古诺产量生产将是博弈的最优

40、解。但是，如果这个博弈是不断重复的，那么每个厂商都采取按照卡特尔产量生产的策略，即都选择合作，将是双头垄断重复博弈的最优解。对不合作的适当惩罚，是采取生产古诺产量水平这一策略。可见，在不断重复的双头垄断博弈中，由于一次性博弈均衡这种惩罚策略的存在，局中人都将以长远利益为重，来维持卡特尔。第四节混合策略并非所有博弈都有严格确定的结局。进一步，实际中博弈局中人常常希望自己的行动隐秘不被暴露，不被对手觉察。对于这两个问题，目前意义上的策略博弈是解决不了的。在博弈非严格确定或者局中人希望保守秘密的情况下，局中人的最好做法是采取混合策略，即以一定的概率采取某种策略。这样做，甚至连局中人自己也不知道每一

41、次行动中究竟采取什么策略，竞争对手就更不得而知了。而且对于非严格确定的博弈来说，采用混合策略就可求得最优解。当一种混合策略以概率1选择某种策略时，这种策略就是前三节所谈论的“纯”策略，可见混合策略扩展了策略概念。一混合策略的概念我们以两人博弈为例，来对混合策略的概念以及采取混合策略时局中人的行动目标进行解释。至于更一般的多人博弈，将在下一节中讨论。设为有限二人策略博弈，其中为局中人甲的策略集合，为乙的策略集合，和分别为甲和乙的收益函数。局中人为了保持自己决策的秘密性，不再象以前那样选择纯策略，而决定采用随机办法来选择策略。也就是说，局中人对纯策略的选择由某种随机装置来决定，对每个纯策略来说，采

42、用它只有可能性的大小，也就是用多大的概率来选择各个纯策略。这样，对方就不可能事先知道究竟选择哪个纯策略，甚至连局中人自己也不可能事先知道，而纯策略是在最后时刻借助随机装置选择出来的。通过借助随机装置，局中人原来对纯策略的选择变成为现在对各个纯策略的概率大小的选择。如果还嫌借助随机装置给出的选择各个纯策略的概率大小具有一定的客观性，怕被对方估计出来，局中人还可进一步采取主观概率分布，以使对纯策略的选择带有真正的不确定性(参见第六章关于主观概率的介绍)。这种以某种概率选择的策略就是混合策略，更准确地说，选择混合策略就是选择一个概率分布，然后按照这个分布给出的概率来选择各个纯策略。假如甲选择策略的概

43、率为，则向量代表着甲选择各种纯策略的概率分布，实际上就表示了甲的一种混合策略。这就是说，混合策略是用概率分布来表示的，混合策略的变化完全反映为概率分布的变化。今后，我们把概率分布就称为局中人甲的混合策略。原来的纯策略可看成是这样的一种混合策略：以概率1选择策略，以概率0选择其他策略。如此一来，甲的策略集合由原来的纯策略集合扩张成为混合策略集合。同样，局中人乙的选择集合也由原来的纯策略集合扩张成为混合策略集合。当甲采取混合策略，乙采取混合策略时，就称为博弈的混合局势。在采取混合策略的情况下，局中人的目标是要使预期收益最大化。当甲采取混合策略，乙采取混合策略时，甲和乙的预期收益分别为和：这里，和

44、都写成行向量形式，“”为转置运算。甲的收益函数由原来的扩充成为，乙的收益函数由原来的扩充成为。在策略集合和收益函数都得到扩充以后，原来的纯策略博弈就扩充成为混合策略博弈，而且可看成是一般的二人博弈，不过这个博弈的收益函数具有双线性性，即对于任何，及任何实数，都成立：的混合局势就是的局势。博弈叫做纯策略博弈的混合扩充。关于混合扩充，下述两个事实是明显的：(1) 博弈是常和博弈当且仅当混合扩充是常和博弈。(2) 如果是常和博弈，则混合扩充保持了原来博弈的收益和。混合扩充的最优解(均衡)，叫做原博弈的最优混合解(混合均衡)。也即是的最优混合解，是指且。当是的最优混合解时，和分别叫做甲和乙的最优混合策

45、略。可以证明：(3) 纯策略博弈的最优解必然是混合扩充的最优解。(4) 当是常和博弈时，是的最优混合解当且仅当。从(4)可知，是常和博弈的最优混合解当切仅当是预期收益函数的鞍点。应用第二节的鞍点定理，我们得到常和博弈的最优混合解的又一判别条件：(5) 设是二人常和博弈，则是的最优混合解的充分必要条件是。二混合策略的意义有时，给予混合策略一个有意义的解释是困难的。第一节例1所述的便士匹配博弈，由于收益矩阵没有鞍点，因而没有纯策略意义下的最优解。但由于硬币出现正面或反面，总有一个概率分布情况，因此采取混合策略来把便士匹配博弈加以扩充，然后寻找混合策略意义下的最优解，这显然是我们大家都能够感觉得到

46、的应该采取的做法。然而对于象双头垄断这样的一些其他经济利益博弈来说，采取混合策略似乎是不现实的。除了混合策略在一定范围内缺乏现实意义外，还有一些逻辑上的原因导致对混合策略难以解释。我们用一个例子来说明这一点。例1性别博弈(Battle of the Sexes)性别博弈收益表卡夫茹达话剧足球话剧2，10，0足球0，01，2这里介绍的博弈背后隐藏的故事是一场“性别之战”。茹达(Rhonda，女)和卡夫(Calvin，男)本周末一起欢度良宵，但他们二人的娱乐爱好不同。茹达喜欢看话剧，而卡夫喜欢看足球比赛。如果他们同时选择看话剧，则茹达可得2个单位的效用，卡夫可得1个单位的效用；如果同时选择看足球比

47、赛，则他们得到的效用正好与此相反；如果他们选择不同的娱乐，则得不到任何效用。右表给出了茹达和卡夫的收益情况。我们来看一看茹达和卡夫之间这场“性别之战”博弈的结局究竟如何。首先，让我们寻找该博弈的所有纯策略意义下的最优解。通过对各种策略进行逐一相互比较，不难看出“(话剧，话剧)”和“(足球，足球)”都是纯策略最优解，即茹达和卡夫选择相同的娱乐，才是最好的做法。然后，我们来寻找混合策略意义下的最优解。茹达的收益矩阵和卡夫的收益矩阵为：，茹达的预期收益为，卡夫的预期收益为。因此，最优混合策略问题可归结为如下的约束极值问题：应用Kuhn-Tucker条件(参见第七章第八节)，上述极值问题的解为,，,。这就是说，茹达以概率选择看话剧，以概率选择看足球比赛；卡夫以概率选择看话剧、以概率选择看足球比赛，是性别博弈的最优混合局势。这个最优解有这样几个特点：第一，茹达和卡夫采取最优混合策略的预期收益都等于2/3；第二，如果茹达采取最优混合策略，那么不论卡夫采取什么纯策略，卡夫的预期收益也都是2/3；第三，如果卡夫采取最优混合策略，那么不论茹达采取什么纯策略，她的预期收益也都是2/3。这样一来，还有什么理由要求茹达和卡夫双方都采取最优混合策略呢？看来，要想人们采取混合策略，必须有一些更加令人兴奋的理由