研究生决策理论与方法课程.ppt
决策理论与方法研究生课程,胡隆基华中科技大学公共管理学院,第一讲 引论,本讲主要内容,1.何谓决策?2.系统化决策的过程3.决策的类型4.决策理论的发展历程5.本课程的内容安排6.考试方法,1.何谓决策,1决策的定义,决策就是对各种可行方案的选择。是面对“选择性”时所作的“抉择”。决策判断抉择“选择性”是决策的必要和充分条件,要避免“霍布森选择”。判断是个认识过程,表现为对某一现象的认识,确定对象是否具备某种属性。好的决策好的结果,但会提高取得好的结果的概率。坏的决策也可能碰巧取得好的结果(“谋事在人,成事在天”),2.系统化决策的过程,2.1 决策一般过程,目标(含价值观与准则),买车决策,一、识别问题老王上班地点离家很远,每天都要6点起床去挤8路电车上班,很是痛苦。某天突发横财,为了自己多年7点起床的梦想,决定买车。老王认为自己的问题是:“如何买一辆适合自己的车”,二、拟定备选方案大众GOLF本田飞渡东风标致307现代伊兰特,三、确定决策目标和标准目标:自己满意的车标准:价格、耐用性、油耗、舒适性、外形,给每个标准赋予权重,四、依据目标和标准对备选方案进行评估步骤一,步骤二,五 方案选择本田飞度,3 决策问题的类型,3.1 决策的人数,个人决策。决策者一个群体决策。决策者多个,一起对一个共同的问题进行决策。,3.2 方案的多少,单一方案接受与否的是非决策问题多个备选方案中选择一个方案的单选决策问题多个备选方案中选择多个方案的组合决策问题,3.3 有否对手,独立决策。你的决策对别人没影响,别人的决策对你也没影响互动决策,也称为对策(博奕论)。对方的决策,就是本方的未来客观条件,反之,本方的决策也是对方的未来客观条件。,3.4 未来状况信息的特征,确定性决策。田忌、齐威王赛马,非确定型决策(Indeterminateness):风险决策,不确定型(Uncertainty)决策,3.5 决策目标的多寡,单目标决策多目标决策,3.6 决策的目的,个人决策为自己决策。标准:“自己不后悔就行”,决策过程不需要公开透明公共决策为他人决策。标准:“大家的认可”,所以决策过程需要公开和透明,同时需要相关人员的参与。政治就是妥协,4 决策理论的分类和发展历程,4.1 决策理论的分类,一般来说分为两类:理性决策。出发点是提供一套规则,以综合反映人们的优先观念和对不确定前景的信念,从而选择出满意的方案。行为决策。主要是研究决策中的心理和认知内容(这是一个已经获得两次),4.2 发展历程,理性决策理论:(两个主题:“准则”和“不确定性”)理性决策理论是1738年,伯努利提出效用值的概念,以及用概率反映不确定性1881年,埃奇沃思,提出序数效用论1931年,拉母西,1944冯 洛伊曼和摩根斯坦提出效用值运算定理。基数效用论再次兴起1950s萨维奇建立贝叶斯决策理论1966年,霍华德决策分析:应用决策理论,首次提出“决策分析”一词。,行为决策理论:1978年,西蒙获得诺贝尔奖(50年代就开始研究了)行为决策理论的开创者:爱德华兹和阿莱斯(1988年诺贝尔奖得主)。2002年,卡尼曼(诺贝尔奖),特沃斯基神经心理学、神经决策理论。这个领域还会有人获奖。,群体决策1972,阿罗。群体决策、社会选择理论1986,布坎南,政治决策的经济分析1998,阿马蒂亚森。社会选择理论,5 本课程内容安排,2 不确定型决策3 风险决策回顾4 博弈论基础,6 考试方法,?,参考书,李怀祖决策理论导论机械工业出版社,1992李瑛决策统计分析6、7、9章,天津大学出版社,2005丁以中,Jennifer S.Shang管理科学运用Spreadsheet建模和求解9、10章,清华大学出版社,2005年如果对决策心理学感兴趣自己参阅:庄锦英,决策心理学,上海教育出版社,2006马可斯.巴泽曼管理决策中的判断第六版,人民邮电出版社,2007哈蒙德,肯尼,莱福,决策的艺术上海人民出版社,2003,第二讲 不确定型决策分析,本讲主要内容,1.何谓不确定型决策?2.乐观决策法3.悲观决策法4.乐观系数决策法5.最小的最大后悔值法6.拉普拉斯决策法,1.何谓不确定型决策,1.1 引例,假设北京市机场要进行扩建,需要重新选址再建一个机场。已经确定了两个可能的新机场建设地址:A和B,但是还没有下最终结论。希尔顿酒店计划在新机场附近新建一家酒店。该酒店面临的决策问题就是:在哪里购买土地?,拟定方案:1)在A购买;2)在B购买;3)在AB都购买;4)都不买设定目标和标准:收益最大化评价。分析这类问题最常见的方法是构建一个收益矩阵。自然状态:未来决策环境中可能出现的各种状况称之为自然状态。收益矩阵就是有关:所有备选方案在每一种可能的自然状态下最终结果的总结表。,收益表,数据表,引例的收益矩阵,特点:机场究竟建在何处对于希尔顿酒店来说,完全不知道。这就是不确定型决策。也就是究竟哪一个自然状态会发生,决策者没有一点信息。,2.乐观决策法,乐观决策法,又叫:好中求好法、最大最大法。基本思想就是:认为在最乐观的自然状态下具有最大收益值的那个方案就是最佳方案。求法:首先求出每个行动方案在各种自然状态下的最大收益值,然后求出各个最大收益值的最大值,该最大值对应的方案就是最佳方案。,13,11,5,0,乐观决策有时候会导致决策失误!,思考题 用乐观法求解下题,3.悲观决策法,也叫坏中求好法(Wald方法),最小中的最大化法。认为最悲观的自然状态下具有最大效益的哪个方案就是最佳方案算法:首先求出每个方案在各种自然状态下的最小收益值,然后求出各个最小收益值中的最大值,该最大值对应的方案就是最佳方案。,12,8,1,0,思考题:为什么悲观决策法不是坏中求坏呢?,悲观决策法也可能犯错误,思考题:用悲观法求下题,4.乐观系数决策法,又称为Hurwicz 决策法、折衷法。首先主观设定一个0,1之间的乐观系数。当系数为0时,为悲观法,为1时,就是乐观法。计算出各个方案的最乐观结局与最悲观结局的折衷值,其公式为:,比较各个行动方案的结果,选择受益最大的那个行动方案。,0.5,1.5,2,0,思考题:用乐观系数法求下题,5.最小的最大后悔值法,概念和计算步骤,也称Savage方法。所谓某个方案在某个自然状态下的后悔值(或者机会损失)等于某个自然状态的最大报酬值减去该方案在该自然状态下的报酬值。首先将收益矩阵转化成后悔值矩阵;决策准则:在全部方案的最大后悔值中选取最小值对应的方案。,原来的收益矩阵,23,21,12,13,用最小的最大后悔值法求解下题,后悔值矩阵,200,140,100,注意!,在Savage法的指导下,有时候可能会作出莫名其妙的决策。例如:考虑下面的收益矩阵,转化为后悔值矩阵,4,5,假定还有一个备选方案,,后悔值矩阵,6.拉普拉斯决策法,概念和计算步骤,也称为等可能法。其思想是假定各种自然状态出现的可能性是相同的,然后计算各种方案的期望收益。假设有n中可能发生的自然状态,假定每种自然状态发生的概率均相等,则每种自然状态发生的概率等于1n;由此计算出各种方案的期望收益。选择期望收益最大的方案为最优方案。,113.3,130,153.3,补充例子,例:假设某种产品只能批量生产,成本30元/件,批发价35元/件,当月售不完1元/件。每批10件,最大生产力40件/月(批量生产与销售),应如何决策?,第三讲 风险型决策分析,本讲主要内容,part1.何谓风险型决策?Part2 期望收益理论1.最大期望价值法2.最小期望后悔值法3.灵敏性分析4.决策树技术5.多级决策问题6.贝叶斯决策part3.期望效用理论part4.前景理论,Part1.何谓风险型决策,基本概念,1、风险型决策的特征:(1)目标明确;(2)存在两个以上的行动方案;(3)存在两种以上的自然状态;(4)各方案在各自然状态下的损益可计算;(5)未来出现哪种状态不确定,但可估其 概率。,收益表,希尔顿酒店购地的例子,支付(收益)矩阵,Part 2.期望收益理论,最大期望价值法,期望价值(EMV):第i个方案的期望价值定义为:其中,Rij表示备选方案i在第j个自然状态下的益,pj表示第j个自然状态发生的概率。,支付(收益)矩阵,2,3.4,1.4,0,EMV,EMV的含义,EMV是假设决策主体重复进行同一个决策问题时,不断选择某个方案的长期平均收益。所以只有当我们不断面对同意决策问题的时候,选择EMV值的备选方案才有意义,才可能获得该平均收益。当决策只需进行一次的时侯,按照EMV决策原则行事,风险就比较大。,思考题 用最大期望价值法求解下题,方案A的风险相对要大,而EMV决策没考虑这种风险,我们会在效用理论中讨论这个问题,2.最小期望后悔值法,基本概念,思考题:什么是后悔值?期望后悔值(EOL)算法:与前面计算期望收益类似,无非是将收益矩阵替换成后悔值矩阵,最大EMV决策法与最小EOL决策法是等价的,3.灵敏性分析,基本概念,灵敏性分析(也叫敏感性分析),就是改变系统的输入,看输出如何随之变化。对于风险决策中的最大EMV决策法来说,灵敏性分析的任务就是分析随着自然状态的概率的变动,各个方案的EMV的变化趋势。,例题:购地决策的灵敏性分析,2,3.4,1.4,0,EMV,假设机场建在A处的概率变为0.6则EMV A130.6-12*0.4=3EMV B=-8*0.6+11*0.4=-0.4EMV AB=5*O.6-1*0.4=2.6EMV NON=0,各方案EMV变动与P(A)变动的关系,0.4,0.6,EMV,P(A),4.决策树技术,41 决策树的概念,决策树技术是分析决策问题的有效工具之一。特别是当决策问题是多级决策问题时。决策树由以下三个部分构成:(1)决策节点(),方案分枝(2)状态节点(),概率分枝(自然状态)(3)结局节点(),旁边的数字每一行动方案在相应自然状态下的收益值。,决策节点,方案分枝,状态节点,概率分枝,S2,p2,S1,p1,Sn,pn,1000,4000,7000,Am,A2,A1,决策节点,方案分枝,状态节点,概率分枝,损益值,结局节点,42 决策树的结构,-,-,-,思考题:试着将希尔顿酒店的问题转化为决策树,44 利用决策树的求解步骤,决策树技术的使用步骤:(1)绘制决策树(2)从右到左,计算出各个行动方案的期望收益值,并将结果标在相应的状态节点上。(3)选择期望收益值最大的行动方案作为最优方案,2,3.4,1.4,0,3.4,例1:某公司有两个建厂方案,寿命相同,但投资收益不同,情况如下,决策节点 方案分枝 状态节点 概率分枝 损益值,销路好(0.7),销路差(0.3),1,2,3,830,1400,-500,240,-60,销路好(0.7),销路差(0.3),建大厂,建小厂,830,150,5.决策游戏面临不确定条件下的群体决策,2006年5月17日,有一架飞机在沙漠中发生意外,你和一部分的生还者,面临 生死存亡的选择,事件背景4-1 事发在当天上午10点,飞机要在位于美国西南部的沙漠紧急着陆。着陆时,机师和副机师意外身亡,余下你和一群人幸运的没有受伤。,事件背景4-2 出事前,机师无法通知任何人有关飞机的位置。不过从指示器知道距离起飞的城市300公里;而距离最近的城镇,是西北偏北200公里,该处有个矿场。,事件背景4-3 该处除仙人掌外,全是荒芜的沙漠,地势平坦。失事前,天气报告气温达华氏108度。也就是摄氏42度左右;地表温度54摄氏度。,事件背景4-4 你穿着简便:短袖恤衫、长裤、短袜和皮鞋。口袋中有十多元的辅币、五百多元纸币、香烟一包、打火机和原子笔各一支。,事件背景 事发在当天上午10点,飞机要在位于美国西南部的沙漠紧急着陆。着陆时,机师和副机师意外身亡,余下你和一群人幸运的没有受伤。出事前,机师无法通知任何人有关飞机的位置。不过从指示器知道距离起飞的城市120公里;而距离最近的城镇,是西北偏北100公里,该处有个矿场。该处除仙人掌外,全是荒芜的沙漠,地势平坦。失事前,天气报告气温达华氏108度。你穿着简便:短袖恤衫、长裤、短袜和皮鞋。口袋中有十多元的辅币、五百多元纸币、香烟一包、打火机和原子笔各一支。,“沙漠求生”专家的答案,在第二次世界大战期间,一位专家曾在撒哈拉沙漠工作,研究在沙漠求生的问题。他搜集了无数事件和生还者的资料,给出以下答案,并详细解释其理由。,1 化妆镜 在各项物品中,镜子是获救的关键。在白天用来表示你的位置,是最快和最有效的工具。镜子在太阳光下,可产生相当于五到七万支烛光;如反射太阳光线,在地平线另一端也可看到。如没有其他物品,只有一面镜子,你也有80%获救的机会。,2 每人外套一件 如失事的位置被获悉,在拯救队未到前,便要设法减低体内水分的散发。人体内有40%是水分,流汗和呼吸会使水分消失,保持镇定可减低脱水的速度。穿上外套能减低皮肤表面的水分散发,假如没有外套,维持生命的时间便减少一天。,3 每人4公升清水 如有上述(1)、(2)两项物品,可生存三日。水有助减低身体内脱水的速度,口渴时,最好喝水,使头脑清醒。尤其是在第一天,要制造遮蔽的地方。当身体开始脱水时,喝水也没有多大效用。,4 手电筒(4个电池大小)在晚上,手电筒是最快和最可靠的发讯号工具。有化妆镜和手电筒,24小时都可以发出信号。电筒也有其他用途:日间可用电筒的反光镜和玻璃做信号及点火引燃之用;装电池的部分可用来挖掘或盛水。(参考塑料雨衣部分之蒸馏作用)。,5 降落伞(红色和白色)可用做遮荫和发信号。用仙人掌做营杆,降落伞做营顶,可降低20%的温度。,6 大砍刀 刀可切断坚韧的仙人掌,也有其他用途。刀可排列在较前的位置。,7 塑料雨衣 可做“集水器”。在地上挖一洞,用雨衣盖在上面,然后在雨衣中央放一小石块,使之成漏斗形。日夜温差可使空气的水分附在雨衣上,将雨衣上的水滴在电筒盖中存储。每天大约可收集半公升的水。,8 0.45口径手枪(装有弹药)第二天之后,你们说话和行动已很困难,身体已经产生6-8%的脱水,手枪于是成为很有用的工具;弹药有时要做起火之用。国际的求救信号是连续发三个短的符号。在无数事件中,由于求生者不能发出求救声音,所以没有被人发现。另外,枪柄可做锤子用。,9 每人太阳镜1副 在猛烈的太阳光下,会患光盲症。用降落伞遮荫可避免眼睛受损;也可用黑烟将眼镜熏黑;用手绢或纱布蒙眼,也可避免眼睛被太阳光灼伤。但用太阳镜则更舒适。,10 薄纱布1箱 沙漠湿度低,身体的脱水会使血液凝结,减少血液流失。有事件记录:有一男子体内失去水分,而身上的衣服已被撕破,倒在尖锐的仙人掌和石块上,满身伤口,但没有流血。后来被救,饮水后伤口才流血。纱布可当绳子或包扎脚部、足踝、头部或面部做保护之用。,第四章 对策论博弈论基础,引言、博弈论发展历程,博弈论(game theory)是由美国数学家冯诺依曼(Von.Neumann)和经济学家摩根斯坦(Morgenstern)于1944年创立的带有方法论性质的学科,它被广泛应用于经济学、人工智能、生物学、火箭工程技术、军事及政治科学等。,1994年,三位博弈论专家即数学家纳什(Nash,他的故事被好莱坞拍成电影美丽心灵,该影片获得了2002年奥斯卡金像奖的四项大奖)、经济学家海萨尼(Harsanyi)和泽尔滕(Selten)因在博弈论及其在经济学中的应用研究上所作出巨大贡献而获得诺贝尔经济学奖。,1996年,两位将博弈论应用于不对称信息下机制设计的经济学家莫里斯(Mirrlees)和维克里(Vickrey)、以及2001年三位经济学家阿克洛夫(Akerlof)、斯蒂格利茨(Stiglitz)和斯宾塞(Spence)因运用博弈论研究信息经济学所取得的成就而成为这两个年度的诺贝尔经济学奖得主。专家预计,近几年还会有更多的博弈论专家可能获得诺贝尔经济学奖。,一、囚徒困境,1.囚徒困境 两个小偷甲和乙联手作案,私入民宅被警方逮住但未获证据。警方将两人分别置于两间房间分开审讯,政策是:若一人招供但另一人未招,则招者立即被释放,未招者判入狱10年;若二人都招则两人各判刑8年;若两人都不招则未获证据但因私入民宅都拘留1年。,表1 囚徒困境博弈 乙 招 不招 招 甲 不招(问题1:甲、乙如何选择?),尽管甲不知乙是否招供,但他认为自己选“招”最好,因而甲会选择“招”,乙也同样会选择“招”,结果各判8年;但若两人都不招,结果是两人只被判1年,但这种结果是不会出现的。我们可以运用“剔除劣策略”的方法来获得这样的结果。,甲或乙可以作出的选择被称为“策略”,如“招”或“不招”都是策略。,对甲来说,尽管他不知道乙是选择了“招”还是“不招”,他发现他自己选择“招”都是比选择“不招”为好的。因此,“不招”是相对于“招”的劣策略,他不会选择劣策略。所以,甲会选择“招”。同样,根据对称性,乙也会选择“招”,结果是甲乙两人都“招”。,甲和乙是参与博弈的人,称为“局中人”。表1中每一个小方格内的数字被称为局中人的支付,其中左边的数字代表甲的支付,右边的是乙的支付。表1中的双变量矩阵称为博弈支付矩阵。局中人所选择的战略构成的组合(招,招)被称为博弈均衡。这个组合中前后两个战略分别表示甲和乙所选择的战略。,表1 囚徒困境博弈 乙 招 不招 招 甲 不招,甲和乙都不会选择劣策略“不招”,称为“剔除劣策略的占优策略均衡”。其中“招”是占优于(优于)“不招”的占优策略。我们可以利用这个道理来分析日常生活中的许多不合作现象。,2.生活中的“囚徒困境”例子,例子1 商家价格战 出售同类产品的商家之间本来可以通过共同将价格维持在高位而获利,但实际上却是相互杀价,结果都赚不到钱。当一些商家共谋将价格抬高,消费者实际上不用着急,因为商家联合维持高价的垄断行为一般不会持久,可以等待垄断的自身崩溃,价格就会掉下来。,譬如,2000年我国几家生产彩电的大厂商合谋将彩电价格维持高位,他们搞了一个“彩电厂家价格自律联盟”,并在深圳举行了由多家彩电厂商首脑参加的“彩电厂商自律联盟高峰会议”。当时,国家有关部门还未出台相关的反垄断法律,对于这种在发达国家明显属于违法行为的所谓“自律联盟”,国家在法律上暂时还是无能为力的。寡头厂商在光天化日之下进行价格合谋,并且还通过媒体大肆炒作,这在发达国家是不可思议的。,但是,尽管政府当时无力制止这种事情,公众也不必担心彩电价格会上涨。这是因为,“彩电厂商自律联盟”只不过是一种“囚徒困境”,彩电价格不会上涨。在高峰会议之后不到二周,国内彩电价格不是上涨而是一路下跌。这是因为厂商们都有这样一种心态:无论其他厂商是否降价,我自己降价是有利于自己的市场份额扩大的。,例子2 为什么政府要负责修建公共设施,因为私人没有积极性出资修建公共设施 设想有两户相居为邻的农家,十分需要有一条好路从居住地通往公路。修一条路的成本为4,每个农家从修好的好路上获得的好处为3。如果两户居民共同出资联合修路,并平均分摊修路成本,则每户居民获得净的好处(支付)为3-4/2=1;当只有一户人家单独出资修路时,修路的居民获得的支付为3-4=-1(亏损),“搭便车”不出资但仍然可以使用修好的路的另一户人家获得支付3-0=3,见表2。,表2 修路博弈 乙 修 不修 修 甲 不修,我们看到,对甲和乙两家居民来说,“修路”都是劣策略,因而他们都不会出资修路。这里,为了解决这条新路的建设问题,需要政府强制性地分别向每家征税2单位,然后投入4单位资金修好这条对大家都有好处的路,并使两家居民的生活水平都得到改善。,这就是我们看到的为什么大多数路、桥等公共设施都是由政府出资修建的原因。同样的道理,国防、教育、社会保障,环境卫生等都由政府承担资金投入,私人一般没有积极性承担这方面服务的积极性和能力。,例子3 苏格兰的草地为什么消失了?公共资源经常被过度利用的原因。在18世纪以前,英国苏格兰地区有大量的草地,其产权没有界定,属公共资源,大家都可以自由地在那里放牧。草地属于“可再生资源”,如果限制放牧的数量,没有被牛羊吃掉的剩余草皮还会重新长出大面积草场,但如果不限制放牧规模,过多的牛羊将草吃得一光二净,则今后不会再有新草生长出来,草场就会消失。,由于草地的产权没有界定,政府也没有对放牧作出规模限制,每家牧民都会如此盘算:如果其他牧民不约束自己的放牧规模,让自己的牛羊过多地到草地上吃草,那么,我自己一家约束自己的放牧规模规模对保护草场的贡献是微乎其微的,不会使草场免于破坏;相反,我也加入过度放牧的行列,至少在草场消失之前还会获得一部分短期的收益。,如果其他牧民约束放牧规模,我单独一家人过度放牧不会破坏广褒的牧场,但自己却获得了高额的收益。因此,任何一位牧民的结论都会是:无论其他牧民是否过度放牧,我选择“约束自己的放牧规模”都是劣策略,从而被剔除。大家最终都会选择过度放牧,结果导致草地消失,生态破坏。,类似的例子还有:渤海中的鱼愈来愈少了,工业化中的大气及河流污染,森林植被的破坏等。解决公共资源过度利用的出路是政府制订相应的规制政策加强管理,如我国政府规定海洋捕鱼中,每年有一段时间的“休渔期”,此时禁止捕鱼,让小鱼苗安安静静地生长,大鱼好好地产卵,并对鱼网的网眼大小作出规定,禁用过小网眼的捕网打鱼,保护幼鱼的生存。又如在三峡库区,为了保护库区水体环境,关闭了前些年泛滥成灾的许多小造纸厂等。,二、智猪博弈,1.智猪博弈 猪圈中有一头大猪和一头小猪,在猪圈的一端设有一个按钮,每按一下,位于猪圈另一端的食槽中就会有10单位的猪食进槽,但每按一下按钮会耗去相当于2单位猪食的成本。如果大猪先到食槽,则大猪吃到9单位食物,小猪仅能吃到1单位食物;如果两猪同时到食槽,则大猪吃7单位,小猪吃3单位食物;如果小猪先到,大猪吃6单位而小猪吃4单位食物。表4给出这个博弈的支付矩阵。,表4 智猪博弈 小猪 按 等待 按 大猪 等待,这个博弈没有“剔除劣战略均衡”,因为大猪没有劣战略。但是,小猪有一个劣战略“按”,因为无论大猪作何选择,小猪选择“等待”是比选择“按”更好一些的战略。所以,小猪会剔除“按”,而选择“等待”;大猪知道小猪会选择“等待”,从而自己选择“按”,所以,可以预料博弈的结果是(按,等待)。这称为“重复剔除劣策略的占优策略均衡”,其中小猪的策略“等待”占优于策略“按”,而给定小猪剔除了劣策略“按”后,大猪的策略“按”又占优于策略“等待”。,2.例子,在经济生活中,有许多“智猪博弈”的例子。例子6 股市博弈 在股票市场上,大户是大猪,他们要进行技术分析,收集信息、预测股价走势,但大量散户就是小猪。他们不会花成本去进行技术分析,而是跟着大户的投资战略进行股票买卖,即所谓“散户跟大户”的现象。,例子7 为何股份公司中的大股东才有投票权?在股份公司中,大股东是大猪,他们要收集信息监督经理,因而拥有决定经理任免的投票权,而小股东是小猪,不会直接花精力去监督经理,因而没有投票权。,例子 为什么中小企业不会花钱去开发新产品?在技术创新市场上,大企业是大猪,它们投入大量资金进行技术创新,开发新产品,而中小企业是小猪,不会进行大规模技术创新,而是等待大企业的新产品形成新的市场后生产模仿大企业的新产品的产品去销售。,例子 如何以弱敌强,在战争史上,以弱胜强的例子是很多的。在商业竞争中,以弱敌强也是经常会遇到的情形。在二战中的诺曼底登陆战的谋略策划中,盟军就面临以弱敌强的问题。盟军有两个可以选择的登陆目标地,一是多佛,二是诺曼底。德国守军在人数上超过了盟军,并且就军事进攻而言,在人数相同的情况下,攻方与守方相比会处于不利的情形。,下面,将这种情形模型化。有一支军队准备进攻一座城市,它有军力两个师。守城军队有三个师。通往城市有甲、乙两条道路或方向。两军相遇时,人数居多的一方取胜,当两方人数相等时,守方获胜。假定军队只能整师调动。,攻方战略:a=两个师集中沿甲方向进攻 b=兵分两路,一个师沿甲方向进攻,另一个师沿乙方向进攻 c=两个师集中沿乙方向进攻,守方战略:A=三个师集中守甲方向 B=两个师守甲方向,一个师守乙方向 C=一个师守甲方向,两个师守乙方向 D=三个师集中守乙方向,用“+”、“”,分别表示胜和败,见下表,守方 A B C D a 进攻方 b c 表1 以弱敌强博弈,用“重复剔除劣战略”分析:进攻方无劣战略,但守方有劣战略,A劣于B,D劣于C,故守方不会采用战略B和C,剔除后的博弈变为:守方 B C a 进攻方b c 表2 守方剔除劣战略后的博弈,攻方知道守方不会选A和D,他由此知道博弈变成上图所示。此时,攻方就有一个劣战略b,他剔除b后得到新的博弈,见下表:守方 a 进攻方 b 表3 攻方剔除劣战略后的博弈,此时,两方的形势是相同的,即攻方尽管开始在军力上劣于守方,但实际上它只要运用计谋,其获胜的可能与守方是相同的。,三 Nash均衡,表5给出的博弈中,甲和乙都没有劣策略,所以,不能通过重复剔除劣策略获得博弈结果。,表5 存在纳什均衡的博弈 乙 L M R U 甲 D(问题2:甲和乙分别会选择什么战略?),当甲选“U”时,乙会选“R”;而当乙选“R”时,甲应该选“D”而不是“U”;但当甲选“D”时,乙会选“L”;给定乙选“L”,甲选“D”是最好的选择,他不会改变选择“D”;给定甲不改变选“D”,乙也不会改变其选择“L”。所以,可以预期(D,L)是甲乙最终完成的稳定的选择。,称(D,L)为“纳什均衡”。纳什均衡是局中人策略选择上构成的一种“僵局”,给定其他局中人的选择不变,任何一个局中人的选择是最好的,他也不会改变其策略选择。剔除劣策略的占优策略均衡和重复剔除劣策略的占优策略均衡是纳什均衡,但相反的结论不成立。,在城市街道上,我们常见到一些地段上的商店十分拥挤,构成一个繁荣的商业中心区,但另一些地段却十分冷僻,没什么商店。对于这种现象,我们可以运用纳什均衡的概念来加以解释。甲乙 1/2 图1 商业位置博弈,见图1,有一个长度为1单位的街道,在街道两边均匀地分布着居民。现有两家商店决定在街道上确定经营位置。如果甲在街道中间位置1/2处设店,则乙的最好选择是紧靠甲的左边或右边设店。,当乙在甲的右边紧靠甲设店时,其右边街道上的顾客都是乙的顾客;如果乙不是紧靠甲而是远离甲设店,则其顾客只是其右边街道的居民,不如它紧靠甲设店时多,因而在远离甲的位置设店是劣战略。所以给定甲在1/2处设店,乙在紧靠甲的左边或右边设店是最优的。反过来,给定乙在接近1/2处设店,甲的最优选择也是在1/2附近设店。这样,甲和乙挤在1/2处设店就是纳什均衡,这就是商业中心区的形成原理。,四、纳什均衡的不惟一性,我们再看一个经典的例子性别战博弈。这一例子表明一个博弈可以有多个纳什均衡。关于这一博弈的传统表述(要知道这一博弈从20世纪50年代就开始使用了),是一男一女试图决定安排一个晚上的娱乐内容,我们分析这一博弈的中性版本。不在同一地方工作的帕特和克里斯必须就去听歌剧和看职业拳击赛选择其一,帕特和克里斯都希望两人能在一起渡过一个夜晚,而不愿分开,但帕特更希望能一起看拳击比赛,克里斯则希望能一起欣赏歌剧,如下面双变量矩阵所示:,性别战,(歌剧,歌剧)和(拳击,拳击)都是纳什均衡。,多个纳什均衡的存在,说明博弈论对有些博弈并不能提供惟一解,参与人之间也不能就该博弈的进行达成协议。在这样的博弈中,纳什均衡用于预测博弈将如何进行的作用就大大减弱了。,斗鸡博弈,设想两个人举着火棍从独木桥的两端走向中央进行火拚,每个人都有两种战略:继续前进和退下阵来。若两人都继续前进,则两败俱伤;若一方前进另一方退下来,前进者取得胜利,退下来的丢了面子;若两人都退下来,两人都丢面子。支付矩阵如下表所示。,这个博弈也有两个纳什均衡:(进,退),(退,进)该例也有许多应用。有些公共产品的供给就属于此类问题。若村子里住的是两户富人,有一条路要修,一种可能的情况是,一家修路,另一家就不修;一家不修,另一家就得修。(总结一下,公共产品的供给可能是囚徒博弈,也可能是智猪博弈,还有可能是斗鸡博弈,依具体产品而论),冷战期间,苏美两个军事集团在世界各地抢占地盘,也是一种斗鸡博弈。一般来说,如果一方已经抢占了一块地盘,另一方就设法占领另一块地盘,而不是与对手竞争同一块地盘。还有警察与游行队伍的例子。游行队伍与警察越来越近,这时候,定要有一方退下来。如果警察不让步,游行队伍便会后退;反过来,如果游行队伍来势很猛,警察就得撤退。,夫妻间矛盾也是个斗鸡问题。一般来说,吵得厉害了,不是妻子回娘家躲一躲,就是丈夫到院子里抽支烟。当然,斗鸡博弈的一个重要问题是,究竟哪一方退下来,因为退下来虽比两败俱伤好,总归是一件丢面子的事情。若每一方都寄希望于对方退下阵来,两败俱伤的结局也可能出现。,纳什均衡的选择,下面我们通过几个例子说明当一个博弈有多个纳什均衡时,选择可能会怎样?,质量选择博弈,这个例子说明这样一种情况:某个ISP运营商向个人用户推出宽带接入业务。运营商有两种战略选择:提供高质量的服务,提供低质量的服务。个人的战略选择也有两种:购买和不购买。对应战略组合的支付矩阵如下表,表,现在的情况,纳什均衡是(低质量,不买)。显然这是一种不好的结果。我们希望上述质量选择的博弈能实现一个更好的结果。那么服务商可以承诺:只要你购买,我提供高质量的服务,并且把你的支付从2提高到20(这个比如可以通过降低收费等手段实现)。我们看一下,假设把2提高为20,甚至更大200,该博弈的纳什均衡变了没有?,提高支付水平后的收益矩阵,可见,博弈的结果仍旧是(低质量,不买)。问题的关键在于:当个人购买时,服务商有利益动机改为低质量的服务,个人对服务商并不信任。然而,如果我们在合同中加上退出条款,即消费者发现质量低时能够解除合同,相应的服务商提供低质量的服务也就有所损失,假设其支付由3降为1。这样博弈变为如下表所示。,任何一方没有占优战略,纳什均衡有两个:(高质量,购买),(低质量,不买)这样,该博弈的纳什均衡不是唯一的。那么对于有两个以上纳什均衡的情况,究竟选择哪一个呢?有时我们倾向于“最合理的一个”,实际上,大量的论文是用“精炼纳什均衡”这个词去说明一种均衡比另一种好。比如,我们说(高质量,购买)比(低质量,不买)好。,然而这也有另一种解释,比如,我们把这个例子重新解释为两个企业要各自建设通信设施以便两者能更好的联系。每个企业都有两种战略选择:高质量的带宽设备与低质量的带宽设备。对应各种战略组合的支付矩阵如下表。,对每个企业来说,不管对方选择什么,己方选择低的一样可用,只有对方选择高时,自己选高才有利。虽然在质量选择中(1,1)不是最好,但对本例来说并不是很坏。其实我们用的是最大最小战略。也就是说低是安全的选择。,演进博弈,当然均衡的选择也有另一种情况,同样对于带宽的选择,这次假定不是两个企业而是众多的个人。考虑这样一种情况:现在的上网用户一部分人使用高质量的接入,一部分人使用低质量的接入,那么对于某个想上网的人来说,他将选择什么样的接入,均衡将是什么?假设任意俩人的博弈支付矩阵如下表。,我们将会看到个人选择什么战略依赖于已有人群的状态。假设已有x比例的人选择了高质量,则必有1-x比例的人选择了低质量。那么个人选择高质量时将有 5x+0(1-x)=5x的期望收益 选择低质量时将有 x+(1-x)=1的期望收益 可见,当x1/5时,选择高质量是有益的,因而后来人会选择高,这样下去,(高,高)就成为纳什均衡。这也称为演进博弈。,五、动态博弈与策略行动,如果局中人在进行行动选择时有先后顺序之分,这种博弈就被称为“动态博弈”。,在图2中,有两个房地产开发商A和B分别决定在同一地段上开发一栋写字楼。由于市场需求有限,如果他们都开发,则在同一地段会有两栋写字楼,超过了市场对写字楼的需求,难以完全出售,空置房太多导致各自亏损1百万。,当只有一家开发商在这个地段开发一栋写字楼时,它可以全部售出,赚得利润1百万。假定A先决策,B在看见A的决策后再决策是否开发写字楼。在图2中,用“博弈树”表示博弈过程。,图2 房地产开发博弈,在其中每一条“路径”的末端用向量给出A和B的支付,称为支付向量。下面用“逆向归纳法”可以求解这个博弈。在B进行决策的2个“决策结”上,B在左边的决策结上选择“不开发”;而在右边的决策结上选择“开发”。即给定A开发,B就不开发;给定A不开发,B就开发。B应避免同时与A都选择开发而蒙受损失。,在这种情况下,A在自己的决策结上当然选择“开发”,因为他预计当自己选择“开发”后,B会选择“不开发”,自己就净赚一百万。当B威胁A说:“不管你是否开发,我都会在这里开发写字楼。”倘若A将B的话当了真,A就不敢开发,让B单独开发写字楼占便宜。但是,B的威胁是“不可置信”的。当A不理会B的威胁而果断地开发出一栋写字楼时,B其实不会将事前的威胁付诸实施。因为“识时务者为俊杰”,在A已开发的情况下,B的最优决策是“不开发”而不是“开发”。,但是,如果B在向A发出威胁的同时又当着A的面与第三者C打赌一定要在该地段上开发出一栋写字楼,否则输给C 2百万元。B与C为此签定合同并加以公证有效。这时,博弈变成图3所示的动态博弈。,图3 承诺行动后房地产开发博弈,称B的这种行动为“承诺行动”,它使原来不可置信的威胁变为可以置信。这时,A就不得不相信B一定要开发写字楼的威胁了,于是放弃开发写字楼的计划,让B如愿以偿单独开发写字楼。B不仅未向C支付2百万元,反而净赚1百万。,相继选择和策略中的可信性问题,开金矿博弈,大智若愚中的智慧:聪明过头没好处,图4 一个动态博弈 运用“逆向归纳法”,A在第二次决策时会选择,B选择L;给定这些结果,A在开始会选择U,纳什均衡是(U,),L)。,但是,如果局中人A开始“装傻”,选择D而不是U,当B认为A是傻子时,B会以为当他选R后A会选,而这正是B所乐意看到的结果。于是,当A开始装傻后,造成B对A的类型的误解,B以为A是傻子,从而预期当他自己选R后A还会“犯傻”选。于是B就选R而不是均衡中的L。但是,当B选了R后,A不再“装傻”而一举选 达到最大支付3。这就是A通过“装傻”骗过B使A获利。,第二种情形是,局中人B“装傻”,并使A相信他是傻子。这样,A会认为当他选D时B会选R。于是,A开始就选D,但一旦A选了D,B就不再“装傻”,一举选L。这是B骗过A的情形。下面的一个例子是当所有局中人都“装傻”时,所有人都受益的情形。,蜈蚣博弈:都装傻都受益,图5 所有人都“装傻”使所有人都受益的博弈 由逆向归纳法,博弈均衡是所有人都选择D,即(D,D)。结果是博弈在一开始就结束了,每个局中人都获得支付1。,如果A开始就装傻,选U而不是D,B也装傻,选U不选D,则博弈到最后结束时每个局中人得到支付100。有时“大智若愚”可能还是上策。,思考题,丙(40%),乙:60%,甲(80%),方案一 同时开枪方案二、轮流开枪,(1)第一轮:甲射乙,乙射甲,丙射甲。甲的活率为24(40 X 60),乙的活率为20(100-80),丙的活率为100(无人射丙)。,第二轮枪战开始在第一轮枪战后,丙有可能面对甲,也可能面对乙,甚至同时面对甲与乙,除非第一轮中甲乙皆死。尽管第一轮结束后,丙极有可能获胜(即甲乙双亡),但是,如果甲乙在第一轮枪战中没有双亡的话,在第二轮枪战结束后,丙的存活的几率就一定比甲或乙为低。,第二轮枪战中甲乙丙存活的几率粗算如下:(1)假设甲丙对决:甲的存活率为60,丙的存活率为20。(2)假设乙丙对决:乙的存活率为60,丙的存活率为40。这似乎说明,能力差的人在竞争中耍弄手腕能赢一时,但最终往往不能成事。,(2)第二轮:情况1:甲活乙死(24 X 80=19.2)甲射丙,丙射甲甲的活率为60,丙的活率为20。情况2:乙活甲死(20 X 76=15.2)乙射丙,丙射乙乙的活率为60,丙的活率为40。情况3:甲乙皆活(24 X 20=4.8):重复第一轮。情况4:甲乙皆死(76 X 80=60.8):枪战结束。甲的活率为(19.2 X 60)+(4.8 X 24)=12.672乙的活率为(15.2 X 60)+(4.8 X 20)=10.08丙的活率为(19.2 X 20)+(15.2 X 40)+(4.8 X 100)+(60.8 X 100)=75.52,