《决策中的收益损失与效用.ppt》由会员分享,可在线阅读,更多相关《决策中的收益损失与效用.ppt(64页珍藏版)》请在三一办公上搜索。
1、第四章 决策中的收益、损失与效用,4.1 决策问题的三要素,决策就是对一件事要作决定.它与推断的差别在于是否涉及后果.统计学家在作推断时是按统计理论进行的,很少考虑结论在使用后的损失.可决策者在使用推断结果时必需与得失联系在一起,能带来利润的就会用,使他遭受损失的就不会被采用,度量得失的尺度就是损失函数.它是著名的统计学家A.Wald(1902-1950)在40年代引入的一个概念.从实际归纳出损失函数是决策的关键.贝叶斯决策:把损失函数加入贝叶斯推断就形成贝叶斯决策论,损失函数被称为贝叶斯统计中的第四种信息.,一、决策的基本概念,例1 设甲乙二人进行一种游戏,甲手中有三张牌,分别标以.乙手中也
2、有三张牌,分别标以.游戏的规则是双方各自独立地出牌,按下表计算甲的得分与乙的得分.,甲的得分矩阵(乙的失分矩阵),这是一个典型的双人博弈(赌博)问题.不少实际问题可归结为双人博弈问题.把上例中的乙方改为自然或社会,就形成人与自然(或社会)的博弈问题.,例2 某农作物有两个品种:产量高但抗旱能力弱的品种 和抗旱能力强但产量低的品种.在明年雨量不知的情况下,农民应选播哪个品种可使每亩平均收益最大?这是人与自然界的博弈.以明年600mm雨量为界来区分雨量充足 和雨量不充足.写出收益矩阵(单位:元),例3 一位投资者有一笔资金要投资.有以下几个投资供他选择:购买股票,根据市场情况,可净赚5000元,但
3、也可能亏损10000元;:存入银行,不管市场情况如何总可净赚1000元.,这位投资者在与金融市场博弈.未来的金融市场也有二种情况:看涨 与看跌.可写出投资者的收益矩阵,投资者将依据此收益矩阵决定他的资金投向何方.这种人与自然(或社会)的博弈问题称为决策问题.,二、决策问题的三要素,1.状态集,其中每个元素 表示自然界(或社会)可能出现的一种状态,所有可能状态的全体组成状态集.(如例2中的两种状态:雨水充足和雨水不充足),2.行动集,其中a表示人对自然界可能采取的一个行动.注意:一般行动集有两个以上的行动供选择.若有两个行动无论对自然界的哪一个状态出现,总比 收益高,则 就没有存在的必要,可把它
4、从行动集中去掉,使留在行动集中的行动总有可取之处.,3.收益函数。函数值 表示当自然界处于状态,而人们选取行动 时所得到的收益大小。,收益函数的值可正可负,其正表示赢利,负表示亏损,单位常用货币单位。收益函数的建立不是件容易的事,要对所研究的问题有全面的了解才能建立起来(P125例4)。收益矩阵,4.2 决策准则,一、行动的容许性二、决策准则 1.乐观准则 2.悲观准则 3.折中准则,一、行动的容许性,定义:在给定的决策问题中,A 中的行动a1称为是容许的。假如在A 中不存在满足如下两个条件的行动a2,1.对所有的,有Q(,a2)Q(,a1)2.至少有一个,可使上式不等式严格成立。假如这样的a
5、2存在的话,则称a1是非容许的;假如二个行动a1和a2的收益函数在上处处相等,则称行动a1与a2是相等的。,两点说明:,1.一般情况下,行动集中只存在容许行动。2.上面的讨论是对收益函数而言的,但我们还可以对支付函数(或亏损函数、成本函数)进行讨论,此时需要支付函数(或亏损函数、成本函数)越少越好。例5(P126),二、决策准则,1.乐观准则(1)定义:乐观准则也称“好中求好”决策准则,或称“最大最大”决策准则。这种决策准则就是充分考虑可能出现的最大利益,在各最大利益中选取最大者,将其对应的方案作为最优方案。这种决策准则的客观基础就是所谓的天时、地利和人和,决策者感到前途乐观,有信心取得每一决
6、策方案的最佳结果。,(2)乐观准则决策方法的一般步骤:,确定各种可行方案;确定决策问题将面临的各种自然状态;将各种方案在各种自然状态下的收益值列于决策矩阵表中(表4-1);求每一方案在各自状态下的最大收益值,将其填写在决策矩阵表的最后一列;取 中的最大值,所对应的方案为最佳决策方案。,“乐观准则”决策矩阵表,表4-1,(3)“乐观准则”决策方法的应用,假设某一决策问题的决策收益矩阵表如下,按乐观准则选取最优方案。,假设某一决策问题的决策损失矩阵表如下,按乐观准则选取最优方案。,2.悲观准则,(1)定义:悲观准则又称“小中取大”决策准则或叫“坏中求好”决策准则。这种决策准则的客观依据是决策的系统
7、功能欠佳,形势对决策者不利,所以,决策者没有理由希望获得最理想的结果。面对这种情况,决策者必须从每一方案的最坏处着想,从每个方案的最坏结果中选择一个最佳值,即在所有不利的收益中,选取一个收益最大的方案作为最优决策方案。,(2)悲观准则决策方法的一般步骤:,若决策矩阵为收益矩阵,则先对每一行动选出最小的收益,再在所有选出的最小收益中选取最大值。此最大值对应的行动就是悲观准则下的最优行动;若决策矩阵为损失矩阵,则先对每一行动选出最大的损失,再在所有选出的最大损失中选取最小值。此最小值对应的行动就是悲观准则下的最优行动;,(3)“悲观准则”决策方法的应用,假设某一决策问题的决策收益矩阵表如下,按悲观
8、准则选取最优方案。,假设某一决策问题的决策损失矩阵表如下,按悲观准则选取最优方案。,3.折中准则,(1)定义:折中准则又称系数决策准则,是对悲观准则和乐观准则进行折中的一种决策准则.是一个依决策者认定情况乐观还是悲观而定的系数,称为乐观系数.若认定情况完全乐观,则=1,若认定情况完全悲观,则=0;一般情况下,则01.,(2)折中准则的基本步骤,第一步:确定系数的值;第二步:对每一行动a计算:,其中 表示行动a的最大收益值,表示行动a的最小收益值,第三步:取行动a0,使H(a0)达到最大,即此种a0就是这种准则下的最优行动.,(3)折中准则决策方法应用案例,某工厂预备生产一种新型童车,根据市场需
9、求分析和估计,产品销路可分为三种状态:1-销路好;2-销路一般;3-销路差.可供选择的行动方案也有三种:a1,大批量生产;a2,中批量生产;a3,小批量生产.根据产量多少和销售情况,工厂的盈利情况也有所不同,可能获利也可能亏损,将此数值称为损益值.获利时称为收益值,亏损时称为损失值,用负号表示.现调查得本月的损益值见下表.试用折中准则作出决策,其中乐观系数=0.6.,新型童车损益值表,解:第一步,确定系数的值=0.6 第二步,计算H(a)H(a1)=0.6max(30,23,-15)+0.4min(30,23,-15)=12(万元)H(a2)=0.6max(25,20,0)+0.4min(25
10、,20,0)=15(万元)H(a3)=0.6max(12,12,12)+0.4min(12,12,12)=12(万元)第三步,计算收益中的最大者 H(a0)=max(12,15,12)=15(万元)所以最佳方案应为中批量生产,即为a2.,4.3 先验期望准则,一、先验期望准则(1)定义:对给定的决策问题,若在状态集上有一个正常的先验分布(),则收益函数Q(,)对()的期望与方差分别称为先验期望收益和收益的先验方差。,使先验平均收益达到最大的行动a 称为先验期望准则下的最优行动。若此种最优行动不止一个,其中先验方差达到最小的行动称为二阶矩准则下的最优行动。,几点说明:,1.定义中的先验分布只能用
11、正常先验分布,而不能采用广义先验分布。2.如果在比较先验期望收益的大小时,有两个或两个以上的行动使先验期望收益达到最大,这时才需要比较先验方差的大小做出决策。3.使用合理的先验信息,按照先验期望准则和二阶矩准则进行决策,所得结果更加可信。,(2)案例分析,例1 某厂准备开发一种新产品,有三种方案供选择:a1、a2和a3。预计一年后市场对该种产品的需求量可分为较高、一般和较低。且预计一年后市场需求量是高、中、低的主观概率为:(1)=0.6,(2)=0.3,(3)=0.1,同时算得收益矩阵如下。试用先验期望准则确定最佳行动方案。,先验期望准则和其他准则的关系,例2(P125例题4.4),例3 一卖
12、花姑娘每天从花市按每棵5元购进,而按每棵10元卖出,当天若卖不完则剩下的花只能当垃圾。问该姑娘每天购进多少花?,二、两个性质,定理4.1 在先验分布不变的情况下,收益函数的线性变换不会改变先验期望准则下的最优行动。定理4.2 设1为状态集的一个非空子集,假如在1上的收益函数Q(,a)都加上一个常数c,而在上的先验分布不变,则在先验期望准则下的最优行动不变。例4(P138例题4.11),4.4 损失函数,1.损失函数的含义,这里的损失函数不是负的收益,也不是亏损。例如,某商店一个月的经营收益为-1000元,即亏1000元。这是对成本而言。我们不称为损失,而称其为亏损。我们讲的损失是指“该赚而没有
13、赚到的钱”,例如该商店本可以赚2000元,但由于某种原因亏了1000元,那我们说该商店损失了3000元。用这种观点认识损失对提高决策意识是有好处的。,按上述观点从收益函数可以很容易获得损失函数。,例5 某公司购进某种货物可分大批、中批和小批三种行动,记为。未来市场需求量可分为高、中、低三种状态,记为。三个行动在不同市场的利润如下:,这是一个收益矩阵,我们把它改写成损失矩阵如下:,由此可见,决策者在做决策时,要尽量避免大损失,追求小损失甚至无损失.,2.损失函数,构成决策问题的三要素:,由收益函数容易获得损失函数,例6 某公司购进一批货物投放市场,若购进数量 低于市场需求量,每吨可赚15万元,若
14、购进数量 超过市场需求量,超过部分每吨反而要亏35万元.由此可写出收益函数,显然,当购进数量 等于市场需求量 时,收益达到最大为15.则立即可得损失函数:,3.损失函数下的悲观准则,第一步,对每个行动,选出最大损失值,记为,第二步,在所有选出的最大损失中再选出最小者,则 满足,则称 为悲观准则下的最优行动.这是一种保守策略.不求零损失,但愿少损失.,例7 某公司购进某种货物可分大批、中批和小批三种行动,记为,未来市场需求量可分为高、中、低三种状态,记为,三个行动在不同市场的收益矩阵和损失矩阵如下:,试比较在Q与L下的最优行动。思考:为什么所选行动不一样?,例8 某股票投资者对金融市场上的两种资
15、产进行投资,其收益矩阵如Q,请帮助作出合适的决策(按悲观准则).,用Q做决策(按悲观准则),结果为a2是最佳行动,显然该决策不好。用L做决策(按悲观准则),结果为a1。说明这样一个道理:用损失函数做决策要比用收益函数做决策更合理(P143)。,4.损失函数下的先验期望准则,(1)定义:对给定的决策问题,若在状态集上有一个正常的先验分布(),则损失函数L(,)对()的期望与方差,分别称为先验期望损失和损失的先验方差。使先验期望损失达到最小的行动a 称为先验期望准则下的最优行动。若此种最优行动不止一个,其中先验方差达到最小的行动称为二阶矩准则下的最优行动。,注意事项:,1.定义中的先验分布只能用正
16、常先验分布,而不能采用广义先验分布。2.损失的先验方差有着特别的意义:(1)可以作为挑选最优行动的标准(在平均先验损失相等或者相差不大时).(2)衡量风险的大小.3.使用合理的先验信息,按照先验期望准则和二阶矩准则进行决策,所得结果更加可信。,(2)例题,例9 若有一决策问题如下,试用损失函数下的先验期望准则选出最优行动.例10 P146例题4.18,常用损失函数,不论什么场合,今后总要求损失函数是非负的,即当 与 都为实数,总认为 离状态 越远而引起的损失越大,所以损失函数应是距离的非降函数,常取,4.5常用损失函数,(1)平方损失函数,这是在统计决策中用得最多的损失函数.,(2)线性损失函
17、数,(3)0-1损失函数,(4)多元二次损失函数,(5)二行动线性决策问题的损失函数,定义:若某一决策问题只有两个行动a1,a2,而在每个行动下的收益函数都是状态(连续或离散)的线性函数,即则称此决策问题为二行动线性决策问题.下列函数称为该决策问题对应的损失函数,例题11 甲乙两厂生产同一种产品,其质量相同,零售价也相同,现两厂都在招聘推销员,但所付报酬不同,甲厂每公斤给报酬3.5元;乙厂每公斤给报酬3元,还另给每天10元的津贴,应聘人如何选择?,收益函数:损失函数:,Q Q(,a2)0 0 Q(,a1),4.6效用函数,博弈论基本知识,一、太多的疑惑1.为什么腐败现象这么猖獗?怎样惩治才有效
18、?2.为什么治理假冒伪劣现象如此困难?3.为什么三个和尚没水吃?4.为什么长街上的商店常挤在一块?5.为什么各种考试舞弊屡禁不止?6.老师怎样促使学生全面复习?7.为什么老年人投保很困难?8.为什么总统竞选人总是花很大气力推出自己的纲领?,二、什么是博弈论?,1.海滩占位问题 设较长的海滩上比较均匀地散布着许多日光浴者。太阳的照射使人们需要补充水分。假如有A与B两个小贩来到海滩,以同样的价格,相同的质量向日光浴者提供同一品牌的矿泉水(或啤酒)。问在直线上的海滩上他们如何设置自己的摊位?2.狩猎游戏:两个猎人围住了一头鹿,他们各卡住鹿的可能逃跑的两个关口中的一个。只要他们齐心协力,鹿就会成为他们
19、的猎物。如果此时周围跑过一群兔子,两位猎人中的任何一个只要去抓兔子一定会获得成功,他会抓到一只兔子,但鹿却从他把守的关口逃跑。现在他们必须同时作出决定:是猎鹿还是抓兔子?,以上两例的共同特点:(1)每个游戏常有两个以上的参与者,他们在游戏中都有着自己的切身利益,今后我们称他们为局中人。(2)每个局中人都有着自己的可行行动集供自己选择,这种选择毫无疑问地会影响到其他局中人的切身利益。(3)游戏中的各个局中人理性地采取或选择自己的策略行为,使得在这种相互制约、相互影响的依存关系中,尽可能地提高自己的利益所得。这正是游戏理论的关键所在。博弈:一些个人、队组或其他组织,面对一定的环境条件,在一定的规则
20、下,同时或先后,一次或多次,从各自允许的行为或策略中进行选择并加以实施,各自取得相应结果的过程。博弈论:英文为game theory,是系统研究各种博弈问题,寻求博弈方合理的策略和合理选择策略时博弈的结果,并分析结果的经济、效率意义的理论和方法。,三、博弈的分类,1.博弈的三要素:(1)局中人;(2)局中人的策略空间;(3)每个局中人的盈利函数;2.博弈论的基本概念:局中人、行动、信息、战略、支付函数、结果、均衡,局中人:指的是博弈中选择行动以最大化自己效用的决策主体。,行动:是局中人的决策变量。信息:指局中人在博弈中的知识。战略:是局中人选择行动的规则,它告诉局中人在什么时候选择什么行动。支
21、付函数:是局中人从博弈中获得的效用水平,它是所有局中人战略或行动的函数,是每个局中人真正关心的东西。结果:是博弈分析者感兴趣的要素组合。均衡:是所有局中人的最优战略或行动的组合。,3.博弈的分类,从两个不同的角度进行划分:(1)从信息(指对其他局中人的特征、战略空间及支付函数的知识)的角度,分为完全信息博弈与不完全信息博弈;(2)从局中人行动的先后次序,分为静态博弈和动态博弈。按以上两种进行交叉组合共有4种情形:完全信息静态博弈、完全信息动态博弈、不完全信息静态博弈、不完全信息动态博弈。,静态博弈:是指博弈中,局中人同时选择行动或虽非同时但后行动者并不知道先行动者采取了什么具体行动。动态博弈:
22、指的是局中人的行动有先后顺序,且后行动者能够观察到先行动者所选择的行动。,博弈的分类及对应的均衡概念,四、博弈论的基本模型及应用,1.囚徒困境模型(prisoners dilemma)应用:两个寡头企业选择产量的博弈、公共产品的供给、军备竞赛、经济改革2.智猪博弈模型(boxed pigs)应用:股东监督经理、股票市场上的小户跟大户、小企业模仿大企业等3.性别战(battle of the sexes)4.斗鸡博弈(chicken game),1.囚徒困境模型(prisoners dilemma),两个嫌疑犯作案后被警察抓住,被分别关在不同的房间里审讯。警察知道两人有罪,但缺乏足够的证据定罪,
23、除非两人当中至少有一人坦白。警察告诉他们:如果两人都不承认,每人判刑一年;如果两人都坦白,各判刑8年,如果两人中一人坦白一人抵赖,坦白的无罪释放,抵赖的判刑15年。问两个囚徒各自的最优策略是什么?,(1)结果的解释:(坦白,坦白)均衡但不有效(抵赖,抵赖)有效但不均衡(2)模型反映的深刻问题:个人理性与团体理性的矛盾。(3)模型的应用:两个寡头企业选择产量的博弈、公共产品的供给、军备竞赛、经济改革等。,2.智猪博弈模型(boxed pigs),大猪与小猪喂养在同一个猪圈中,猪圈的一头安装有一杠杆,只要一踩杠杆,猪圈的另一头固有的食物槽里将会流出饲料。踩杠杆需要花费能量,相当于消耗2份饲料,大小
24、猪都不踩的话,他们虽然不耗费热量但吃不到任何东西.设食物槽内一次流出的饲料共有10份,如果小猪踩杠杆,等它跑到食物槽跟前时,将发现不劳而获的大猪已经吃了8份饲料,小猪只能分享2份饲料;而若大猪踩杠杆后再跑到食物槽跟前时,则大猪吃6份,小猪吃4份;两猪同时踩杠杆再到食物槽,则大猪吃7份饲料,小猪吃3份饲料。大猪、小猪各自的最优策略是什么?均衡解是什么?,(1)结果及解释:(大猪踩,小猪不踩),均衡且有效。(2)模型反映的深刻问题:多劳不多得,少劳不少得.(3)模型的应用:股东监督经理、股票市场上的小户跟大户、小企业模仿大企业等。最成功的应用案例是石油输出国组织(OPEC)的分配方案。,五、推广,
25、1.可推广到每个局中人有两个以上纯策略的情形。分析方法与前面完全类似。2.纯策略Nash均衡可推广到混合策略Nash均衡。例 两人零和博弈(猜谜)游戏规则:两人要么出示一个指头,要么出示二个指头,如果两人各出示的指头数相同,乙给甲1元,否则,甲给乙1元。支付矩阵如下:,显然,该博弈在纯策略的范围内不存在均衡解。但可推广到混合策略,寻找混合策略均衡解。例如,局中人由于输赢的刺激,会乐意猜谜多次。每次操作中,局中人(甲)对于两个纯策略(伸一个指头,伸二个指头)各赋予一定的概率p1与p2其中p1与p2均非负,且p1+p2=1,因此,向量p=(p1,p2)即甲的混合策略,相应地乙的混合策略设为q=(q1,q2)。问对于甲而言,他最理想的混合策略是什么?(即最理想的p值是多少?),P的确定原则:对于局中人1,如果混合策略(p,1-p)比较合适,那么从输赢的角度来看,无论局中人2采取什么策略,至少不能让他(局中人2)赢钱。即:若局中人2出示一个指头,其期望盈利为 E2=-p+(1-p)=1-2p 0(1)若局中人2出示二个指头,其期望盈利为 E2=P-(1-P)0(2)(1)与(2)必须同时成立,当且仅当p=1/2。即局中人1的理想混合策略是(1/2,1/2)。类似地,即局中人2的理想混合策 略也是(1/2,1/2)。故甲乙二人理想的混合策略组合为:(1/2,1/2),(1/2,1/2),
链接地址:https://www.31ppt.com/p-5242249.html