决策理论与方法-主观概率和先验分布.ppt
2 主观概率和先验分布(Modeling uncertainty with probability),2.1 概率的基本概念2.2 先验分布及其设定2.3 设定主观概率的案例2.4“埃尔斯伯格悖论”(Ellsberg paradox),2.1 概率的基本概念,1)概率的三种定义2)主观概率3)主观概率定义4)主/客观概率的比较5)小结:主/客观概率,2.1 概率的基本概念,研究概率的必要性:第一章指出了决策问题的基本特点之一是自然状态的不确定性。由于自然状态的不确定性,决策人无论采取什么行动,所产生的后果都会因自然状态的不同而不同。为了能对决策进行给定量化研究、有必要定量地表达自然状态的非确定性。概率是定量表达不确定性的重要工具,我们要对设定自然状态的概率分布所涉及的问题与相应的处理方法进行分析和讨论。,随机事件与概率,随机事件:事件有多种不同的结果,在同样的条件下进行一系列重复试验,每次出现的结果都不能预先确定的事件称为随机事件。概率:随机现象在每次试验中的结果虽然是不确定的,但在大量重复试验下,各种不同结果出现的可能性的大小是具有规律性的,这种规律性称为概率。,随机试验具有下面三个特点:,1.在相同条件下可以重复进行;2.试验前不能确定出现哪种结果;3.试验前知道可能出现的所有结果。,1)概率的三种定义,(1)频率与概率(2)Laplace的概率定义(3)概率的公理化定义,(1)频率与概率,为了描述随机事件发生的可能件的大小,人们通常进行随机试验并观察试验结果。在相同条件下进行了n次试验,其中事件A发生的次数nA称为事件A发生的频数,比值nA n称为事件A发生的频率,记作人fn(A):,古典的概率(probability)的定义如下:,(2)Laplace的概率定义,P(A)=k/N 式中,k为A所含基本事件数,N为 基本事件总数 适用条件:1.基本事件有限 2.每个基本事件等可能,(3)Kormogorov公理化定义,E是随机试验,S是E的样本空间,对E的每一事件A,对应有确定实数P(A),若满足:非负性:0P(A)1 规范性:P(S)=1 可列可加性:对两两不相容事件Ak(k=1,2)(Ai Aj=),有:P(Ak)=P(Ak)则称P(A)为事件A发生的概率.,小结,以上所述的3种概率的定义中有一个共同的特点,这就是概率是在多次重复试验中,随机事件A发生的可能性的大小的度量。而在实际的决策问题中,自然状态的概率往往无法通过重复试验求得:(1)有的自然状态无法重复试验 如:明天是否下雨、新产品销路如何、明年国民经济增长率如何、能否考上研究生(2)试验费用过于昂贵、代价过大 如:洲导弹命中率、战争中对敌方下一步行动的估计,2)主观概率(subjective probability,likelihood),主观概率的引入:由于上述原因,需要有一种能在频率观点不适用、实际上无法进行随机试验时设定概率的方法,这就是主观概率(subjective probability);与此同时,把前述的概率称为客观概率(objective probability)。,3)主观概率定义,根据Savage(1954)的观点,主观概率是一种见解,是合理的信念的测度。它是某人对特定事件会发生的可能性的信念(或意见、看法)的度量,即他相信或认为事件将会发生的可能性的大小。这种相信的程度是一种信念,是主观的,但又是根据经验、各方面的知识以及对客观情况的了解,利用相关信息进行分析、推理、综合判断而设定(assignment)的,与主观臆测不同。问题:不同的决策人对同一事件会发生的可能性的度量会不同(如:能否考上研究生),决策分析时是否存在多种主观概率?,3)概率的数学定义,注意:主观概率和客观概率(objective probability)有相同的定义,4)主/客观概率的比较,(一)基本属性:O:系统的固有的客观性质,在相同条件下重复试验时频经的极限 S:概率是观察者而非系统的性质,是观察者对对系统处于某状态的信任程度(二)抛硬币:正面向上概率为1/2 O:只要硬币均匀,抛法类似,次数足够多,正面向上的概率就是,这是简单的定义。S:这确是定义,决策者认为硬币是均匀的,正、反面出现的可能性(似然率)相同,是个主观的量。(三)下次抛硬币出现正面的概率是1/2 O:这种说法不对,不重复试验就谈不上概率 S:对决策者来说,下次出现正、反是等可能的。但是他不是说硬币本身是公正的,它可能会有偏差,就他现有知识而言,没有理由预言一面出现的可能会大于另一面,但多次抛掷的观察结果可以改变他的信念。O、S:下次抛硬币出现正面还是反面不能确定,但知道:要么是正面,要么是反面。,5)小结:主/客观概率,由于历史原因,客观概率论者习惯使用概率(probability)一词,采用记号多p()表示自然状态的概率;而主观概率论者习惯用似然率(likelihood),采用记号()表示自然状态的的似然率。在本书中对概率和似然率的用法不加严格区分,但尽可能用记号()表示似然率。,2.2 先验分布及其设定,1)设定先验分布时的几点假设2)离散型随机变量先验分布的设定3)连续型随机变量的先验分布的设定4)无信息先验分布5)使平均信息量极大化的先验分布设定6)利用过去数据设定先验分布,2.2 先验分布及其设定,在决策分析中,尚未通过试验收集状态信息时所具有的信息叫先验信息,由先验信息所确定的概率分布叫先验分布(prior distribution)。设定先验分布是Bayes分析的需要.,2.2 先验分布及其设定,对许多领域的实际问题,设定在相关的域上的事件的概率分布对于这些领域的专业人员来说已经是常规性和标准化的工作。这种赋值通常是模型与经验相结合,而且许多典型的问题有其相应的概率模型,如二项分布,正态分布,泊松分布等可以使用。对那些不具备典型特征的事件,要让两个人就同一个特定的概率分布的适用性取得一致意见通常都十分困难,这时概率的设定就有高度的主观性。,1)设定先验分布时的几点假设,假设2.1 连通性(Connectivity),又称可比性.即事件A和B发生的似然性likelihood是可以比较的:AL B 或 A L B 或 B L A,必有一种也仅有一种成立 AL B读作 A 发生的似然性大于B 发生的似然性,A L B 读作 A 发生的似然性与B 发生的似然性相当。,1)设定先验分布时的几点假设,假设2.2 传递性(Transitivity)若对事件A,B,C,A L B,B L C 则AL C.任何二元关系,只有满足连通性和传递性才能构成完全序。,1)设定先验分布时的几点假设,1)设定先验分布时的几点假设,Savage,1954指出满足假设2.12.5就可以保证概率分布的惟一存在性。在实际设定先验分布的时候,注意满足前三条假设就可以了,分析人员的注意力应该放在量化决策人的“信念”的准确性上。,2)离散型随机变量先验分布的设定,1.对各事件加以比较确定相对似然率例1.考博士生 E:考取 E:考不取 若(E)=2P(E),则:(E)=2/3,(E)=1/3.例2.某地气候状况:正常年景1,旱2,涝3 正常与灾年之比32,水旱灾之比11.则(1)=0.6,(2)=(3)=0.2,2)离散型随机变量先验分布的设定,2.打赌法设事件E发生时收入P(0 P 1),且 E不发生的收入为(1-P),调整P,使决策人感到两者无差异为止,则:(E)=1-P.,3)连续型随机变量的先验分布的设定,(1)直方图法(2)相对似然率法(3)区间对分法(4)与给定形式的分布函数相匹配,(1)直方图法,该法适用于自然状态取值是实轴的的某个区间的情况.步骤:将区间划分子区间i离散化;设定每个子区间的似然率(i)赋值;变换成概率密度曲线.,例如:明年国民经济的增长率,缺点:子区间的划分没有标准 赋值不易 尾部误差过大,图2.3 明年国民经济的增长率的概率分布直方图,(2)相对似然率法,适用范围:同1 步骤:离散化 赋值:给出各区间似然的相对比值 规范化:,(2)相对似然率法,(2)相对似然率法,示例4:问题同示例3,用解法a)求解。,仍以每1%为子区间,并把以,为上限的子区间记作,首先由决策人判断似然率最大的子区间是哪一个,比如是7,即明年国民经济增长率最大可能性在6%7%之间。然后告诉他,把明年国民经济增长率在6%7%之间的可能性记作10;并要求他判断明年国民经济增长率在7%8%之间的可能性有多大,设经过交谈后定为8.5,由分析人员记入表2.1;然后再开始判断下一个子区间的相对似然率,直到所有子区间的相对似然率都设定为止。,表2.1 明年国民经济增长率各子区间及似然率设定,(3)区间对分法,适用范围:可以是开区间步骤:求中位 确定上、下四分位点(quartile fractile)由于误差积累,最多确定八分位点(Eighth fractile)例:人口出生率缺点:精度差,(4)与给定形式的分布函数相匹配,这是最常用,且常常被滥用的方法.步骤:选择一个与先验信息匹配得最好的函数,如正态,泊松,e-Cauchy 分布等例:a)在单位时间以恒常的平均比率入出现,则在T单位长度时间内该事件出现的次数服从Poisson分布 b)若影响某一随机变量的因素很多而每一因素的作用均不显著,则该变量服从正态分布。例如,测量误差,弹落点,人的生理特征的度量,农作物产量等均服从正态分布。c)事件A出现的概率为P,n次独立试验出现r次A的概率b(p,r,n)=,步骤参数估计:A.矩法:N(,)Be(,)缺点:尾部估计不准,但对矩的影响却很大 B.分位数:利用几个分位点和现成的概率密度 函数分位数表,估计参数并检验。,即服从二项分布,4)无信息先验分布,一、为什么要研究无信息先验贝叶斯分析法最为引人的特点是它的简明性,只要有效用(损失)函数和先验分布,贝叶斯分析就可以直接计算了。由于贝叶斯分析法的简明性,使得人们在没有先验信息时也想用它,因此希望在完全没有或只有权少自然状态的先验信息时,也能设定的先验概率分布。例如,最简单的情况是中只有n个元素即只有n种自然状态,设每种状态出现的概率为1n,这就是无信息先验分布。,5)使平均信息量极大化的先验分布设定,5)使平均信息量极大化的先验分布设定,6)利用过去数据设定先验分布,一、有的统计数据 为能获得的观察值i,i=1,n的数据,则可:通过直方图勾划出先验分布;选取可能的函数形式作为先验分布,再定参数;求频率(离散随机变量).,6.利用过去数据设定先验分布,二、状态不能直接观察时,小结,自然状态的概率或概率分布不是也不应当由决策分析人员来设定,而应当由决策人和有关问题专家提供基本信息,由决策分析人员协助设定。,2.4“埃尔斯伯格悖论”(Ellsberg paradox),埃尔斯伯格(Ellsberg,1961)进行了如下的博彩实验。假设一个缸中有100个球,其中33个球为红色,其余67个为黑色或黄色,你若从中拿出一个球:博彩A:若球为红色,你得到1000元;博彩B:若球为黑色,你得到1000元。然后再考虑下面的博彩:博彩C:如果球不是红色的,你得到1000元;博彩D:如果球不是黑色的,你得到1000元。,实验结果:,实验结果表明,所有的人基本上严格偏好A而非B,严格偏好C而非D。但是,这种偏好关系违背了标准的主观概率理论。,推导:,A的期望效用:p(red)u($1000)B的期望效用:p(black)u($1000)如果人们选择A,则有:p(red)u($1000)p(black)u($1000)p(red)p(black),推导(续):,C的期望效用=p(black)+p(yellow)u($1000)=1-p(red)u($1000)D的期望效用=p(red)+p(yellow)u($1000)=1-p(black)u($1000)如果人们选择C,则有:1-p(red)u($1000)1-p(black)u($1000)1-p(red)1-p(black)p(red)p(black),“埃尔斯伯格悖论”的启示:,埃尔斯伯格的实验表明,人们通常有一个主观直觉的概率估计,这种主观概率不满足概率论中的“可加性”,常常出现概率之和小于1的现象。,主观概率的最新研究成果:,卡尼曼和特沃斯基(Kahneman and Tversky,1979)提出的展望理论(prospect theory)中的决策权函数(Decision Weighting Function),用来代替主观概率。,决策权函数,决策权函数不是概率,不符合概率公理,也不能解释为个人预期的程度;在事件概率小的时候,决策权函数大于概率,表示个人对概率小的事件的重视;但是当事件概率大的时候,决策权相对小,说明人们往往忽视例行发生的事件。,小概率事件举例:彩票中大奖,中国体育彩票的每注号码由一个六位数和一个特别号码组成,六位数号码范围是000000-999999,特别号码范围是0-4,因此,特等奖号码的各种可能总数为1065,它的中奖客观概率是:p=1/(1065)=210-7特等奖金500万元(5106元),美张彩票的价格是2元。如果有彩民愿意购买彩票,则有:51062 2/(1065)=410-7(注:假设彩民为风险中性),作业2:,P30:四、某个决策人认为产品售出400件,