第三章贝叶斯估计ppt课件.ppt
1,第三章 贝叶斯估计,3.1贝叶斯推断方法一 、统计推断中可用的三种信息,美籍波兰统计学家耐(E.L.Lehmann18941981)高度概括了在统计推断中可用的三种信息:,1总体信息,即总体分布或所属分布族给我们的信息。譬如“总体是指数分布”或“总体是正态分布”在统计推断中都发挥重要作用,只要有总体信息,就要想方设法在统计推断中使用。,2样本信息,即样本提供我们的信息,这是任一种统计推断中都需要。,2,3先验信息,即在抽样之前有关统计推断的一些信息。譬如,在估计某产品的不合格率时,假如工厂保存了过去抽检这种产品质量的资料,这些资料(包括历史数据)有时估计该产品的不合格率是有好处的。这些资料所提供的信息就是一种先验信息。又如某工程师根据自己多年积累的经验对正在设计的某种彩电的平均寿命所提供的估计也是一种先验信息。由于这种信息是在“试验之前”就已有的,故称为先验信息。,以前所讨论的点估计只使用前两种信息,没有使用先验信息。假如能把收集到的先验信息也利用起来,那对我们进行统计推断是有好处的。只用前两种信息的统计学称为经典统计学,三种信息都用的统计学称为贝叶斯统计学。本节将简要介绍贝叶斯统计学中的点估计方法。,3,二、贝叶斯公式的密度函数形式,贝叶斯统计学的基础是著名的贝叶斯公式,它是英国学者贝叶斯(T.R.Bayes17021761)在他死后二年发表的一篇论文论归纳推理的一种方法中提出的。经过二百年的研究与应用,贝叶斯的统计思想得到很大的发展,形成一个统计学派贝叶斯学派。为了纪念他,英国历史最悠久的统计杂志Biometrika在1958年又全文刊登贝叶斯的这篇论文。,初等概率论中的贝叶斯公式是用事件的概率形式给出的。可在贝叶斯统计学中应用更多的是贝叶斯公式的密度函数形式。下面结合贝叶斯统计学的基本观点来引出其密度函数形式。贝叶斯统计学的基本观点可以用下面三个观点归纳出来。,4,假设 随机变量X有一个密度函数p(x;),其中是一个参数,不同的对应不同的密度函数,故从贝叶斯观点看,p(x;)在给定后是个条件密度函数,因此记为p(x)更恰当一些。这个条件密度能提供我们的有关的信息就是总体信息。,假设 当给定后,从总体p(x)中随机抽取一个样本X1,Xn,该样本中含有的有关信息。这种信息就是样本信息。,假设 我们对参数已经积累了很多资料,经过分析、整理和加工,可以获得一些有关的有用信息,这种信息就是先验信息。参数不是永远固定在一个值上,而是一个事先不能确定的量。,5,从贝叶斯观点来看,未知参数是一个随机变量。描述这个随机变量的分布可从先验信息中归纳出来,这个分布称为先验分布,其密度函数用()表示。,1 先验分布定义3.1 将总体中的未知参数看成一取值于的随机变量,它有一概率分布,记为(),称为参数的先验分布。,2 后验分布在贝叶斯统计学中,把以上的三种信息归纳起来的最好形式是在总体分布基础上获得的样本X1,Xn,和参数的联合密度函数,6,在这个联合密度函数中。当样本 给定之后,未知的仅是参数了,我们关心的是样本给定后,的条件密度函数,依据密度的计算公式,容易获得这个条件密度函数,这就是贝叶斯公式的密度函数形式,称为的后验密度函数,或后验分布。而,7,是样本的边际分布,或称样本 的无条件分布,它的积分区域就是参数的取值范围,随具体情况而定。,前面的分析总结如下:人们根据先验信息对参数已有一个认识,这个认识就是先验分布()。通过试验,获得样本。从而对的先验分布进行调整,调整的方法就是使用上面的贝叶斯公式,调整的结果就是后验分布 。后验分布是三种信息的综合。获得后验分布使人们对的认识又前进一步,可看出,获得样本的的效果是把我们对的认识由()调整到 。所以对的统计推断就应建立在后验分布 的基础上。,8,例1 设事件A的概率为 ,即 。为了估计 而作n次独立观察,其中事件A出现次数为X,则有X服从二项分布 即,如果此时我们对事件A的发生没有任何了解,对 的大小也没有任何信息。在这种情况下,贝叶斯建议用区间(0,1)上的均匀分布作为的先验分布。因为它在(0,1)上每一点都是机会均等的。这个建议被后人称为贝叶斯假设。,9,此式在定义域上与二项分布有区别。再计算X的边际密度为,样本X与参数的联合分布为,即,10,拉普拉斯计算过这个概率,研究男婴的诞生比例是否大于0.5?如抽了251527个男婴,女婴241945个,贝叶斯统计学首先要想方设法先去寻求的先验分布。先验分布的确定大致可分以下几步:,第一步,选一个适应面较广的分布族作先验分布族,使它在数学处理上方便一些,这里我们选用分布族,11,注:,作为的先验分布族是恰当的,从以下几方面考虑:,1 参数是废品率,它仅在(0,1)上取值。因此,必需用区间(0,1)上的一个分布去拟合先验信息。分布正是这样一个分布。,2 分布含有两个参数a与b,不同的a与b就对应不同的先验分布,因此这种分布的适应面较大。,12,3 样本X的分布为二项分布b(n,)时,假如的先验分布为分布,则用贝叶斯估计算得的后验分布仍然是分布,只是其中的参数不同。这样的先验分布(分布)称为参数的共轭先验分布。选择共轭先验分布在处理数学问题上带来不少方便。,4 国内外不少人使用分布获得成功。,第二步,根据先验信息在先验分布族中选一个分布作为先验分布,使它与先验信息符合较好。利用的先验信息去确定分布中的两个参数a与b。从文献来看,确定a与b的方法很多。例如,如果能从先验信息中较为准确地算得先验平均和先验方差,则可令其分别等于分布的期望与方差最后解出a与b。,13,如果从先验信息获得则可解得a=3,b=12这意味着的先验分布是参数a=3,b=12的分布。假如我们能从先验信息中较为准确地把握的两个分位数,如确定确定的10分位数0。1和50的中位数0。5,那可以通过如下两个方程来确定a与b。,14,假如的信息较为丰富,譬如对此产品经常进行抽样检查,每次都对废品率作出一个估计,把这些估计值看作的一些观察值,再经过整理,可用一个分布去拟合它。,假如关于的信息较少,甚至没有什么有用的先验信息,那可以用区间(0,1)上的均匀分布(a=b=1情况)。用均匀分布意味着我们对的各种取值是“同等对待的”,是“机会均等的”。,15,贝叶斯本人认为,当你对参数的认识除了在有限区间(c,d)之外,其它毫无所知时,就可用区间(c,d)上的均匀分布作为的先验分布。这个看法被后人称之为“贝叶斯假设”。确定了先验分布后,就可计算出后验分布,过程如下:,x=0,1,n,01,于是X的边际分布为,16,最后在给出X=x的条件下,的后验密度为,显然这个后验分布仍然是分布,它的两个参数分别是a+x和b+n-x。我们选后验期望作为的贝叶斯估计,则的贝叶斯估计为,与前面的极大似然估计是不同的。,17,如果用(0,1)上的均匀作为的先验分布,则的贝叶斯估计为,计算如下:,后验分布为,18,三、 常用的一些共轭先验分布,对于一些常用的指数分布族,如果仅对其中的参数感兴趣,下表列出了它们的共轭先验分布及后验期望。,19,EX1 设是一批产品的不合格率,已知它不是0.1就是0.2,且其先验分布为(0.1)=0.7,(0.2)=0.3假如从这批产品中随机取8个进行检查,发现有2个不合格,求的后验分布。,解:,20,EX2 设一卷磁带上的缺陷数服从泊松分布P()其中可取1.0和1.5中的一个,又设的先验分布为 (1.0)=0.4 (1.5)=0.6假如检查一卷磁带发现了3个缺陷,求的后验分布。,21,四、贝叶斯推断(估计),条件方法,由于未知参数的后验分布是集三种信息(总体、样本和先验)于一身,它包含了所有可供利用的信息。故有关的参数估计和假设检验等统计推断都按一定方式从后验分布提取信息,其提取方法与经典统计推断相比要简单明确得多。基于后验分布的统计推断就意味着只考虑已出现的数据(样本观察值)而认为未出现的数据与推断无关,这一重要的观点被称为“条件观点”,基于这种观点提出的统计方法被称为条件方法。,22,例如经典统计学认为参数的无偏估计应满足:其中平均是对样本空间中所有可能出现的样本而求的,可实际中样本空间中绝大多数样本尚未出现过,而多数从未出现的样本也要参与平均是实际工作者难以理解的。故在贝叶斯推断中不用无偏性,而条件方法是容易被实际工作者理解和接受的。,23,估计,1.贝叶斯估计,定义3.2 使后验密度 达到最大的值 称为最大后验估计;后验分布的中位数 称为后验中位数估计;后验分布的期望值 称为 的后验期望值估计,这三个估计都称为贝叶斯估计,记为 。,例1 为估计不合格率 ,今从一批产品中随机抽取n件,其中不合格品数X服从 ,一般选取 为 的先验分布,设 已知,由共轭先验分布可知, 的后验分布为可计算得:,24,选用贝叶斯假设 ,则,第一、在二项分布时, 的最大后验估计就是经典统计中的极大似然估计,即 的极大似然估计就是取特定的先验分布下的贝叶斯估计。,第二、 的后验期望值估计 要比最大后验估计 更合适一些。,第三、 的后验期望值估计要比最大后验估计更合适一些。 表2.1列出四个实验结果,在试验1与试验2中,“抽检3个产品没有一件不合格”与抽检10个产品没有一件是不合格”这两件事在人们心目中留下的印象是不同的。后者的质量要比前者的质量更信得过。,25,表3.1 不合格率 的二种贝叶斯估计的比较,26,在试验3和试验4中,“抽检3个产品全部不合格”与抽检“10个产品全部不合格”也是有差别的。在实际中,人们经常选用后验期望估计作为贝叶斯估计。,2.贝叶斯估计的误差,设 是 的一个贝叶斯估计,在样本给定后, 是一个数,在综合各种信息后, 是按 取值,所以评价一个贝叶斯估计的误差的最好而又简单的方式是用对 的后验均方差或平方根来度量,定义如下:,称为 的后验均方差,而其平方根称为后验标准差.,定义3.2 设参数的后验分布为 ,贝叶斯估计为 ,则 的后验期望,27,当 时,则,称为后验均方差.后验均方差与后验方差有如下关系:,这表明,当 时,可使后验均方差达到最小,实际中常取后验均值作为 的贝叶斯估计值.,28,例2 设一批产品的不合格率为 ,检查是一个一个进行,直到发现第一个不合格品为止,若X为发现第一个不合格品时已检查的产品数,则X服从几何分布,其分布列为,设 的先验分布为 , 如今只获得一个样本观察值x=3,求 的最大后验估计,后验期望估计,并计算它的误差.故联合分布为,X=3的无条件概率为(利用全概率公式),29,故,或,可看出, 的最大后验估计,的后验方差为,30,3.区间估计(可信区间),对于区间估计问题,贝叶斯方法具有处理方便和含义清晰的优点,而经典方法求置信区间常受到批评.,定义3.3 参数 的后验分布为 ,对给定的样本 和概率 ,若存在这样的二个统计量 与 ,使得,则称区间 为参数的可信水平为 贝叶斯可信区间,或简称为 的 可信区间.而满足,31,的 称为 的 (单侧)可信下限.,满足 的 称 为 的 (单侧)可信上限.,这里的可信水平和可信区间与经典统计中的置信水平与置信区间虽是同类的概念,但两者还是有本质的差别,主要表现在下面二点:,1.在条件方法下,对给定的样本 和可信水平 ,通过后验分布可求得具体的可信区间,譬如, 的可信水平为0.9的可信区间是 ,这时我们可以写出,32,2.在经典统计中寻求置信区间有时是困难的,因为它要设法构造一个枢轴量,使它的分布不含未知参数,这是一项技术性很强的工作.相比之下可信区间只要利用后验分布,不需要再去寻求另外的分布, 可信区间的寻求要简单得多.,例3 设 是来自正态总体 的一个样本观察值,其中 已知,若正态均值的先验分布取为 ,其中 与 已知,则可求得 的后验分布为 ,由此获得 的 可信区间,33,EX1 设随机变量X的密度函数为(1)假如的先验分布为U(0,1),求的后验分布.(2)假如的先验分布为求的后验分布及后验期望估计,34,3、2贝叶斯决策方法,决策就是对一件事作决定。它与推断的差别在于是否涉及后果。统计学家在作推断时是按统计理论进行的,但很少考虑结论在使用后的损失。可决策者在使用推断时必需与得失联系在一起,能带来利润的就会使用,使他遭受损失的就不会采用,度量得失的尺度就是损失函数。它是著名的统计学家A.Wald(19021950)在40年代引入的一个概念。从实际归纳出损失函数是决策的关键。,贝叶斯决策:把损失函数加入贝叶斯推断就形成贝叶斯决策论,损失函数被称为贝叶斯统计中的第四种信息。,35,一、决策的基本概念,例1 设甲乙二人进行一种游戏,甲手中有三张牌,分别标以 。乙手中也有三张牌,分别标以 。游戏的规则是双方各自独立的出牌,按下表计算甲的得分与乙的得分。,36,这是一个典型的双人博弈(赌博)问题。不少实际问题可归纳为双人博弈问题。把上例中的乙方改为自然或社会,就形成人与自然(或社会)的博弈问题。,例2 农作物有两个品种:产量高但抗旱能力弱的品种 和抗旱能力强但产量低的品种 。在明年雨量不知的情况下,农民应该选播哪个品种可使每亩平均收益最大?这是人与自然界的博弈。以明年60mm雨量为界来区分雨量充足 和雨量不充足 。写出收益矩阵(单位:元),37,例3 一位投资者有一笔资金要投资,有以下几个投资供他选择:,购买股票,根据市场情况,可净赚5000元,但可 能使他亏损10000元,存入银行,不管市场情况如何总可净赚1000元,这位投资者在金融市场博弈。未来的金融市场也有两种情况:看涨 与看跌 可写出投资者的收益矩阵,投资者将依据收益矩阵决定他的资金投向何方,这种人与自然(或社会)的博弈问题称为决策问题,38,二、决策的三要素,1 状态集 ,其中每个元素 表示自然界(或社会)可能出现的一种状态,所有可能状态的全体组成状态集。,2 行动集 ,其中a表示人对自然界可能采取的一个行动,一般行动集有两个以上的行动可供选择。若有两个行动无论对自然界的哪一个状态出现, 总比 收益高,则 就没有存在的必要,可把它从行动集中去掉,使留在行动集中的行动总有可取之处。,39,3 收益函数 ,函数值 表示当自然界处于状态 ,而人们选取行动 时所得到的收益大小。,收益函数的值可正可负,若正表示盈利,负表示亏损,单位常用货币单位,收益函数的建立不是件容易的事,要对所研究的问题有全面的了解才能建立起来。收益矩阵,40,三、损失函数,1、从收益到损失,为了统一处理,在决策中常用一个更为有效的概念:损失函数。在状态集和行动集都为有限时用损失矩阵。,这里的损失函数不是负的收益,也不是亏损。例如,某商店一个月的经营收益为1000元,即亏1000元。这是对成本而言。我们不能称为损失,而称其为亏损。我们讲的损失是指“该赚而没有赚到的钱”,例如该店本可以赚2000元,当由于某种原因亏了1000元,那我们说该店损失了3000元。用这种观点认识损失对提高决策意识是有好处的。,按上述观点从收益函数可以很容易获得损失函数。,41,例4 某公司购进某种货物可分大批、中批和小批三种行动,记为 ,未来市场需求量可分为高、中、低三种状态,记为 ,三个行动在不同的市场的利润如下,这是一个收益矩阵,我们把它改写为损失矩阵如下:,42,2、损失函数,构成决策问题的三要素:,由收益函数容易获得损失函数,例5 某公司购进一批货物投放市场,若购进数量a低于市场需求量 ,每吨可赚15万元。若购进数量超过市场需求量 ,超过部分每吨反要亏损35万元。由此可写出收益函数,43,显然,当购进数量a等于市场需求量 时,收益达到最大,44,3、损失函数下的悲观准则,第一步,对每个行动a选出最大损失值,记为,第二步,在所有选出的最大损失中再选出最小者 ,则 满足,则称 为悲观准则下的最优行动,这是一种保守策略,不求零损失,但愿少损失,例4幻灯片 41,在悲观准则下,第一步的最大损失值依次为3.7,4,8,第二步,在上面三个最大损失值中最小值为3.7,对应的行动为,45,4、常用损失函数,(1)平方损失函数,这是在统计决策中用得最多的损失函数,(2)线性损失函数,(3)01损失函数,(4)多元二次损失函数,46,四、贝叶斯决策问题,先验信息和抽样信息都用的决策问题称为贝叶斯决策问题。若以下条件已知,则我们认为一个贝叶斯决策问题给定了。,(4)定义在 的二元函数 称为损失函数,47,1、后验风险函数,我们把损失函数 对后验分布 的期望称为后验风险,记为 ,即,后验风险就是用后验分布计算的平均损失,48,2、决策函数,定义 在给定的贝叶斯决策问题中,从样本空间 到行动集A上的一个映照 称为该决策问题的一个决策函数, 表示所有样本空间从到A上的决策函数组成的类称为决策函数类。,在贝叶斯决策中我们面临的是决策函数类D,要在D中选择决策函数 ,使其风险最小,49,3、后验风险准则,定义 在给定的贝叶斯决策问题 中 是其决策函数称,为决策函数 的后验风险。假如在决策函数中存在这样的决策函数,它在D中有最小的风险,即,则称 为后验风险准则下的最优决策函数,或称贝叶斯决策,或贝叶斯解,50,4、平方损失函数下的贝叶斯估计,定理 在平方损失函数 下, 的贝叶斯估计为后验均值 , 即,在平方损失函数下,任何一个决策函数的后验风险为0.,