1223bayesianinference.ppt

资源ID：6013321 资源大小：851.02KB 全文页数：46页
资源格式： PPT 下载积分：10金币

快捷下载

会员登录下载

三方登录下载：

下载资源需要10金币

邮箱/手机：
温馨提示：	用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）
支付方式：
验证码：	换一换

加入VIP免费专享

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

1223bayesianinference.ppt

1,Chp11：贝叶斯推断,内容:贝叶斯观点和贝叶斯方法贝叶斯推断 vs.频率推断,2,贝叶斯观点和贝叶斯方法,从频率到信念,3,频率学派的观点,到目前为止我们讲述的都是频率（经典的）统计学概率指的是相对频率，是真实世界的客观属性。参数是固定的未知常数。由于参数不会波动，因此不能对其进行概率描述。统计过程应该具有定义良好的频率稳定性。如：一个95的置信区间应覆盖参数真实值至少95的频率。,统计学更多关注频率推断,4,贝叶斯学派的观点,贝叶斯推断采取了另外一个不同的立场：概率描述的是主观信念的程度，而不是频率。这样除了对从随机变化产生的数据进行概率描述外，我们还可以对其他事物进行概率描述。可以对各个参数进行概率描述，即使它们是固定的常数。为参数生成一个概率分布来对它们进行推导，点估计和区间估计可以从这些分布得到,机器学习和数据挖掘更偏爱贝叶斯推断,5,贝叶斯方法,贝叶斯推断的基本步骤如下：选择一个概率密度函数，用来表示在取得数据之前我们对某个参数的信念。我们称之为先验分布。选择一个模型（在参数推断一章记为）来反映在给定参数情况下我们对x的信念。当得到数据 X1,X2,Xn 后，我们更新我们的信念并且计算后验分布。从后验分布中得到点估计和区间估计。,6,回忆贝叶斯规则,亦称贝叶斯定理条件概率利用贝叶斯规则将数据和参数的分布联合起来,7,似然函数,假设我们有n个IID观测，记为,产生的数据为，记为，我们用如下公式替代现在似然函数真正解释为给定参数下数据的概率,8,后验概率,因此后验概率为其中被称为归一化常数(normalizing constant)。该常数经常被忽略，因为我们关心的主要是参数的不同值之间的比较。所以也就是说，后验和似然函数与先验的乘积成正比,9,贝叶斯点估计,后验的均值是一个常用的点估计L2损失下的贝叶斯规则极大后验估计(maximum a posteriori，MAP)是使后验最大的的值：是另一个常用的点估计0-1损失下的贝叶斯规则,10,贝叶斯置信区间估计,为了得到贝叶斯区间估计，我们需找到a和b，使得令因此C称为后验区间。注意：在多次试验中,并不保证在(1)100%的次数会落在后验区间内。事实上，在复杂的高维模型中，当样本数很少时，覆盖概率可能接近于0。注意：是随机的,11,例：Bernoulli I,令，假设先验为均匀分布，根据贝叶斯公式，后验为其中为成功的次数。,12,例：Bernoulli I,为了得到后验的均值，我们必须计算在这个例子中可以解析计算。后验恰好为Beta分布其中参数，均值为,13,例：Bernoulli I,p的极大似然估计为，为无偏估计。贝叶斯估计还可以写成其中为先验的均值，,14,例：Bernoulli II,现在假设先验不是均匀分布，而是则后验为Beta分布，参数为和，即后验的均值为其中为先验的均值。先验和后验为相同的分布族：共轭如例子中的Beta分布,15,例：正态分布,令，为简单起见，假设已知，并假设先验为,对而言为常数,对而言为常数,16,例：正态分布,将二者相乘，去掉一些常数项，最后得到一个正态分布形式的核最后，的后验为其中为MLE 的标准误差。,17,例：正态分布,当时，当n很大时，后验近似为当n固定而时，对应先验趋近于均匀分布，上述结论也成立,18,例：正态分布,计算后验区间，使得所以且因此，由于，所以最后95%的贝叶斯后验区间为由于，也可用近似，同频率置信区间,19,参数的函数,问题：已知的贝叶斯后验分布为，求的后验分布两种方法：利用CDF的定义，先求的CDF，然后求后验密度，其中CDF为仿真/模拟方法,20,仿真(Simulation),可以通过仿真而不是解析计算来得到点估计和区间估计。假设我们抽取样本则的直方图可以近似后验密度后验的均值近似为后验的置信区间为，其中为样本的样本分位数(quantile)一旦从中抽取样本，令则为来自。这样避免了解析计算,但仿真可能很复杂/困难,21,例：Bernoullil,抽样：令则为的IID，用直方图方法可以估计,22,MLE和贝叶斯,令为的极大似然估计，标准误差为在合适的正则条件下，后验均值的渐近分布为也就是说，另外，若为渐近频率的置信区间，则也是贝叶斯后验的区间：,23,MLE和贝叶斯,定义则,分别展开,24,MLE和贝叶斯,将先验也展开,I0为先验中的信息m0最大化f(),25,MLE和贝叶斯,定义结合展开，得到,26,MLE和贝叶斯,后验简化为结论：当n相对参数数目很大时，如果先验符合真正的知识，则贝叶斯区间和频率区间相同。当数据越多时，先验的影响越弱。,27,先验知识从哪儿来呢？,我们可能在观测数据之前就有一些主观观点或真正的先验知识。但是，通常我们并没有真正的先验知识或者我们在贝叶斯估计时想更客观些，这时可以选择无信息的先验(noninformative prior)。或者可以从数据估计先验。这被称为经验贝叶斯(empirical Bayes)，有时亦称第II类的极大似然(Type II maximum likelihood)。,28,扁平先验(Flat Priors),考虑一个扁平的先验：其中c 0为常数。但是，因此这不是一个pdf。我们称之为非正常先验(improper prior)。通常非正常先验不是问题，只要后验为一个定义良好的pdf即可。扁平先验有时为病态定义的，因为一个参数的扁平先验并不意味参数的变换也是扁平先验。请参见书中的例子,29,通用先验,一个流行的想法是使用通用先验，或在任何场合下都可用的缺省的先验分布。该先验通常从似然函数推导得到。例子包括最小描述长度(minimum description length,MDL)和Jeffrey 先验。这些通常是完全无信息的。,30,Jeffrey 先验,Jeffrey提出的创建先验的规则：其中为Fisher信息。例：对，则Jeffrey 先验为，即，与均匀分布很相近。,31,Jeffrey 先验,对于多元参数情况，Jeffrey 先验为其中表示矩阵A的行列式，为Fisher信息矩阵。,32,多元参数问题,对于多元参数的情况，原则上同处理单个参数相同。后验密度为：问题：如何对多个参数中的一个进行推断？计算感兴趣参数的后验边缘分布例如的边缘分布为,33,多元参数问题,通常计算是很困难的，可用模拟的方法近似。从后验分布随机采样：上标表示不同的采样，收集每个样本中向量的第一个成分，得到为中的样本，这样可以避免积分运算。,34,贝叶斯假设检验,从贝叶斯观点看假设检验时一个很复杂的问题，我们只介绍其基本思想。,35,贝叶斯假设检验,数据和模型：检验：例：用X表示一个最近被污染区域中n个蛋中被孵出的蛋的数目，则，其中表示被孵出蛋的真正比例检验：其中0为被孵出蛋比例的经验值,36,先验分布,令分别表示H0和H1的先验分布通常缺省为：在H1下，用表示关于位置的信息的先验密度对二项分布，通常缺省为：,37,给定数据，H0 为真的后验概率,根据贝叶斯公式，,38,给定数据，H0 为真的后验概率,对上例中的二项检验问题，,39,贝叶斯因子,有人更喜欢用H0对H1的贝叶斯因子(Bayes factor)亦称为加权似然比因为这样不涉及Hi的先验例：假设在上例中则而经典检验给出的p值为0.05,40,贝叶斯假设检验的优点,反映了真正的期望错误率：但p-values 不是。后验概率允许加入个人观点，如果喜欢的话。后验概率可用于多模型检验中：,41,贝叶斯推理 vs.频率推理,我们应该信仰频率学派还是贝叶斯学派？,42,贝叶斯学派的观点,先验信息：可以方便的结合先验信息，而且人们在做推断时也确实利用了先验信息，贝叶斯推断使得这个过程显式化提供了更多的结构：对小样本很有效简练：允许人们对参数进行概率描述，使得似然函数与其逻辑结论一致，减小了数据和参数之间的区别统一：不必对点估计和区间估计各个解析推导,43,反对贝叶斯学派的观点,不方便：后验区间不是真正的置信区间，估计通常都是有偏估计以参数为中心：在很多非参数情况下似然很脆弱计算强度大：积分/仿真或近似很难处理不必要的复杂：即使没有先验信息也要有先验函数假设检验：贝叶斯假设检验对先验的选取很敏感,44,综上所述,在参数模型中，当样本数目很多时，贝叶斯方法和频率方法得到的近似相同的推理。但通常二者的结果不同贝叶斯方法和频率推理是为了解决不同的问题结合先验知识和数据：贝叶斯方法构造长期稳定的性能（如置信区间）：频率方法,45,综上所述,当参数空间为高维时，通常采用贝叶斯方法但当参数比数据还多时，没有统计方法能跨越自然的本质约束即使先验知识选择得当，也只能对“过去”预测很好，对将来不一定能预测很好You cannot get something for nothing.A little bit of data,will not help you to learn about a million dimensional,complex problem.,46,下节课内容,作业：第11章第2、4题第三部分：统计学习基础,

注意事项

本文（1223bayesianinference.ppt）为本站会员（sccc）主动上传，三一办公仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三一办公（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。