统计学bootstrap.ppt
《统计学bootstrap.ppt》由会员分享,可在线阅读,更多相关《统计学bootstrap.ppt(55页珍藏版)》请在三一办公上搜索。
1、1,上节课内容总结,统计推断基本概念统计模型:参数模型与非参数模型统计推断/模型估计:点估计、区间估计、假设检验估计的评价:无偏性、一致性、有效性、MSE偏差、方差、区间估计CDF估计:点估计、偏差、方差及区间估计统计函数估计点估计区间估计/标准误差影响函数BootstrapBootstrap也可用于偏差、置信区间和分布估计等计算,2,本节课内容,重采样技术(resampling)Bootstrap刀切法(jackknife),3,引言,是一个统计量,或者是数据的某个函数,数据来自某个未知的分布F,我们想知道 的某些性质(如偏差、方差和置信区间)假设我们想知道 的方差如果 的形式比较简单,可以
2、直接用上节课学习的嵌入式估计量 作为 的估计例:,则,其中,其中问题:若 的形式很复杂(任意统计量),如何计算/估计?,4,Bootstrap简介,Bootstrap是一个很通用的工具,用来估计标准误差、置信区间和偏差。由Bradley Efron于1979年提出,用于计算任意估计的标准误差术语“Bootstrap”来自短语“to pull oneself up by ones bootstraps”(源自西方神话故事“The Adventures of Baron Munchausen”,男爵掉到了深湖底,没有工具,所以他想到了拎着鞋带将自己提起来)计算机的引导程序boot也来源于此意义:不
3、靠外界力量,而靠自身提升自己的性能,翻译为自助/自举1980年代很流行,因为计算机被引入统计实践中来,5,Bootstrap简介,Bootstrap:利用计算机手段进行重采样一种基于数据的模拟(simulation)方法,用于统计推断。基本思想是:利用样本数据计算统计量和估计样本分布,而不对模型做任何假设(非参数bootstrap)无需标准误差的理论计算,因此不关心估计的数学形式有多复杂Bootstrap有两种形式:非参数bootstrap和参数化的bootstrap,但基本思想都是模拟,6,重采样,通过从原始数据 进行n次有放回采样n个数据,得到bootstrap样本对原始数据进行有放回的随
4、机采样,抽取的样本数目同原始样本数目一样如:若原始样本为则bootstrap样本可能为,7,计算bootstrap样本,重复B次,1.随机选择整数,每个整数的取值范围为1,n,选择每个1,n之间的整数的概率相等,均为2.计算bootstrap样本为:Web上有matlab代码:BOOTSTRAP MATLAB TOOLBOX,by Abdelhak M.Zoubir and D.Robert Iskander,http:/www.csp.curtin.edu.au/downloads/bootstrap_ toolbox.htmlMatlab函数:bootstrp,8,Bootstrap样本,
5、在一次bootstrap采样中,某些原始样本可能没被采到,另外一些样本可能被采样多次在一个bootstrap样本集中不包含某个原始样本 的概率为一个bootstrap样本集包含了大约原始样本集的1-0.368=0.632,另外0.368的样本没有包括,9,模拟,假设我们从 的分布 中抽取IID样本,当 时,根据大数定律,也就是说,如果我们从 中抽取大量样本,我们可以用样本均值 来近似当样本数目B足够大时,样本均值 与期望 之间的差别可以忽略不计,10,模拟,更一般地,对任意均值有限的函数h,当 有则当 时,有用模拟样本的方差来近似方差,11,模拟,怎样得到 的分布?已知的只有X,但是我们可以讨
6、论X的分布F如果我们可以从分布F中得到样本,我们可以计算怎样得到F?用 代替(嵌入式估计量)怎样从 中采样?因为 对每个数据点 的质量都为1/n 所以从 中抽取一个样本等价于从原始数据随机抽取一个样本也就是说:为了模拟,可以通过有放回地随机抽取n个样本(bootstrap 样本)来实现,12,Bootstrap:一个重采样过程,重采样:通过从原始数据 进行有放回采样n个数据,得到bootstrap样本模拟:为了估计我们感兴趣的统计量 的方差/中值/均值,我们用 bootstrap样本对应的统计量(bootstrap复制)近似,其中,13,例:中值,14,Bootstrap方差估计,方差:其中注
7、意:F为数据X的分布,G为统计量T的分布通过两步实现:第一步:用 估计 插入估计,积分符号变成求和第二步:通过从 中采样来近似计算Bootstrap采样+大数定律近似,15,Bootstrap:方差估计,Bootstrap的步骤:1.画出2.计算3.重复步骤1和2共B次,得到4.,(大数定律),(计算boostrap样本),(计算boostrap复制),16,例:混合高斯模型:,假设真实分布为现有n=100个观测样本:,直接用嵌入式估计结果:,17,例:混合高斯模型(续),用Bootstrap计算统计量 的方差:1.得到B=1000个bootstrap样本,其中2.计算B=1000个boots
8、trap样本对应的统计量的值 3.,与直接用嵌入式估计得到的结果比较:,18,Bootstrap:方差估计,真实世界:Bootstrap世界:发生了两个近似近似的程度与原始样本数目n及bootstrap样本的数目B有关,19,Bootstrap:方差估计,在方差估计中,可为任意统计函数如均值(混合高斯模型的例子)中值(伪代码参见教材)偏度(例子参见教材)极大值(见后续例子)除了用来计算方差外,还可以用作其他应用CDF近似、偏差估计、置信区间估计,20,CDF近似,令 为 的CDF则 的bootstrap估计为,21,偏差估计,偏差的bootstrap估计定义为:Bootstrap偏差估计的步骤
9、为:得到B个独立bootstrap样本计算每个bootstrap样本 对应的统计量的值计算bootstrap期望:计算bootstrap偏差:,22,例:混合高斯模型:,标准误差估计在标准误差估计中,B为50到200之间结果比较稳定偏差估计,23,Bootstrap置信区间,正态区间:简单,但该估计不是很准确,除非 接近正态分布 百分位区间:,对应 的样本分位数还有其他一些计算置信区间的方法如枢轴置信区间:,24,例:Bootstrap置信区间,例8.6:Bootstrap方法的发明者Bradley Efron给出了下列用语解释Bootstrap方法的例子。这些数据是LAST分数(法学院的入学
10、分数)和GPA。计算相关系数及其标准误差。,25,例8.6(续),相关系数的定义为:相关系数的嵌入式估计量为:Bootstrap得到的相关系数插入估计的标准误差为:,标准误差趋向稳定于,26,例8.6(续),当B=1000时,的直方图为下图,可近似为从 的分布采样95%的正态区间为:95%的百分点区间为:当大样本情况下,这两个区间趋近于相同,27,非参数bootstrap过程总结,对原始样本数据 进行重采样,得到B个bootstrap样本,其中b=1,B 对每个bootstrap样本,计算其对应的统计量的值(bootstrap复制)根据bootstrap复制,计算其方差、偏差和置信区间等称为非
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 bootstrap

链接地址:https://www.31ppt.com/p-4104521.html