欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    第九章 复杂样本的方差估计ppt课件.ppt

    • 资源ID:1876158       资源大小:1.17MB        全文页数:102页
    • 资源格式: PPT        下载积分:16金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要16金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    第九章 复杂样本的方差估计ppt课件.ppt

    第一节 概述,重抽样(复制样本),泰勒级数,广义方差函数,典型抽样方法?复杂设计:多种抽样方法结合,多种抽样框复杂估计:非线性,无回答调整,加权估计,事后分层,第二节 随机组法,一. 什么是随机组法(Random Group Method) 不同的名称: replicate samples 重复样本 ultimate cluster 末级群 交叉样本 等 不同的术语来自于不同的应用。,无偏估计,全样本估计,保守估计,利用随机组方法估计拒答率及其方差,样本,样本,拒答户数,合格调查户数,拒答户数,合格调查户数,172个抽屉 64张卡片,卡片可能是可能是合同汽车旅馆、饭店、空白卡片等 1总体中约有5000个合同汽车旅馆,并准备抽取约700个单元作总样本,这样,总抽样比约为700/5000,即约7个里面抽1个。所以,每一个抽屉都各增加6张空白卡片,这样每个抽屉都有70张卡片。2从每一个抽屉中随机抽取一张卡片,组成一个172张卡片的样本。抽样在不同的抽屉中是互相独立的。 3按照第2步的方法有放回地再抽取9个样本,10个样本(或随机组) 互相独立。 4结果有854个汽车旅馆被抽入总样本,向每一个单元寄一张调查表。其他单元不是合同汽车放馆,不属于被调查总体。没有单元被重复观测。 510天后,对无回答的单元第二次寄调查表,再过一星期第三次寄调查表。如果一个单元24天后仍无返回调查表,就被认为是无回答者。 6将无回答者按随机组的数字顺序排列,并从每3个相邻组中随机抽选一个。忽略对随机组估计量独立性的破坏。,总数,= 70(16+31) = 1330,权数:入样概率倒数,= 7094= 6580,第一随机组中回答者和无回答者子样本的求和,实际应用中很难实现多次有放回抽样,而是把一次样本随机分为k个随机组,所以随机组相互不独立,4 多阶段抽样:来自同一初级抽样单元(PSU)的所有基本样本单元的集合:末级群。随机组是通过将所有末级群分成组而得到的,具体的划分方法根据第一阶抽样方法而定。5如果采用的是二重抽样,则应将第一重样本划分成个随机组;而第二重样本则被相应地分成随机组,即第二重样本单元所在的随机组完全由第一次划分时决定。,在许多大规模调查中偏差通常都不会很大,随机组问题的讨论涉及两个主要问题: 1. 估计量 的方差 2.估计量方差 的精度,即对随机组方差估计 的质量评估。,当N,n很大,抽样比很小时,也可用于不独立随机组,(1),峰度,由(1)式看出, 近似地反比于随机组个数K,定理说明CV依赖于两个因素, 和K 1. K小,CV则大 2. 大,CV也大,说明,方差的随机组估计的精度,不但依赖 k,而且与 的,分布(从而与 )有关。令m=n/k,如取采用有放回简单随机抽样,取 为a组的样本均值,则,这时,若抽样方式为放回PPS抽样,取 为第a组的总体总和的估计量,则,上述两种形式蕴含了这样一个事实,从本质上讲, 的形式。,m从1开始增长时,峰度明显减少,但随m越来越大,峰度的递减作用减少,因此对越来越大的m,峰度的边际递减不足以弥补必要的k的递减,K对减少CV和提高方差估计精度比组容量m更重要。,要满足需要的精度水平,需要什么样的m和k? 估计 听取专家意见根据经验判断,K增长时费用会增加,因此最优k的选择应该在费用约束下寻找,总结:随机组方法,优点:计算简单,适用面广适于多参数、非参数问题,适于分中位数等非平滑函数,也可用于非抽样误差加权调整后的方差估计。缺点:随机组数目一般较少,方差估计不稳定,一般至少10个随机组。随机组的产生较困难:要求机制与复杂抽样相同,而且限制随机组数目,如每层2个PSU,Resampling and replication methods,Sampling:“population”Subsamples (WR ):估计方差Banlanced Repeated ReplicationJacknifebootstrap,半样本法:50年代末美国普查局的W. N. 赫维茨和M. 格尼平衡半样本法 :麦卡锡,Banlanced Repeated Replication,第三节 平衡半样本方法,半样本基本原理每层只抽两个单元的分层抽样 随机组方法,随机组缺点?由于仅仅一个自由度,其稳定性比标准估计量差 半样本:从每层抽取一个单元形成半样本,总共可能出现?个半样本 半样本之间是彼此相关的,半样本估计量,=1,如果第h层中第一个单元被选入第 个半样本; = 0,否则。,半样本估计量的性质,平衡半样本,一个小的半样本子集(k)尽量保留所有的信息,满足该条件的k个半样本为平衡半样本,完全正交平衡(full orthogonal balance)半样本,满足该条件的平衡半样本称为完全正交平衡半样本,完全正交平衡半样本 :k的选择应该是大于L的4的最小整数倍,部分平衡半样本,假设有L层,采用K组半样本 L层可分为G群 各群用同样方法 构造正交列,部分平衡半样本的方差估计量虽然不如完全平衡半样本精确,但也是无偏的。,用于多阶段抽样,在L层中的每一层初级抽样单元(PSU)都是按放回的抽样抽取的,用于非线性估计,对于非线性估计量,一般 和 是不等的,但多数调查实践中两者非常接近,推广,nh = 1nh 2,第四节 Jackknife方法,Pseudo value,PPS例,前面srs+wr例,当k=n时,由于第j个虚拟值为平均值中的第j个变量,因此有,Jackknife的虚拟值为 Jackknife的估计量为 在非线性估计条件下,,拒答率案例,第五节 其他方法简介,一、bootstrap(Efron,1979),SRS,n, ”population”,resamples,假设S是一个容量为n的简单随机样本;将S视为总体,从中再抽取重复样本。如果样本与总体确实相似如果样本的经验概率密度函数(epmf)与总体的概率密度函数相似那么从经验概率密度函数中产生的样本应该与从总体中抽取的样本表现出相同的特性。WR,WOR优势:非平滑函数,方便的构造置信区间,例,利用文件ht.srs中的样本,用bootstrap方法估计身高中位数的方差。总体中身高的中位数是168;而ht.srs中样本中位数是169。总体概率密度函数与样本柱状图有相同的形状,因此预期从S中放回地抽取容量为n的简单随机样本,与从总体中放回地抽取的简单随机样本是类似的。从S中抽取的重复样本可能与S并不完全一致,因为重复样本是放回的S中的有些观测值可能在重复样本中多次出现,有些观测值却从未被抽到过。,一共从S中抽取R = 2000个重复样本(n=200),分别计算每个样本的中位数,得到2000个样本中位数的频数表:这2000个值的样本均值为169.3,样本方差为0.9148(方差的bootstrap估计量)。 中位数的95置信区间为167.5, 171。直接利用bootstrap估计出的抽样分布,确定bootstrap分布的2.5百分位数和97.5百分位数,就可以得到95%的置信区间。,初始简单随机样本是无放回,Gross(1980)建议生成 个样本的复制,以此作为“虚拟的总体”,再从虚拟总体中无放回地抽取R个简单随机样本。如果 很小,那么放回与无放回的bootstrap分布应该相差不大。,复杂抽样中bootstrap方法,Rao和Wu(1988),从第h层的样本中放回地抽取一个容量为 的简单随机样本。各层的抽样独立进行。对于每个重复样本r,生成一个新的权数变量其中 是观测单元i被选入重复样本的次数。利用新的权数来计算 。将第1、2步重复R次,R应该是一个很大的数。计算,二、Generalized variance function(GVFs),1990,NCVS,估计某种犯罪受害者人数t,20-24岁,1990年抢劫总次数的估计值为800510次;该估计的标准差是如果对于不同的估计量有近似的设计效应(deff),,构建广义方差函数的一般步骤:,使用复制或其他方法,估计感兴趣的k个总体总量()的方差。令 相对方差 =构建一个模型。 利用回归技术估计 和 。Valliant(1987)建议采用加权最小二乘方法估计这两个参数,并为较小的项目赋予较大的权数。,优点在公布信息不充分的情况下可以用GVF来直接计算标准差。广义方差函数节省了大量时间,加速了年度报告的产生。GVF对于将来类似调查的设计也很有借鉴意义。缺点模型可能并不适用,因此得出的方差估计是不可靠的。对计算回归参数时未采用的那些量的方差进行估计时,应用GVF必须谨慎。如果子总体中的群deff非常高时,GVF会严重低估方差。,三、泰勒级数法(线性化方法)例如犯罪损失调查,是抢劫受害者报告的被抢金额,,是受害者因此耽误的工作日,,是抢劫受害者支付的医疗费用,假设每工作日损失150美元,对抢劫经济损失的可能是,。,更简便的办法:在观测单元水平上定义新的变量,,总体总量的平滑非线性函数,例,将均值和总量的非线性函数的方差估计量线性化的一般步骤:,将目标量表示成样本中测量或计算变量的均值或总量的函数。通常的形式为计算关于各个自变量的偏导数。以形成线性化步骤中的常数。应用Taylor定理将估计量线性化:定义新的变量q计算 的方差,将其作为 方差的近似。,例如比估计,应用Taylor定理:,优点:如果偏导数已知,应用线性化方法可以给出统计量的方差估计、并可以应用于一般的抽样设计中。线性化方法在统计学中有长期的应用,相关理论得到了很好的发展。现在有很多计算比率、回归系数等非线性函数的线性化方差估计的软件。缺点计算过于繁琐,在包含权数的复杂函数中这一方法难于应用。需要确定h的偏导数的分析表达式,或对偏导数进行具体的数值计算。对估计的每个非线性统计量都需要一个单独的方差公式,并需要进行专门的设计;而每个统计量所需的方法都有不同。并不是所有的统计量都可以表示成总体总量的平滑函数如中位数和其他百分位数就不适用。线性化近似的准确度取决于样本量如果样本量不够大,方差的估计通常是偏低的。,总体总量的平滑函数的置信区间,大部分方差估计方法都假定 渐近服从标准正态分布 如果假定成立 ,近似95%置信区间为线性化方法、jackknife、BRR和bootstrap方法有如下假定:目标量可以表示为总体总量的平滑函数;更确切地说 有连续的二阶偏导函数。样本量较大:或者是各层抽取的psu数量较大,或者是调查包含的层数较多。,总体分位数的置信区间,定义分位数 为满足 的y的最小值如果随机组的数量R适中,BRR或bootstrap方法 :,不是平滑函数,但假定总体和样本足够大时,近似为连续函数,自由度为R - 1,Woodruff 方法 (1952 ),总体总量的函数 近似95的置信区间为,0.95,例:对于身高数据ht.srs,应用Woodruff方法构造身高中位数的95置信区间。,是简单随机样本中取值小于等于 值的观测单元的样本比例,忽略有限总体校正系数,有,中位数的置信下限是,置信上限是,总结,线性化方法:理论特性被研究得最为透彻的、也是最常采用的方法。但方差估计过程过于复杂。随机组方法:易于解释和计算,它可以应用于几乎所有的统计量。缺点是,如果要得到一个稳健的方差估计量,需要有足够多的随机组。在分层多阶段抽样中采用再抽样方法,必须谨慎地构造子样本,以确保同一群中观测值之间的相关性不会被破坏。当感兴趣的特征是总体总量的平滑函数时,大样本下的再抽样方法与线性化方法是一致的。BRR方法几乎可以应用于所有的统计量,但通常只是用于每层只有两个psu的设计、或者是能转化为每层有两个psu的设计。Jackknife和bootstrap方法也可应用于调查中的大部分估计量(但弃1-Jackknife方法对分位数方差的估计效果不佳)、以及每个样本中选取两个以上psu的分层多阶段样本,但与BRR相比它们需要的计算量更大。广义方差函数便于应用,其主要缺点是:除非能利用其他方法计算出方差,否则就无法确定统计量是否符合GVF所采用的模型。,方法的比较,Each has certain circumstances in which its approximation of the variance is better than that of the other, and certain replication techniques work better than others, depending on the sample design (Brillinger 3, Rust 27). Empirical evaluations (using national survey data such as the Current Population Survey and the National Health Interview Survey) have shown little difference in the estimates of the variance using the different approaches (Frankel 13, Kish and Frankel 21, Bean 1).,

    注意事项

    本文(第九章 复杂样本的方差估计ppt课件.ppt)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开