其他抽样、复杂样本及方差估计和非抽样误差.ppt
《其他抽样、复杂样本及方差估计和非抽样误差.ppt》由会员分享,可在线阅读,更多相关《其他抽样、复杂样本及方差估计和非抽样误差.ppt(52页珍藏版)》请在三一办公上搜索。
1、非概率抽样,非抽样误差,五种经典概率抽样方法,其他抽样方法,复杂抽样等,其他抽样方法,估计湖中之鱼的数量N,捕获和再捕获估计,例 假如我们想估计湖中之鱼的数量N。一个方法是,从湖中捕获200条鱼做上标记后放回湖中,让它们与湖中未作标记的鱼混合。然后,从湖中再捕获100条鱼,这次与第一次捕获是相互独立的。假设第二次捕获的鱼中有20条是已经做了标记的。假定两次捕获中间湖中鱼的总体没有发生变化,且每次从湖中捕鱼都是简单随机抽样,那么就可以得到这样的估计:湖中的鱼有20%做了标记,这样就相当于那200条作了标记的鱼近似代表了湖中鱼总体的20%。因此N的估计值就近似等于1000。,假定:,总体是封闭的两
2、次抽样间没有鱼进入或离开该湖。即对每次抽样而言,N是相同的。每个样本都是来自总体的简单随机抽样。即,湖中每条鱼都有同样的机会被捕获有时并不是这样,比如那些小鱼或健康状况稍差的鱼比较容易被捕获。并且,湖中没有不会被捕获的“隐藏的鱼”。两个样本是独立的。鱼不会丢失其标记,从而有标记的鱼可以被识别。,n1=200,n2=100,m=20,,v美国统计学家的数量从美国统计协会(ASA)和数理统计学会(IMS)得到了他们的会员名册。每位统计学家都可能是ASA的会员也可能不是,同样也可能是IMS的会员也可能不是。则n1为ASA会员数,n2为IMS会员数,m是同时出现在两个组织会员名册上人的数量,估计统计学
3、家的数量:,二重抽样,先从总体中抽取一个大的初始样本,从而获得总体的辅助信息,然后再从初始样本或从总体中再抽一个子样本,这种方法就是二重抽样。作用:有助于筛选主调查对象。节约调查费用 提高抽样效率 于研究样本轮换中的某些问题 降低无回答偏差,未分层的二重抽样,二重抽样对估计量的调整,若子样本中每个人都作出回答,则二重抽样不仅消除了无回答偏差,而且还在方差估计中对原有无回答部分进行了解释。应该尝试多获取一些无回答者的信息,以用于调整单位无回答,多包括进一些相关项目,以用于调整项目无回答。,从无回答者中随机抽选100v的子样本,假设访问到了所有的目标无回答者,如果有限总体修正系数可忽略:,二重分层
4、抽样样本量的最优分配,复杂调查设计的简化,在抽样设计时,必须确保你所使用的复杂设计被先验或以前研究者证明是更有效、操作性更强的。一个复杂设计要在估计所有的变量时都有效。在单位成本上获得同样多的信息的情况下,应该优先选择简单设计,而非复杂的设计,抽样权重,对于一个观测单元,抽样权重往往是被抽中概率的倒数。每个样本单元都“代表”了总体中一定数目的单元,所以样本“代表”了整个总体。抽样权重包含了构造点估计所需的全部信息方差的估计需要除抽样权重以外更多抽样设计的信息。,抽样权重,对于分层抽样 等概率整群抽样中 不等概整群抽样中三阶段整群抽样中,自加权样本,自加权调查中,各样本单元的抽样权重相等。在不考
5、虑非抽样误差的情况下,自加权样本可以看成完全反映了总体,因为每个样本单元都反映了总体中相同数目的单元。自加权样本往往方差较小,估计更精确。在自加权的复杂调查中,标准的统计软件在假定观测单元是独立同分布的条件下编写数据分析程序的软件,可以给出均值、分位数及其他统计量的正确估计,而标准误差、假设检验以及置信区间却往往是错误的。,对于非自加权的样本,用抽样权重来构造empirical probability mass function及其分布函数:在分层样本中,每名女性的抽样权重为6.25;每名男性的抽样权重为25。权重修正了图中较高人群对总体的代表性被降低的部分。,总体f(y)样本f(y),ST样
6、本,均值及中位数偏低,样本中的男性代表性被降低,200的SRS,自加权,样本单元的直方图与总体的相似,总体F(y)样本F(y),EPMF,利用EPMF,设计效应,对于抽样设计的效率,Cornfield(1951)建议采用SRS获得的k个观测单元的估计方差与复杂抽样获得的相同数目观测单元的估计方差的比值来衡量。Kish(1965)将该比值的倒数命名为设计效应(design effect,简记为deff):若设计效应已知,可以计算复杂样本的方差,估算样本量,设计效应,比例分配下分层抽样的设计效应近似为:群大小相等时整群抽样的设计效应,设计效应与置信区间,p的95%置信区间为(假定有限总体修正系数近
7、似为1):在估计均值时,若样本足够大,由中心极限定理可得,均值估计的95%置信区间为:Kish及其他作者有时采用,设计效应与样本量,例:在海关某业务出错率的调查中,抽样样本单元为报关单,允许的最大估计误差为真值的20%。假定出错率的真值为0.01,那么SRS所需样本量为:估计抽取报关单的设计效应为2,平均一份报关单包括两条商品记录,那么一共需要抽取多少报关单?,案例:全国犯罪受害者调查(the National Crime Victimization Survey,NCVS),全国统一犯罪报告(Uniform Crime Report),该报告由FBI根据各执法部门提交的报告汇编而成。往往低估
8、了美国犯罪的总数。美国司法统计局(the Bureau of Justice Statistics)组织、全国普查局实施访问的全国性大型调查。与现时人口调查(the Current Population Survey,CPS)类似。NCVS也采用分层和多阶段整群抽样。NCVS的调查范围为全国所有家庭中年龄在12岁及以上的成员,主要调查他们在过去的6个月的犯罪受害经历。,第一阶段,NCVS中的psu为县(county)、一组相邻的县或者是大型城市统计区(metropolitan statistical area,简记为MSA)。一个MSA包括一个大型城市及其周围与其在经济和社会方面关系密切的地区
9、。所有人口在550,000及以上的psu都作为自我代表样本单元(self-representing,SR),被抽中的概率为1。,对其他psu进行分层:保证每一层内的人口大约为650,000,psu的分层主要按照1980年普查获得的地理位置及人口统计信息,以及全国统一犯罪报告提供的犯罪率。(各层的受害率差异较大)在每一层中按照与psu的人口总数成比例的概率抽取一个psu。这个psu是非自我代表的(non-self-representing,NSR)。在1990年的NCVS中,共抽取84个SR的psu和153个NSR的psu。,第二阶段,抽样的第二阶段是抽取地区清单(enumeration dis
10、trict,ED,1990年普查中称为address register area,ARAs)。一个ED包含300至400户家庭,但各个ED所包含的人口规模及覆盖的土地面积差异较大。按照与人口总数成比例的概率抽取ED。为保证由ED组成的样本近似自加权。列表中所有ED是按照地理位置排列的,采用系统抽样抽取ED,可以保证被抽中的ED在地理位置上分布均衡。假设所有ED的总抽样比为1/x:对于SR的psu,在每个psu中每隔x个ED抽取一个ED;对于NSR的psu,系统抽样间隔为(psu的入样概率)*x。,第三阶段,在抽样的第三阶段,对每个ED进行分群,每个群基本都包含4个住房单元(housing un
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 其他 抽样 复杂 样本 方差 估计 抽样误差
链接地址:https://www.31ppt.com/p-5238240.html