其他抽样、复杂样本及方差估计和非抽样误差.ppt

上传人：小飞机

文档编号：5238240

上传时间：2023-06-17

格式：PPT

页数：52

大小：273KB

《其他抽样、复杂样本及方差估计和非抽样误差.ppt》由会员分享，可在线阅读，更多相关《其他抽样、复杂样本及方差估计和非抽样误差.ppt（52页珍藏版）》请在三一办公上搜索。

1、非概率抽样,非抽样误差,五种经典概率抽样方法,其他抽样方法，复杂抽样等,其他抽样方法,估计湖中之鱼的数量N,捕获和再捕获估计,例假如我们想估计湖中之鱼的数量N。一个方法是，从湖中捕获200条鱼做上标记后放回湖中，让它们与湖中未作标记的鱼混合。然后，从湖中再捕获100条鱼，这次与第一次捕获是相互独立的。假设第二次捕获的鱼中有20条是已经做了标记的。假定两次捕获中间湖中鱼的总体没有发生变化，且每次从湖中捕鱼都是简单随机抽样，那么就可以得到这样的估计：湖中的鱼有20%做了标记，这样就相当于那200条作了标记的鱼近似代表了湖中鱼总体的20%。因此N的估计值就近似等于1000。,假定：,总体是封闭的两

2、次抽样间没有鱼进入或离开该湖。即对每次抽样而言，N是相同的。每个样本都是来自总体的简单随机抽样。即，湖中每条鱼都有同样的机会被捕获有时并不是这样，比如那些小鱼或健康状况稍差的鱼比较容易被捕获。并且，湖中没有不会被捕获的“隐藏的鱼”。两个样本是独立的。鱼不会丢失其标记，从而有标记的鱼可以被识别。,n1=200,n2=100,m=20，,v美国统计学家的数量从美国统计协会（ASA）和数理统计学会（IMS）得到了他们的会员名册。每位统计学家都可能是ASA的会员也可能不是，同样也可能是IMS的会员也可能不是。则n1为ASA会员数，n2为IMS会员数，m是同时出现在两个组织会员名册上人的数量，估计统计学

3、家的数量:,二重抽样,先从总体中抽取一个大的初始样本，从而获得总体的辅助信息，然后再从初始样本或从总体中再抽一个子样本，这种方法就是二重抽样。作用：有助于筛选主调查对象。节约调查费用提高抽样效率于研究样本轮换中的某些问题降低无回答偏差,未分层的二重抽样,二重抽样对估计量的调整,若子样本中每个人都作出回答，则二重抽样不仅消除了无回答偏差，而且还在方差估计中对原有无回答部分进行了解释。应该尝试多获取一些无回答者的信息，以用于调整单位无回答，多包括进一些相关项目，以用于调整项目无回答。,从无回答者中随机抽选100v的子样本，假设访问到了所有的目标无回答者,如果有限总体修正系数可忽略：,二重分层

4、抽样样本量的最优分配,复杂调查设计的简化,在抽样设计时，必须确保你所使用的复杂设计被先验或以前研究者证明是更有效、操作性更强的。一个复杂设计要在估计所有的变量时都有效。在单位成本上获得同样多的信息的情况下，应该优先选择简单设计，而非复杂的设计,抽样权重,对于一个观测单元，抽样权重往往是被抽中概率的倒数。每个样本单元都“代表”了总体中一定数目的单元，所以样本“代表”了整个总体。抽样权重包含了构造点估计所需的全部信息方差的估计需要除抽样权重以外更多抽样设计的信息。,抽样权重,对于分层抽样等概率整群抽样中不等概整群抽样中三阶段整群抽样中,自加权样本,自加权调查中，各样本单元的抽样权重相等。在不考

5、虑非抽样误差的情况下，自加权样本可以看成完全反映了总体，因为每个样本单元都反映了总体中相同数目的单元。自加权样本往往方差较小，估计更精确。在自加权的复杂调查中，标准的统计软件在假定观测单元是独立同分布的条件下编写数据分析程序的软件，可以给出均值、分位数及其他统计量的正确估计，而标准误差、假设检验以及置信区间却往往是错误的。,对于非自加权的样本,用抽样权重来构造empirical probability mass function及其分布函数:在分层样本中，每名女性的抽样权重为6.25；每名男性的抽样权重为25。权重修正了图中较高人群对总体的代表性被降低的部分。,总体f(y)样本f(y),ST样

6、本，均值及中位数偏低，样本中的男性代表性被降低,200的SRS,自加权，样本单元的直方图与总体的相似,总体F(y)样本F(y),EPMF,利用EPMF,设计效应,对于抽样设计的效率，Cornfield（1951）建议采用SRS获得的k个观测单元的估计方差与复杂抽样获得的相同数目观测单元的估计方差的比值来衡量。Kish（1965）将该比值的倒数命名为设计效应（design effect，简记为deff）：若设计效应已知，可以计算复杂样本的方差，估算样本量,设计效应,比例分配下分层抽样的设计效应近似为：群大小相等时整群抽样的设计效应,设计效应与置信区间,p的95%置信区间为（假定有限总体修正系数近

7、似为1）：在估计均值时，若样本足够大，由中心极限定理可得，均值估计的95%置信区间为：Kish及其他作者有时采用,设计效应与样本量,例：在海关某业务出错率的调查中，抽样样本单元为报关单，允许的最大估计误差为真值的20%。假定出错率的真值为0.01，那么SRS所需样本量为：估计抽取报关单的设计效应为2，平均一份报关单包括两条商品记录，那么一共需要抽取多少报关单？,案例：全国犯罪受害者调查（the National Crime Victimization Survey，NCVS）,全国统一犯罪报告（Uniform Crime Report），该报告由FBI根据各执法部门提交的报告汇编而成。往往低估

8、了美国犯罪的总数。美国司法统计局（the Bureau of Justice Statistics）组织、全国普查局实施访问的全国性大型调查。与现时人口调查（the Current Population Survey，CPS）类似。NCVS也采用分层和多阶段整群抽样。NCVS的调查范围为全国所有家庭中年龄在12岁及以上的成员，主要调查他们在过去的6个月的犯罪受害经历。,第一阶段,NCVS中的psu为县(county)、一组相邻的县或者是大型城市统计区（metropolitan statistical area，简记为MSA）。一个MSA包括一个大型城市及其周围与其在经济和社会方面关系密切的地区

9、。所有人口在550,000及以上的psu都作为自我代表样本单元（self-representing，SR），被抽中的概率为1。,对其他psu进行分层：保证每一层内的人口大约为650,000，psu的分层主要按照1980年普查获得的地理位置及人口统计信息，以及全国统一犯罪报告提供的犯罪率。（各层的受害率差异较大）在每一层中按照与psu的人口总数成比例的概率抽取一个psu。这个psu是非自我代表的(non-self-representing，NSR)。在1990年的NCVS中，共抽取84个SR的psu和153个NSR的psu。,第二阶段,抽样的第二阶段是抽取地区清单（enumeration dis

10、trict，ED，1990年普查中称为address register area，ARAs）。一个ED包含300至400户家庭，但各个ED所包含的人口规模及覆盖的土地面积差异较大。按照与人口总数成比例的概率抽取ED。为保证由ED组成的样本近似自加权。列表中所有ED是按照地理位置排列的，采用系统抽样抽取ED，可以保证被抽中的ED在地理位置上分布均衡。假设所有ED的总抽样比为1/x：对于SR的psu，在每个psu中每隔x个ED抽取一个ED；对于NSR的psu，系统抽样间隔为（psu的入样概率）*x。,第三阶段,在抽样的第三阶段，对每个ED进行分群，每个群基本都包含4个住房单元（housing un

11、its）（普查中按照地理顺序列出了每个Ed中的住房单元，在可能的情况下会使用该清单进行抽样）。一旦抽中某个群，则该群中的4个住房单元全部入样。访问对象为每个家庭中所有年龄在12岁及以上的成员。如果仅仅使用普查（每十年一次）获得的住房单元清单，由于清单内没有记录新建的住房单元，那么有可能存在总体的覆盖不足（undercoverage）。,1990年NCVS的抽样过程,1990年NCVS共抽取62,600个住房单元（包括普查清单中没有的住宅区）。其中：采用主问卷的56,800个住房单元中（新搬入的住户则采用另一套问卷）：有8200个不合格，原因有住房单元无人居住，或者拆除，或者不再作为居民住房等等

12、。有1600个住房单元完全无回答，原因可能是住户无法访问到或者拒绝访问。1990年NCVS的无回答率为1600/48,600，即3.3%。这样共有95,000个人回答了问卷。,NCVS是采用了复杂调查设计，该调查被设计成是近似自加权的，1980年以后的NCVS基本权重（base weight）为1658：（1/住户单元被抽中的概率）权数调整：加权控制因子（weighting-control factor，WCF）有可能原来ED中的独立单元被一座公寓所取代。只有从该群抽取子样本进行访问。若该群只有1/3的住房单元被抽中，那么该子样本中的住房单元的WCF为3。每个入样的住房单元代表总体中的住房单元

13、数为：base weight*WCF。,无回答权重调整：增加每一组回答者的权重是为了使它们除了代表原先设计的那些单元，还代表样本中的无回答者，以及这些无回答者所代表的总体中未入样的单元。WHHNAF（within-household non-interview adjustment factor），补偿家庭中部分无回者。在每个区域内，来自至少有一个人回答的家庭成员，按照指定参照人的种族、家庭中无回答成员的年龄和性别，以及无回答者与参照人的关系，分成24组。对于访问案例少于30个或者WHHNAF大于或等于2的组将被合并。HHNAF（household non-interview adjustme

14、nt factor）。补偿整个家庭都无回答的家庭。按照MSA级别，城镇/农村，以及参照人的种族，将所有家庭分组，对于HHNAF大于或等于2的组，会合并，直到所有组的HHNAF小于2。每个人的权重为：base weight*WCF*WHHNAF*HHNAF每个回答者的权重被增加了，这样使得他们可以代表与其在背景信息上类似的无回答者。,两阶段比估计：第一阶段只针对NSR的psu，将所有psu按照区域、MSA级别以及种族进行分组，分别赋予不同的权重，调整入样的NSR的psu与所有psu在普查信息上的差异最大值：1.3,比估计第二阶段因子（second-stage factor，SSF）。样本中的每

15、个人按照其年龄、种族及性别被分成72个组。要求每个组至少有30个回答者，并且计算出的SSF在0.5和2.0之间。SSF是一种事后分层：目的在于使估计总体的样本在年龄、种族及性别的分布上更真实。比如样本中年龄较大的白人女性的权重之和比最近的普查资料要大，那么对于样本中所有年龄较大的白人女性，SSF小于1。,最终样本中第i个人的权重为：=base weight*WCF*WHHNAF*HHNAF*FSF*SSF在1990年的NCVS中，每个人的权重最小值为1100，最大值为9000，大多数权重分布在1500至2500之间。为了估计白人女性所报告的恶性袭击案件的总数，作如下定义：,使用权重比不使用权重

16、的估计结果要高。比如，调查中年轻黑人男性的回答者有可能是犯罪的受害者，然而黑人男性的无覆盖及无回答现象却往往较多。,NCVS的抽样设计对方差估计的影响？,1.在NSR层，每一层只抽出1个psu，所以在这些层中存在psu间方差（between-psu variance）。2.在每个ED内进行整群抽样，每个群中包含4个住房单元，这些住房单元有可能是正相关的。3.入样家庭中的所有符合要求的成员都会被访问，这带来clustering effect。4.抽取ED时采用的是系统抽样而非简单随机抽样。在进行系统抽样时，样本单元要求在样本框中分布均匀，所以系统抽样方差往往比简单随机抽样要小，但具体结果很难量化

17、。5.权重的调整（尤其是SSF），同样影响估计的方差。如人们期望的那样，SSF作为一种事后分层，可以降低估计的方差。NCVS以及类似的美国政府调查的设计效应一般大约为2。,复杂样本的方差估计,随机组方法平衡半方法刀切法自助法泰勒级数法广义函数方差,重抽样,随机组方法,Banlanced Repeated Replication,半样本法:50年代末美国普查局的W.N.赫维茨和M.格尼平衡半样本法:麦卡锡,半样本估计量的性质,平衡半样本,一个小的半样本子集（k）尽量保留所有的信息,满足该条件的k个半样本为平衡半样本,完全正交平衡（full orthogonal balance）半样本,满足该条件

18、的平衡半样本称为完全正交平衡半样本,用于多阶段抽样,在L层中的每一层初级抽样单元（PSU）都是按放回的抽样抽取的,用于非线性估计,对于非线性估计量，一般和是不等的，但多数调查实践中两者非常接近,Jackknife方法,bootstrap(Efron,1979),SRS,n,”population”,resamples，假设S是一个容量为n的简单随机样本；将S视为总体，从中再抽取重复样本。如果样本与总体确实相似如果样本的经验概率密度函数（epmf）与总体的概率密度函数相似那么从经验概率密度函数中产生的样本应该与从总体中抽取的样本表现出相同的特性。WR，WOR优势：非平滑函数，方便的构造置信区

19、间,泰勒线性化的一般步骤：,将目标量表示成样本中测量或计算变量的均值或总量的函数。通常的形式为计算关于各个自变量的偏导数。以形成线性化步骤中的常数。应用Taylor定理将估计量线性化：定义新的变量q计算的方差，将其作为方差的近似。,总结,线性化方法：理论特性被研究得最为透彻的、也是最常采用的方法。但方差估计过程过于复杂。随机组方法：易于解释和计算，它可以应用于几乎所有的统计量。缺点是，如果要得到一个稳健的方差估计量，需要有足够多的随机组。在分层多阶段抽样中采用再抽样方法，必须谨慎地构造子样本，以确保同一群中观测值之间的相关性不会被破坏。当感兴趣的特征是总体总量的平滑函数时，大样本下的再抽样

20、方法与线性化方法是一致的。BRR方法几乎可以应用于所有的统计量，但通常只是用于每层只有两个psu的设计、或者是能转化为每层有两个psu的设计。Jackknife和bootstrap方法也可应用于调查中的大部分估计量（但弃1-Jackknife方法对分位数方差的估计效果不佳）、以及每个样本中选取两个以上psu的分层多阶段样本，但与BRR相比它们需要的计算量更大。广义方差函数便于应用，其主要缺点是：除非能利用其他方法计算出方差，否则就无法确定统计量是否符合GVF所采用的模型。,非抽样误差,非抽样误差的特点不随样本量增加而减少造成估计偏差难以测定与识别理论相对薄弱,产生渠道：调查设计：调查问卷的设计，抽样底册的不完善数据搜集阶段：调查人员，被调查者，调查工作人员在数据处理阶段：调查数据的编辑，编码、键入、估计。分类：抽样框误差、无回答误差、计量误差,处理无回答的四类方法,尽量避免其发生。从调查设计入手降低无回答率。这是迄今为止最好的方法。二重抽样：从无回答者中抽取具有代表性的子样本进行再次调查，并利用该子样本对其他无回答者进行推断。利用模型对无回答值进行预测。其中加权法暗含着使用模型去调整单位无回答，插补法则通常用于项目无回答的调整，而参数模型在两种类型无回答中都可能用到。忽略无回答,