《抽样技术第7章ppt课件.pptx》由会员分享,可在线阅读,更多相关《抽样技术第7章ppt课件.pptx(61页珍藏版)》请在三一办公上搜索。
1、第七章 其他抽样方法,第一节 二重抽样第二节 捕获再捕获抽样第三节 电话调查抽样,2022/11/10,1,7.1二重抽样,一、概述 二重抽样(double sampling),也称二相抽样或两相抽样(two-phase sampling),是指在抽样时分两步抽取样本,每一步抽取一个样本。 一般情况下,先从总体N中抽取一个较大的样本n,称为第一重(相)样本,对之进行调查以获取总体的某些辅助信息,为下一步的抽样估计提供条件。然后进行第二重(相)抽样,第二重抽样所抽的样本n相对较小,但是第二重抽样调查才是主调查。一般地,第二重样本是从第一重样本中抽取的,即第一重样本的子样本,但有时也可以从总体中独
2、立抽取。由于样本是分两次抽取的,因此称为二重抽样。,二重抽样与两阶段抽样,二者都可被视为分阶段抽样方法;差异:两阶段抽样是先从总体N个单元(初级单元)中抽出n个样本单元,却并不对这n个样本单元中的所有小单元(二级单元)都进行调查;二重抽样则不同,要对第一重(相)样本进行调查以获取总体的某些辅助信息。两阶段抽样的第一阶段抽样单位和第二阶段抽样单位往往是不同的;而二重抽样的第二重样本则往往是第一重样本的子样本。,二、为分层的二重抽样,1、符号说明用下标h表示层数,h=1,2,LNh:总体第 h层的单元数;总体单元数 N= Nhnh:第一重样本第 h层的单元数;第一重样本单元数 n= nhnh:第二
3、重样本第 h层的单元数;第二重样本单元数 n= nhWh= :总体单元第 h层的权重wh= :第一重样本第 h层的权重fhD= :第二重样本第 h层的抽样比, 0fhD1yhj:第二重样本第 h层 j单元的观测值,j=1,2,nh;h=1,2,L,2.抽样方法,3.估计量及其性质,定理7.1证明,定理7.2,定理7.2 证明,【例7.1】,某银行要调查其客户的资产情况。已知该银行的客户数为8000,针对客户规模差异较大的特点,拟采用分层抽样。但由于缺乏现有的分层资料,决定采用二重分层抽样方法,第一重样本量 n=1 000,根据其自报的资产情况可分为4层:第一层为300万元以下;第二层为300万
4、元1 000万元;第三层为1 000万元2 000万元;第四层为2 000万元以上。然后在第一重样本分层的基础上,在各层分别抽取第二重样本。第二重样本量 n=nh=200。通过对这200位客户进行详细的调查,取得有关数据整理如表71,试估计该银行所有客户的资产总额及其抽样标准误差。,表71某银行客户的样本数据,4.二重分层抽样样本量的最优分配,二重分层抽样中有两次抽样,这两次抽样的样本量,即 n和 n,直接影响估计的精度。第一重抽样 n越大,对分层信息的了解和估计就越精确,从而可以减少估计量的方差;同样,第二重抽样 n越大,估计量的方差越小。调查经费是有限的,因此需要在给定的费用条件下,选择
5、n和 n,使得估计量的方差 V( )最小。,5.在无回答中的应用,该偏差取决于无回答层占总体的比例以及回答层和无回答层的差异。使用二重抽样方法对无回答样本进行二次抽样调查,其估计量优于仅根据回答数据的估计量,如果对无回答层的二重抽样中能得到完全回答,甚至可以消除无回答偏差。关于二重抽样对无回答数据的调整估计量参见第10章的相关内容。,三、为比率的二重抽样,1.二重抽样比估计的抽样方法,2.二重抽样的比估计及其性质,【例7.2】,某住宅小区共有200个住户,现欲估计小区住户家庭月平均收入的平均水平。家庭收入的数据不易调查,而家庭支出的资料相对容易获取,而且家庭月平均收入与家庭月平均支出之间强相关
6、,因此拟采用二重抽样比估计方法。先从住户中随机抽取100个住户作为第一重样本,调查家庭月平均支出,结果家庭月平均支出的样本均值为1 500元;然后从这100个住户中随机抽选10户作为第二重样本,调查家庭月平均收入和家庭月平均支出,资料见表72。试估计该小区家庭月平均收入,并计算估计量标准误差。,3.二重抽样比估计时样本量的最优分配,7.2 捕获再捕获抽样,一、捕获再捕获估计 捕获再捕获抽样的基本思想是从总体中抽取一个样本,将样本的每个个体标识(作标记或加标签) 后释放回总体中,经过一段时间的充分混合后,再从总体中抽取一个样本,此时,该样本将包括已标识的和未标识的个体,利用这两个样本的信息对总体
7、数量做估计。 该方法实际上是两阶段抽样方法。,彼德森(Peterson,1896)首先提出了捕获再捕获抽样方法,并将该方法用于野生动物的数量研究中。施纳贝尔(Schnabel,1938)将此方法扩展到多样本情形,即对第二次捕获的个体标识后再释放回总体中,进行第三次抽样。这种方法计算比较简单,精确度也较高,因而得到广泛的应用。,以捕鱼的例子进行说明,假如我们想估计湖中鱼的数量N。一个方法是从湖中捕获200条鱼做上标记后放回湖中,让它们与湖中未作标记的鱼混合。然后,从湖中再捕获100条鱼,这次与第一次捕获是相互独立的。假设第二次捕获的鱼中有20条是已经做了标记的,同时假定两次捕获中间湖中鱼的总体没
8、有发生变化,且每次从湖中捕鱼都是简单随机抽样,那么就可以得到这样的估计:湖中的鱼有20%做了标记,这就相当于那200条作了标记的鱼近似代表了湖中鱼总体的20%。因此N的估计值就近似等于1000。,这种方法依赖于以下假定:(1)总体是封闭的两次抽样间没有鱼进入或离开该湖。即对每次抽样而言,N是相同的。(2)每个样本都是来自总体的简单随机抽样,即湖中每条鱼都有同样的机会被捕获。(3)两个样本是独立的。即第一次捕获并被作了标记的鱼被放回湖中后跟总体再次混合,标记与否跟第二次被捕获的概率没有关系。(4)鱼不会丢失其标记,从而有标记的鱼可以被识别。,二、应用:美国人口普查局的PES方法,美国人口普查局在
9、10年一次的人口普查中希望能调查到尽可能多的人,但不可避免有些人会被遗漏掉从而导致普查的人口估计要少于实际的人口总量。Hogan(1993)介绍了美国人口普查局使用的普查后调查方法(PES)。加拿大则采用一个类似的程序,称为逆登记核查法。抽取两个样本。P样本独立于普查直接从总体中抽出,用以估计普查中遗漏的人数,E样本则从普查登记中抽出用以估计普查的误差,比如无此人,或者是重复登记的情况。,事后分层的总体表如表73所示,7.3电话调查抽样,一、电话调查的抽样方法 普通住户电话调查的抽样方法主要有三大类:电话号码簿法、随机拨号法以及综合法。 1.电话号码簿法(sampling telephone
10、directories) 电话调查最初的抽样设计是直接利用现成的、被认为能代表有电话住户的电话号码簿作为抽样框,采用随机抽样或系统抽样的方式获得住宅电话号码。,(1)随机抽样法,又可分为简单随机抽样和两阶段随机抽样。简单随机抽样,就是将电话号码簿上的电话号码建为一个计算机文件,在其中随机抽出所需的样本数,这是一种非常简便的做法。两阶段随机抽样是将抽样过程分为两阶段,以既定的样本大小为基础,决定抽取的号码簿页数。,(2)系统抽样法,也分为系统抽样和两阶段系统抽样。系统抽样,就是根据电话号码簿上所登的电话号码总数,依所设定的样本量大小,每隔k个电话号码抽出一个样本。两阶段系统抽样是将抽样过程分为两
11、阶段,先决定号码簿的页码,再决定抽出的电话号码。,电话号码簿法的优点和缺点,优点:利用电话号码簿抽样的好处是,很少发生所拨号码为空号或所打电话为非住宅电话的情形;缺点:号码簿中会遗漏部分电话用户,导致未涵盖偏差(noncoverage)。尤其在我国,大多数的住宅电话都没有登记在住宅电话号码簿上,所以实际中很少采用这种方法。,2.随机拨号法,常见的随机拨号法就是利用电信局局号的抽样框资料随机抽取局号,然后随机产生后四位数字。这种方法是目前国内实践中最常采用的方法。常见的随机拨号法可分为简单随机拨号法与集群随机拨号法。,(1)简单随机拨号法(simple RDD)分为两步,首先确定所调查的局号,再
12、以随机的方式生成后四位尾数。(2) 整群随机拨号法(cluster RDD) 由于:局号下可排列出来的四位数字并不都是电话号码由于所处地理位置的不同,每个局号下的住宅电话的数目也不同为提高随机拨号法的效率,Groves(1978)、Cummings(1979)提出整群随机拨号法。,典型的整群随机拨号法的步骤,(1)以1000个(或100个或10个)号码为一群(cluster or bank),在每一个局号下产生若干个群。(2)采用分层抽样法决定每一局号中应抽出若干样本群(假设为n)。3)采用随机抽样法在每个局码中抽出n个样本群,在样本群中以随机数随机方式,产生第一个电话号码;若试打结果为有效的
13、电话号码,则保留此样本群,并抽出群内样本,否则就放弃这个群,另外抽出一样本群,重复以上测试。4)所抽出的样本群,全部经过测试后,得出有效样本群,以各局号中有效样本群所占比例作为抽取电话号码数量的比例。,集群随机拨号法的优缺点,Cummings(1979)发现该种方法使得有效样本增加1/3。但集群随机拨号法操作过程较麻烦,且每一群都需经过测试,较为费时费事。,随机拨号法的优缺点,如果有完备准确的区号名单,电话普及率也达到一定程度,随机拨号法不会出现严重的未涵盖问题。采用随机拨号法的弊病是不合格样本的数目太大, 不合格样本过多,将导致电话费成本与调查员成本都大量增加。地理抽样中行政区划与电信局分布
14、并不是一一对应的,会出现某一个局号覆盖两个以上行政区现象,调查时需确认被调查住户是否在调查范围内。,3.综合法,随机拨号与电话号码簿的抽样方法(RDD using telephone directories)。综合法又可分为随机数法和加一法。随机数法是由电话号码簿抽出电话号码之后,随机改变后两位数字;加一法是由电话号码簿抽出电话号码之后,将电话号码的后缀加1或减1,又或者加(减)29中任何一个码数(Blankenship,1977),由此产生新的电话号码样本。,二、受访者的抽选,在电话调查中,抽中一个样本户后访问户内的哪个人呢?韦伯(Weber,1972)等认为只要是户中成年人即可,即“任意成
15、人法”;Kish(1949)认为户中每个成年人都应有相同的受访机会,并设计了一套入户随机抽样表,后来有专家进行了改进,即“随机表抽选法”;此外,还有“男女轮流选择法”、“最近过生日者法”等。,各种方法的优缺点,任意成人法只要接听电话的人符合调查的要求,那么谁接听电话就访问谁。这种方法操作方便,应用最普遍。得到的样本在人口特征上没有显著差异随机表抽选法遇到“被选者不在”的情况比较多。考虑了户中抽样的随机性,增加了访问时间多数时候要换人来接听电话,容易引起被访者反感而挂断电话,使得访问的成功率偏低。,三、样本量的确定,样本量 n的确定主要取决于调查精度、总体变异程度、无回答情况、总体规模 N以及时
16、间、经费等客观条件的制约等因素。电话调查中,对于不同的抽样方式,样本量计算的方式是不同的。电话号码簿抽样和RDD抽样被视为与简单随机抽样有相同的精度,因此可以按照简单随机抽样方法确定样本量。,设计效应,如果抽样设计不是采用简单随机抽样,可以用设计效应对简单随机抽样的样本量进行调整。设计效应是对于同样规模的样本量,其他抽样方式的估计量方差对简单随机抽样估计量方差的比值。一般情况下,简单随机抽样的设计效应等于1,分层抽样和系统抽样的设计效应低于1,整群抽样和多阶段抽样的设计效应大于1。,四、其他问题讨论,抽样框是电话调查抽样设计的关键。普通住宅电话调查常用的抽样框电话号码簿和电信局局号名录分别对应
17、着电话号码簿抽样法和随机拨号法,其主要问题是: (1)不合格样本,即非住宅电话、传真、空号等; (2)未涵盖问题(noncoverage),本应属于调查范围的住户不在抽样框内; (3)重复号码,同一住户申请多个电话号码。,我国的住宅电话号码簿抽样框质量较差,所以实际中随机拨号法比较普遍。随机拨号法最大的问题是存在大量不合格样本。此外,未涵盖误差也不容忽视。未涵盖误差主要取决于两个因素: (1)未涵盖人群占总体的比例,即没有电话的住户比例。 (2)未涵盖人群与已涵盖人群的人口特征差异,即有电话人群与无电话人群间的特征差异。,建议,(1)随机拨号法的样本不遗漏有电话住户的前提是有完备准确的电信局局号名单(2)单一抽样法、调查法各有利弊,可考虑多种抽样方法、多种调查方法相结合(3)由于大量不合格样本以及未涵盖问题的存在, 建议采用配额控制或事后加权调整方法以增强样本代表性,减少估计偏差。(4)由于电信局各局号下有效电话数量不等,必然存在大量的非住宅电话、错号与空号。为提高调查效率,建议积累辅助信息。,
链接地址:https://www.31ppt.com/p-1333768.html