二阶及多阶抽样.ppt
第八章 二阶及多阶抽样,8.1 概述,1.二阶抽样定义:设总体由N个初级单元组成,每个初级单元又由若干次级单元组成,若在总体中按一定方法抽取n个初级单元,对每个被抽中的初级单元再抽取若干次级单元进行调查,这种抽样称为二阶抽样。2.二阶抽样与分层抽样、整群抽样的关系:如果第一阶段抽样采用全面调查,二阶抽样就成了分层抽样;如果第二阶段抽样采用全面调查,二阶抽样就成了整群抽样。,性质l 对于两阶抽样,有,式中,E2,V2为在固定初级单元时对第二阶抽样求均值和方差;E1,V1为对第一阶抽样求均值和方差。,8.2 初级单元大小相等时的二阶抽样,总体均值的估计量:假定总体由N个初级单元组成,每个初级单元都含有M个次级单元。从N个初级单元中按简单随机抽样抽取n个初级单元,在每个被抽中的初级单元中按简单随机抽样抽取m个次级单元。,定理:若两阶段的抽样都是简单随机抽样的,则,证明:,证明:,证明:,例:文具商店一柜台,上月共用了18本发票,每本发票含发票200张。查帐者随机挑选了4本发票,再在挑中的发票本中随机抽了40张发票,记录其营业额。数据整理如下:估计该柜台上个月的营业总额及标准差。,解:,8.3 初级单元大小不等时的二阶抽样,8.3.1 对初级单元进行简单随机抽样时,总体总和Y的估计第一阶抽样按简单随机抽样从N个初级单元中抽取n个,第二阶抽样按简单随机抽样,在抽中的初级单元中分别独立抽取次级单元。(1)简单估计:,证明:,证明:,(2)比估计:,8.3.2 对初级单元进行放回不等概率抽样时,总体总和Y的估计第一阶抽样按放回不等概率抽样(多项抽样)抽取初级单元,第二阶抽样并没有作出特别的规定,只要初级单元指标Yi的估计 是无偏的.,自加权情形:第一阶抽样按放回不等概率抽样抽取初级单元,第二阶抽样都抽取m个。,自加权情形:第一阶抽样按PPS抽样抽取初级单元,第二阶抽样按简单随机抽样抽取次级单元,都抽取m个。,例 某小区拥有10座高层建筑,每座高层建筑拥有的楼层数如下所示。,用二阶抽样方法抽出10个楼层进行调查,第一阶抽样按与每座建筑拥有的楼层数成比例的放回不等概抽样抽取5座建筑,第二阶按简单随机抽样对每座建筑抽取2个楼层。对10个中选楼层居民人数的调查结果如下5所示,请对小区总居民数进行估计,并给出估计的精度。,解:已知n=5,m=2,M0=145,这个样本是自加权的,根据公式(9.26),得:,估计量的方差为,估计量的标准差为,因此,小区居民数为2146人,在置信度为95%时,估计的相对误差为,实际工作中,对于各级单元大小不相等时多阶抽样,自加权通常的做法是:除了最后一阶采用等概率抽样(放回的或不放回的均可),前几阶均采用PPS抽样,并且自第二阶开始,每一阶的样本量都相同(即mi=m,kj=k,),则样本是自加权的,其估计量的形式非常简单。总体总和的估计为 的方差估计为,一、初级单元大小相等时,最优样本量m与n的确定:(1)m的确定:线性费用函数:,8.4 样本量的确定,二、各级单元大小不相等时,多阶抽样的总样本量及最优样本量的配置 二阶自加权情形:第一阶抽样按PPS抽样抽取初级单元,第二阶抽样按简单随机抽样抽取次级单元,都抽取m个。,实际工作中,对于各级单元大小不相等时多阶抽样,自加权通常的做法是:除了最后一阶采用等概率抽样(放回的或不放回的均可),前几阶均采用PPS抽样,并且自第二阶开始,每一阶的样本量都相同(即mi=m,kj=k,),则样本是自加权的,其估计量的形式非常简单。总体总和的估计为 的方差估计为,这时,多阶抽样的总样本量可以这样确定:1.根据简单随机抽样时应抽样本量 2.再乘以设计效应deff获得。多阶抽样与简单随机抽样相比其效率比较低,deff应该大于1。实际工作中,可取deff的经验数据。不同项目的deff不同。,例:某调查公司接受了一项关于全国城市成年居民人均奶制品消费支出及每天至少喝一杯鲜奶的人数的比例情况的调查。确定抽样范围为全国地级及以上城市中的成年居民。成年居民指年满18周岁以上的居民。第一步:确定抽样方法。调查公司决定采用多阶抽样方法进行方案设计,调查的最小单元为成年居民。确定调查的各个阶为城市、街道、居委会、居民户,在居民户中利用二维随机表(Kish随机表的简化)抽取成年居民。第二步:确定样本量及各阶样本量的配置。按简单随机抽样时,在95置信度下,绝对误差为5,取使方差达到最大时的消费奶制品的居民比例为50,则全国样本量应为:,根据以往调查的经验,估计回答率b=80,因此调整样本量为:多阶抽样的效率比简单随机抽样的效率低,这里取设计效应deff=3.2,则在全国范围内应调查的样本居民为:各阶的样本量配置为:初级单元:20个城市;二级单元:每个样本市内抽4个街道,共80个街道;三级单元:每个样本街道内抽2个居委会,共160个居委会;四级单元:每个样本居委会内抽10个居民户,1 600个居民户。在样本居民户内,利用二维随机表抽1名成年居民。,第三步:确定抽样方法。第一阶,在全国城市中按与人口数成比例的放回的不等概抽样,即PPS抽样。第二阶和第三阶分别按与人口数成比例的不等概抽样(PPS抽样)。以第二阶为例,在某个被抽中的样本城市中,将其所属的街道编号,搜集各街道的人口数,赋予每个街道与其人口相同的代码数;根据该市总人口数除以样本量4,确定抽样间距;然后对代码进行随机起点的等距抽样,则被抽中代码所在的街道为样本街道。第四阶,分别在每个样本居委会中,按等距抽样抽出10个居民户。即根据居委会拥有的居民户数除以样本量10得到抽样间距,然后随机起点等距抽样。,在每个样本居民户中,调查员按二维随机表抽取1名成年居民。二维随机表的使用方法如下。(1)随机号的确定。应事先在随机表的第一行数字上,选好一个数字,并划上一个圈,被圈好的这个数字就是这份问卷的随机号。随机号的选择一般由小到大或循环给出。可以根据便于操作又保证实现随机的原则,选择确定随机号的适当方法。(2)选出被访者。将所有符合基本要求的家庭成员按年龄从大到小的顺序列入随机表中,以事先做好的随机号为纵坐标、以最小家庭成员为横坐标,交叉处对应的数字即为被访者的序号。例如,某受访户的随机号确定为4,该户中家庭成员符合本次调查要求的共有4人。将这4人的基本情况按年龄从大到小的顺序填入下面的二维随机表中。,序号 姓名 性别 年龄 1 2 3 4 5 6 7 8 9 10 11 12 1 肖明 男 53 1 1 1 1 1 1 1 1 1 1 1 1 2 汪红 女 52 2 1 1 2 1 2 1 2 1 2 2 1 3 肖晓波 男 23 3 2 1 1 3 2 2 1 3 1 2 3 4 肖晓玲 女 21 4 1 3 2 2 3 1 4 3 2 4 1 5 5 4 1 2 3 4 1 2 3 5 4 2 6 7 8 9101112表中,序号为4的列与年龄最小的家庭成员肖晓玲所在的第4行交叉的数字是2。因此,第2号家庭成员汪红为被访者。,第四步:推算方法。记各样本城市的80位样本居民中,奶制品消费总支出为yi,则各样本城市人均奶制品消费支出为:全国1600名居民组成的样本中,奶制品消费总支出为,则成年居民人均奶制品消费支出为:的方差的估计为:,我国劳动力调查 约调查60万人,其中城镇40万,农村20万。以全国为总体,各省市区独立实施抽样。可采用:分层两阶整群抽样、分层三阶整群抽样、分层四阶整群抽样。1、分层四阶整群抽样(1)对县级单元(县、县级市或市辖区)按照人口和劳动力等特征分层;在第一阶段采用PPS在每一层抽取县级单位;(2)对抽中的县级单位,采用PPS抽取乡级单位(街道、镇或乡);(3)对抽中的乡级单位,采用PPS抽取村级单位(居委会或村委会);(4)对抽中的村级单位,系统抽样抽取调查小区(由30个最相邻的住址组成)。抽中的小区调查其全部住户及家庭成员。,2、分层三阶整群抽样(1)对乡级单元按照城乡及人口和劳动力等特征分层;在第一阶段采用PPS在每一层抽取乡级单位;(2)对抽中的乡级单位,采用PPS抽取村级单位;(3)对抽中的村级单位,系统抽样抽取调查小区。抽中的小区调查其全部住户及家庭成员。3、分层两阶整群抽样(1)对村级单元按照城乡及人口和劳动力等特征分层;在第一阶段采用PPS在每一层抽取村级单位;(2)对抽中的村级单位,采用系统抽样抽取调查小区。抽中的小区调查其全部住户及家庭成员。,