《不等概率抽样》PPT课件.ppt
,?-非概率,等概率,不等概,每个单元入样的概率,第五章 不等概抽样,例,OBrien et al.(1995)对Philadelphia地区的病人进行抽样,目的是了解病人对于医疗服务的偏好。目标总体是这一区域的所有注册的医院的病人。总共有294家医院,27652个床位(抽样以前,研究人员只知道床位数,不知道病人数)。,等概率的抽取样本医院的缺点?,首先,可能医院中愿意接受CPR治疗的病人数量会正比于医院床位的数量,采用等概简单估计量可能会有大的方差。其次,自加权的等概率样本可能难于管理。可能仅仅为了调查一两个病人就需要去一家医院,并且合理分配调查人员的工作负担也是比较困难的。第三,调查成本在调查开始的时候是未知的-一个40家医院的样本可能包括了主要的大的医院,这会导致比预计更大的成本。,其他办法?,调查人员还可以采用与医院病床数量成比例的方法抽取57个医院,然后从每个样本医院中抽取30个简单随机样本床位。如果病人数等于床位数,并且医院实际的床位数和抽样时依据的病床数据一致,每个病人是否有相同的入样概率?而且成本在调查实施前是已知的,因为每个访员在每个医院访问的病人数量是相同的。而且,总体总量的方差可能更小。,分层抽样:抽样选择概率小的单位会有较高的权数。采用不等概率抽样来减少抽样方差而不采用清晰的分层。采用不同的概率来选择初级样本单元,并且在估计中采用不同的权数来进行弥补。抽样的关键是每个样本的选择概率是已知的。,5.1 不等概抽样,一、不等概抽样的必要性:在简单随机抽样中,总体(或层)中的每个单元入样的概率都相等。如果总体中的每个单元在该总体中的地位(或重要性)相差不多,则这种基于等概率的抽样是理所当然的选择。等概率抽样不仅实施简单,而且相应的数据处理公式也简单。但是在许多实际问题中,我们还需要使用不等概抽样(sampling with unequal probabilities)。,二、不等概率抽样的适用场合:,一种情况是调查的总体单元与抽样总体的单元可能不一致;另一种需要用到不等概抽样的情况是,抽样单元在总体中所占的地位不一致;最重要的一种不等概抽样乃是使每个单元入样的概率与该单元的大小成比例的抽样(sampling with probabilities proportional to sizes,简称PPS抽样)。,二、不等概率抽样的适用场合:,第三种需用不等概率抽样的情况是为了改善估计量的特性。每个可能的样本若被抽的概率与样本中单元的辅助变量之和成正比的话,则按此进行不等概抽样所得到的样本,用通常的比估计方法所得的估计量是无偏的。,9,总之,在实际工作中需要我们经常采用不等概率抽样。另外,从上面列举的情况也可看到,凡需使用不等概抽样的场合,必须提供总体单元的某种辅助信息,例如每个单元的“大小”度量Mi或辅助变量Xi等。,10,三、不等概抽样的主要分类,不等概抽样可按多种原则进行分类。鉴于不等概抽样同时会带来目标量估计及其方差估计的复杂性,可分为 放回抽样:每次在总体(或层)中按一定概率抽取一个单元,抽取后放回总体,再进行下一次抽样,每次抽样都是独立的。不放回抽样。其代价是:由于丧失了独立性,无论是抽样方法还是方差估计,都要比放回抽样繁复得多。,11,另一种分类是:视每次抽样(放回抽样的情形)概率或每个单元的入样概率(不放回抽样的情形)是否严格地与单元的大小成比例。另外,看样本量n是固定的还是随机的。最重要的情形乃是当n固定,且上述概率与单元大小严格成比例的不等概率抽样。以后我们将这种情形的放回抽样称为PPS抽样,称相应的不放回抽样为PS抽样。,12,对于不放回抽样,按其样本单元抽取方式的不同又可分为以下几种方法:1.逐个抽取法。每次从尚未入样的单元中以一定概率抽取一个单元,这个概率通常与已经入样的单元有关,2.重抽法。以一定概率逐个进行放回抽样,若一旦抽到重复单元,则放弃所有已抽到的单元而重新抽取,直到抽到规定单元数且所有入样单元都不同为止。,Back,13,3.系统抽取法。将总体单元按某种顺序排列,且将规定的单元入样(或其倍数)累计起来,并确定抽样间隔,在这个范围内产生一个随机数以确定初始入样单元,然后按上述抽样间隔确定其余的样本单元。4.全样本方法。对每个可能样本规定一个被抽中的概率,按这个概率一次抽取整个样本。,Back,四、不等概抽样的特点 不等概抽样的主要优点是:由于使用了辅助信息,提高了抽样策略的统计效率,与简单随机抽样甚至与分层抽样相比,能显著地减少抽样误差。不等概抽样有以下的缺点:1)抽样框中的所有单元,都要有高质量的、能用作大小度量的辅助信息;,2)抽样框的创建比简单随机抽样和系统抽样成本高,更复杂,因为需要度量和存储总体中每一个单元的大小;3)并非在任何情况下都能使用,因为并不是每一个总体都有稳定且与主要调查变量相关的有关大小或规模的度量;4)抽样及估计(特别对不放回抽样)相当复杂;5)当单元大小度量不准确或不稳定时不适用,此时更好的办法是将单元按大小分组并使用分层抽样。,5.2 放回不等概抽样,一、多项抽样与PPS抽样:1.多项抽样:,*这种放回的不等概率抽样为何又叫多项抽样?,2.PPS抽样:,19,2.PPS抽样 PPS抽样是与大小(或规模)成比例的概率抽样,是一种使用辅助信息从而使入样概率不相等的抽样技术。如果总体单元的大小或规模变化很大,且这些大小是已知的,这样的信息就可以用在抽样中,以提高统计效率。如果单元大小的度量是准确的,而且所研究的变量与单元的大小相关,PPS抽样能极大地提高精度。但如果大小的度量不大准确,最好按大小分组并使用分层抽样。,20,PPS抽样的入样概率。如上所述,PPS抽样时可取为第i个单元的入样概率,其中 是总体中所有单元的“大小”之和,为第i个单元的大小。,21,二、多项抽样的实施方法 如何抽取一个不等概率样本呢?有三种主要方法:代码法、系统法及随机系统法。以下的讨论以PPS抽样为例,并假定单元大小皆为整数。,22,(1)代码法(累计和法,随机法或汉森赫维茨法)设N不太大,且 为第i单元大小的度量,且为整数,对总体中的每个单元计算累计大小,得到总体所有单元代码的累计和,对总体中每个单元确定与它相对应的代码范围;在1到总的累计大小 范围内抽取一个随机数,该随机数相应的代码范围中的单元即为入样单元。重复上述步骤,直到抽得n个单元为止。,23,PPS抽样时,单元的代码如下表:,24,(2)拉希里法(二次抽样法)代码法要将 累计,在N不太大时是适用的,但当N很大时,就很不方便。此时可用Lahiri(拉希里)1951年提出的方法。令 每次抽取一个范围内的随机数 及 范围内的随机数m,若,则第 单元入样;否则,重抽。此时,第i个单元的入样概率与 成正比,从而。重复这一过程,直到抽够所需的 个单元。,2.拉希里法(二次抽取法):,26,(3)系统PPS抽样方法 对总体中的每个单元,计算累计大小;对总体中每个单元确定与它相对应的代码范围;确定抽样间隔k=总累计大小/n;在1和k的范围内确定一个随机起点r;与代码r,r+k,r+2k,r+(n-1)k所在范围相对应的单元入样。注意,当r+(n-1)k超过总累计大小时,应使用圆形系统抽样中的模余数法。,27,(4)随机系统抽样法 在这种方法中,名录在系统抽样前要进行随机排序。如果完全按原来的排序,会把一些可能的样本排除在外。在上面介绍的系统抽样的例子中,不可能把单元3和4同时抽入同一个样本。把名录重新随机排列后会增加潜在的可能抽到的样本数量。实际上这些方法都有些问题。例如,对系统抽样法或随机系统抽样法,一个大小大于抽样间隔的单元,就有重复被抽中的可能。只有把这些大单元放入单独的一个层,并独立地对它们进行抽样,才能克服这个问题。另一个问题是估计值的抽样方差估计比较困难。,28,三、Hansen-Hurwitz估计量及其性质:对于多项抽样,由于抽样是不等概率的,每个样本单元的观测值就不再是“平等的”,因此对于总体参数的估计与等概率抽样不同。汉森赫维茨提出,如果 是按 为入样概率的多项抽样抽得的样本指标值,相应的 为,则总体总和Y的无偏估计量如下:,29,且若n1,则 的无偏估计量为,30,对于PPS抽样,所以有其中 是第i个样本单元的观测值,例如商店的年销售额,而 是该单元的大小,例如商店的员工人数,则 即是第i个商店人均年销售额。对n个 取平均即是样本商业网点人均年销售额的平均,将此数乘以(即该地所有商业网点的员工总数),即可获得该地商业销售总额的估计。,三、Hansen-Hurwitz估计量及其性质:,32,举例:下表是某系统全部N=36个单位上一年职工人数 及当年职工人数 的数据,以 为单位大小 的度量,对单位进行PPS抽样,n=6,估计全系统当年职工总人数Y,并与简单随机抽样做精度比较。,某系统各单位上一年与当年职工人数,某系统各单位上一年与当年职工人数,某系统各单位上一年与当年职工人数,某系统各单位上一年与当年职工人数,某系统各单位上一年与当年职工人数,解:对单位进行PPS抽样:根据公式,Y的汉森-赫维茨估计 的理论方差为:,而若对单位进行简单随机抽样,同样样本量时Y的简单估计 的方差可计算如下:因此在此例中,PPS抽样的设计效应为:可见对PPS抽样,估计量的精度提高非常显著。,在实际中 当然是未知的,只有抽样才能观测到。下面列出4组PPS样本,分别计算Y的估计量并作方差估计。4组样本抽得的单位号码如下:样本I:4,10,23,11,13,3;样本II:1,34,18,11,29,8;样本III:12,10,36,4,24,4;样本IV:14,4,18,11,34.,对每个样本,计算Y的估计量,记为。为方便起见,令则计算结果列在下表中。,对前面表的总体进行n=6的PPS抽样的结果,注意到不同样本计算的估计量 的值相差不大,说明它的方差并不大,但方差估计量 的稳定性较差(表中列出的只是标准差的估计),其中原因之一是样本量还不够大。,例1,某部门要了解所属8500家生产企业当月完成的利润,该部门手头已有一份去年各企业完成产量的报告,将其汇总得到所属企业去年完成的产量为3676万吨。考虑到时间紧,准备采用抽样调查来推算当月完成的利润。根据经验,企业的产量和利润相关性比较强,且企业的特点是规模和管理水平差异比较大,通常大企业的管理水平较高些,因此采用以与去年产量成比例的PPS抽样,从所属企业中抽出一个样本量为30的样本,,757087(元),174118,相对误差,相对误差达到20时所需样本量?,有放回不等概整群抽样,四.按与群大小Mi成比例的PPS抽样抽取群:,例2:某公司分8个部门,共有职工12950人,各部门职工数如下:按与职工数成比例的概率抽3个部门。,(1)随机数为2011、7972、10281,问抽中哪几个部门?(2)若三个部门的职工病假天数依次为4320、4160、5790。估计该公司每个职工平均病假天数及标准差。解:,5.3 多阶段有放回不等概抽样,一、对初级单元进行放回不等概率抽样时,总体总和Y的估计第一阶抽样按放回不等概率抽样(多项抽样)抽取初级元,第二阶抽样并没有作出特别的规定,只要初级单元指标Yi的估计 是无偏的.,自加权情形:第一阶抽样按放回不等概率抽样抽取初级单元,第二阶抽样都抽取m个。,自加权情形:第一阶抽样按PPS抽样抽取初级单元,第二阶抽样按简单随机抽样抽取次级单元,都抽取m个。,实际工作中,对于各级单元大小不相等时多阶抽样,自加权通常的做法是:除了最后一阶采用等概率抽样(放回的或不放回的均可),前几阶均采用PPS抽样,并且自第二阶开始,每一阶的样本量都相同(即mi=m,kj=k,),则样本是自加权的,其估计量的形式非常简单。总体总和的估计为 的方差估计为,二、各级单元大小不相等时,多阶抽样的总样本量及最优样本量的配置 二阶自加权情形:第一阶抽样按PPS抽样抽取初级单元,第二阶抽样按简单随机抽样抽取次级单元,都抽取m个。,这时,多阶抽样的总样本量可以这样确定:1.根据简单随机抽样时应抽样本量2.再乘以设计效应deff获得。多阶抽样与简单随机抽样相比其效率比较低,deff应该大于1。实际工作中,可取deff的经验数据。不同项目的deff不同。,例:某调查公司接受了一项关于全国城市成年居民人均奶制品消费支出及每天至少喝一杯鲜奶的人数的比例情况的调查。确定抽样范围为全国地级及以上城市中的成年居民。成年居民指年满18周岁以上的居民。第一步:确定抽样方法。调查公司决定采用多阶抽样方法进行方案设计,调查的最小单元为成年居民。确定调查的各个阶为城市、街道、居委会、居民户,在居民户中利用二维随机表(Kish随机表的简化)抽取成年居民。第二步:确定样本量及各阶样本量的配置。按简单随机抽样时,在95置信度下,绝对误差为5,取使方差达到最大时的消费奶制品的居民比例为50,则全国样本量应为:,根据以往调查的经验,估计回答率b=80,因此调整样本量为:多阶抽样的效率比简单随机抽样的效率低,这里取设计效应deff=3.2,则在全国范围内应调查的样本居民为:各阶的样本量配置为:初级单元:20个城市;二级单元:每个样本市内抽4个街道,共80个街道;三级单元:每个样本街道内抽2个居委会,共160个居委会;四级单元:每个样本居委会内抽10个居民户,1600个居户。在样本居民户内,利用二维随机表抽1名成年居民。,第三步:确定抽样方法。第一阶,在全国城市中按与人口数成比例的放回的不等概抽样,即PPS抽样。第二阶和第三阶分别按与人口数成比例的不等概等距抽样。以第二阶为例,在某个被抽中的样本城市中,将其所属的街道编号,搜集各街道的人口数,赋予每个街道与其人口相同的代码数;根据该市总人口数除以样本量4,确定抽样间距;然后对代码进行随机起点的等距抽样,则被抽中代码所在的街道为样本街道。第四阶,分别在每个样本居委会中,按等距抽样抽出10个民户。即根据居委会拥有的居民户数除以样本量10得到抽样距,然后随机起点等距抽样。,在每个样本居民户中,调查员按二维随机表抽取1名成年居民。二维随机表的使用方法如下。(1)随机号的确定。应事先在随机表的第一行数字上,选好一个数字,并划上一个圈,被圈好的这个数字就是这份问卷的随机号。随机号的选择一般由小到大或循环给出。可以根据便于操作又保证实现随机的原则,选择确定随机号的适当方法。(2)选出被访者。将所有符合基本要求的家庭成员按年龄从大到小的顺序列入随机表中,以事先做好的随机号为纵坐标、以最小家庭成员为横坐标,交叉处对应的数字即为被访者的序号。例如,某受访户的随机号确定为4,该户中家庭成员符合本次调查要求的共有4人。将这4人的基本情况按年龄从大到小的顺序填入下面的二维随机表中。,序号 姓名 性别 年龄 1 2 3 4 5 6 7 8 9 10 11 12 1 肖明 男 53 1 1 1 1 1 1 1 1 1 1 1 1 2 汪红 女 52 2 1 1 2 1 2 1 2 1 2 2 1 3 肖晓波 男 23 3 2 1 1 3 2 2 1 3 1 2 3 4 肖晓玲 女 21 4 1 3 2 2 3 1 4 3 2 4 1 5 5 4 1 2 3 4 1 2 3 5 4 2 6 7 8 9 10 11 12 表中,序号为4的列与年龄最小的家庭成员肖晓玲所在的第4行交叉的数字是2。因此,第2号家庭成员汪红为被访者。,第四步:推算方法。记各样本城市的80位样本居民中,每天至少喝一杯鲜奶的人数为ai,则各样本城市每天至少喝一杯鲜奶的人数所占比例为:全国1600名居民组成的样本中,每天至少喝一杯鲜奶的总人数为,则成年居民每天至少喝一杯鲜奶的人数所占比例为:的方差的估计为:,我国劳动力调查 约调查60万人,其中城镇40万,农村20万。以全国为总体,各省市区独立实施抽样。可采用:分层两阶整群抽样、分层三阶整群抽样、分层四阶整群抽样。1、分层四阶整群抽样(1)对县级单元(县、县级市或市辖区)按照人口和劳动力等特征分层;在第一阶段采用PPS在每一层抽取县级单位;(2)对抽中的县级单位,采用PPS抽取乡级单位(街道、镇或乡);(3)对抽中的乡级单位,采用PPS抽取村级单位(居委会或村委会);(4)对抽中的村级单位,系统抽样抽取调查小区(由30个最相邻的住址组成)。抽中的小区调查其全部住户及家庭成员。,2、分层三阶整群抽样(1)对乡级单元按照城乡及人口和劳动力等特征分层;在第一阶段采用PPS在每一层抽取乡级单位;(2)对抽中的乡级单位,采用PPS抽取村级单位;(3)对抽中的村级单位,系统抽样抽取调查小区。抽中的小区调查其全部住户及家庭成员。3、分层两阶整群抽样(1)对村级单元按照城乡及人口和劳动力等特征分层;在第一阶段采用PPS在每一层抽取村级单位;(2)对抽中的村级单位,采用系统抽样抽取调查小区。抽中的小区调查其全部住户及家庭成员。,70,5.4 不放回不等概率抽样,一、包含概率与PS抽样 放回不等概率抽样实施简单,数据处理也不复杂,在不等概率抽样中占有一定的地位。但是由于放回抽样有可能重复抽到同一单元,特别是个别大单元被重复抽到的可能性比较大,这就在一定程度上影响了样本的代表性,降低了抽样效率,也不易被实际工作者所接受。即使在相同样本量下,放回抽样的精度比不放回抽样的差。因此,我们仍有必要研究不放回不等概率抽样。事实上,由于不放回抽样的样本不是独立的,因此无论是实施还是数据处理,特别是方差估计,都要比放回的多项抽样复杂得多。,71,在放回的不等概率抽样中,每个单元的入样概率起着关键作用。在不放回抽样中,每个单元被包含到样本的概率也即入样概率及任意两个单元都包含到样本的概率都起着十分重要的作用,它们通称为包含概率。,对于固定的n包含概率满足以下性质:(1)(2)(3),其中性质1是显然的。性质2是对每个已在样本中的单元而言的,固定了这个特定单元,总体中其它N-1个单元在样本中只可能有n-1个单元,因此其中最后一个等式利用了性质1。性质3则直接利用性质2:,与放回的PPS抽样类似,对于不放回不等概率抽样,我们最感兴趣的是 与单元大小 成比例的情形。若仍记,则由性质1有:以后我们将这种不放回的与单元大小成比例的概率抽样称为PS抽样。,严格的PS抽样实施起来非常复杂。事实上,只有当n=2时,才有一些简单且实用的方法。在不放回抽样的情形,如果抽选的单元多于一个,要使入样概率与单元大小成正比以及对调查估计值的误差进行估计都比较复杂。在用不放回PS抽样抽取多于两个单元时,情况就更加复杂。实际上,这仍是一个需要进行认真研究的问题。除了实施方面的原因外,当n大时,的计算也极其困难,而这对于方差估计是不可少的。,二、霍维茨汤普森估计量及其性质 对不放回的不等概率抽样,总体总和Y的估计采用霍维茨(Horvitz)与汤普森(Thompson)提出的以下估计量:注意这个估计量与多项抽样的汉森赫维茨估计量 非常相似。事实上,对于PS抽样,由于,与相应PPS抽样的 完全一致。,霍维茨汤普森估计量具有如下性质:(1)若,则 是Y的无偏估计,且它的方差为:当n固定时,又有,(2)若,则 是 的无偏估计。又当n固定时,以下的耶茨(Yates)格伦迪(Grundy)森(Sen)估计量 也是 的无偏估计:,不放回的不等概率整群抽样,当 固定时,对不放回抽样,如果总体每个群的入样概率与其群的大小 严格成比例,则称之为严格的 抽样。,若群的抽取是用严格的 抽样方法进行的,则 的估计应该用霍维茨汤普森方法(Horvitz-Thompson)。,(n固定时),(n固定时),两阶段不放回的不等概抽样 设总体由N个一阶单元组成,第i个一阶单元包含 个二阶单元。第一阶段抽样是不放回的不等概率抽样,为第i个一阶单元入样的概率,,为第i和第j个一阶单元同时入样的概率。第二阶段是简单随机抽样。此时,总体总和可采用以下形式估计:,可以证明 是Y的无偏估计量,其方差为:方差 的一个无偏估计量为:,83,三、n=2的严格PS抽样 对于PS抽样,由于作为总体总和的霍维茨汤普森估计量的形式相当简单,因此就应用角度来说,是否便利主要在于它的实施方法以及 的计算。当n=2时,有几种比较实用的方法(但在具体应用中,n=2并不是一个十分严重的限制)。这些方法常用在对总体分层,在每层中抽取两个样本单元的情况。,84,(1)布鲁尔(Brewer)方法 该方法要求对每个i,都满足,即总体(层)中的最大单元必须小于全部单元大小总和的1/2(若不然可以将这个“特大”单元作为必调查的单元)。两个样本单元采用逐个抽取法抽取:第一个单元按与 成比例的概率抽取;第二个单元则在剩下的N-1个单元中按与成比例的概率抽取。,85,(2)德宾(Durbin)方法 两个样本单元仍用逐个抽取法抽取。第一个样本单元以 概率抽取,设抽到的是单元i;第二个样本单元则按与 成比例的概率抽取。由于此时的,且 与布鲁尔方法的相等,因此德宾方法与布鲁尔方法实际上是等价的。应用德宾方法也要求对每个i,都满足。,86,四、n2的严格PS抽样 n2的严格PS抽样要比n=2的情况复杂得多,即使可以实现,的计算也相当复杂。下面仅介绍三种方法。(1)水野(Midzuno)方法 这也是一种逐个抽取方法,关键是第一个样本单元的抽取,它是以概率 抽取的。在抽取第一个单元以后,在剩下的N-1个单元中不放回地等概率抽取n-1个单元。,87,(2)布鲁尔(Brewer)方法 这是n=2的布鲁尔方法在n2情形的推广,也采用逐个抽取法。第一个单元是以与 成比例的概率抽取。在第r次抽取时,以与 成比例的概率从当时尚未入样的单元中抽取一个单元。,88,(3)拉奥(Rao)桑普福特(Sampford)方法 这种方法是先以 的概率抽取第一个样本单元,然后以 与成比例的概率有放回地抽取n-1个单元(设所有的)。一旦有单元被重复抽中,则放弃所有已经抽到的单元重抽,直到抽中的n个单元都不同为止。这种方法的 也比较复杂,需要通过计算机计算。,89,五、n2的两种非严格的PS抽样 当n2时,严格的PS抽样比较复杂,特别是在对包含概率 的计算上。为此统计学家研究了一些非严格的PS抽样方法。(1)莫蒂(Murthy)方法(2)拉奥(Rao)哈特利(Hartley)科克伦(Cochran)方法,本章内容讲授结束,91,5.4 不放回不等概抽样,一、包含概率与PS抽样 放回不等概抽样实施简单,数据处理也不复杂,在不等概抽样中占有一定的地位。但是由于放回抽样有可能重复抽到同一单元,特别是个别大单元被重复抽到的可能性比较大,这就在一定程度上影响了样本的代表性,降低了抽样效率,也不易被实际工作者所接受。即使在相同样本量下,放回抽样的精度比不放回抽样的差。因此,我们仍有必要研究不放回不等概抽样。事实上,由于不放回抽样的样本不是独立的,因此无论是实施还是数据处理,特别是方差估计,都要比放回的多项抽样复杂得多。,92,在放回的不等概抽样中,每个单元的入样概率起着关键作用。在不放回抽样中,每个单元被包含到样本的概率也即入样概率及任意两个单元都包含到样本的概率都起着十分重要的作用,它们通称为包含概率。,对于固定的n包含概率满足以下性质:(1)(2)(3),其中性质1是显然的。性质2是对每个已在样本中的单元而言的,固定了这个特定单元,总体中其它N-1个单元在样本中只可能有n-1个单元,因此其中最后一个等式利用了性质1。性质3则直接利用性质2:,