抽样调查理论及实践.ppt
抽 样 调 查 理 论 与 实 践,左振华 2005年9月济南,目 录,第一节 抽样调查的概念和作用 第二节 抽样调查的几个基本概念第三节 抽取样本的方式方法第四节 抽样误差 第五节 总体指标的推算 第六节 抽样方案的设计和实施,第一节 抽样调查的概念和作用,抽样调查是获取统计数据的一种重要手段,是统计调查的一种重要组织形式。统计调查按照调查范围可分为有两大类:一是全面调查;二是非全面调查。全面调查是对调查对象的所有总体单位一一进行调查登记的一种调查方法,主要包括普查和统计报表制度。普查 是一种专门组织的全面调查,通常用来搞清重要的国情国力以反映一定时点或时期的社会经济现象总量。统计报表制度。即按照国家有关法规的规定,自上而下的统一布置,自下而上地提供基本统计资料的一种统计调查方法。,中华人民共和国统计法,1996年全国人大常委会在修改统计法时,对调查方法作了这样规定:“统计调查应当以周期性普查为基础,以经常性抽样调查为主体,以必要的统计报表、重点调查、综合分析等为补充,搜集、整理基本统计资料。,非全面调查,非全面调查是从调查对象的全部单位中,选出一少部分单位进行调查,并以部分调查单位的调查结果,来反映、推算、代表和推算总体。非全面调查按选样的方式不同分为重点调查、典型调查和抽样调查三类.重点调查 是在调查对象中选择一部分重点单位所进行的调查。典型调查 从全部调查单位中,有意选出若干典型单位进行调查,并以典型调查的结果代表总体的动态或推断总体的共性。抽样调查抽样 即在全部单位中,按照随即原则,抽取一部分单位进行调查,并且用调查的资料推算全部单位的总体指标。,抽样调查的概念,抽样调查有广义和狭义两种含义。广义的抽样调查是指非全面调查的总称。只要是从研究的对象中抽取部分单位加以调查,用来说明全体,就通称为抽样调查。根据选样的方法可以分为两类,一类是非概率抽样,另一类是概率抽样。非概率抽样并没有严格的定义,我国的典型调查、重点调查都属于非概率抽样,它们的共同特点是由调查的组织者主观上有意识地抽选调查单位。无法估算和控制抽样误差的大小 概率抽样 是随着概率论和数理统计的发展而形成的一种科学的调查方法,在我国的习惯上把概率抽样称作抽样调查。因此狭义的抽样调查是指概率抽样,抽样调查的理论基础,大数定律和中心极限定理是概率论和数理统计中两类重要的定理,抽样调查的原理主要涉及到该两定理.其中大数定律奠定了用样本来估计总体的理论基础,其直观含义是随机事件的规律性总是在大量观察中才能显现出来,随着观察次数的增大,随机影响将相互抵消而使规律性有稳定的性质.中心极限定理则奠定了样本估计量对总体参数进行区间估计的理论基础.因为中心极限定理证明了不论总体服从何种分布,只要方差有限,在观察值足够多时,许多估计量的抽样分布,就趋向正态分布.利用它可以对总体参数作区间估计及确定其相应的置信概率,也即它可以作为抽样结论可靠性的理论依据.,抽样调查的特点,1、调查总体中一部分单位。这是和全面调查的区别。2、用一部分单位指标数值去推断总体的指标数值。这是和重点调查的区别。3、抽选部分单位时要遵守随机原则。这是和典型调查的区别。随机原则 即在抽选具体单位时,不掺杂调查者主观判断,而是使总体中的每个单位都有同等的机会被抽到。就是说,哪个单位被抽选出来是偶然的。4、抽样误差可以计算,并且可以加以控制。,抽样调查的作用,第一,对于无限总体只能进行抽样调查,不可能进行全面调查。如空气质量调查,河流、湖泊水质调查等。第二,有些事物在进行测量、试验时有破坏性,不能进行全面调查。如产品质量检查、人体抽血化验等。第三,可以搜集很难进行全面调查的数据。第四,节约调查费用,提高抽样效率 第五,周期短,时效性强。第六,提高调查数字的质量。抽样调查的弱点:第一,难于满足各级领导和部门的需要;第二,难于提供各种详细分类的统计资料。,抽样调查的发展历史和目前的应用,抽样调查的发展历史。抽样调查作为一种方法是有一个在实践中逐渐应用、发展和完善的过程,其理论也是在发展过程中不断总结和完善起来的。抽样调查目前的应用:人口方面 如我国除了每年一次人口变动的抽样调查以外,在两次普查中间进行一次 1%人口的抽样调查。经济领域抽样调查 如农产量、农村经济、城市住户、物价及小型工商业等抽样调查 社会调查。劳动力抽样调查、妇女的地位调查、老年人状况调查、青少年犯罪情况调查、残疾人调查、群众安全感调查等。,第二节 抽样调查的几个基本概念,全及总体和抽样总体(总体和样本)全及总体 也称总体或母体,是指包括调查对象所有单位的总体。凡是客观存在的,在同一性质基础上结合起来的许多事物的整体,就是统计总体,简称总体。总体单位数用N表示。抽样总体 从全及总体中随机抽选出来的单位所组成的小总体叫做抽样总体,也叫样本总体、子体、或简称样本。样本中的各个单位也叫样本单位。样本单位数用n表示。全及指标和抽样指标(总体指标和样本指标)全及指标 根据全及总体计算的统计指标叫做全及指标,也叫总体指标。抽样指标 根据抽样总体计算的统计指标叫做抽样指标,也叫样本指标。总体指标和样本指标主要有三类:平均指标、成数指标、差异指标。,平均指标 成数指标 差异指标,平均指标 简称平均数,它是代表总体单位一般水平统计指标。如农民人均纯收入、职工平均工资等。成数指标 简称成数,也叫比重指标。如总人口中男性(或女性)所占比重、人口出生率等。差异指标 即标志变动度指标,是说明总体单位之间某个标志变异程度的指标。标志变动度又称离散度或离中度。衡量标志变异程度的指标有:极差、平均差、标准差、离散系数。极差,是指最大值与最小值的差数。平均差是各项标志值对其平均数的平均离差。标准差,也叫均方差,是各项标志值对其平均数的离差平方的算术平均数的平方根。未开方之前叫方差。离散系数,即标准差与平均数之比。,总体指标和样本指标 代表符号,方差与标准差的计算,标准差的计算方法分为简单式和加权式两种形式。,1、简单式。对未分组的资料计算方差时采用此式。计算公式,标准差计算表,标准差计算,计算步骤:第一步,计算总体单位某变量值的平均数(840分10人=84分);第二步,求出个变量值对平均数的离差;第三步,把各项离差加以平方;第四步,计算离差平方的算术平均数(56410=56.4分);第五步,对离差平方的算术平均数进行开方甲7.51(分)同理,乙=8.21(分),标准差计算,离差x-,离差平方(x-,f(x-,离差x-,离差平方(x-,f(x-,加权式标准差的公式是:,第三节 抽取样本的方式方法,一、简单随机抽样(一)简单随机抽样的概念 简单随机抽样又称纯随机抽样,这是一种最基本的抽样方式。它定义为:设有限总体共有 N 个单位,从中抽取容量为 n 个单位的样本,使得每一个可能的样本都有相同的概率被抽中,这种抽样的方法称为简单随机抽样,所抽到的样本称为简单随机样本。有放回抽样是指每一次抽中的单位,仍旧放回总体,重新抽取。无放回抽样是指已被抽中的总体单元不再放回总体,而是在未被抽中的总体单元中进行抽取。(二)简单随机抽样方法抽签、摸球和摇奖。它一般适合于总体单元不太大的情况。利用随机数目表。使用时首先将总体单元从 1至 N 编上号码,然后根据总体单位数目N 的位数在随机数字表上取相应的位数。利用计算机或计算器产生随机数。,二、分类抽样,1、分类抽样的概念 分类抽样 也称分层抽样或类型抽样。这种抽样方法是在抽样之前将总体的 N 个单位划分为互不交叉重叠的若干层(类),然后再从各层中独立地抽取一定数量的总体单位组成样本,由此获得的样本称为分层样本。如果每层中的抽样都是简单随机的,那么这种分层抽样称作分层随机抽样。2、分层抽样的作用 A 当抽样调查不仅需要估计总体的特征,而且还需要估计有关子总体的特征时,通常需要按子总体来分层。B 分层抽样另一个重要作用是为了提高抽样效率,即在一定精确性和可靠性的要求下减少样本量、节约费用,或者在相同样本量的前提下可以提高估计精度 C 分层抽样便于抽样调查的组织管理。,分层抽样的实施,首先,要根据分层的目的确定分层的标志。其次,要实施分层抽样,需要有分层的抽样框。最后,要确定划分多少层的问题。样本单位在各层之间有两种分配方法 等比例分层抽样。即样本单位在各层之间的分配与总体单位在各层之间的分配比例相同。例如,某县有28个乡镇,其中山区8个,丘陵8个,平原12个,分别占28.57%、28.57%和42.86%。现在要抽取7和乡镇进行调查。按照总体分配比例,应当从山区和丘陵中各抽取2个乡镇,从平原中抽取3个乡镇。这种方法简便易行,分配合理,数据处理方便,所以用得较多。不等比例分层抽样。适用于各个层的总体单位数相差悬殊的情况。注意:应用不等比例分层抽样,以后推算总体时需要进行加权处理。,三、机械随机抽样,机械抽样 是将总体单位按照一定的顺序排队,根据总体单位数和样本单位数计算出抽选间隔(抽选距离),然后按照一定的抽选间隔抽选样本单位。由于抽选间隔相等,所以叫做等距抽样。由于对总体单位进行排队时所依据的标志不同,机械抽样有两种方法。有关标志排队法 按照与调查项目的数量多少有关系的标志进行排队。如:农产量中按预计产量由低到高进行排队等。通常认为,第一个样本单位从第一组中间(半距)抽取为好。有关标志排队等距抽样实质上可以看作一种特殊的分层抽样。无关标志排队法 对总体单位进行排队时,采用与调查项目没有关系的标志排队。如:一个学校有3000名学生,抽出120人进行调查,按学生名册排队,从1号排到3000号,抽选间隔为25人(3000/120),先从第一组25人中随即确定第n人,假定抽中第15号,然后每隔25人抽出一个,即抽出第40号、65号,2990号。,四、整群抽样,整群抽样是先将总体分为若干群(或者叫组),然后一群一群地抽,每一群包括若干个样本单位。整群抽样的好处是编制名单和抽选工作比较省事,组织调查比较方便。但一般情况下抽样误差较大。五、分阶段抽样 不直接抽取样本单位,而是逐级抽取。省县乡村调查小区。六、目录抽样 目录抽样是指联合国 1983年世界工业统计方案建议中提出的一种抽样方法,它适用于偏斜分布的总体。如工业企业调查,把工业企业的目录抽样框划分为两部分,一部分是比较大的企业,其单位数目少而起着比较重要的作用,在总量估计中占比较大的份额,这部分企业需要采用全面调查,另一部分是小企业,其单位数目比较多,而每个单位的标志值比较小,这部分可以采用抽样调查,然后把抽样部分加以推断并与全面调查部分合并得到总体总量。,实际工作中的应用,在实际工作中,往往多种抽样方式综合运用。例如,2005年全国1%人口抽样调查,是以全国为总体,以各省、自治区、直辖市为子总体,采取分层、多阶段、整群、概率比例的抽样方法。所谓分层,就是将全省乡级单位按乡、镇、街道办事处分为三类。所谓多阶段,即首先在全省范围内抽取乡级单位,然后在被抽中的乡级单位中抽取村级单位,最后在被抽中村级单位中抽取调查小区。所谓整群,就是最终样本单位为调查小区,被抽中的调查小区内所有住户的人口全面进行调查。所谓概率比例,就是在抽取乡级、村级样本时,以人口数为间隔(组距=层内人口累计数/层内应抽取的单位个数),按人口的比重分配样本。,第四节 抽样误差,抽样误差的概念 一般地讲,抽样误差就是样本指标与总体指标之间数量上的差别。理解抽样误差的概念有两个要点:第一,抽样误差是指由于抽样的随机性而产生的那一部分误差,即随即误差。不包括登记误差,也不包括可能产生的偏差,是指假定没有登记误差时的代表性误差。代表性误差也有两种,一种是偏差,一种是随机误差。偏差是指破坏了抽样的随机原则而产生的误差(是可以避免的)。随机误差,是指遵守了随机原则但可能抽到不同的样本而产生的误差。这种误差是必然产生的,不可避免的,但是可以计算并可以控制的。通常说的抽样误差就是指这种随机误差。第二,随机误差有两种:实际误差和平均误差。实际误差是一套样本某一指标与总体指标之间的差别,是无法知道的误差。抽样平均误差是指所有可能出现的样本指标的标准差,也可以说是所有可能出现的样本指标与总体指标的平均离差。是可以计算的。通常所说的抽样误差就是指抽样平均误差,而不是抽样实际误差。,重复抽样条件下的抽样误差,假设一个包括4个人的全及总体,他们的月工资是:甲40元,乙50元,丙70元,丁80元。他们的平均工资是60元,即x60元。现从四个人中抽取两个人进行调查。重复抽样条件下的抽样误差。可能样本42=16个样本。上表中每套样本与总体指标的差数,都叫抽样实际误差。16套样本平均数的标准差叫做抽样平均误差。,不重复抽样条件下的抽样误差,43=12个样本配合。12个样本平均数的标准差计算如下:可见,不重复抽样比重复抽样抽样误差小,代表性高。,抽样误差的计算,平均指标抽样误差的计算 1、重复抽样的计算公式:,2、不重复抽样的计算公式:,抽样误差计算机公式验证,总体单位N=4,样本单位n=2,总体方差2=10004=250重复抽样的样抽样误差,样抽样误差的因素分析,第一,总体单位之间标志变动程度的影响,即受总体方差或标准差的影响。样抽样误差的大小与总体标准差的大小成正比例关系。第二,受样本单位数目的影响。样抽样误差的大小与样本单位数平方根成反比例关系。第三,受抽样方法不同的影响。不重复抽样的样抽样误差小于复抽样的样抽样误差。此外,样抽样误差的大小还与抽样方式有关系。,成数抽样误差的计算,成数抽样误差的计算类似平均指标抽样误差计算。总体方差=P(1-P)成数方差的最大值是0.50.5=0.25重复抽样的计算公式:不重复抽样的计算公式:,一、平均指标抽样误差计算公式:1、重复抽样:2、不重复抽样(等比例),分层抽样误差的计算,二、成数指标抽样误差计算公式:1、重复抽样:2、不重复抽样(等比例),整群抽样误差计算,整群抽样的抽样误差受三个因素的影响:第一,抽出的群数多少。抽出的群数越多,则抽样误差越小 第二,群间方差。(整群抽样的抽样误差与群内方差无关)。第三,抽样方法。整群抽样都采用不重复抽样方法。,第五节 总体指标的推算,两种估计方法:点估计 区间估计 区间估计的要点(一)根据样本指标和抽样误差计算总体指标所在的范围(区间)。样本指标抽样误差总体指标样本指标+抽样误差(二)区间估计所表示的是一个可能的范围,而不是一个可靠的范围,只有一定的把握程度(概率)(三)扩大抽样误差的范围可以提高推断的把握程度,缩小抽样误差的范围可以降低推断的把握程度。扩大或缩小的抽样误差范围的倍数叫做概率度,代表符号为t。扩大或缩小后抽样误差范围叫做允许误差,也叫极限抽样误差、容许误差、最大可能误差。允许误差=概率度抽样误差=t,区间估计的方法 样本指标允许误差总体指标样本指标+允许误差或:总体指标样本指标允许误差 例如,58公斤2公斤总体指标58公斤+2公斤。就是说,全体大学生的平均体重在56公斤到60公斤之间,作这种判断的把握程程度(概率)为95.45%。根据2005年全国1%人口抽样调查方案的要求,全国出生率的相对误差控制在0.6%左右,握程度为95%(t=1.96).果将来全国抽样调查的人口出生率为12,允许误差是0.72(120.06),则可以推断:2005年全国人口出生率有95%的可能性在11.28到12.72。之间。,第六节 抽样方案的设计和实施 一、必要抽样数目的确定 抽样数目必须考虑的几个因素:第一,总体中各单位之间的标志变异程度,即方差的大小。方差大,需要多抽;方差小,则需要少抽。第二,允许误差。规定的允许误差大,可以少抽样本;反之,就需要多抽。允许误差要适中。第三,把握程度。把握程度要高,则要多抽;反之,则要少抽。一般情况下,把握程度规定95%左右,即概率度(t)为1.96或2。第四,抽样方式和方法。第五,经费筹集情况。,(二)必要抽样数目的计算 1、重复抽样的计算公式:(1)平均指标的必要抽样数目 n=t22 2(t为概率度,2为总体方差,为允许误差。)(2)成数指标的必要抽样数目 n=t2P(1P)2P P(1P)为成数方差 2、不重复抽样的计算公式:(1)平均指标的必要抽样数目 n=t22N N2t22(2)成数指标的必要抽样数目 n=t2P(1P)N N2P t2P(1P),平均指标的必要抽样数目计算举例 某市要进行职工家庭月收入抽样调查,已知职工家庭每人每月收入的标准差()为95元,要求允许误差为10元,把握程度为95.45%,问需要抽选多少户进行调查?n=t22 2=22952 102=361 就是说,按规定要求,需要抽查361户。成数指标的必要抽样数目计算举例:某市要进行群众安全感调查,根据过去有关资料得知,全市群众安全感满意率为85%左右,现在要求允许误差不超过2%,要求判断的把握程度为95%,问需要抽查多少人?n=t2P(1P)2P=1.9620.85(10.85)0.022=1224.5 就是说,需要抽查1225人。,特 别 说 明 多目标抽样。当费用和时间都允许时,应对各个项目分别计算所需的样本量,然后选择其中最大的。当经费和时间有限,而样本之间相差又比较大时,对那些需要样本量特别大而又不太重要的项目,在设计中要加以排除,或者适当降低精度要求,然后选择其余项目中较大的,或者根据调查的主要项目来确定样本量 n.多级总体抽样。可根据子总体的抽样框,分别确定样本容量。对稀有元素的抽样,谢 谢 大 家 再见,