四章节抽样估计.ppt
1,第四章 抽样估计,抽样方案的设计简单随机抽样的抽样误差测定简单随机抽样的抽样估计其它抽样组织方式的抽样误差EXCEL区间估计,2,抽样估计是利用抽样调查所获得的样本信息,根据概率论所揭示的随机变量的一般规律性,对总体的某些数量特征进行估计。是推断统计学的一个重要组成部分。本章内容也是后面的假设检验、相关回归分析的重要基础。注:本章所讲的抽样指随机抽样(概率抽样),本章在统计学中的地位,3,一、抽样估计的意义和一般步骤(一)抽样估计的意义抽样估计首先要获取样本数据,在调查阶段称之为抽样调查。与全面调查比较,它省时省力且调查内容可以更深入细致;与非全面调查比较,它主要具有三个特点。抽样调查的应用范围十分广泛常常在不可能、不必要、来不及进行全面调查或为了补充和验证全面调查结果时采用抽样调查。,抽样方案的设计,4,(二)抽样估计的一般步骤1、设计抽样方案2、随机抽取样本(从总体随机抽取部分单位构成样本)3、搜集样本资料(对样本单位进行调查登记)4、整理样本资料(审查、分组汇总、计算样本指标的数值,即计算估计量的具体数值)5、估计总体指标(即估计总体参数),总体参数与样本估计量的关系对于特定的目的,总体是惟一的,所以参数也是惟一的;而由于样本是随机的,所以样本估计量是随机变量。,5,6,二、抽样方案,(一)抽样方案设计的基本准则 1、随机原则 2、抽样误差最小 3、费用最少,7,(二)抽样方案设计的主要内容 除了一般调查方案的内容外,主要还包括:编制抽样框确定抽样方法确定抽样组织方式确定抽样数目,8,什么是抽样框?包括全部抽样单位的框架。抽样框的意义实施抽样的基础,影响抽样的随机性和抽样效果。抽样框的主要形式(1)名单抽样框(2)区域抽样框(3)时间表抽样框 抽样框的要求 一个理想的抽样框应该与目标总体一致,即应包括全部总体单位,既不重复也不遗漏;尽可能利用与所研究变量相关的辅助变量的信息。,1、编制抽样框,9,2、确定抽样方法重复抽样和不重复抽样,重复抽样,也叫回置抽样,是指从总体的个单位中抽取一个容量为n的样本,每次抽出一个单位后,再将其放回总体中参加下一次抽取,这样连续抽n次即得到一个样本。同一总体单位有可能被重复抽中;每次都是从个总体单位中抽取;次抽取就是次相互独立的随机试验。不重复抽样,也叫不回置抽样,是指抽中单位不再放回总体中,下一个样本单位只能从余下的总体单位中抽取。同一总体单位不可能被重复抽中.每次抽取是在不同数目的总体单位中进行的 次抽取可看作是次互不独立的随机试验。,10,基本的抽样组织方式有四种:简单随机抽样(纯随机抽样)分层抽样(类型抽样)等距抽样(机械抽样、系统抽样)整群抽样(集团抽样)(参见第四节),3、确定抽样组织方式,11,大样本 n=30 小样本 n30 对经济现象抽样调查常采用大样本。抽样数目往往根据误差要求来确定,其计算见第三节。,4、确定抽样数目,12,第二节 简单随机抽样的抽样误差测定,一、抽样误差的概念 统计调查中的误差种类:登记性误差,可能存在于任何统计调查中代表性误差,存在于非全面统计调查中系统误差,存在于非随机抽样调查中 随机误差,存在于抽样调查中,13,抽样误差是指由于抽样的随机性而产生的样本指标与总体指标之间的代表性误差。在抽样调查中登记性误差和系统误差可以避免,而抽样误差则是不可以避免的,但可以事先估计并加以控制。在计算抽样误差时常常假设不存在登记性误差和系统误差。由于总体参数未知,对每一个具体样本,其实际抽样误差是无法计算的。只能从所有可能样本的角度,根据样本估计量的抽样分布来计算其抽样的平均误差程度。,一、抽样误差的概念,14,例(抽样与抽样误差),设一个总体,含有4个个体,即总体单位数N=4。这4 个个体分别为X1=22、X2=24、X3=26、X4=28。可计算出该总体的均值为25、方差为5。,现从该总体中抽取n2的简单随机样本,在重复抽样条件下,共可能抽取42=16个样本。所有样本的结果见表4-2。,15,几个直观的结论,1.样本均值的均值(数学期望)等于总体均值(式中:M为样本数目);,2.抽样误差是随样本不同而不同的随机变量。抽样误差均值等于0;3.样本均值的方差等于总体方差的1/n。,16,样本估计量是随机变量,其概率分布称为抽样分布。是一种理论概率分布。样本估计量的抽样分布主要取决于:总体的分布;样本容量;估计量的构造(公式);抽样方法和组织形式。,抽样分布,17,将所有可能样本的均值整理,即可得到该例中样本均值的抽样分布。,0,样本均值的抽样分布,18,样本均值的抽样分布定理,当总体服从正态分布N(,2)时,来自该总体的所有容量为n的样本的均值 也服从正态分布,的数学期望为,方差为2/n。即:N(,2/n)。中心极限定理:设从均值为,方差为2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似 服从均值为、方差为2/n的正态分布。,19,二、抽样平均误差,(一)抽样平均误差的定义 抽样平均误差指样本估计量的标准差。均值的抽样平均误差常常记为比率的抽样平均误差常常记为它反映所有可能样本估计值与中心(相应总体参数)的平均差异程度,衡量样本对总体的代表性大小。抽样平均误差的平方称为“抽样方差”。,20,重复抽样下:不重复抽样下:,(二)抽样平均误差的计算公式,21,(1)总体方差(或总体标准差)。其它条件不变的条件下,总体单位的差异程度大,抽样平均误差大。(2)抽样数目。其它条件不变的条件下,抽样数目多,抽样平均误差小(3)抽样方法。相同条件下,重复抽样的抽样平均误差大比不重复抽样的抽样平均误差大。(4)抽样组织方式。由于不同抽样组织方式有不同的抽样误差,所以,在误差要求相同的情况下,不同抽样组织方式所必需的抽样数目也不同。,(三)影响抽样平均误差的因素,22,不知道总体方差时如何计算 用样本方差代替计算 用过去(总体或样本)方差代替计算 用同类现象(当前 或过去、总体或样本)方 代替计算 有若干个方差可选择时,选方差最大者(注意:对比率,即选择最接近0.5的值所得的方差最大),23,三 抽样极限误差,(一)抽样极限误差的概念 抽样极限误差是指一定概率下抽样误差的可能范围,也称为允许误差。用表示抽样极限误差,则这一概念可以表述为如下不等式:,24,与抽样极限误差相关的两个概念:抽样误差率(抽样极限误差估计量)抽样估计精度100%抽样误差率 抽样估计时,我们总是希望估计的误差尽可能小(即估计精度尽可能高)并且估计的置信度也尽可能大。但事实上这两者往往是相矛盾的。在其它条件不变的情况下,提高估计的置信度,会增大允许误差(使估计精度降低);缩小允许误差(提高估计的精度),则会降低估计的置信度。,25,(二)大样条件下的抽样极限误差,根据样本均值的抽样分布定理,,所以,有:给定估计的概率(1-),查标准正态分布表得对应的临界点Z/2后,抽样极限误差的计算公式为:,同理,可得比率的抽样极限误差公式为:,26,(三)小样条件下的抽样极限误差,根据样本均值的抽样分布定理:小样本下,若总体方差已知,且总体服从正态分布,则:,所以,有:给定估计的概率(1-),查 t 分布表得对应的临界点 t/2(n-1)后,抽样极限误差的计算公式为:,27,第三节 简单随机抽样的抽样估计,一、点估计的概念 是直接以样本指标来估计总体指标,又称定值估计。假设在X总体中,为未知参数(均值、方差、成数等)。由样本(x1、x2xn)构造统计量 来估计未知参数,称 为 的点估计量。将某次抽样的样本观测值,代入即得该估计量的一个点估计值。,28,(二)估计量的评价标准 1、无偏性抽样分布的均值等于总体均值 2、有效性估计量的方差应该比较小 3、一致性随着样本容量增大,估计量会越来越接近被估计的参数。,29,(三)常用的 优良点估计量 1、样本平均数及成数是总体平均数与成数的无偏、有效、一致的估计量。2、样本修正的方差是总体方差的无偏估计量。3、大样本条件下,样本方差是总体方差的渐进无偏估计量。,30,二、区间估计,(一)区间估计的原理 区间估计就是根据样本估计量以一定可靠程度推断总体参数所在的区间范围。特点:考虑了估计量的分布,所以它能给出估计精度,也能说明估计结果的把握程度(置信度)。,31,(一)总体均值的置信区间,(1)假定条件总体服从正态分布,且总体方差()已知如果总体分布未知,可以由正态分布来近似(n 30)(2)使用正态分布统计量,(3)在1-置信度下,总体均值的置信区间为:,32,例3、某企业生产某种产品的工人有1000人,某日采用不重复抽样从中随机抽取100人调查他们的当日产量,样本人均产量为35件,产量的样本标准差为4.5件,试以95.45%的置信度估计平均产量的抽样极限误差。350.86 350.86,33,2、总体均值的置信区间(未知),1.假定条件总体方差()未知总体必须服从正态分布2.使用 t 分布统计量,3.总体均值在1-置信度下的置信区间为:,34,例:从一个正态总体中抽取一个随机样本,n=25,其均值为 40,修正的标准差为 6。试求总体均值的置信度为95%的置信区间。,解:已知N(,2),x=50,s*=6,n=25,1-=0.95,t/2(24)=2.0639。,我们可以95的概率保证总体均值在37.52342.477之间,35,例4、某商场从一批袋装食品中随机抽取10袋,测得每袋重量(单位:克)分别为789、780、794、762、802、813、770、785、810、806,要求以95的把握程度,估计这批食品的平均每袋重量的区间范围及其允许误差。,36,小结:1.当总体方差已知时,总体均值的置信区间为:,2.当总体方差未知时,总体均值的置信区间为:,总之,总体均值的置信区间可表示为:,37,(二)总体比例的置信区间,1.假定条件大样本:n 大于30,则样本比例的分布可以由正态分布来近似。即使用正态分布统计量:,2.总体比例 的置信区间为:,即:,38,1、大样本条件下总体方差的置信区间 大样本条件下,样本标准差S的分布近似于均值为,抽样平均误差为 的正态分布,即:所以总体标准差 的 的置信区间为:,(三)正态总体方差的区间估计,39,2、小样本下,设总体服从正态分布N(,2),则与样本方差 S 2有关的统计量及其分布为:,将2(n 1)称为自由度为(n-1)的卡方分布。,40,2、小样本条件下总体方差的置信区间为:,对于给定的置信度,查 分布表得临界值 和,的置信度为 的置信区间:,41,例5、随机从某车间加工的同类零件中抽取16件,测得其的平均长度为12.8厘米,方差为0.0023。假定零件的长度服从正态分布,求方差及标准差的置信区间(置信度为95)。,42,已知:16,0.0023,1-0.95,查 分布表得:,代入数据,可得所求方差的置信区间为(0.0013,0.0059),标准差的置信区间(0.036,0.077),43,置信区间一览表,总体分布知,正态总体方差未知(大样本),44,正态总体小样本,估计总体成数,估计总体方差,大样本,45,三、样本容量的确定,(一)确定样本容量的意义必要抽样数目的定义为使抽样误差在一定置信度下不超过允许范围所必须的抽样数目。(二)样本容量的确定必要抽样数目的计算公式一般由抽样极限误差(即允许误差)的计算公式推导而得。(三)必要抽样数目的影响因素,46,设样本均值与总体均值之间的允许误差为,已知总体方差时,在 的置信度下,估计总体均值时的样本容量为:重复抽样下:不重复抽样下:,1、估计总体均值的样本容量,47,2、估计总体成数时的样本容量设 为估计总体成数的允许误差,在 的置信度下,样本容量 n 为:重复抽样下:不重复抽样下:,48,例五、某食品厂要检验本月生产的10,000袋某产品的重量,根据上月资料,这种产品每袋重量的标准差为25克。要求在95.45的概率保证程度下,平均每袋重量的误差范围不超过5克,应抽查多少袋产品?解:已知:10,000,25克,克,95.45即 2,,49,在重复抽样条件下:,袋,在不重复抽样条件下:,=99袋,50,练习:某企业对一批产品进行质量检验,这批产品的总数为5,000件,过去几次同类调查所得的产品合格率为93、95和96,为了使合格率的允许误差不超过3,在99.73的概率下应抽查多少件产品?,51,1、总体的变异程度高低(总体方差的大小)其它条件不变的条件下,总体单位的差异程度大,则应多抽,反之可少抽一些。怎样估计总体方差呢?通常是用以前同类调查的资料代替,或用同类地区的资料代替,若有多个方差数值供参考时,应选其中最大的方差。,(三)影响样本容量的因素,52,2、允许误差范围 允许误差增大,意味着推断的精度要求降低,在其他条件不变的情况下,必要的抽样数目可减少。反之,缩小允许误差,就要增加必要的抽样数目。,53,3、置信度 因置信度与置信区间是同方向变化的,所以在其它条件不变的情况下,要提高推断的置信程度,就必须增加抽样数目。,54,4、抽样方法 相同条件下,采用重复抽样应比不重复抽样多抽一些样本单位。不过,总体单位数很大时,二者差异很小。所以为简便起见,实际中当总体单位数很大时,一般都按重复抽样公式计算必要的抽样数目。,55,5、抽样组织方式 由于不同抽样组织方式有不同的抽样误差,所以,在误差要求相同的情况下,不同抽样组织方式所必需的抽样数目也不同。上述公式是简单随机抽样下确定必要抽样数目的公式。其它抽样组织方式下必要抽样数目的计算也可根据相应的误差公式来推导。,56,第四节 其他抽样组织方式的抽样误差,一、简单随机抽样(纯随机抽样)是直接从总体中按随机的原则抽容量为n的样本,每一个总体单位有相同的可能性被抽中。编号 随机抽取样本单位 抽签法 利用随机数表取数法 电子计算机取数法。特点:在差异较大的总体中,简单随机抽样的样本不一定能保证样本的代表性。,57,概念:首先将总体单位按某一个标志分层;然后在各层按随机抽样的方法分别抽出各层的样本。,特点(分层抽样与简单随机抽样比较):抽样误差较小,样本具有很好的代表性;不仅能够满足推断总体的需要,也能够满足推断各子总体的需要(满足分层次管理需要)。样本容量在各层的分配:通常采用按比例分配法。即:,二、分层抽样(类型抽样),58,等比例分层抽样的误差公式,(一)比例分层抽样的抽样误差测定(二)从抽样误差公式来认识分层抽样的优越性与简单随机抽样相比,二者的抽样误差公式只相差一个因素方差:分层抽样的抽样误差取决于各层方差的平均数,而简单随机抽样的抽样误差取决于总方差。在分组条件下,总方差=各组方差平均数+组间方差所以,总方差总是大于组间方差的,从而分层抽样的抽样误差总是小于简单随机抽样的抽样误差。,59,概念:首先将总体单位按某一标志排队,然后计算抽样间隔距离:而后在第一个抽样距离内确定抽样起点 r,最后依次抽取样本单位(或样本点)构成样本(按固定的间隔和排队顺序)。,三、等距抽样(机械抽样或系统抽样),60,(一)无关标志排队等距抽样,排队标志X:X1到XN由小到大排列,调查标志Y:Y1到YN呈现为无序(随机)排列。故抽样起点可随机确定,完全遵循了随机原则,不会产生系统偏差。抽样误差的计算:通常是按简单随机抽样的抽样误差公式近似计算的。即抽样效果近似简单随机抽样。,61,(二)有关标志排队等距抽样 将总体单位按某一有关标志排队,排队标志X:X1到XN由小到大排列,调查标志Y:Y1到YN也大体上呈现为有序排列。(当X与Y正相关时,Y大体上由小到大排列;反之,Y大体上由大到小排列。),62,1.半距起点等距抽样(中心系统等距抽样)半距起点:在第一个抽样距离中的一半为抽取起点 r。优点:样本代表性高。缺点:限制了抽样的随机性受到限制;只能抽取一个样本。效果:近似于分层抽样的效果。,63,2.对称等距抽样中心系统等距抽样的改进方式 在第一个抽样距离内随机地确定抽样起点r(rk);然后分别以组界(k、2k、(n-)k为对称点两两对称地抽取样本单位(或样本点)。有关争议。,64,概念:首先将总体划分为R群;然后按随机的原则不重复地抽出 r 群,在所抽取的每个群体中进行全面调查。特点:简化了抽样组织工作(扩大了抽样单位,容易编制抽样框等)。缺点:样本单位过于集中,抽样误差大。,抽样平均误差的计算公式:,四、整群抽样(集团抽样),65,例9、R=500 r=30,(元),66,练习:某商场有某种饮料500箱、每箱6瓶,现随机抽取10箱检查每瓶的含菌数,测得这10箱的平均每瓶含菌数分别为:90、80、65、85、75、70、50、70、60、65个。要求推断这批饮料的平均含菌数的区间(置信度为95%)。,67,比较简单随机抽样与整群抽样的抽样误差公式,可见:由于 与 都是抽样比例,所以二者的差别在于前者取决于总方差 和样本单位数,而后者取决于群间方差 和样本群数。当,即当 时,在其它条件相同的情况下,整群抽样的抽样误差必然大于简单随机抽样的抽样误差。,68,多阶段抽样指分两个或两个以上的阶段来完成抽取样本单位的过程。如我国的城市职工家计调查采用三阶段抽样:先抽选调查城市,在从抽中城市中分部门抽选基层单位,最后从抽中的基层单位中抽取调查户。多阶段抽样可根据需要和可能,将几种抽样组织方式结合运用。,实际工作中的多阶段抽样,69,THE END,