03第三章简单随机抽样.ppt
第三章 简单随机抽样,第一节 简单随机抽样概述,一、简单随机抽样的概念定义之一:简单随机抽样就是从总体N个抽样单元中,一次抽取n个单元时,使全部可能的 种不同的样本被抽到的概率均相等,即都等于1/A。定义之二:简单随机抽样是从总体的N个抽样单元中,每次抽取一个单元时,使每一个单元都有相等的概率被抽中,连续抽n次,以抽中的n个单元组成简单随机样本。按简单随机抽样,抽到的样本称为简单随机样本。简单随机抽样是一种最简单、最基本的抽样组织形式。它适用于均匀总体,即具有某种特征的总体单位均匀地分布于总体的各个部分。简单随机抽样具有下列优点:,首先,在理论上最符合随机原则。对此可有二种理解:一种是总体中各个单位被抽中的机会相等。设总体有N个单位,各单位被抽中的概率均为。另一种是总体中各个样本被抽中的概率相等。我们知道,一个总体N中可以抽取许多个容量为 的样本,通常情况下按组合形式有 个样本,那么,在一次抽样中,某个样本被抽中的概率为,这个概率对每个可能的样本都相等。简单随机抽样遵循这种等可能性原则,为进行抽样估计,计算抽样误差,提供了重要前提条件。,其次,它是设计其他更复杂抽样形式的基础。例如,设计分层抽样,将总体划分为若干层,然后对各个层实施简单随机抽样。对一个非常大的总体,需要分若干个阶段进行抽样。例如,进行全国性抽样调查,第一阶段可以由全国抽取若干个省份,第二阶段再由抽中的省份抽取若干个县(市);第三阶段再由抽中的县(市)抽取若干个乡(街道);第四阶段再由抽中的乡(街道)抽取若干个村(居委会)等等。在这种多阶段抽样中,每个阶段中抽取样本单位均可采用简单随机抽样方法。,再次,是衡量其他抽样效果的比较标准。抽样效果首先体现在抽样误差的大小上。而反映或者比较某一抽样形式的误差大小,需要有一个比较指标,这通常采用抽样设计效果指标,这个抽样设计效果是以某一抽样形式的方差与简单随机抽样的方差进行对比,设前者为,后者为,那么,抽样设计效果为:这个设计效果 取反指标的形式。若 值大于等于1,即,则抽样估计效果较差;反之,小于l,即,则抽样估计效果较好。,例如,用分层抽样从某企业抽100个职工户,调查每户平均收入,得到抽样方差=25,以相同的单位数用简单随机抽样形式,得到抽样方差=49,则抽样设计效果为:=2549=0.51 这表明在同样抽取100户条件下,用分层抽样优于简单随机抽样。并且,可以利用抽样设计效果 计算有效单位数:式中,为某一抽样形式的样本单位数,表示在相同的抽样方差下,采用简单随机抽样形式所需要的样本单位数。在上面的例子中,=100户,=0.51,所以,=1000.51=196,二、简单随机抽样的具体实施方法(一)抽签法抽签法是先对总体N个抽样单元分别编上1到N的号码,再制作与之相对应的N个号签并充分摇匀后,从中随机地抽取n个号签(可以是一次抽取n个号签,也可以一次抽一个号签,连续抽n次),与抽中号签号码相同的n个单元即为抽中的单元,由其组成简单随机样本。(二)随机数法随机数法就是利用随机数表、随机数骰子或计算机产生的随机数进行抽样。,1、随机数表及其使用方法随机数表是由0到9的10个阿拉伯数字进行随机排列组成的表。所谓随机排列,即每个数字都是按等概和重复独立抽取的方式排定的。随机数表的用途很多,不仅可以组织等概样本,也可组织不等概样本。简单随机抽样属等概率抽样,在使用随机数表时,要注意以下几点:每次使用时,确定使用哪页及哪行哪列的数字为起点,必须是随机的。设总体容量为N,若N的位数为r,则一定要从r位数中抽取。遇到1至N的数可直接使用;遇到其它的数不能直接使用。,当r2时,可从含有起点数字左边的r位数开始,也可从右边的r位数开始。可从起点开始向下抽取,也可向右抽取。但一经确定使用哪一种方式,就必须用一种方式抽取全部单元号,中途不能变更。在重复抽样时,遇到重复的数字应重复使用;在不重复抽样时,遇到重复的数字应舍去不用。随机数表法一般分下述几步:第一步:确定起点页码;第二步:确定起点的行数与列数;第三步:确定所抽样本单元的号码。快速抽取的常用方法有:余数法。如果N是个r位数,由1到 随机取一个数R,而 是N的最大r位整倍数,则编号等于R除N所得余数的单元便被选中。商数法;修正余数法;修正商数法;独立选择数位法。,2、随机数骰子及其使用方法随机数骰子是由均匀材料制成的正二十面体(通常的骰子是正六面体,即正方体),面上刻有09的数字各2个。两个有名的试验试验一:随意数试验。让六个人写下100个自己随意想到的三位数,将这些数内的0、1、9数字列成次数分布表。可见,六个人都对数字存在偏好,如第一个人更加偏好数字4、3、0;第二个人则偏好数字1、8、4;等等。这种由于数字偏好所引起的偏估类型可称之为数字偏误。,试验二:着色试验。让四个人将1010方格的纸板着色,可供选择的颜色有蓝、绿、红、白和黄色五种,对每一个四分象限来说,规定每种颜色只能在每行和每列出现一次。每个方格以其所在的列号与行号表示,如(4,6)代表第四列第六行的方格。请四个人对这100个方格随意选择行列号,而对其着色。将这些由这四个人着色所得到的资料形成次数分布表如下:四个人对方格着色的次数分布,可见四个人都对颜色存在偏好,如第一个人偏爱绿色,第二个人偏爱蓝色等。这种由于对颜色偏好所引起的偏估类型,可称之为颜色偏误。结论:随意抽样随机抽样,三、简单随机抽样的方法评估1.简单随机抽样对总体不加任何限制,等概率地从总体中直接抽取样本,是最简单、最单纯的抽样技术,它具有计算简便的优点,是研究其它复杂抽样技术的基础,也是比较各种抽样技术之间估计效率的标准,同时,从理论上讲简单随机抽样在各种抽样技术中是贯彻随机原则最好的一种,并且数学性质很简单,是等概率抽样的特殊类型。2.因为是等概率抽取样本,所以要求总体在所研究的主要标志上同质性或齐性(共性)较好,也即总体要比较均匀;要求样本容量要比较大,以保证样本对总体具有充分的代表性。但是,在社会经济现象中,这种均匀总体是很少见的。因此,实际工作中很少单纯使用简单随机抽样方法。,3.直接从总体中抽取样本,未能充分利用关于总体的各种其它已知信息,以有效地提高样本的代表性,并进而提高抽样的估计效率。4.简单随机抽样要求在抽样前编制出抽样框,并对每一个总体抽样单元进行编号,而且当总体抽样单元的分布比较分散时,样本也可能会比较分散,这些都会给简单随机抽样方法的运用造成许多的不便,甚至在某些情况下干脆无法使用。结论:在此基础上研究其它抽样技术显得更加重要。,第二节 总体参数的估计,一、基本原理设总体包含有、四个单元,其观测值分别为、,则总体均值为(+)/4。现用简单随机抽样法抽一个单元并以其观测值来估计总体均值,则这四个单元每个都是可能的样本,而每个可能样本被抽中的概率均为四分之一。每个样本观测值本身就可以当作总体均值的一个估计值。显然,根据不同样本估计的结果与总体均值之间通常并不一致,而是存在一个的误差。下表列出了抽到不同样本时的结果:,-,Y1-,Y2-,Y3-,Y4-,由上述分析可知所以,是 的无偏估计量。的均方误差(MSE)为即总体方差。又因为 是 的无偏估计量,因此,估计量的方差等于均方误差,即 若用不放回简单随机抽样法从上例的总体中抽取2个单元组成样本,则可以得到 等六个可能样本,每个样本被抽中的概率均为六分之一,当抽到不同的样本时,会有不同的估计结果,如表所示:,可见,样本均值 是 的一个无偏估计量,因为,而每个单元均可能在三个样本内出现,故,由四个单元中不放回抽取2个单元的可能结果,将上述结论加以推广,则可得出一般性的结论,即从总体的N个单元中不放回抽取n个单元时的估计量及其方差的构造形式。,因此,的样本方差为,又已知(i=1,2,3,4)在三个样本内出现,而,则,二、估计量1、总体均值和总和的简单估计量在简单随机抽样条件下,总体均值的简单估计量为:可以证明,样本均值是总体均值的无偏估计,即:因此总体总和的简单估计量为:其中N/n也称作膨胀因子。,2、总体比例的简单估计量抽样调查中,经常需估计总体中具有某种特性的单元总数及其在总体中所占的比例(即成数)。设总体中的N个抽样单元按其是否具有某种特性可分成D和 两类,D类具有某种特性,类不具有某种特性。D类有 个单元,类有 个单元,则:又令,则=P,=p,Y=,y=.由此则将估计 和P的问题转化为估计Y和,所以依上面的结论可知总体比例的简单估计量为:且总体中具有D类属性的单位总数的估计量为:,证明:样本平均数是总体平均数的无偏估计量,证明1:根据无偏性定义。(无偏性即抽样指标的数学期望等于总体参数。换句话说,虽然每一次抽样指标与总体参数有一定偏差,但对于总体中所有可能的样本指标,要求其平均数等于总体参数,这就是用样本指标估计总体参数的无偏性要求。无偏性的数学表达式为:对于每次抽样,由于总体中的任意一个单位 都有1/N的概率被抽中,故对每次抽样的结果(视为随机变量),都有:,证明2:对固定的有限总体,估计量的期望或均值的含义既是对所有可能的样本求平均,因而,这里求和是指全部可能的 个不同样本求和。每个特定的单位,出现在不同样本中的次数都为,因此,,证明3:按对称性原则。由于每个总体单位在样本中出现的次数均相等,因此,必定是 的倍数,这个倍数是,故:,三、估计量的方差在抽样推断中,有时往往只计算出估计量的值,而不大注意估计量的误差(方差或标准差)。但是,总体均值的估计量通常与总体均值的真值间不完全一致,即存在误差,而且所有可能的样本均值相对于总体均值的误差大小也是不一致的。联合国统计局编的抽样调查理论基础一书指出:“从研究大多数国家的抽样实践中,可以看出:虽然计算估计量的标准差,至少对关键性的几个估计量计算其标准差来说,仅需增加很少的额外开支或负担,但是他们并不意识到确定估计量的标准差的重要意义。这是否因为统计人员无意识地忽视了估计量的不精确性所产生的严峻的现实呢?计算标准差,并且把他们与估计量一起列出来,应该成为实际工作的一个常规。”,总体均值估计量的抽样方差为:其中,f为抽样比,1-f为有限总体不重复抽样校正系数,记为fpc。由此进一步可推出又因为在研究总体成数时:,所以可得出总体比例估计量的抽样方差为:总体中具有某种属性单元总数估计量的抽样方差为:四、方差估计量可以证明样本方差为总体方差的无偏估计量,即,所以,当总体方差 未知时,可用样本方差 来代替,由此可得出估计量的方差的估计量分别为:而且 与 分别是 与 的无偏估计。,的无偏估计量为:的无偏估计量为:,证明:对于简单随机抽样,的方差为,证明1:由于 根据对称性原则:则,证明2:样本均值的方差为:设:,在不抽样下,样本就是总体本身。此时,不论样本单位如何,总有:由此可得:即:,运用对称性原理:由此有:在重复抽样下,对于任何 和,和 都互相独立,从而:因此:,证明:样本方差为总体方差的无偏估计量,证明:将样本方差改写为由对称性知:而:因此:,第三节 样本容量的确定,一、必要样本容量的确定必要样本容量是在最大限度地满足规定精度要求以及尽可能节约调查费用的前提下,所应该抽取到的最少的样本容量。(一)依规定精度来定1、关于精度的不同提法提法之一:以置信度1-,允许总体参数的估计量 的最大绝对误差为,即:提法之二:以置信度1-,允许总体参数的估计量 的最大相对误差为r,即:,提法之三:以置信度1-,允许总体参数的估计量 的最大方差不超过V,即:提法之四:以置信度1-,允许总体参数的估计量 的最大变异系数不超过C,即:2、样本容量n的确定当n足够大时,可以认为服从正态分布N(,V()(理由如前述样本统计量的抽样分布)。因此,由上述四种对估计量精确度的不同提法,可以分别得到下列方程式:,因为V()是n的函数,求解以上四个方程,即可确定n。(二)依调查费用来定设C表示抽样调查工作的总费用,可大致分为两个构成部分:一部分为固定费用,用 表示,不管调查单位数的多少,这部分费用都要花费,主要包括组织领导、宣传、设计等费用。一部分为可变费用,用 表示,它是每调查一个单位平均要花的费用,其费用的大小随调查单元数的多少变动,如调查表的印刷、调查的差旅费等。这样:=+n在上述公式中,当某项抽样调查工作所能得到的总费用一定,且 和 依其他有关资料也大致可以确定时,就可推算出必要的抽样单元数目:,(三)在精度和费用间谋求平衡一般情况下,若依精度要求确定的n,同依费用限制确定的n相比较,若前者小于后者,则以前者为准,而节省费用。若前者大于后者,则在费用不能再增加,以及精度要求不能再放宽时,只能暂时放弃该调查;在费用不能再增加,而精度要求能做适当让步时,则调整精度要求。(四)多指标时(多目标时)样本容量的确定二、总体方差的确定运用精度要求来确定样本容量时,必须事先知道总体的方差。确定总体方差的方法一般有以下几种:其一,两步抽样法其二,对于一次性的调查,采取在正式调查前进行试点调查,根据试点调查的结果估计 或P。其三,对于经常性调查项目,可以利用以前调查的结果,也可对以前调查的结果作适当调整。其四,根据总体的结构,应用数学方法预测总体方差 或P。其五,估计比例时,如果能借助某些基本信息或方法,或经验等,估计总体比例大约在0.3-0.7之间,则也可以直接取成数方差的最大值0.25来确定样本量,这通常是一种比较“安全”的选择。,