《《抽样统计》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《抽样统计》PPT课件.ppt(41页珍藏版)》请在三一办公上搜索。
1、5/29/2023,第七章 抽样统计,本章主要阐述参数估计的基本概念,抽样分布,抽样的组织方式和抽样设计的基本问题。其中抽样组织方式有简单随机抽样,类型抽样,等距抽样,整群抽样,目录抽样,二重抽样和多阶段抽样,7.1 抽样统计基本概念,抽样统计又叫参数估计,是根据统计研究的任务和要求,从被研究总体中抽出部分单位进行调查,然后根据这一部分单位所求得的样本指标推断总体指标的统计方法.一.总体与样本 抽样推断中的总体又称全及总体,即统计总体,是被研究现象的全体,是具有大量性,同质性和差异性的许多个别事物的集合体.总体单位数记N,5/29/2023,样本是根据随机原则从总体中抽出来的进行调查的那一部分
2、总体单位所组成的集合体.样本中包含的单位个数记作n,又称样本容量,n/N称为抽样比例.二.参数和统计量 参数是总体数量特征,亦即总体指标.总体的某个参数在抽样时往往是未知的,是需要进行推断的.统计量是样本的数量特征,亦即样本指标.统计量是随着样本不同而不同,因而是个随机变量.从总体中抽出的所有可能的样本的统计量及其相应的概率构成的分布,称为抽样分布.统计量通常有样本均值,样本方差,样本标准差,样本比例p等,5/29/2023,三.重复抽样与不重复抽样 从N个总体单位中抽取n个组成样本,有重复抽样与不重复抽样两种抽取方法.重复抽样是:每抽出一个个体进行调查登记后,放回去,再抽下一个,直到抽取登记
3、n个为止.采用这种抽样方法时,每次每个单位被抽出的机会都是1/N.不重复抽样的方法是:每次抽出一个单位进行调查登记后,不再放回去,因此凡是前面已经抽到过的单位,以后不会再被抽到.故两种方式下可能抽到的样本个数M为(1)在重复抽样方法下:M=N n,(2)在不重复抽样方法下:,5/29/2023,四.抽样误差与抽样标准误差 统计中误差有两类,一是登记性误差,即在点数,测量,登记,计算,抄录等过程中产生的误差,二是代表性误差,即用非全面资料推算或代替总体指标时产生的误差.代表性误差又分为系统性与偶然性两种,系统性误差是指没有遵守随机原则而有意选取变量值较大或较小单位组成样本造成的误差,这是应当避免
4、的.偶然性误差是遵守了随机原则仍会产生的不可避免的误差.抽样标准误差是指所有可能的样本平均数 对总体平均数的标准差,抽样标准误差的平方称为抽样方差.,上式中因为总体均值一般未知,需推断的,故不用此实际计算,只作一些理论解释.,5/29/2023,影响抽样误差大小的因素有:一是样本容量n,其越大,误差就越小;二是总体标准差,其越大,说明总体中各数据差异越大,使抽样误差就大;三是抽样方法有关,一般重复抽样比不重复抽样的误差小些;四是与抽样方式有关.,Th:设总体的均值(期望)为,方差为2,x1,x2,xn为样本,为样本均值(1)若总体分布为,则 精确分布为(2)若总体分布未知或不是正态分布,则n较
5、大时,渐近分布为(3)在不重复抽样时,7.2 抽样分布,5/29/2023,7.4 简单随机抽样,一.简单随机抽样方法 简单随机抽样又称纯随机抽样,是一种最基本的抽样方式,是指从总体的全部单位中按随机原则直接抽取n个单位组成样本进行调查.具体做法有以下三种:(1)信手抽取法.即从研究总体中随手抽取所需的调查单位.(2)抽签法.即先把总体各单位全部编号,然后制成签条或卡片,将其混合均匀后从中抽取,抽满预定的样本容量为止.(3)随机数表法.即将十个数字完全按随机原则编成的表,用这些数字组成的多位数.使用时,也应将全部总体单位编号,抽取的号码就决定抽取的个体.,5/29/2023,二.简单随机抽样标
6、准误差,(重复抽样),(不重复抽样),三 简单随机抽样的必要抽样数目 简单随机抽样的必要抽样数目就是指适当的样本容量n,一般来说,确定样本容量应考虑以下几个因素。(1)总体方差,总体方差越大,要求n越多.(2)极限误差.(3)概率度Z.(4)抽样方法.,5/29/2023,(重复抽样),(不重复抽样),基于上述四个因素的影响,样本容量的计算式可根据 来确定,(1)总体均值估计样本数,(不重复抽样),(2)总体比率估计所需样本数,(重复抽样),5/29/2023,用上公式计算时,就注意:(1)当抽样比例 n/N较大时,应采用不重复抽样公式计算,否则采用重复抽样的.(2)当总体方差 或总体比率 未
7、知时,可用样本方差(或样本比率),(3)在同一抽样调查中,总体均值与总体比率推断需要兼顾时,应采用计算出较大的那个样本容量.例7.14,5/29/2023,7.5 分层抽样,一.分层抽样的意义 分层抽样又称类型抽样或分类抽样,实际上是将分组法与随机抽样法结合起来而形成的抽样方式.分组时应遵守分组原则,在各组中抽取调查单位时则应遵守随机原则.采用这种抽样方式时,应先将总体按有关标志分组,然后再从每组中按随机原则抽取样本.分层抽样可以提高抽样调查结果的精度,或者在一定条件下减少样本的单位数以节约调查费用.因为分层抽样在总体中散布得更均匀,大大降低了出现极端数值的风险,故其样本对这个总体也有较高的代
8、表性,可看出,对总体分层后,总体方差可以理解为层内方差和层间方差两部分,在分层抽样时,其与层间无关.,5/29/2023,二.分层抽样的抽样标准误差计算 由于在分层抽样条件下,层间方差不会引起抽样误差,因此,在计算抽样标准误差时,可以各组层内方差的加权平均方差代替总体方差来计算抽样标准误差.分层抽样下,总假定有 所以有 1.总体平均数估计的抽样标准误差计算,(重复),(不重复),(1)总体平均数点估计:,(2)层内方差平均数:,(3)总体平均数的抽样标准误差:,5/29/2023,例7.15 某乡种植88万亩水稻,耕地分为高产,中产,低产田三类,现从三类中按等比抽样,共取50亩组成样本,样本各
9、组的平均水稻亩产量,标准差等如下表所示.要求在90%的置信概率(Z=1.64)下对全乡平均水稻亩产量和总产量作区间估计.,(千克/亩),平均亩产量置信区间:,解:,表7-4 某乡水稻产量分层抽样数据,总产量置信区间:,(万千克),5/29/2023,2.总体比率估计的抽样标准误差计算:pi 为样本各组比率(分层抽样有),(重复抽样),(不重复抽样),(1)总体比率估计:,(2)层内方差平均数:,(3)总体比率的抽样标准误差:,5/29/2023,例7.16 某广告公司从某市310万人中采用等比分层抽样,调查居民收看某电视广告的收视率,有关资料整理如下表.要求在95%的置信概率(Z=1.96)下
10、,估计广告收视率的置信区间.,得收视率 P 的置信区间:,解:,表7-5 某电视广告的收视率分层抽样数据,5/29/2023,三.分层抽样的样本容量 由于在分层抽样条件下,样本容量的确定需要预先给定抽样误差的范围和抽样的概率度,同时应根据以往的资料估计层内的资料估计层内方差的平均值.其样本容量 n 的确定公式可由分层抽样的极限误差导出.1.各层中均采用重复抽样时,(1),(2),2.分层抽样中,各层均采用不重复抽样时,(1),(2),样本容量确定后,各层应抽取的样本单位数 可采用等比法进行分配,计算公式为:,5/29/2023,例7.17 以例7.15的资料,若要求总体平均亩产量的抽样标准误差
11、不超过15千克/亩,要求在95%的置信概率,试确定等比分层抽样的样本容量.,在给定,解:,表7-4 某乡水稻产量分层抽样数据,条件下,得,(亩),(亩),(亩),(亩),5/29/2023,7.6 等距抽样,一.等距抽样的概念与方法 等距抽样又称机械抽样或系统抽样,是将总体各单位按一定顺序排列,然后每隔 N/n 个总体单位抽取一个样本.例如,从某种产品生产线上每隔相等的距离或相等的时间抽取一件产品作质量检验.等距抽样能使样本十分均匀地分布在总体中,从而能增加样本的代表性,减少抽样误差,提高抽样效率.1.等距抽样的排序方法 采用等距抽样时,必须首先对总体单位按某种标志进行排序或排队,有以下两种排
12、队方法:,5/29/2023,(1)按无关标志排队.即总体单位排列的顺序和所要研究的标志是无关的.如工业生产质量检验可按产品生产的时间顺序进行等距抽样等等.此法是比抽签法和随机数表示法更好的纯随机抽样方式,又称无序系统抽样.(2)按有关标志排队.即总体单位排列的顺序与所要研究的标志是有直接关系的.例如农产量调查时,可按照当年估产或前几年的均产按顺序进行等距抽样.这种有关标志排队的等距抽样又称有序系统抽样,它能使标志值高低不同的单位,均有可能选入样本,从而提高样本的代表性,减小抽样误差.一般认为有序系统抽样比等比例分层抽样能使样本更均匀地分布在总体中,抽样误差也更小.,5/29/2023,2.等
13、距抽样的方法(总体单位排序后再等距抽样)(1)随机起点等距抽样.即在总体分成k=N/n段的前提下,首先从第一段的1至k 号总体单位中随机抽选一个样本单位,然后每隔k个单位抽取一本单位,直到抽足n个单位为止,这n个单位就构成了一个随机起点的等距样本.这种方法能够保证各个总体单位具有相同的概率被抽到,但是,如果随机起点单位处于每一段的低端或高端,就会导致后面的单位都处于相应的低端或高端,从而使抽样出现偏低或偏高的系统误差.(2)半距起点等距随机抽样.又称中点法抽取样本.它是在总体的第一段,从1到k的项中点取值.采用中点法抽取样本,可提高整个样本对总体的代表性.,5/29/2023,(3)随机起点对
14、称等距抽样.即是在总体第一段随机抽取到第i个单位,而在第二段抽取第2k-i+1的单位,在第三段抽取第2k+i的单位,而在第四段抽取第4k-i+1,以此交替对称进行.可概括为:在总体奇数段抽取第jk+i单位,在总体偶数段抽取第jk-i+1单位(j=2,4,).此种方法能使处于低端的样本单位与另一段处于高端的样本单位相互搭配,从而抵消或避免抽样中的系统误差,弥补随机起点等距抽样的不足.(4)循环等距抽样.当N为有限总体而且不能被n整除时,可将总体各单位按顺序排成首尾相接的循环圆形,用N/n确定间隔k,k可以取最接近的整数,然后在第一段的1到k号中抽取一个作为随机起点,再每隔k个单位抽取一个样本单位
15、,直至抽满n个为止.,5/29/2023,二.等距抽样标准误差的测定(1)总体采用无关标志排队时,等距抽样与单纯不重复随机抽样相类似,因而可采用单纯不重复随机抽样的公式计算抽样标准误差,即,例7.18 已知某选区共有选民8860人,按登记名册每隔10人抽取1人,共抽取了886人,调查他们对人民代表候选人的意见,调查结果表示同意的有685人.要求在95%的置信概率下,求赞成率的置信区间.解:N=8860,n=886,得赞成率 P 的置信区间:,5/29/2023,(2)当总体采用有关标志排队时,由于总体单位是按有关标志排序的,故抽出的样本单位的排列也是有顺序的,因而存在一定的系统性误差,故不能采
16、用简单随机抽样的误差公式计算抽样标准误差.通常把有序系统抽样看作是一种特殊的分层抽样,即把相邻若干段抽出的样本单位合并为一组,然后计算各组组内方差及平均数,从而用等比类型抽样标准误差公式计算抽样标准误差.,其中,5/29/2023,例7.19 某企业有240各职工,按工资高低排序后,每隔6人抽取1人,以研究与职工年由入直接有关的问题,共抽出职工40名,调查的年收入整理为如表7-6所示的5组(年收入:千元).要求在0.95置信概率下估计职工年收入的置信区间.,解:,表7-6 职工年收入有序系统抽样数据,每组单位数相等,故得总体均值估计:,平均组内方差:,得职工平均收入置信区间:,千元,5/29/
17、2023,二.等距抽样样本容量的确定1.无序系统抽样 若对总体采用按无关标志排队的等距抽样时,可采用简单随机抽样的公式来确定等距抽样的样本容量.由于等距抽样一般都是不重复抽样,故应用下列公式,2.有序系统抽样 若对总体采用按有关标志排队的等距抽样时,则样本容量的确定,可采用分层抽样的样本容量公式来确定,但应注意有序系统抽样的样本容量计算所需的平均组内方差应根据以住的资料作出估计.,5/29/2023,7.7 整群抽样,一.整群抽样的概念 整群抽样是将总体按某一标志分组后形成的每个群视为单位进行随机抽样,然后对抽中的每个群体进行全面调查.其特点首先是先分群,后抽群作为样本单位,在抽中的群内实行全
18、面调查,不再从中抽样.整群抽样的调查单位集中,可以方便调查工作,节约调查费用.但是,由于整群抽样的样本单位比较集中,而不能均匀分布在总体的各个部分,不同群之间的差别往往比较大,因而抽样误差常常大于简单随机抽样.二.整群抽样标准误差的测定 由于整群抽样对群内的总体单位实行全面调查,因而群内方差并不引起抽样误差,故只需以群间方差代替总体方差,当总体方差未知时,可用样本群间方差代替.,5/29/2023,设总体共分为R个群,每个群内有M个总体单位,(M不变称为等群抽样,否则称为不等群抽样),样本容量为r群,每群有mi个总体单位,各群平均数为,群间方差为,则有,(1)总体均值点估计:,(2)总体比率估
19、计:,(3)整群抽样标准误差:,均值的群间方差:,比率的群间方差:,5/29/2023,例7.20 某乡从18个行政村中用整群抽样抽了3个村,调查农民家庭生猪存栏量的情况,调查资料如表7-7所示,要求在0.9544下估计置信概率下估计户均生猪存栏和全乡生猪存栏的的置信区间.(全乡共5480户),解:,表7-7 某乡生猪存栏量整群抽样数据,得户均生猪存栏置信区间:,得全乡生猪存栏置信区间:,5/29/2023,三.整群抽样样本容量的确定 整群抽样的样本容量为,由于整群抽样一般是不重复抽样,故应按不重复抽样计算必要的抽样群数.由整群抽样的极限误差 和抽样标准误差公式可导出:,例7.21 某厂准备在
20、下月720小时的生产产品中,抽取若干小时的产品进行检验,根据以往的资料测算,群间方差为6%,要求抽样标准误差不超过3.98%,置信概率为0.9544,求样本容量.,解:,5/29/2023,7.8 目录抽样,一.目录抽样的概念 目录抽样是对偏斜分布总体实际有效的一种方法.如果总体呈比较严重的偏斜分布时,则要求样本容量比较大.如果采用简单随机抽样,因有少数单位变量值极端大,总体方差就会很大.为此,有必要对偏斜分布总体分布总体的抽样设计来单独考虑.目录抽样通常用于企业调查,首先编制一份企业目录(称为抽样框),目录中一般包括企业名称,从业人数,产值,产量,利润等以往的资料.然后考虑总体分布如果呈极偏
21、斜状分布,则将其中的大型企业单列出来作全面调查,对剩余的为数众多的小型企事业实行抽样调查.因此目录抽样是全面调查与抽样调查的有机结合.这种方法可以减少抽样误差,抽调抽样估计的精度.,5/29/2023,二.目录抽样的参数估计 目录抽样的参数估计通常是对总体的某一总量指标作出推断,它可以分为两部分:Y=Y1+Y2其中:Y1是全面调查部分,可用汇总统计的方法求得其值;Y2是抽样部分,是需要利用抽样资料估计的.设N2为抽样部分的单位数,n2为样本容量,则,在抽样部分中,若采用不重复,总量指标抽样标准误差:,例7.22,5/29/2023,例7.22 某县有100家工业企业,其中10家为大中型企业,9
22、0家为小型企业.某月对10家大中型企业的工业增加值进行全面调查,汇总得10家企业的工业增加值为9880万元,另从90家小型企业中抽取12家进行抽样调查,这12家企业的平均增加值为32万元,标准差为1.8万元.求在0.95的概率下估计该月全市的工业增加值.,解:全县工业增加值估计为 9880+3290=12760(万元)小企业的抽样均值标准误差为小企业的平均增加值区间估计:小企业的增加值区间估计:全县工业增加值区间估计,5/29/2023,三.目录抽样的样本容量 在确定目标抽样的样本容量时,首先必须把全部企业构成划分为两部分,一是普查部分(N1),二是抽样部分(N2).而这两部分的划分涉及到企业
23、规模大小的分界问题,即具有何种规模以上的企业的应采用普查,具有何种规模以下的企业应采用抽样调查.在经费固定,费用最低,并具有最大精确度的要求下,如何划分企业规模大小的界线.最优的切割点是样本容量与抽样方差等因素的一个函数,通常利用估计量的标准误差来寻找.估计量的相对标准误差为:一般来说,相对标准误差在一定范围内将随着切割点的下降而下降,但超过某一范围后又会上升,这就可以找出一给定的样本量和某一抽样方案的最小相对标准误差,以此作为最佳切割点.如果认为相对标准误差太高,则又可增加样本量,反之可减少.,5/29/2023,例7.23 某市有工业企业24950个,去年增加值最少的只有12万元,最大的有
24、8550万元,总体呈极偏斜状态分布,宜采用目录抽样调查全市的工业增加值.抽样调查设计者根据去年各企业增加值的资料,设计了不同的抽样方案,如表7-8所示,如若对全部企业抽取5000家人抽样调查,则相对标准误差为4.79%,若普查52家,抽样调查4948家,则相对标准误差为2.91%,(注 此例中n=5000是给定不变),表7-8 采用不同切割点的相对标准误差,5/29/2023,7.9 二重抽样,一.二重抽样的意义 二重抽样又称双重抽样或双相抽样,是指在抽样时分两次抽取样本,在一般情况下先从总体N中抽取一个较大的初始样本,以从这个样本中搜集某个项目的资料,作为进一步抽取第二次样本的基础.第一次抽
25、取的较大样本称为第一重样本,再从中抽取的第二次样本称为第二重样本,其目的在于搜集较为具体的资料.由于样本是分两次抽取的,故称作二重抽样.当然,这种方法可以推广到多次抽取样本,然后结合起来对总体的有关指标作出估计,这就是多重抽样或多相抽样.一般二重较多.二重抽样主要用于大规模多项目的调查.对于多项目的调查,由于项目的重要程度不同,要求的精确程度也就不同,需要的样本容量也就不一样.,5/29/2023,在二重抽样中,第一重样本主要用于估计,判断总体的结构,重要变量或辅助变量的有关信息,第二重样本用于对总体的有关指标进行估计推断.二重抽样要在前后抽取两个样本,这就有不同的抽样种类,一般有以下两种.(
26、1)第二重样本在总体中随机抽取.即第一,第二重样本均从总体中随机抽取,因而第二重样本不受第一重样本的影响,二者相互独立.(2)第二重样本在第一重样本中抽取.这种方法使第二重样本完全落于第一重样本之中,受第一重样本的制约,二者不是相互独立的.在实际工作中,为节省人力,物力,和财力,常采用此类二重抽样方法.,5/29/2023,二.二重抽样的参数估计 1.比估计的二重抽样 设研究的变量为y,辅助变量为x,在估计总体均值 时,可借助辅助变量x的均值,用二者的比率 作出估计,即.当估计总量Y时,可借助辅助变量x的总量,采用.当缺乏辅助变量x的有关信息,就可采用二重抽样法,先抽取第一重样本n,用以估计总
27、体的辅助变量x,然后再抽取第二重样本n,用来获取样本均值 和,并计算二者的比率,这样来推断有关总体.总体均值估计:总体均值抽样标准误差 若第二重抽样从总体中取,5/29/2023,例7.24 某县为了解农民家庭户均收入情况,先抽取300户,获得平均家庭人口为3.82人,然后又从300户中随机抽取50户调查,获得户均收入12860元,标准差1880元,平均家庭人口3.76人,标准差2.8人.家庭人口与户均收入的协方差为4896,求在0.95概率保证下估计全县农民家庭户均收入的置信区间.解:(元/人),元/户,元/户,户均收入置信区间:,5/29/2023,2.二重分层抽样如果总体N个单位没有进行
28、分层,每层的单位数Ni和比重都是未知的,是不能直接进行分层随机抽样的.为了确定各层的权重,可从总体中随机抽取样本容量为n 的第一重样本,通过某一变量x的调查数据对第一重样本的各个单位进行分层,以计算各层样本的权数 然后可采用等比例抽样法从第一重样本中抽取样本容量 n的样本,借以研究变量y的数据,据以推断总体均值.,5/29/2023,例7.25 某市注册登记的个体户有8000户,由于他们之间的销售额差别较大,拟采用分层抽样,但缺乏现成的分层资料,故采用二重抽样,第一重样本n=1000,根据其注册资金分为四层,然后在第一重样本分层的基础上,等比例分层抽取200户调查他们的年销售额,求在0.954
29、4概率下,估计个体户平均每户的销售额.,表7-9 某市个体户销售额二重抽样数据,解:,万元,得每户销额置信区间,万元,5/29/2023,7.10 二阶段抽样,一.二阶段抽样的概念 二阶段抽样又称二级随机抽样,就是在抽取样本时分两个阶段来进行,第一阶段是从总体中用随机抽样的方法抽取若干个群体,称为初级单位,然后在第二阶段从这些初级单位中又随机抽取若干个样本单位,称为基本单位或最终单位,最后根据所抽的基本单位组成的样本进行调查,用取得的样本资料来推断总体.如果在二阶段抽样之后,又继续在被抽中的二阶单位中进行第三次,第四次随机抽样,就形成了三阶段抽样,四阶段抽样.二阶段及二阶段以上的抽样就叫多阶抽样.例如在家产品产量调查中,由省抽县,由中选的县抽乡,由中选的乡抽村等就是多阶段抽样.,5/29/2023,多阶段抽样有利于大规模大范围的抽样调查的组织与实施,能在一定程度上满足各级管理部门对调查资料的需求,有利于减少抽样误差,提高抽样估计的精确度.因而,在实际工作中应用较多,如人口调查等都可采用.二.二阶段抽样的标准误差 二阶段抽样标准误差的测定,需要考虑两个部分的抽样误差,一部分是初级单位(群)之间的差异 和抽取的初级单位的抽样数目n所决定的抽样误差;第二部分是二阶段抽样的基本单位之间的平均方差 和全部基本单位所决定的抽样误差.由于一般采用不重复抽样,故二阶段抽样标准误差计算公式为:,
链接地址:https://www.31ppt.com/p-5007301.html