书签分享收藏举报版权申诉 / 198

立即下载加入VIP免费专享

当前位置：首页 > 生活休闲 > 在线阅读 > 统计学课件之9抽样推断.ppt

统计学课件之9抽样推断.ppt

上传人：小飞机

文档编号：6332845

上传时间：2023-10-17

格式：PPT

页数：198

大小：6.34MB

《统计学课件之9抽样推断.ppt》由会员分享，可在线阅读，更多相关《统计学课件之9抽样推断.ppt（198页珍藏版）》请在三一办公上搜索。

1、第七章抽样推断,汤来香：,美国总统选举民意调查,1984年11月里根与孟代尔竞选总统，美国著名的盖洛普、哈里斯、国家广播公司三家民意调查社在选举前三个星期所做调查的统计分析，里根分別约可获得58%、55%及60%选票，正式选举的结果：里根约获得59%选票，而孟代尔约41%选票。此次美国所有的民意调查社的预测数字与选举结果最多只有4%误差，但被调查的选民不超过3000人，可见统计的技巧是多么有用。在以往的十七次美国总统选举预测中，只有两次失败，第一次是1936年的蓝顿对罗斯福的选举，样本数一千万但是误差20%，第二次是1948年杜威对杜鲁门，样本数二百万误差5%，50年来美国21次全国选举预测之

2、平均误差只有2.3%。,学习目的与要求：,抽样估计是抽样调查的继续，它提供了一套利用抽样资料来估计总体数量特征的方法。通过本章的学习，要理解和掌握抽样估计的概念、特点，抽样误差的含义、计算方法，抽样估计的置信度，推断总体参数的方法，能结合实际资料进行抽样估计。,主要内容：,1抽样推断的概念与特点2抽样平均误差的计算3抽样估计4抽样的组织形式5必要抽样数目的确定,第一节抽样推断概述,一、抽样推断的概念抽样推断：是按随机原则从总体中抽取一部分单位构成一个样本进行观察，并根据样本的实际数据对总体的数量特征作出具有一定可靠程度的估计和判断的一种统计方法。,随机原则：,随机原则即是在抽取样本时，排除人们

3、主观意图的作用，使得总体中的每个单位或每个样本有相等的入选机会。随机原则又称为等可能性原则。,统计推断的过程：,二、抽样推断的特点,按随机原则抽取样本单位；用部分推断总体，即用样本指标去推断或估计总体指标。抽样推断必然产生抽样误差，且误差可以事先计算并加以控制。运用概率估计方法。,三、抽样调查的作用,适用于无限总体或者很难进行全面调查的总体的研究；对某些可以但事实上不必或不可能进行全面调查的现象总体的研究。适应于破坏性产品的质量检验；可以用于生产过程中的质量控制；用于订正全面调查的数据；可用于假设检验。,四、抽样推断的基本概念,(一)总体与样本总体(全及总体、母体)：是指统计所要研究的全体，由

4、具有某种特定性质的许多个别事物组成的集合体。N：总体单位数。,总体可分为有限总体与无限总体。,样本(抽样总体、样本总体或子样),样本：是指按照随机原则，从全及总体中抽取出来，代表全及总体的那部分单位的集合体。样本容量(n)：样本中所包含的总体单位数。n30是大样本。,总体是唯一的，样本是随机多个的。,(二)、总体指标与样本指标,总体指标（母体参数、总体参数、全及指标）：它是根据总体各单位的标志值或标志特征计算的，反映总体某种属性的综合指标。,全及指标是唯一确定的，一个总体常常有多个总体参数。,常用的总体指标有：,或,或,样本指标(样本统计量)：,样本指标：也称为统计量或抽样指标，它是根据抽样各

5、单位的标志值或标志特征值计算的、用以估计和推断相应总体指标的综合指标。,一个样本常常有多个样本指标，依据样本的数据计算的样本指标不是唯一确定的。,常用的样本统计量有：,或,或,说明：,按照无偏估计的要求，才是总体方差的无偏公式，但在某些统计中，n通常较大，n与(n-1)相差甚微，为简便，就用n代替(n-1)。总体指标是唯一确定的值，样本指标是随机变量。,（三）抽样方法与样本个数,样本个数(m)指从总体中可能抽取的全部样本数目，又称样本可能数目。这与抽样方法和样本容量有关系。,重复抽样的特点：,n个单位的样本是由n次连续试验构成的。每次试验相互独立，各单位中选与不中选相互不影响。每次试验都是在相

6、同的条件下进行，即都是从N个总体单位中随机抽取一个，因此，每个单位在每次中选的机会都相等，它们每次都有1/N的中选机会。,不重复抽样的特点：,n个单位的样本是由n次连续试验构成的，但由于每次抽出不放回，所以实质上等同于同时从总体中抽n个样本单位。每次试验不相互独立，上次中选情况影响下次中选结果。每抽一次总体的单位数便少一个，因此每个单位在各次中选的机会是不相等的，第i次抽取每个单位有1/(N-i+1)的中选机会。,考虑顺序的样本个数：,1）不重复排列数,2）重复排列数,不考虑顺序的样本个数：,3）不重复组合数,4)重复组合数,【例】,从0-9 的10个数中随机重复抽选6个数字组成电话号码，共能

7、组成多少个电话号码？（重复排列数）,【例】,从班级10位学生中抽选三人担任不同的职务，问共有几种抽法？,（不重复的排列数）,【例】,从小组10位学生中不重复随机抽选3个组成样本，考查其平均成绩，可能的样本数目为：,（重复组合数）,从A、B、C、D四个单位中，抽出两个单位构成一个样本，问样本个数是多少？,重复抽样排列数:Nn42 16(个样本),不重复抽样排列数:N(N-1)(N-2)4312(个样本),【例】,(四)抽样推断的理论依据,1大数法则（大数定律）,基本思想：大量的随机现象具有一定的稳定性。,我们知道，总体由许多总体单位组成，每个总体单位的表现各不一样。这些不同的表现共同决定着总体的

8、表现或特征。如果我们将这些大量的总体单位加以综合平均，那么它们对总体的个别影响会将相互抵消，最后呈现出它们共同作用的结果，使总体具有稳定的性质。,实际推断原理:当试验次数很大时，可以用样本指标代替总体指标。,在概率论中，大数法则是这样表述的：,对于任意正数，有：,这样，以严格的数学形式，表达了频率的稳定性。,2、中心极限定理：,中心极限定理，其着眼点是“变量和的分布”。一个随机变量服从正态分布的现象并不多见，但多个变量和的分布服从正态分布则是普遍存在的。在现实生活中，变量和的分布是普遍存在的。,基本思想：变量和的分布函数向正态分布收敛。,也就是说：,中心极限定理论证了：如果总体变量存在有限的平

9、均数和方差，那么，不论这个总体变量的分布如何，随着抽样单位数n的增加，抽样平均数的分布便趋近于正态分布。,中心极限定理的通俗定义是这样的：,当n无限增大时，不管总体分布是什么形状，样本平均数分布趋近于平均数为方差为的正态分布；且，。标准化变量的分布趋近于平均数为0，方差为1的标准正态分布。这样就可以利用标准正态分布求得标准变量t 落入任意区间的概率了。,第二节抽样平均误差,一、统计误差的分类,(抽样误差),各种统计误差：,登记误差：指由于调查登记或计算差错在发生的误差,统计误差：指调查所得的统计数字与调查总体实际数值之间的差异。,代表性误差：指用样本指标推断总体指标时，由于样本结构与总体结

10、构不一致，样本不能完全代表总体而产生的误差。,系统误差：由于非随机因素引起的样本代表性不足而产生的误差，表现为样本估计量的值系统性偏高或偏低，故也称为偏差。随机误差：指遵循随机原则抽样，由于随机因素（偶然性因素）引起的代表性误差。通常所说的抽样误差指的就是随机误差。,抽样实际误差：,抽样实际误差：每一次抽样，得到的样本指标与总体指标的绝对离差。如、，这是无法计算的。抽样实际误差是随机变量。,抽样平均误差,抽样平均误差：指所有可能出现的样本平均数或抽样成数的标准差。反映了抽样指标与总体指标的平均误差程度。,从理论上说是一个唯一确定的量。,二、抽样平均数的平均误差,(一)平均数的抽样分布,平均数的

11、抽样分布：由总体中全部样本平均数的可能取值和与之相应的概率(频率)组成。即把所有可能样本平均数的次数分布称之为平均数的抽样分布。,抽样分布：指样本指标的次数分布。,1重复抽样分布,【例】设有某班组5 个工人的日分别为34、38、42、46、50元，则：,现用重复抽样方法从中随机抽取2个构成样本，并求样本平均工资来推断总体的平均工资。,重复排列数：,样本日工资平均数,单位：元,样本日平均工资的次数分布表,根据上表数据，可以整理出样本平均数的分布如左表：,5/25,4/25,3/25,2/25,1/25,34 36 38 40 42 44 46 48 50,样本日平均工资分布图,平均工资(元),则

12、样本日工资平均数的平均数和方差为：,两个重要结论：,重复抽样的样本平均数的平均数等于总体平均数，即：,所以抽样平均数的标准差反映了样本平均数与总体平均数的平均误差程度，称为抽样平均误差或抽样标准误差。,因为,样本平均数的分布与总体分布的比较：,总体分布,样本平均数的分布,重复抽样抽样平均误差的计算公式：,可见抽样平均误差比总体标准差小得多，仅为总体标准的。另外，抽样平均误差和总体标准差成正比变化，而和样本单位数n的平方根成反比变化。,2不重复抽样分布,样本日工资平均数,单位：元,样本日平均工资的次数分布表,根据上表数据，可以整理出样本平均数的分布如左表：,则样本日工资平均数的平均数和方差为

13、：,也可得出两个重要结论：,不重复抽样的样本平均数的平均数等于总体平均数，即：,所以抽样平均数的标准差也反映了样本平均数与总体平均数的平均误差程度，称为抽样平均误差或抽样标准误差。,因为,不重复抽样的抽样平均误差计算公式：,不重复抽样的抽样平均误差等于重复抽样的抽样平均误差乘以修正因子即：,(二)、抽样平均误差,1定义,定义公式反映抽样平均数(或抽样成数)与总体平均数(或总体成数)的平均误差程度。或者说，用来描述各样本抽样实际误差的一般水平。,抽样平均误差：指所有可能出现的样本指标的标准差。,定义公式：,抽样平均误差是一个确定的值。,抽样平均误差的具体意义：,从总体N中取容量为n的可能样

14、本共有m个，可计算出m个抽样实际误差(随机变量)：为了测定样本(指标)的代表性程度的高低，单独用某一次的抽样误差来衡量是不科学的，因此就需要采用一定的方法(求标准差的方法)计算所有m个抽样实际误差的平均数，这就是抽样平均误差。,(i=1，2，3，m),2抽样平均误差的应用公式,抽样平均误差是一个确定的值，但在实际抽样估计中，常用某些样本指标来代替未知的总体指标。例如用s2代替。由于s2是随机变量，故这时所测得的只是抽样平均误差的估计量，此估计量仍为随机变量。实际工作中常用推导的应用公式。,抽样平均误差的应用公式：,重复抽样：不重复抽样：,说明：,抽样平均误差与总体标准差成正比，仅为总体标准差的

15、；抽样平均误差与成反比。可通过调整样本单位数来控制抽样平均误差。,假定抽样单位数增加倍、0.5倍时，抽样平均误差怎样变化？,【例】,【解】,计算应注意的两点,(1)总体方差未知时的处理方法：用s代替或p代替P；用方差的历史或经验数据代替。如果有多个方差可供选择，则通常取用较大的，故p应选择最接近于0.5 的。用方差的试验或试点数据代替。(2)当N很大时，N-1N，于是,4的计算实例,随机抽查某大学150个男生的身高，得其平均身高为170.8公分。根据过去的材料，知道大学生身高的总体标准差为24公分，试求抽样平均误差。,【例】1,解：,【例】2,某厂生产某种灯泡5000只，随机抽取500只作寿命

16、测试。测试结果表明，平均寿命为6200小时，样本标准差为450小时，求抽样平均误差。,解：,【例】3,某仓库有某种零配件10000套，随机抽取400套，发现32套不合格。求合格率的抽样平均误差。,已知=10000，n=400，p=368/400=92%，求,解：,重复抽样：,不重复抽样：,【例】,某校随机抽选400名学生，发现戴眼镜的学生有80人。根据样本资料推断全部学生中戴眼镜的学生所占比重时，抽样误差为多大？,样本p=n1/n=80/400=20%,解：,【例】,某灯泡厂对10000个产品进行使用寿命检验，随机抽取2%样本进行测试，按规定，灯泡使用寿命在1000小时以上者为合格品。测得样本

17、数据如下：灯泡平均使用时间 x=1057小时，灯泡使用时间标准差为s=53.63小时，合格品率为p=91.5，则：,不重复抽样时：,重复抽样时：,5影响抽样平均误差的因素,总体方差或标准差。大，则大。样本容量n。如n扩大为原来的4倍，则缩小为原来的1/2。抽样方法。由于小于1，重复抽样时的抽样平均误差永远大于不重复抽样时的抽样平均误差。抽样调查的组织形式。,第三节抽样估计（推断）,有效的估计将是,一、抽样估计的概念,统计推断：就是利用样本的数据，对总体的数量特征作出具有一定可靠程度的估计和判断。统计推断包括参数估计和假设检验两个方面。总体参数估计：是以样本统计量作为未知总体参数的估计量，并通

18、过样本数据计算样本统计量的取值，作为总体参数的估计值。参数估计又称抽样估计。,抽样估计要具备三个基本要素：,要有合适的统计量作为估计量要有合理的允许误差范围（）要有一个可接受的置信度,二、统计量的优良估计标准,估计量：用于估计总体参数的统计量。估计值：依据某一具体的样本指标所估计的总体指标的值。,优良估计量总是从总体上来说的，其标准有三个：无偏性、一致性和有效性。,1无偏性,要求样本指标的平均数等于被估计的总体指标。即：样本指标是总体指标的无偏估计量。有：,无偏性：样本统计量的期望值（均值）等于被估计的总体参数。,2一致性,当样本的单位数充分大时，样本指标充分靠近总体指标。即当n无限增加，样本

19、指标与未知的总体指标之差的绝对值小于任意小的正数，它的可能性也趋近于必然性。对于，当n愈多，抽样平均误差愈接近于0。,3、有效性,要求作为优良估计量的方差应该比其他估计量的方差小。例如有：注意：并不是所有的估计量都符合以上的标准。例如：在正态分布的情况下，总体平均数和中位数是重合的，样本中位数是总体中位数的无偏和一致估计量，但对比样本平均数却不是更有效的估计量。而样本平均数却是总体中位数的优良估计量。,三、抽样极限误差（）,总体指标是唯一确定的值，样本指标是围绕着全及指标上下随机出现的变量。抽样平均误差指抽样分布的标准差，说明的是某一抽样方案下所有可能样本的平均误差情况，但在抽样推断实践中往往

20、只抽取一个样本，该样本的指标数值与总体指标数值的离差，可能为正，也可能为负，该误差可能大于也可能小于或者等于抽样平均误差。因此，对于一项抽样调查，总是要求有一个合理的允许误差范围，这就是抽样极限误差。,抽样极限误差的定义：,抽样极限误差：指在进行抽样估计时，根据研究对象的变异程度和分析任务的要求所确定的样本指标与总体指标之间可允许的最大误差范围。也称容许误差、可能误差。常用表示。它是根据概率理论，以一定的可靠程度保证抽样误差不超过某一给定的范围。,1)是指误差范围,的原意表示是以为中心，在之间变动。但由于全及指标未知，而样本指标通过实测可得到。因此，抽样误差范围的实际意义是要求被估计的全及指标

21、落在抽样指标的一定范围内，即落在的范围内。,即：,因此，、P的范围估计(区间估计)分别为：,同理得：,、,2)是指可能范围而非肯定范围,抽样极限误差不是唯一固定的，而是根据抽样调查的目的，根据人们希望控制总体指标的把握程度来确定的。如果希望控制的把握程度大些，就给予较大的值，否则，的给定值就较小。这种把握程度就是概率保证程度。亦即抽样估计的可靠程度，叫估计置信度，习惯上也称为可靠度、可信程度、把握程度或概率保证程度。,四、置信度、概率度、估计精度,1置信度是估计的可靠性问题置信度：就是表明抽样指标和总体指标的误差，不超过一定范围（）的概率保证程度。,置信度即概率保证程度：,由于抽样指标值随着

22、样本的变动而变动，它本身是一个随机变量，因而抽样指标和总体指标的误差仍然是一个随机变量，并不能保证误差不超过一定范围这个事件是必然事件，而只能给以一定程度的概率保证。因此，就有必要来计算抽样指标和总体指标的误差不超过一定范围的概率大小，即计算抽样指标落在一定区间范围内的概率，这种概率称之为抽样估计的置信度。,估计值所确定的估计区间是随机的，在实际抽样中并不能保证被估计的总体指标值都落在允许误差范围内，这就产生要冒多大风险来相信所作的估计。例如：我们愿意冒10%的风险，表示如果进行多次重复估计，则平均每100次估计将有10次是错误的，90次是正确的，90%就称为置信度或概率保证程度。,2概率度(

23、t)反映的相对程度,描述全部样本指标与总体指标的平均误差，而则是对一个样本的样本指标与总体指标误差的控制范围，因而可用来衡量。即抽样极限误差等于t倍的抽样平均误差：t就称为概率度。,或,或,因此：,是用一定倍数的表示的抽样指标与全及指标之间的绝对离差。t 是指以抽样平均误差为尺度来衡量的相对误差范围。,求t值的过程，也就是样本变量和p的标准化过程。标准变量t服从正态分布。t值大小是确定正态分布函数的决定因子。即t是确定概率保证程度大小的指标。可依据一定的置信度，查标准正态分布表求得。,概率是概率度的函数：P=F(t),在正态分布的情况下，从总体中随机抽取一个样本观察，则该样本指标落在某一范围内

24、的概率，是用占正态曲线面积的大小表示的。即：,正态分布及其曲线下的面积图,68.27%,1,-1,-2,95.45%,99.73%,-3,2,3,可见随着t的不断增大，概率P的数值也随着增大以致逐渐接近于1，使抽样推断达到完全可靠的程度。应用正态分布曲线，把概率度t和抽样误差范围联系起来，便可得到抽样推断全及指标在一定范围内的概率保证程度。统计抽样推断中常用的有：,常用概率度与概率对照表,3估计精度是从相对数的角度说明抽样估计的准确程度,误差率允许误差估计值，即：估计精度误差率，即：抽样估计的准确性随着的增大而减小，它们之间呈反方向变动。,注意：估计的准确性与可靠信是相互矛盾的,决定估计的准确

25、性，成反比关系；F(t)决定估计的可靠性，成正比关系,可靠性越大，F(t)越大 t越大越大准确性越小。,【例】,（仍用前面例子）从总体5个工人的日平均工资中重复抽取n为2的样本平均工资的抽样分布如下表：,样本日平均工资的次数分布表,五、抽样估计方法,以样本的平均数作为总体平均数的估计值。以样本的成数 p 作为总体成数 P 的估计值。,(一)点估计（定值估计）它是直接以样本指标的实际值直接作为相应总体参数的估计值。,例如：,点估计的特点：,优点：简便、易行、原理直观，它能够提供总体指标的具体估计值，可以作为行动决策的数量依据。缺点：任何点估计不是对就是错，点估计没有表明抽样估计的误差，更

26、没有指出误差在一定范围内的概率保证程度有多大。,统计学家做得比间谍们更漂亮！,由于许多战略上的理由，盟军非常想知道二战期间德军总共制造了多少辆坦克。德国人在制造坦克时是墨守陈规的，他们把坦克从1开始进行了连续编号。在战争进行过程中，盟军缴获了一些敌军坦克，并记录了它们的编号。那么怎样用这些号码来估计坦克总数呢？,统计学家做得比间谍们更漂亮！,我们知道，制造出来的坦克数肯定大于记录中的最大编号。因此，其中点估计的方法之一就是，计算出被缴获坦克编号的平均值，并认为这个值是德军全部坦克编号的中点，用样本均值乘以2就是总数的一个估计。从战后发现的德军记录来看，盟军估计值非常接近所生产坦克的真实记录。,

27、（二）区间估计,定义：,区间估计：就是在一定的概率保证程度下，选定概率度t及抽样极限误差=t，再根据样本指标数值和去估计总体指标数值所在的可能范围的一种统计推断方法。估计区间的上下限：或置信区间：或置信度：,1根据(t)求及置信区间,根据样本资料，计算出及或p及。根据F(t)查正态分布概率表求t；根据t与，计算或，指出置信区间为：,或,【例】,对某鱼塘进行抽样调查，从鱼塘的不同部位共网到鱼150条，其中草鱼123条，草鱼平均每条重2公斤，标准差为0.75公斤。1）试按95.45%（t=2）的概率保证程度，对该鱼塘草鱼平均每条重量作区间估计；2）以同样的概率保证程度对该鱼塘草鱼所占比重作区间估

28、计。,解 1）已知：,草鱼平均每条重量的估计区间为：即20.14，20.14 1.86，2.14公斤,(公斤),=2kg，s=0.75kg，n=123，t=2,解2)已知:,n=150，t2，p123/15082%,则草鱼所占比重的估计区间为：即82%6.27%，82%6.27%75.73%，88.27%,2根据给定的，求F(t),抽取样本，计算出、s，推算出；根据，估计出根据，求出F(t),随机抽取25亩水稻田，测得平均亩产为650公斤，标准差为75公斤，求总体平均亩产在620-680斤之间的概率是多少？,【例】,【解】,所以 F(t)=95.45%。,已知，s75公斤，n=25,【例】,某

29、储蓄所6月份共有存单3000张，为了解存款数量情况，现随机抽取200张进行调查，得结果如右表，试求重复抽样条件下：,该储蓄所本月存单平均存款范围(概率保证程度为95.45%)；该储蓄所本月存款额在1000元以上存单所占比重范围。(概率保证程度为95.45%)。,该储蓄所存单平均存款额与标准差计算表,p=40/200=20%，则,对我国某城市进行居民家庭人均旅游消费支出调查，随机抽取400户居民家庭，调查得知居民家庭人均年旅游消费支出为350元，标准差为100元，要求以95%的概率保证程度，估计该市人均年旅游消费支出额。,解：第一步，根据抽样资料已算得：样本户年人均消费支出 x=350（元）样本

30、标准差s100（元），则,第二步，根据F(t)=95%，查得t=1.96。第三步，计算则该市居民家庭年人均旅游消费支出额的上下限为：结论：我们可以95%得概率保证程度，估计该市居民家庭年人均旅游消费支出额在340.20元359.80元之间。,【例】,某市电视台为了解观众对某电视栏目的喜爱程度，在该市随机对900名居民进行调查，结果有540名喜欢该电视栏目，要求以90%的概率保证程度，估计该市居民喜欢该电视栏目的比率。解：,根据给定的F(t)90%，查表得t1.64。,结论：我们可以概率90%的保证程度，估计该市居民对此电视栏目喜爱的比率在57.33%62.67%之间。,则总体比率的上下限为：,

31、第四节抽样组织形式,简单随机抽样类型抽样等距抽样整群抽样多阶段抽样,一、简单随机抽样,简单随机抽样：又称为纯随机抽样，它是按照随机原则直接从总体N个个体中抽取n个个体作样本，使总体中的每个个体都有同等的机会被抽中。,直接抽选法是指直接从调查对象中随机抽选。例如，从仓库中存放的所有同类产品中随机指定若干件产品进行质量检验；从粮食仓库中不同的地点取出若干粮食样本进行含杂量、含水量的检验等。抽签法即先将全及总体各个单位按照某种自然的顺序编上号，并做成号签，再把号签掺合起来，任意抽取所需单位数，然后按照抽中的号码取得对应的调查单位加以登记调查。随机数表是指含有一系列组别的随机数字的表格。,简单随机抽

32、样的特点,是抽样调查中最基本的组织形式；遵循随机原则直接从总体N个单位中抽取n个单位作为样本；又称为纯随机抽样。简单随机抽样被用作评估其他抽样策略的效率的基准；简单随机抽样最原始的抽取方法是抽签法，最常用的抽取方法是利用随机数表或计算机生产随机数。,简单随机抽样适用的情况：,对调查对象很少了解；总体单位的排列没有秩序；均匀总体。注：前面所讨论的抽样平均误差的计算公式就是简单随机抽样时的抽样平均误差的公式。,抽样单位数目的计算,重复抽样：,不重复抽样：,【例】,某市开展职工家计调查，根据历史资料该市职工家庭平均每人年收入的标准差为2400元，家庭消费总支出中食品消费支出比重（恩格尔系数）为54

33、%。现用重复抽样方法，要求在95.45%的概率保证下，平均收入的抽样极限误差不超过200元，恩格尔系数的抽样极限误差不超过4%，请确定样本必要数目。,样本成数的样本必要数目：,【解】,根据公式，在重复抽样条件下：样本平均数的样本必要数目：,关于抽样单位数目的几点说明,在同样条件下，不重复抽样比重复抽样要求的抽样单位数目少。但不重复抽样的抽样单位数目计算公式比较复杂。在实际工作中，一般当 n/N 的抽样比很小时（小于5%），为了简化计算，虽然采用不重复抽样，也可用重复抽样计算公式计算抽样单位数目。,关于抽样单位数目的几点说明,同一总体往往同时需要估计总体平均数和总体成数，对二者可以分别计算出各自

34、抽样单位数目，为了防止抽样单位数目的不足，在实际工作中，往往根据抽样单位数目比较大的一个数目进行抽样，以满足共同要求。,即问即答,在重复抽样情况下，如果其它条件保持不变，要使允许误差范围缩小为原来的1/2，则样本单位数目需要扩大为原来的多少？反之，如果允许误差范围要求扩大为原来的2倍，抽样单位数目又要如何变化？,二、分类（层）抽样,类型抽样：它是先对总体各单位按某种标志分组，然后再从各组中按随机原则抽选一定单位构成样本，再对样本总体进行观察。,优点：能够提高样本的代表性，可降低影响抽样平均误差的方差。,特点：是统计分组和抽样法的结合。,经过划类分组后，确定各类型组抽样单位数一般有两种方法：,不

35、等比例抽样。即各类型组所抽选的单位数，按各类型组标志值的变动程度来确定，变动程度大的多抽一些单位，变动程度小的少抽一些单位，没有统一的比例关系。等比例抽样。即按照样本单位数在各类之间分配的比重与总体在各类之间分配相同的比重进行抽样。,等比例分层抽样的抽样平均误差：,N=N1+N2+NKn=n1+n2+nK等比例抽样：分类抽样总的抽样误差取决于各层内的抽样误差，而各层内的抽样误差又取决于各层内部的方差和抽样数目。,重复抽样条件下的计算公式,(平均组内方差),不重复抽样条件下的计算公式,注意：,分层抽样的取决于各组内方差的平均数，而总方差=组内方差的平均数+组间方差，故分层抽样的小于简单随机抽样的

36、。由于总体方差是确定数，因此类型抽样分组（层）时，应尽量增大组（层）间差异，缩小组（层）内差异。提高抽样效果。,不等比例抽样,根据各组中标志变异的大小确定适当的抽样数目，差异程度大的组多抽一些单位，差异程度小的组少抽一些单位。则,例：,某乡全部粮食耕地5000亩，按平原和山区分类抽取630亩，计算各组平均亩产和标准差i 如下表。求抽样平均误差。,解：,三、等距抽样(机械抽样、系统抽样),等距抽样：是先将总体单位按某一标志排队，计算出抽样间隔，并在第一个抽样间隔内确定一个抽样起点，再按固定的顺序和相同的间隔来抽取样本单位进行观察的一种抽样方法。,系统抽样的具体做法如下：,从N 中抽取n个样本单位

37、，可先排队，算出间隔距离k=N/n，现从第一至k个单位中确定抽样起点（即第一个样本单位），之后，每隔k个单位抽取一个样本单位。(图示如下：),i,N,k,k,k,i+k,i+2k,i+(n-1)k,k,k,机械抽样的优点：,能提高样本单位分布的均匀性，样本代表性较强。其要小于简单随机抽样时的。样本单位的抽取工作也比较容易开展。,无关标志排队：,等距抽样据以排队的标志与调查内容没有直接关系。其是按简单随机抽样的公式近似计算的。,因为无关标志排队的结果，从所要调查的标志来看，总体单位的排列顺序实际上仍是随机的。所以，其抽样起点i可以随机确定，即可以是第一个抽样距离内的任一个总体单位：1i k，这样

38、得到的样本完全遵循了随机原则，不会产生系统偏差。而且抽样效果十分接近简单随机。,有关标志排队,指据以排队的标志与调查内容有密切关系。由于其排队标志与调查内容有密切关系，排队后，从所要调查的变量来看，总体单位也大致呈顺序排列。所以其抽样起点一般不宜随机确定。否则，若在第一个抽样间隔内随机地抽取一个标志值较小（或较大）的单位作为抽样起点，整个样本势必出现偏低（或偏高）的系统偏差。,半距起点等距抽样(中心系统抽样),以第一个抽样间隔内的中点为抽样起点，并每隔k个单位抽一个单位。,优点：样本代表性高。不足点：限制了抽样的随机性。,对称等距抽样,在第一个抽样间隔内随机地确定抽样起点(1i k)。然后以组

39、界k、2k、3k、(n-1)k为对称点两边对称地抽取样本单位。如下图所示：依次抽取的样本单位序号分别为i、2k+i、2k-i、4k+i、4k-i、6i+i、6k-i、,i,N,k,(n-1)k,2k,3k,nk,2K-i,2K+i,有关标志排队等距抽样的计算：,有关标志排队等距抽样相当于分层较多（将总体分为同等大小的n个层），而每层只抽取一个调查单位的特殊分层抽样，所以其抽样效果类似于分层抽样，其一般按分层抽样的抽样平均误差公式来近似计算。,注意：,等距抽样需要有总体的辅助信息，以便于进行单位的排序；等距抽样要避免抽样间隔和现象本身的周期、节奏重合而引起的系统性偏差。,工业产品质量检查时，抽样

40、时间间隔不宜与上下班或交接班时间一致。,例如：,四、整群抽样（集团抽样）,整群抽样：是将总体全部单位分为若干部分（每一部分称为一个群体，简称群），然后以群为单位，按随机原则从中抽取若干个群构成样本，对中选群内的所有单位进行全面调查的抽样方法。,整群抽样的特点：,整群抽样直接抽取的不是总体中的个体而是“群”，因此总体和样本是由“群”组成的。总体中的每一群所包含的单位数有每一群的单位数相等和不尽相等两种情况。影响抽样误差的方差是群间方差，群内方差不影响抽样误差。整群抽样是不重复抽样，应该用不重复抽样公式计算抽样平均误差。,整群抽样的优点：,由于是对中选群的全面调查，抽样单位比较集中，所以整群抽样能

41、大大降低数据收集的费用；当总体中个体自然聚合成群（例如：住户、学校）时，整群抽样组织更加方便；如果对于调查变量而言，群内单元差异较大，而不同群的差异较小，整群抽样比简单随机抽样的效率更高(例如为估计性别比采用按户的整群抽样)。,整群抽样的缺点：,对调查变量，若群内个体有趋同性，则整群抽样的抽样效率比简单随机抽样低，(这正是通常遇到的情况)，但对此项效率的损失可通过增加群的抽取个数来弥补；通常无法提前控制总样本量，因为在进行调查前，我们通常不知道一个群内到底有多少个个体；抽样误差的计算可能比简单随机抽样更为复杂。,整群抽样的取决于2的大小,整群抽样对中选群进行全面调查，其样本代表性取决于抽中群体

42、对全部群体的代表性。假设各群体之间没有差异（即各群体的内部结构完全相同），则抽样误差为0。可见，整群抽样的取决于群间差异程度的大小，而不受群体内部差异程度的影响。整群抽样的原则是：使群间方差尽可能小，群内方差尽可能大。,整群抽样的计算：,总体未知时可用样本指标替代。,其中：,例：,某市保险公司要调查居民家庭财产情况。该保险公司调查组把该市的街道作为群，全市共100个街道，共100群。随机抽选了18个街道(18群)进行了调查。调查结果样本平均数（样本中居民平均家庭财产数）为40000元，样本群间方差为(5100元)。试以95.45%的置信度估计全市平均家庭财产数。,解：,已知：，R=100，r=

43、18，t=2则：,置信区间：,五、多阶段抽样(多级抽样),多阶段抽样：它是先从总体中抽取一级单位，再从一级单位中抽取二级单位如此下去，最后才抽取所要调查的基本单位的一种抽样形式。,优点：是比整群抽样灵活，在样本容量相同的条件下，多阶段抽样的样本单位在总体中的散布比整群抽样均匀。此外，它还可以利用现成的行政区划组织系统作为划分各阶段的依据。缺点：调查结果的精确性不太高，计算、分析比较复杂。,以两阶段抽样为例,两阶段抽样在组织技术上是整群抽样和类型抽样的综合。先将总体分为R群，每群包含Mi个单位，假定N=M1+M2+M3+MR=RM，n1=m1+m2+m3+mro=r m。在每个阶段都是随机抽取样

44、本，都会产生随机误差，因此计算时要综合两阶段的误差。,以xij表示第i样本群第j个样本单位的标志值：,第一阶段抽样平均数的方差为：第二阶段抽样平均数的方差为：,两阶段抽样平均误差为：,或者,第五节必要抽样数目的确定,必要抽样数目：是指为了完成抽样调查任务，满足抽样调查的各项要求，也就是为了保证抽样推断能达到预期的可靠程度和精确度的要求，而科学计算的需要抽取的样本单位数。即样本单位数“n”的具体数值，也叫样本容量。,一、影响必要抽样数目的因素,总体各单位间的标志变异程度极限抽样误差的大小调查结果的概率保证程度抽样方法和抽样的组织形式。,二、必要抽样数目的计算,（一）简单随机抽样方式下的n,【例】

45、1：,某市对职工收入抽样调查，已知职工平均每人每月收入的标准差为220元，要求把握度为95.45%，允许误差为15元，则需抽查人数为：,【例】2：,调查一批帐单的差错率。根据以往的资料，差错率曾有过1%，3%，5%三种情况。现在要求把握度为95%，允许误差为，则需抽查的帐单数为：,（二）类型抽样方式下的n,（三）等距抽样方式下的n,等距抽样一般都采用不重复抽样的方式，按无关标志排队的抽样，用简单随机不重复抽样公式确定样本容量；按有关标志排序的抽样，用类型不重复抽样公式确定样本容量（公式从略）。,（四）整群抽样方式下的n,整群抽样一般采用不重复抽样，它的必要抽样数目的计算公式和简单随机抽样的计算

46、公式从结构上讲基本上是一致的。其不同之处有两个方面：一是标志变异指标不同。简单随机条件下必要抽样数目计算公式中的标志变异指标是总体方差。而整群抽样条件下的计算公式是群间方差。二是采用的单位数目不同。简单随机抽样公式中总体单位数和样本单位数分别用N、n表示。而整群抽样公式中总体群数和抽样群数分别用R、r表示。其计算公式为：,整群抽样要计算必要抽取的群数r,三、确定n应该注意的问题,必要抽样数目应大于30。实际调查时可对计算的必要抽样数目进行调整当总体单位数不大时，如果采用不重复抽样的方法抽取样本，必须应用不重复抽样的计算公式计算必要抽样数目；当总体单位数很大时，虽然采用不重复抽样方法，亦可采用重

47、复抽样的计算公式计算必要抽样数目。,当抽样调查是为了检验全面统计数字的质量时，全及总体的标志变异指标或p(1p)是有实际资料的，可以直接代入公式计算必要抽样数目。如有几个方差可以选用时，宜选择最大数值。一个总体往往同时计算抽样平均数和抽样成数。由于它们的方差和允许误差范围不同，因此，需要的必要抽样数目也不相同。为了防止由于样本单位数不足而扩大抽样误差，在实际工作中往往根据比较大的必要抽样数目进行抽样，以满足共同的需要。,【例】,对生产大型号的电池进行抽样调查，据以往资料知道，电流强度的标准差为0.4安培，合格品率为95。现用重复抽样方式并以95.45的概率保证程度做保证，抽样平均电流强度的极

48、限误差不超过0.08安培，抽样合格率的极限误差不超过5，试求必要抽样数目。,解：,抽样平均数的单位数：,抽样成数的单位数：,两个抽样指标所要求的单位数不同，应采取其中比较多的单位数，抽取100节，以满足共同要求。,在抽样推断中，全及指标值是确定的、唯一的，而样本指标值是一个随机变量。（）在其它条件不变的情况下，提高抽样估计的可靠程度，则降低了抽样估计的精确程度。（）,即问即答（判断题）,从同一总体中抽取部分单位构成样本，在样本容量相同的情况下，重复抽样构成的样本个数大于不重复抽样构成的样本个数。（）,即问即答（判断题）,抽样平均误差反映抽样误差的一般水平，每次抽样的误差可能大于抽样平均误差，也

49、可能小于抽样平均误差。（）,即问即答（判断题）,抽样估计的优良标准有三个：无偏性、可靠性和一致性。（）样本单位数的多少与总体各单位标志值的变异程度成反比，与抽样极限误差范围的大小成正比。（）,抽样平均误差是（）。抽样指标的标准差总体参数的标准差样本变量的函数总体变量的函数,即问即答（单项选择题）,反映样本指标与总体指标之间的平均误差程度的指标是（）。平均数离差概率度抽样平均误差抽样极限误差,即问即答（单项选择题）,以抽样指标估计总体指标要求抽样指标值的平均数等于被估计的总体指标值本身，这一标准称为（）。A.无偏性 B.一致性 C.有效性 D.准确性,即问即答（单项选择题）,抽样误差是指（

50、）。调查中所产生的登记性误差调查中所产生的系统性误差随机的代表性误差计算过程中产生的误差,即问即答（单项选择题）,抽样估计中的抽样误差()。是不可避免要产生的可以通过改进调查方式来消除可以事先计算出来只能在调查结束后才能计算其大小可以通过改变总体变异程度来控制,即问即答（多项选择题）,抽样推断中，样本容量的多少取决于（）。总体标准差的大小允许误差的大小抽样估计的把握程度总体参数的大小抽样方法和组织形式,即问即答（多项选择题）,总体参数区间估计必须具备的三个要素是（）。样本单位数样本指标全及指标抽样误差范围抽样估计的置信度,即问即答（多项选择题）,课间休息,父亲带4岁的儿子到动物园看猴子