书签分享收藏举报版权申诉 / 189

立即下载加入VIP免费专享

当前位置：首页 > 生活休闲 > 在线阅读 > 抽样推断统计学.ppt

抽样推断统计学.ppt

上传人：牧羊曲112

文档编号：6118636

上传时间：2023-09-26

格式：PPT

页数：189

大小：1.35MB

《抽样推断统计学.ppt》由会员分享，可在线阅读，更多相关《抽样推断统计学.ppt（189页珍藏版）》请在三一办公上搜索。

1、第九章抽样估计,一、抽样调查的概念又称为抽样推断，是指按照随机原则从总体中抽取部分样本单位进行调查，利用这部分单位的实际资料计算样本指标，并据以推算总体相应指标的一种统计方法。,第一节抽样调查的概念及作用,抽样调查是一种非全面调查目的在于推断总体的数量特征3.抽样必须遵循随机原则4.抽样调查必然存在可控误差,二、抽样调查的特点,三、抽样调查的作用,对于不可能进行全面调查，但又需要掌握其全面情况的现象，只能采取抽样调查的方式。2.对于理论上存在全面调查的可能性，但实际中却不可能进行或经济上不合算或资料的质量无法保证的现象，只能采用抽样调查。3.对于某些时效性要求较高的调查，往往采用抽样的形

2、式。4.抽样调查能满足经济性的要求。5.抽样调查可以补充和修正全面调查的结果,1.全及总体：也称母体，简称总体，指所要认识的研究对象全体。它是由所研究范围内具有某种共同性质的全体单位所组成的集合体。2.样本总体：又称子样，是从总体中抽取出来，作为代表这一总体的那部分单位组成的集合体。,第二节抽样推断的一般问题,一、总体与样本,1.参数：反映总体某种属性的综合指标。是根据总体各个单位的标志值或标志属性计算的，所以参数的数据是由总体各单位标志值或标志特征决定的。2.统计量：是根据样本各单位标志值或标志属性计算的综合指标。在抽样调查中，总体参数的具体数值事先未知，需用样本统计量来估计。,二、参数和

3、统计量,参数（总体指标）：也称总体特征数，是说明总体数量特征或规律性的数字。（1）设总体单位数为N（2）X 为标志总量（3）总体平均数为：（4）总体方差,（5）总体标准差（6）PMN为总体成数总体成数方差、标准差。,统计量（样本指标）,（1）样本容量为n（2）x 称为样本标志总量（3）样本平均数：（4）样本方差（5）样本标准差（6）pmn 称为样本成数总体成数方差、标准差,主要样本统计量,平均数比率（成数）方差,均值分布的数学期望和方差,抽样方法均值方差,（1）从无限总体抽样和有限总体放回抽样,（2）从有限总体不放回抽样,抽样误差,成数分布的数学期望和方差,抽样方法

4、均值方差,（1）从无限总体抽样和有限总体放回抽样,（2）从有限总体不放回抽样,根据中心极限定理，只要样本足够大，的分布就近似正态分布。（np和nq大于5时）,抽样误差,1.重复抽样和不重复抽样,三、抽样方法和样本可能数目,重复抽样：也称重置抽样。指从一个总体N个单位中每次抽取一个单位，把结果登记下来，又重新放回原总体，参加下一次抽取。,不重复抽样：也称不重置抽样。指每次从一个样本中抽取一个单位，连续进行n次抽取构成一个样本，但每次抽出的单位就不放回参加下一次抽取。,2.考虑顺序抽样和不考虑顺序抽样,考虑顺序抽样：指从总体N个单位中抽取n个单位组成样本，不但要考虑样本各单位的性质是否相同

5、，还要考虑不同性质各单位的中选顺序。,不考虑顺序抽样：指从总体N个单位中抽取n个单位组成样本，只考虑样本各单位的成分如何，而不考虑各单位的中选顺序。,3.把抽选方式和是否考虑样本中各单位的顺序结合起来的四种情况及其样本可能数目（M）：,1）考虑顺序的重复抽样2）考虑顺序的不重复抽样3）不考虑顺序的重复抽样4）不考虑顺序的不重复抽样,1.大数定律及其重要意义,四、抽样调查的数理基础,大数定律：又称大数法则，是说明大量的随机现象的平均结果具有稳定性质的法则。说明如果被研究的总体数量特征是由大量的相互独立的随机变量形成的，而且每个变量对总体的影响都相对地小、那么对大量随机变量加以综合平均的结果，变量

6、的个别影响相互抵消，而显现出他们共同作用的倾向，使总体数量特征具有稳定性。,即：如果随机变量总体存在着有限的平均数和方差，则对于足够多的抽样单位数n，可以以几乎趋近于1的概率，来期望抽样平均数与总体平均数的绝对离差为任意小，即对任意小的正数，有,从理论上解释了样本与总体之间的内在联系，即随着样本单位数n的增加，样本平均数有接近于总体平均数的趋势，或说，样本平均数在概率上收敛于总体平均数。,大数定律对于抽样推断的重要意义,2.正态分布的有关定理,若总体很大且服从正态分布，则从该总体中抽取容量为n的样本平均数也服从正态分布,且其平均数等于总体平均数，标准差（重复抽样）或（不重复抽样）.而标准

7、随机变量则服从标准正态分布N(0,1),（1）正态分布再生定理,若总体很大且变量X的平均数和标准差都是有限的数，但不服从正态分布，只要样本足够大（n30），样本平均数的分布就趋近于正态分布,且有，标准差（重复抽样）或（不重复抽样）。而标准随机变量则服从标准正态分布N(0,1).,（2）中心极限定理,第三节抽样推断的基本原理,一、抽样估计的优良标准,无偏性一致性有效性,评价准则,的数学期望等于总体参数，即,该估计量称为无偏估计,无偏性,有效性,当为的无偏估计时，方差越小，无偏估计越有效。,一致性,对于无限总体，如果对任意,则称是,的一致估计。,估计量,二、抽样误差,1

8、.抽样误差的概念和意义抽样误差是指抽样指标与总体指标之间的离差。抽样误差不包括下面两类误差：登记性误差：在调查过程中由于观察、测量、登记、计算上的差错而引起的误差。系统性误差：由于违反抽样调查的随机原则，造成样本的代表性不足所引起的误差。,2.抽样误差的影响因素,总体各单位标志值的变异程度。在其他条件不变的情况下，总体各单位标志值的变异程度愈大，抽样误差也愈大，反之则愈小。样本单位数的多少。在其他条件不变的情况下，样本单位数愈多，抽样误差就愈小，反之则愈大。抽样方法。抽样方法不同，抽样误差也不同。一般，重复抽样的误差比不重复抽样的误差要大。抽样的组织形式。不同的抽样组织形式，有不同的抽样误差。

9、,三、抽样平均误差,1.抽样平均误差概念样本平均数（样本成数）对总体平均数（或总体成数）的标准差。表示样本平均数的平均误差，表示样本成数的平均误差，M表示样本可能数目。则：,2.抽样平均误差的计算,当抽样方式为重复抽样时它说明在重复抽样的条件下，抽样平均误差与总体标准差成正比，与样本容量的平方根成反比。当抽样方式为不重复抽样时,例：有5个工人的日产量分别为：6，8，10，12，14件，用重复抽样的方法，从中随机抽取2个工人的日产量，用以代表这5个工人的总体水平，则抽样平均误差为多少？,解：总体均值：总体标准差：抽样平均误差：,若用不重复抽样的方法：,在计算抽样平均误差时，通常得不到总体标准

10、差的数值，一般用样本标准差来代替总体标准差。,根据样本平均误差和总体标准差的关系，可得到样本成数的平均误差的计算公式：1.在重复抽样下：2.在不重复抽样下：,例：某企业生产的产品，按正常生产经验，合格率为90%。现从5000件产品中抽取50件进行检验，求合格率的抽样平均误差。,解：在重复抽样条件下：不重复抽样条件下：,四、抽样极限误差抽样极限误差是指样本和总体指标之间误差的可能范围。由于总体指标是一个确定的数，而样本指标则是围绕总体指标上下波动的，它与总体指标之间既有正离差，也有负离差，样本指标变动的上限或下限与总体指标之差的绝对值就可以表示抽样误差的可能范围，我们将这种以绝对值形式表示的抽

11、样误差可能范围称为抽样极限误差。也称作允许误差、误差范围、误差置信限。,设x与p分别表示样本平均数与样本成数的抽样极限误差，则有：上述公式变换为不等式可表示成：,抽样误差的概率度把极限误差除以相应的抽样平均误差，便得到数值Z，表示误差范围为抽样平均误差的Z倍。Z是测量估计可靠程度的一个参数，称为抽样误差的概率度。其公式为：,抽样估计的置信度就是表明抽样指标和总体指标的误差不超过一定范围的概率保证程度。抽样时，估计抽样误差的范围大小称为抽样估计的精确程度；估计这一范围的概率是多少称为抽样估计的可靠程度。抽样误差范围增大时，抽样估计的置信度也大，抽样精确程度则降低，反之亦然。,四、抽样估计的置信度

12、,由于提高把握程度，会增大允许误差，使估计精度降低，而缩小允许误差，提高估计的精度，又会降低估计的把握程度，所以在实际中应根据具体情况，先确定一个合理的把握程度再求相应的允许误差或先确定一个允许误差范围再求相应的把握程度。,68.27%,95.45%,99.73%,当z=1时，F(z)=68.27%当z=1.96时，F(z)=95%当z=2时，F(z)=95.45%当z=3时，F(z)=99.73%,常用概率度Z值及相应的概率保证程度为：,六、抽样推断的方法,抽样推断的方法，即参数估计就是以所计算的样本指标来估计相应的总体指标。参数估计有点估计和区间估计两种形式。,（一）点估计,也称定值估计，

13、即直接以抽样指标值代表总体指标的估计值。通常评选估计量优良有三个标准，即：*无偏性*有效性*一致性,点估计的方法,*矩估计法*顺序统计量法*最大似然法*最小二乘法,点估计的缺点,由于一次只随机抽取一个样本，因样本不同，估计值会有很大差异，因此一次只随机抽一个样本的点估计值不能恰当代表所要估计的总体参数，即点估计的主要缺点是没有解决参数估计的精确度与可靠性问题。,（二）区间估计,对于总体的未知指标X，根据样本构造的两个统计量x1、x2，(x1x2)，使随机区间(x1，x2)包含X的概率等于给定值1(01)，即 P(x1Xx2)1 则称1为置信概率，也就是估计的可靠程度，也称为置信度。为显著水平，

14、(x1，x2)称为X的置信区间，x1，x2分别称为置信下限和置信上限。,根据所给条件不同有两种方法：,根据已给定的置信度的要求，利用概率表查出这个概率保证程度所对应的概率度 Z,然后结合抽样所得的抽样平均误差，最后求出抽样误差可能范围（极限误差）。2.根据已给定的允许误差范围（极限误差），然后结合抽样所得的平均误差，将极限误差除以平均误差，求出概率度 Z 值，在从概率表中查出有关 Z 值所对应的置信度F(Z).,1.总体平均数的区间估计,表达式,其中，为极限误差,步骤,计算样本平均数；,搜集总体方差的经验数据；或计算样本标准差，即,计算抽样平均误差：,重复抽样时：,不重复抽样时：,计算抽样极限

15、误差：,确定总体平均数的置信区间：,【例A】某企业生产某种产品的工人有1000人，某日采用不重复抽样从中随机抽取100人调查他们的当日产量，要求在95的概率保证程度下，估计该厂全部工人的日平均产量和日总产量。,100名工人的日产量分组资料,解：,则该企业工人人均产量及日总产量的置信区间为：,即该企业工人人均产量在124.797至127.203件之间，其日总产量在124797至127303件之间，估计的可靠程度为95。,【例B】某乡水稻总面积20000亩，以不重置抽样方法从中随机抽取400亩实割实测求得样本平均亩产645公斤，标准差72.6公斤。要求极限误差不超过7.2公斤，试对该乡水稻的亩

16、产和总产量作估计。,第一步：计算抽样平均误差,第二步：计算平均亩产和总产量的上下限,亩产下限=645-7.2=637.8(公斤),亩产上限=645+7.2=652.2(公斤),第三步：计算概率度,总产量下限=20000637.8=1275.6(公斤),总产量上限=20000652.2=1304.4(公斤),以95.45%保证该乡水稻平均亩产在637.8至652.2公斤之间，总产量在1275.6至1304.4万公斤之间。,(二)总体成数的区间估计,表达式,其中，为极限误差,步骤,计算样本成数；,搜集总体方差的经验数据；,计算抽样平均误差：,重复抽样条件下,不重复抽样条件下,计算抽样极限误差：,确

17、定总体成数的置信区间：,【例B】若例A中工人日产量在118件以上者为完成生产定额任务，要求在95的概率保证程度下，估计该厂全部工人中完成定额的工人比重及完成定额的工人总数。,100名工人的日产量分组资料,完成定额的人数,幻灯片 47,解：,则该企业全部工人中完成定额的工人比重及完成定额的工人总数的置信区间为：,即该企业工人中完成定额的工人比重在0.8432至0.9568之间，完成定额的工人总数在843.2至956.8人之间，估计的可靠程度为95。,保证抽选样本时按照随机原则进行。抽取样本单位时，应确保每个总体单位都有被抽取的可能；在对样本单位的资料进行搜集和整理时，不能随意遗漏或更换样本单

18、位。考虑样本合适的容量。要兼顾抽样组织形式和抽样方法。必须重视调查费用这个基本因素。在其他条件相同的情况下，选择费用最少的方案。,一、抽样方案设计的原则,第四节抽样组织设计,二、抽样方案的检查(一)准确性检查所谓准确性检查，看是否超过了方案所允许的误差的范围。若误差限小于或等于允许的误差，即：x允许误差，则说明方案的设计符合准确性的要求，可以实施。若，x允许误差，则说明方案不符合准确性的要求，就要对方案进行检查和修正，直至符合准确性的要求为止。,(二)代表性检查所谓代表性检查，是将方案中的样本指标与过去已掌握的总体同一指标进行对比，看其比率是否超过所规定的要求。,编制抽样框确定抽样方法

19、确定抽样组织方式确定样本容量,三、抽样方案设计的主要内容,（一）抽样框,指包括全部抽样单位的名单框架或清单表，仅对有限总体而言总体单位名称表地段抽样框,区域抽样框,在商场的大门口,在微波炉柜台前,在某个住宅小区,中山路桥西区桥东区华北地区东北地区居民一组居民二组,某公司在大连进行微波炉市场调查：,在市区街道旁边,(二)确定抽样方法,重复抽样,又被称作重置抽样、有放回抽样,抽出个体,登记特征,放回总体,继续抽取,特点,同一总体单位有可能被重复抽中，而且每次抽取都是独立进行。,不重复抽样,又被称作不重置抽样、不放回抽样,抽出个体,登记特征,继续抽取,特点,同一总体中每个单位被抽中的机会并不均等，

20、在连续抽取时，每次抽取都不是独立进行。,是最为常用的抽样方法，用于无限总体和许多有限总体样本单位的抽样。,1.简单随机抽样简单抽样也称纯随机抽样，是在总体单位均匀混合的情况下，按随机原则逐个抽出样本的抽样方法。比较适合于在总体单位标志变异较小，总体单位数不是很多的情况。,（三）确定抽样组织方式,计算样本平均数计算样本标准差计算抽样平均误差（重复）（不重复）推断。若已知置信度，对置信区间作出推断；若已知允许误差范围，对置信度作出判断。,简单随机抽样推断步骤,（1）总体平均数的推断,计算样本成数计算抽样成数方差计算成数抽样平均误差（重复）；（不重复）推断。若已知置信度，对置信区间作出推断；若已知允

21、许误差范围，对置信度作出判断。,（2）总体成数的推断,重复抽样不重复抽样,必要抽样数目的确定,（1）样本平均数给定时必要抽样数目的确定,计算结果通常向上进位,【例A】某食品厂要检验本月生产的10000袋某产品的重量，根据上月资料，这种产品每袋重量的标准差为25克。要求在95.45的概率保证程度下，平均每袋重量的误差范围不超过5克，应抽查多少袋产品？,重复抽样不重复抽样,（2）样本成数给定时必要抽样数目的确定,【例B】某企业对一批总数为5000件的产品进行质量检查，过去几次同类调查所得的产品合格率为93、95、96，为了使合格率的允许误差不超过3，在99.73的概率保证程度下，应抽查多少件产

22、品？,【分析】因为共有三个过去的合格率的资料，为保证推断的把握程度，应选其中方差最大者，即P=93。,2.类型抽样类型抽样又称分层抽样，是指在抽样之前，先将总体依照某种标准划分为若干互不重叠且穷尽的子总体，即每个单位必属于且仅属于一个子总体，称这些子总体为类或层，然后，在各层中独立抽取样本单位，总体样本由各层样本组成，根据各层样本汇总对总体参数作出估计。这种方式应用最为广泛。,类型抽样能使样本结构更接近于总体结构，提高样本的代表性；能同时推断总体指标和各子总体的指标。,总体N,样本n,等额抽取,等比例抽取,类型抽样分组是要遵循的原则层内的齐一性，即被划入同一层的个体单位要尽可能的近似。层

23、间的差距性，即在不同层内的单位尽可能使其有较大的差异。,类型抽样的估计量和推断步骤（1）类型抽样的估计量抽样误差的确定重复抽样下：样本平均数的平均误差：,其中，,样本成数的平均误差：其中，,不重复抽样下：样本平均数的平均误差：样本成数的平均误差：,必要抽样数目的确定重复抽样下：样本平均数的必要抽样数目：样本成数的必要抽样数目：,不重复抽样下：样本平均数的必要抽样数目：样本成数的必要抽样数目：,（2）类型抽样推断的步骤计算各组的组平均数其中，i=1,2,k；j=1,2,fi 计算各组的组内方差 i=1,2,k；j=1,2,fi 计算抽样的样本平均数,计算抽样样本的组内方差的平均数计算抽样

24、的平均误差（重复抽样）计算抽样推断的极限误差，或确定抽样推断的置信度F(z).,【例C】某厂有职工3300人，根据工作性质不同分为管理人员和工人两部分，其中管理人员300人，工人3000人。现按比例抽选10职工进行月工资调查，这330人的月工资资料如下表所示，要求在95的概率保证程度下（Z=1.96）对其平均收入做出区间估计。,解：计算各组平均数：各组组内方差：,样本平均数：组内方差的平均数：抽样平均误差：抽样极限误差：则该厂职工的平均月工资收入为707.27-11.39，707.27+11.39，即以95%的置信度推断该厂职工平均工资收入的置信区间为695.88，718.66。,结论,第一，

25、根据总体方差等于组间方差与组内平均方差之和的定理，所以类型抽样的平均误差一般小于简单随机抽样的平均误差，只有当组间方差等于0时，两者才相等。第二，由于总体方差是唯一确定的数值，因此在类型抽样分组时应该尽可能扩大组间方差，缩小组内方差，即各组间的差异可以大，而各组内的差异必须小，这样就可以减少抽样误差。,整群抽样也称集团抽样，是指在组织抽样调查时，将总体单位的某些特征将总体分为若干部分，每一部分称为一个群，把每一群作为一个抽样单位，按群进行抽样，然后，对抽中的群进行全面调查的组织形式。,3.整群抽样,例：总体群数R=16 样本群数r=4,样本容量,简单、方便，能节省人力、物力、财力和时间，但其样

26、本代表性可能较差,进行整群抽样的原则群内单位的变异性，即同一群体内的各单位，其统计特征值相差大一些好。群间的齐一性，即群与群之间的统计特征值相差小一些好。,整群抽样的估计量及其抽样平均误差,设总体的全部N单位划分为R群，每群包含M单位。则NRM。现在从总体R群中随机抽取r群组成样本，并分别对中选r群的所有M单位进行调查。,第i群的样本平均数,样本平均数,可看出，整群抽样实质上以群代替总体单位，以群平均数代替总体单位标志值之后的简单随机抽样。,整群抽样都采用不重置抽样的方法，所以抽样平均误差为：,整群抽样是对中选群进行全面调查，所以只存在群间抽样误差，不存在群内抽样误差。类型抽样分组的作用

27、在于尽量缩小组内的差异程度，达到扩大组间方差的目的。整群抽样分组的作用在于尽量扩大群内的差异程度，达到缩小群间方差提高效果的目的。,群间方差为：,【例C】某厂生产某种灯泡，在连续生产的720小时中，每隔24小时抽取1小时的全部产品加以检验，根据抽样资料计算结果，灯泡平均寿命为1200小时，群间方差为60小时。计算样本平均数的抽样平均误差，并以95的可靠程度推断该批灯泡的平均使用寿命。解：由题意样本平均数的抽样平均误差为：以95%的概率保证程度估计该批灯泡的平均使用寿命在1200-1.961.385，1200+1.96 1.385即1197.29，1202.72小时之间。,等距抽样也称系统抽样或

28、机械抽样，是将总体各单位按某一标志顺序排列，然后按照一定的间距抽取样本单位。等距样本都是不重复抽样。,随机起点,半距起点,对称起点,（总体单位按某一标志排序）,等距抽样的组织方法,4.等距抽样,等距抽样的估计量可采用简单随机抽样的形式来估计。,按无关标志排队，其抽样效果相当于简单随机抽样；按有关标志排队，其抽样效果相当于类型抽样。,例：在某省100多万农户抽取1000户调查农户生产性投资情况。,将整个抽样过程分成若干阶段，然后逐阶段进行抽样。,5.多阶段抽样,多阶段抽样的估计推断,例：二阶段抽样,首先将总体划分为R组，每组包含Mi个单位。抽样第一阶段从R组中随机抽取r组，第二阶段再从中选的r组

29、中分别从各组Mi单位随机抽取mi个单位，构成一个样本，这种抽样就是两阶段抽样。各组的单位数可以是相等的也可以是不等的。各组抽取的单位数可以是相等的，也可以是不等的。为了简化起见，假定总体R组中每组的单位都等于M，则有NMR，而且从各组抽取的单位数也相等，都为m,则有n=mr。,两阶段抽样可以看作是整群抽样和类型抽样的结合。即整群抽样第一阶段从总体的全部组中，随机抽取部分的组，和类型抽样第二阶段从中选组中抽选部分单位两个程序的结合。,从总体R组中随机抽取r组，并从r组中，每组M个单位中抽m 个单位构成样本。样本平均数可以这样计算：先计算第i组的样本平均数：,再计算样本的平均数：,两阶段抽样的平均

30、误差是由两部分构成的，第一部分是第一阶段从总体全部组抽部分组所引起的组间误差，第二部分是由第二阶段在中选组中抽部分单位所引起的组内平均误差。在总体R组中抽取r 组，又在r组中每组M个单位抽取m个单位的情况下，样本平均数的抽样平均误差为：,应用以上公式，在得不到总体资料的情况下，可以用样本资料来代替。,第十章假设检验,第一节假设检验的原理,什么是假设?,对总体参数的一种看法总体参数包括总体均值、比例、方差等分析之前必需陈述,我认为该企业生产的零件的平均长度为4厘米!,一、假设检验的概念对总体参数或分布做出假设，用样本统计量来推断总体参数，但不是推断总体参数在什么范围内，而是推断总体参数是否与

31、假设参数相符合。,特点采用逻辑上的反证法依据统计上的小概率原理,假设检验中的小概率原理,什么小概率？1.在一次试验中，一个几乎不可能发生的事件发生的概率（小概率事件）,因此就有理由怀疑该假设的真实性，拒绝这一假设。2.在一次试验中小概率事件一旦发生，我们就有理由拒绝原假设3.小概率由研究者事先确定,总体（某种假设）,样本（观察结果）,检验,（接受）,（拒绝）,小概率事件未发生,小概率事件发生,抽样,假设检验的过程（提出假设抽取样本作出决策）,二、假设检验基本思路1.设立假设（原假设和备择假设）2.确定显著性水平及相应的临界值3.构造检验统计量 4.确定拒绝域5.作出决策,提出原假设和

32、备择假设,什么是原假设？(Null Hypothesis)1.待检验的假设，又称“0假设”2.如果错误地作出决策会导致一系列后果3.总是有等号,或4.表示为 H0H0：某一数值指定为=号，或或例如,H0：500（克）,为什么叫0假设,什么是备择假设？(Alternative Hypothesis)1.与原假设对立的假设2.总是有不等号:,或 3.表示为 H1H1：某一数值，或某一数值例如,H1：3910(克)，或 3910(克),什么检验统计量？1.用于假设检验问题的统计量2.选择统计量的方法与参数估计相同，需考虑:是大样本还是小样本总体方差已知还是未知3.检验统计量的基本形式为:,确

33、定适当的检验统计量,规定显著性水平,什么显著性水平？1.是一个概率值2.原假设为真时，拒绝原假设的概率被称为抽样分布的拒绝域3.表示为常用的值有0.01,0.05,0.104.由研究者事先确定,作出统计决策,计算检验的统计量根据给定的显著性水平，查表得出相应的临界值Z或Z/2将检验统计量的值与水平的临界值进行比较得出接受或拒绝原假设的结论,第二节假设检验的方法,一、假设检验的类型1.参数检验 2.非参数检验,二、假设检验的形式1.单侧检验 2.双侧检验,双侧检验与单侧检验,双侧检验,双侧检验属于决策中的假设检验。也就是说，不论是拒绝H0还是接受H0，我们都必需采取相应的行动措施例如，某

34、种零件的尺寸，要求其平均长度为10厘米，大于或小于10厘米均属于不合格建立的原假设与备择假设应为 H0:=10 H1:10,原假设与备择假设的确定,确定假设的步骤,1.例如问题为:检验该企业生产的零件平均长度为4厘米2.步骤从统计角度陈述问题(=4)从统计角度提出相反的问题(4)必需互斥和穷尽提出原假设(=4)提出备择假设(4)有符号,显著性水平与拒绝域,双侧检验,显著性水平与拒绝域,原假设与备择假设的确定,检验研究中的假设将所研究的假设作为备择假设H1将认为研究结果是无效的说法或理论作为原假设H0。或者说，把希望(想要)证明的假设作为备择假设先确立备择假设H1,单侧检验,例如，采用新技术生

35、产后，将会使产品的使用寿命明显延长到1500小时以上属于研究中的假设建立的原假设与备择假设应为 H0:1500 H1:1500例如，改进生产工艺后，会使产品的废品率降低到2%以下属于研究中的假设建立的原假设与备择假设应为 H0:2%H1:2%,检验某项声明的有效性将所作出的说明(声明)作为原假设对该说明的质疑作为备择假设先确立原假设H0除非我们有证据表明“声明”无效，否则就应认为该“声明”是有效的,例如:某灯泡制造商声称，该企业所生产的灯泡的平均使用寿命在1000小时以上.除非样本能提供证据表明使用寿命在1000小时以下，否则就应认为厂商的声称是正确的建立的原假设与备择假设应为 H0:1000

36、 H1:1000,提出原假设:H0:25选择备择假设:H1:25,例：学生中经常上网的人数超过25%吗?（属于研究中的假设，先提出备择假设）,单侧检验显著性水平与拒绝域,左侧检验（显著性水平与拒绝域）,左侧检验（显著性水平与拒绝域）,右侧检验（显著性水平与拒绝域）,右侧检验（显著性水平与拒绝域）,二、Z检验与t 检验,(一)Z检验检验统计量一般用与临界值对比来决定是否接受原假设。(二)t 检验在假设检验中，若总体标准差未知，而需用样本标准差来代替时，则统计量不服从正态分布，而服从t分布。,一个总体的检验:,三、假设检验的应用,总体平均数的假设检验（1）总体为正态分布且方差已知

37、Z检验（2）总体为正态分布，但方差未知 t 检验（3）两个样本均值之间差异的显著性检验,检验的步骤,建立总体假设H0，H1,抽样得到样本观察值,1,2,选择统计量确定H0为真时的抽样分布,3,根据具体决策要求确定,确定分布上的临界点C和检验规则,计算检验统计量的数值,比较并作出检验判断,7,4,5,6,几种常见的假设检验,总体均值的检验,条件,检验统计量,拒绝域,H0、H1,(1)H0：=0 H1：0,z,(2)H0：0 H1：0,(3)H0：0 H1：,z,0,z,0,正态总体2已知,【例】某机床厂加工一种零件，根据经验知道，该厂加工零件的椭圆度近似服从正态分布，其总体均值为0=0.081m

38、m，总体标准差为=0.025。今换一种新机床进行加工，抽取n=200个零件进行检验，得到的椭圆度为0.076mm。试问新机床加工零件的椭圆度的均值与以前有无显著差异？（0.05）,均值的双侧 Z 检验,H0:0=0.081H1:0 0.081=0.05n=200临界值(s):,检验统计量:,决策:,结论:,-2.831.96,所以拒绝H0,表明新机床加工的零件的椭圆度与以前有显著差异,【例】某橡胶厂生产汽车轮胎，根据历史资料统计结果，平均里程为25000公里，标准差为1900公里。现在从新批量的轮胎中随机抽取400个作试验，求得样本平均里程为25300公里。试按5的显著性水平判断新轮胎的平均耐

39、用里程与通常的耐用里程有没有显著的差异。,第一步：建立原假设第二步：给定显著性水平，=0.05由于是双侧检验，两边拒绝域的概率各为0.025，即下临界值为-1.96，上临界值为1.96,第三步：根据样本信息,计算Z统计量的值第四步：检验判断由于实际Z值3.16上临界值1.96，所以我们有理由拒绝原假设，即推翻新批量轮胎的平均耐用里程和原来没有显著差异的假设。,【例】某批发商欲从生产厂家购进一批灯泡，根据合同规定，灯泡的使用寿命平均不能低于1000小时。已知灯泡使用寿命服从正态分布，标准差为20小时。在总体中随机抽取100只灯泡，测得样本均值为960小时。批发商是否应该购买这批灯泡？(0.05)

40、,均值的单侧 Z 检验,H0:1000H1:1000=0.05n=100临界值(s):,检验统计量:,-2-1.645,所以在=0.05的水平上拒绝H0,表明这批灯泡的使用寿命低于1000小时。,决策:,结论:,【例】根据过去大量资料，某厂生产的灯泡的使用寿命服从正态分布N(1020，1002)。现从最近生产的一批产品中随机抽取16只，测得样本平均寿命为1080小时。试在0.05的显著性水平下判断这批产品的使用寿命是否有显著提高？(0.05),H0:0 1020H1:0 1020=0.05n=16临界值(s):,检验统计量:,2.41.645,所以在=0.05的水平上拒绝H0,有证据表明这批灯

41、泡的使用寿命有显著提高。,决策:,结论:,几种常见的假设检验,总体均值的检验,条件,检验统计量,拒绝域,H0、H1,(1)H0：=0 H1：0,z,(2)H0：0 H1：0,(3)H0：0 H1：,0,t,0,正态总体2未知(n30),0,t,【例】某罐头厂生产肉类罐头，按规定自动装罐的标准罐头净重为500克。现在从一班生产中抽取10瓶罐头实测罐重(克)的结果如下：505，512，497，493，508，515，502，495，490，510给定=0.01，问装罐车间的生产是否正常。,第一步：建立原假设第二步：给定显著性水平，=0.01由于是小样本，所以采用t统计量，自由度为10-1=9，两边

42、拒绝域的概率各为0.025，即下临界值为-3.25，上临界值为3.25。,第三步：根据样本信息,计算t统计量的值第四步：检验判断由于实际t值 1上临界值3.25，所以我们不能拒绝原假设，即认为装罐生产属于正常。,【例】某厂采用自动包装机分装产品，假定每包产品的重量服从正态分布，每包标准重量为1000克。某日随机抽查9包，测得样本平均重量为986克，样本标准差为24克。试问在0.05的显著性水平上，能否认为这天自动包装机工作正常？,均值的双侧 t 检验,H0:0=1000H1:0 1000=0.05df=9-1=8临界值(s):,检验统计量:,-2.306-1.752.306，在=0.05的水平

43、上接受H0,有证据表明这天自动包装机工作正常,决策：,结论：,【例】一个汽车轮胎制造商声称，某一等级的轮胎的平均寿命在一定的汽车重量和正常行驶条件下大于40000公里，对一个由20个轮胎组成的随机样本作了试验，测得平均值为41000公里，标准差为5000公里。已知轮胎寿命的公里数服从正态分布，我们能否根据这些数据作出结论，该制造商的产品同他所说的标准相符？(=0.05),均值的单侧 t 检验,H0:0 40000H1:0 40000=0.05df=20-1=19临界值(s):,检验统计量:,0.894-1.7291,在=0.05的水平上接受H0,表明轮胎使用寿命显著地大于40000公里,决策:

44、,结论:,两个总体均值之差的检验,条件,检验条件量,拒绝域,H0、H1,(1)H0:1=2 H1:1 2,(2)H0:2 H1:2,(3)H0：1 2 H1：1 2,t,0,t,0,0,两个正态总体,已知,【例】有两种方法可用于制造某种以抗拉强度为重要特征的产品。根据以往的资料得知，第一种方法生产出的产品其抗拉强度的标准差为8公斤，第二种方法的标准差为10公斤。从两种方法生产的产品中各抽取一个随机样本，样本容量分别为n1=32，n2=40，测得x1=50公斤，x2=44公斤。问这两种方法生产的产品平均抗拉强度是否有显著差别？(=0.05),H0:1-2=0H1:1-2 0=0.05n1=32，

45、n2=40临界值(s):,检验统计量:,决策:,结论:,2.831.96,拒绝H0,表明两种方法生产的产品其抗拉强度有显著差异.,2.总体成数的假设检验,（1）总体成数的双侧检验检验统计量（2）总体成数的单侧检验原理同平均数单侧检验一样，只是计算抽样平均误差的公式不同。,总体成数的检验,条件,检验条件量,拒绝域,H0、H1,(1)H0：P=P0 H1：PP0,z,(2)H0：PP0 H1：PP0,(3)H0：PP0 H1：PP0,z,0,z,0,0,np5nq5,一个总体成数的 Z 检验,【例】某研究者估计本市居民家庭的电脑拥有率为30%。现随机抽查了200的家庭，其中68个家庭拥有电脑。

46、试问研究者的估计是否可信？(=0.05),H0:p=0.3H1:p 0.3=0.05n=200临界值(s):,检验统计量:,-1.961.2341.96,在=0.05的水平上接受H0,表明研究者的估计可信,决策:,结论:,【例】某公司宣称有75%以上的消费者满意其产品的质量。一家市场调查公司受委托调查该公司此项声明是否属实。随机抽样调查625位消费者，表示满意该公司产品质量者有500人，试问在0.05的显著性水平下，该公司的声明是否属实。,第一步：建立原假设第二步：给定显著性水平，=0.05由于是单侧检验，所以F(Za)=1-2a=1-0.1=0.9,则查表得=1.645,第三步：根据样本信息

47、，计算Z统计量的值第四步：检验判断由于实际Z值2.8871.645，所以拒绝原假设，即认为该公司的声明属实。,3.总体方差的假设检验,用分布来确定临界值。检验统计量为：其中，为样本方差。是服从自由度df=n-1的分布，记为,【例】根据长期正常生产的资料可知，某厂所产维尼纶的纤度服从正态分布，其方差为0.0025。现从某日产品中随机抽取20根，测得样本方差为0.0042。试判断该日纤度的波动与平日有无显著差异？(=0.05),H0:2=0.0025H1:2 0.0025=0.05df=20-1=19临界值(s):,统计量:,8.90731.9232.852,在=0.05的水平上接受H0,表

48、明该日纤度的波动比平时没有显著差异,决策:,结论:,【例】炮弹火药装配车间，规定炮弹的火药重量服从标准差为20克的正态分布，现在从生产线中随机取16枚炮弹实测样本标准差为24克。请以0.02的显著性水平，检查炮弹的火药重量是否有显著的变异。,第一步：建立原假设第二步：给定显著性水平，=0.02 自由度=16-1=15查分布表，得下临界值，上临界值,第三步：根据样本信息，计算统计量的值第四步：检验判断由于5.22921.630.578，所以我们不能拒绝原假设，而认为总体方差没有异常的变异。,四、假设检验的两类错误,1.第一类错误（弃真错误）原假设为真时拒绝原假设会产生一系列后果第一类错误的

49、概率为被称为显著性水平2.第二类错误（取伪错误）原假设为假时接受原假设第二类错误的概率为,H0:无罪,假设检验中的两类错误（决策结果）,假设检验就好像一场审判过程,统计检验过程,错误和错误的关系,你不能同时减少两类错误!,a和的关系就像翘翘板，a小就大,a大就小,影响错误的因素,1.总体参数的真值随着假设的总体参数的减少而增大2.显著性水平当减少时增大3.总体标准差当增大时增大4.样本容量 n 当 n 减少时增大,第三节常用非参数检验方法,非参数检验是指对总体分布不做任何限制性假设的统计检验方法。也称之为自由分布检验或无分布检验。,共同点,二者共同点在于都对总体的某种数量特

50、征作出假设，建立原假设和备择假设，都给定检验的显著性水平，并根据实际的统计量来判断对原假设的取舍。,不同点,参数检验要求总体的分布类型已知，所不知道的只是其中某个参数是否有变动。非参数检验不依赖总体的分布。,非参数检验与参数检验的区别与联系：,当定距或定比尺度测量的数据能够满足参数检验的所有假设，非参数检验方法虽然也可以使用，但效果远不如参数检验。,优点,缺点,非参数检验对总体分布假定不多，适用面广假定条件少具有稳健性,一、检验,属于拟合程度检验，它是利用随机样本对总体分布与某种特定分布拟合程度的检验。即检验观察值与理论值之间的紧密程度。,检验步骤：,确立原假设和备择假设。按照“原假设为