抽样估计和假设检验.ppt
《抽样估计和假设检验.ppt》由会员分享,可在线阅读,更多相关《抽样估计和假设检验.ppt(68页珍藏版)》请在三一办公上搜索。
1、第5章 抽样估计和假设检验,第5章 抽样估计和假设检验,抽样估计所采用的是统计推断中参数估计的思想和方法,简单随机抽样情况下的抽样估计就是统计推断中的参数估计,在不同的抽样方式下又产生了具体的估计方法,比如系统抽样下的估计、分层抽样下的估计、整群抽样下的估计等等。统计推断是统计的核心思想,包括参数估计和假设检验等内容。是根据带随机性的观测数据即样本数据以及问题的条件和假定(概率模型),而对未知现象作出的,以概率形式表述的判断。它是数理统计学的主要任务,其理论和方法构比例理统计学的主要内容。统计推断的一个基本特点是:其所依据的条件中包含有带随机性的观测数据。以随机现象为研究对象的概率论,是统计推
2、断的理论基础。,第5章 抽样估计和假设检验,在数理统计学中,统计推断常包含两个方面的内容,一是已知条件:所研究问题的总体、总体分布(部分未知或未知)、样本;二是推断结论:通过样本(观测数据)作出与未知分布有关的某种结论。例如,某一群人的身高构成一个总体,通常认为身高服从正态分布,但不知道这个总体的均值,随机抽部分人,测得身高的值,用这些数据来估计这群人的平均身高,即属参数估计问题。若感兴趣的问题是“平均身高是否超过170cm”,就需要通过样本检验此命题是否成立,即假设检验。,第5章 抽样估计和假设检验,本章要介绍的内容由抽样估计和假设检验两部分组成。抽样估计包括总体均值的抽样估计和总体比率的抽
3、样估计,第5章 抽样估计和假设检验,5.1 抽样估计概述5.1.1 抽样估计的概念1.抽样估计抽样估计就是按照随机抽样的原则,从总体中抽出一部分单位作为样本,并利用样本的实际资料计算样本指标值,然后根据样本指标对总体的数量特征(总体指标)做出具有一定可靠程度的估计和判断的一种统计分析方法。,第5章 抽样估计和假设检验,2.总体和样本总体也称全及总体,指所要认识研究对象的全体。它是由所研究范围内具有某种共同性质的全体单位所组成的集合体。总体的单位数通常是很大的,甚至是无限的,一般用N表示总体的单位数。样本又称子样,它是从全及总体中随机抽取出来的们作为代表这一总体的哪部分单位组成的集合体,样本的单
4、位数是有限的,相对值或标志属性决定的。,第5章 抽样估计和假设检验,3.总体参数和样本统计量总体参数是总体的数量特征。对于某个总体来说,其参数是定值。但是在某一实际问题中,总体参数通常是未知的,这就需要通过样本数据所提供的总体的有关信息对参数进行推断。一个全及指标的指标数值是确定的、唯一的,所以称为参数。一个总体常常有多个参数,这些参数从各个不同的角度反映总体分布的基本情况和特征。通常最关心的就是表示总体分布集中趋势和分散趋势的两个参数,即总体的均值和方差。,第5章 抽样估计和假设检验,样本统计量是样本的数量特征。它随样本的不同而变化,是一个不包含任何未知参数的样本函数,因此是个随机变量。样本
5、统计量一方面表示样本本身的分布状况和特征,另一方面也是总体参数的估计量。,第5章 抽样估计和假设检验,4.样本容量和样本数目样本容量是一个样本所包含的单位数,一般用n表示。通常认为n30为大样本,n30为小样本。样本数目是从一个总体中按照一定样本容量可能抽取的样本的数目。,第5章 抽样估计和假设检验,5.抽样的方法 重复抽样(重置抽样)从具有N个单位的总体中随机抽取一个单位(登记其序号和相应的标志值)之后,又将它重新放回总体,参加下一次抽选,依次连续进行n次抽选,便构成一个容量为n的样本,这样的抽样方法称为重复抽样。总体每个单位在各次抽样中被抽取的概率都相同。,第5章 抽样估计和假设检验,不重
6、复抽样(不重置抽样)从具有N个单位的总体中随机抽取一个单位,不再将它重新放回总体参加下一次的抽选,这样的抽样方法称为不重复抽样。从抽样分布角度来看,这种抽样分布实际上等同于一次从总体中同时抽取n个单位组成一个样本。,第5章 抽样估计和假设检验,5.1.2 抽样估计的理论依据抽样估计是通过样本对总体的推算,这样统计量与被估算的总体指标之间的关系,就是推算的关键。而两者的关系主要通过统计量的分布来反映,且因样本量的大小而有所差别。,第5章 抽样估计和假设检验,1.大数定律大数定律是指一切关于大量随机现象平均结果稳定性的定理,包含马尔可夫定理、辛钦定理、车贝雪夫定理、贝努里定理、普阿松定理等等,它为
7、均值稳定性的存在及整个抽样估计提供了最基本的理论依据。大数定律的本质是尽管单个随机现象的具体表现不可避免地引起随机偏差,然而在大量随机现象共同作用时,由于这些随机偏差互相抵消,致使总的平均结果趋于稳定。,第5章 抽样估计和假设检验,2.中心极限定理中心极限定理是指在一定的条件下,大量相互独立的随机现象的概率分布以正态分布为极限的定理。因正态分布在概率论中占有中心地位,所以把以正态分布为极限的定理叫做中心极限定理。中心极限定理表明,在实际问题中,随机变量不论来自什么样分布的总体,都可用正态分布的理论来说明和估计平均数的问题。当然原分布与正态分布的差异越大,抽样数目就要越多,这样才能保证平均数的分
8、布接近正态分布。,第5章 抽样估计和假设检验,大数定律揭示了大量随机变量的平均结果,但并没有涉及到随机变量的分布规律。而中心极限定理则说明了许多随机变量的分布是正态或近似正态的,这就可以简化抽样估计中许多统计量的分布问题,所以它是统计学中的重要工具之一。,第5章 抽样估计和假设检验,5.2 抽样分布5.2.1 抽样分布1.抽样分布样本统计量的所有可能取值及其概率所形成的概率分布称为抽样分布。某个样本统计量(如均值、比例、方差等)的抽样分布,从理论上说就是在重复选取容量为n的样本时,由每一个样本计算出的该统计量数值的相对频数分布或概率分布。,第5章 抽样估计和假设检验,5.2.1 抽样分布2.样
9、本均值的抽样分布若总体服从均值为,方差为 的正态分布,则从总体中抽取出的样本均值仍然服从正态分布,即。如果总体不是正态分布,根据统计学中的中心极限定理,随着样本容量的增加,的抽样分布近似服从正态分布。,第5章 抽样估计和假设检验,5.2.1 抽样分布3.样本方差的分布当总体服从正态分布 时,服从 分布(将在下一节中介绍),其中样本方差为,第5章 抽样估计和假设检验,5.2.1 抽样分布4.样本比例的分布总体中具有某种属性的单位数与总体全部单位数之比称为总体的比例,记作。而样本中具有某种属性的单位数与样本总数之比称为样本比例,记作。若从总体中随机抽取出容量为n的样本,发现其中具有某种属性的单位数
10、为,则样本中具有某种属性的单位的比例为当样本容量很大时,样本比例近似地服从正态分布,第5章 抽样估计和假设检验,5.2.1 抽样分布5.两个样本平均数之差的分布统计学中还经常用到分别来自两个正态总体的样本均值差的分布问题。如果有两个正态分布的总体 和,其均值分别为 和,方差分别为 和,若从这两个正态总体中分别抽取容量为n1和n2的两个独立样本,则两个样本平均数之差也一定服从均值为,方差为 的正态分布,即,第5章 抽样估计和假设检验,第5章 抽样估计和假设检验,5.2.2 t分布当样本容量小于30时,样本均值的分布与正态分布之间的误差较大,此时可用分布来描述。分布与正态分布一样也是对称的。一般地
11、,分布比正态分布更平坦一些。随着样本容量的增加,分布的形状由平坦逐渐变得接近于正态分布。通常认为当样本容量时,可以用正态分布代替分布。,第5章 抽样估计和假设检验,不同大小的样本对应于不同的分布,这是因为分布与自由度有关。所谓自由度就是可以自由选样的数值的个数。比如样本容量是n,在样本均值确定的条件下,对样本中的数据能够自由决定数值的个数就只有n-1个了。实际上,当把n-1个数值选定以后,第n个数据的值也就自动确定了。由此可见,大小为n的样本的自由度就是n-1。图3-2是自由度分别为1和10的t分布曲线并与标准正态分布曲线比较。,第5章 抽样估计和假设检验,第5章 抽样估计和假设检验,5.2.
12、3 分布设总体服从于标准正态分布,即,又 为取自该总体的一个样本,它们的平方和记作,即=+则称统计量 为服从自由度为n的 分布,记作。分布的密度曲线与自由度有关。从图5-5可以看出,当自由度很小时,分布密度曲线向右伸展。随着自由度的增加,分布的密度曲线变得愈来愈对称,当自由度达到相当大时,分布的密度曲线接近正态分布。,第5章 抽样估计和假设检验,5.2.4 F分布设X和Y分别服从自由度为n1-1和n2-1的 分布,即,且相互独立,则称统计量 服从自由度为n1-1和n2-1的F分布。F分布有两个自由度,一个是分子的自由度,一个是分母的自由度。,第5章 抽样估计和假设检验,5.3.1 抽样误差的概
13、念抽样误差是指由于随机抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构,而引起样本指标与总体指标之间的绝对离差。表示如下:,第5章 抽样估计和假设检验,抽样实际误差是指每次抽样所得的样本指标与总体指标之间的离差,它随着样本的不同而不同,是一个随机变量,即有多少种可能的样本就有多少种可能的实际抽样误差。因此,在抽样估计中要结合所有可能的样本来研究所有可能的实际抽样误差。但是在现实的抽样估计中,抽样实际误差是不可能得到的,我们只能通过抽样分布推算抽样误差。,第5章 抽样估计和假设检验,抽样平均误差是指所有可能出现的样本统计量的标准差。对于一个特定的总体和样本容量来说,它是固定的、可以计算
14、的。其定义公式如下,第5章 抽样估计和假设检验,5.3.2 抽样平均误差的计算抽样平均误差是反映抽样误差一般水平的指标,即所有可能出现的样本指标与总体指标的标准差。1.抽样平均误差的计算方法样本平均数的抽样平均误差 重复抽样:不重复抽样:,第5章 抽样估计和假设检验,2.样本比例的抽样平均误差 重复抽样:不重复抽样:在实际计算抽样平均误差时,当总体比例P未知时,可用样本比例p来代替,即:,第5章 抽样估计和假设检验,3.影响抽样(平均)误差的因素 总体标志变异程度的大小(总体标准差 的大小)与 成正比例关系。样本容量的平方与 成反比例关系。例如:要使抽样误差减少为原来的一半,则样本容量将为原来
15、的4倍。抽样方法的不同。重复抽样的 总是大于不重复抽样的。抽样的组织形式。抽样的组织形式不同,抽样误差也不同。,第5章 抽样估计和假设检验,5.3.2 抽样极限误差抽样极限误差是从另外一个角度来考虑抽样误差的问题,又称为允许误差或抽样误差范围。用样本指标估计总体指标,必须要考虑抽样误差的大小。抽样极限误差是指抽样指标与总体指标之间抽样误差可允许的范围,它等于样本指标可允许变动的上下限与总体指标的绝对值。,第5章 抽样估计和假设检验,5.3.3 概率度 或 称为抽样误差的概率度。,第5章 抽样估计和假设检验,如例5.7,已知某乡粮食亩产量的标准差为=80公斤,总体单位数N=20000亩,样本单位
16、数n=400亩,求得其抽样平均误差为:如果确定抽样极限误差为5公斤,则,我们可以用概率度:表示抽样极限的误差范围,即用1.25x来规定误差范围的大小。,第5章 抽样估计和假设检验,5.3.3 置信度抽样估计的置信度是样本指标与总体指标的误差不超过一定范围的概率,用F(t)表示,又称抽样估计的概率保证程度。1.总体平均数抽样估计的置信度2.总体比例抽样估计的置信度,第5章 抽样估计和假设检验,若反复抽样多次,每个样本值确定一个区间,每个这样的区间要么包含的真值,要么不包含的真值,据Bernoulli大数定律,在这样多的区间中,包含真值的约占,不包含真值的约仅占,比如,=0.005,反复抽样100
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 抽样 估计 假设检验
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-6575049.html