《应用统计学》第5章:抽样与抽样分布.ppt
1,本章教学目标了解抽样调查的特点、方法及抽样误差的计算。了解和掌握推断统计学的基本概念;统计学中最常用的3种概率分布(2分布、t分布、F 分布)及其查表使用;了解和掌握统计推断中的一个基本问题:参数估计及其在经济管理中的应用;,第5章 抽样与抽样分布,2,本章主要内容:5.1 抽样调查和抽样误差 5.2 统计量5.3 参数的点估计本章重点:推断统计学的基本概念、基本原理和基本方法;2分布、t 分布、F 分布的右侧分位点的概念及其查表使用,3,统计学的目的是揭示总体数量分布的规律性,通常可以采用两种方法:全面调查和抽样调查。全面调查在应用时有很大的局限性:(1)许多问题无法采用全面调查的方法,如产品的寿命、导弹的命中精度和杀伤力等。(2)需要花费大量的人力、时间和费用,不仅经济上不可行,而且无法及时获得所需信息。例如,对原材料、零部件的质量检验,对顾客满意度的调查,对居民家庭收入与支出的调查等。(3)由于调查人员的专业素质等原因,全面调查有时会产生较大的误差。利用抽样调查的方法,可以对总体的数量分布特征作出科学的推断,它具有以下优点:(1)适用于各种情况的统计分析。(2)能以较低的成本快速获得总体的分布信息,达到事半功倍的效果。(3)可以利用概率论的知识计算推断的误差。(4)抽样调查的结果可以用来验证全面调查的结果。,5.1 抽样调查和抽样误差,4,(1)按随机原则抽取调查单位这是抽样调查与其他非全面调查的主要区别之一。随机原则 指在抽取样本单位时完全排除调查者的主观判断,使各总体单位都有同等的被抽中的机会。只有严格遵循随机原则,才能使样本的内部结构类似于总体的结构分布特征,对总体具有充分的代表性。,1.抽样调查的特点,5,(2)用样本指标推断总体的数量分布特征 抽样调查的目的是根据所得到的样本数据推断被调查现象总体的特征。如总体指标、总体的概率分布等,这是其他非全面调查方法都无法做到的。(3)可以计算和控制抽样误差 任何调查方法都会产生误差,抽样调查以概率论为其理论依据,根据数理统计所提供的抽样误差的理论和方法,可以把推断的误差控制在一定的精确度内,以满足实际工作的需要。而其他调查方法都无法计算和控制误差。,6,2.抽样调查的优点,抽样调查和全面调查相比,有以下有显著优点:(1)费用低与进行全面调查相比,抽样调查可以节省大量的人力、物力、财力,获得得事半功倍的效果。(2)速度快调查和综合样本资料要比收集和综合全面调查的资料更快。当有些资料具有很强的时效性时,全面调查只能获取陈旧的信息,而抽样调查可以获得及时的信息。,7,(3)适用面广许多社会经济现象不可能采用全面调查方法,如破坏性的产品检验,矿藏资源的调查等等,只能用抽样调查。有些调查则需要受过专业训练的人员或专用设备来获得有关数据,也只能用抽样调查方法。此外当要调查的是无限总体时,就更不可能进行全面调查。(4)准确度高 由于抽样调查的工作较全面调查大大减少,调查人员可以经过专门训练,因此可能取得更准确的结果。例如对人口普查、统计报表制度等获得的全面调查结果,通常需要采用抽样调查进行验证或修正。,8,3.样本,抽样调查中随机抽取的部分总体单位组成的集合;样本中的个别单位称为样本单位。样本中的单位数称为样本容量,记为 n。,9,4.总体参数和样本指标,(1)总体参数也即总体指标,是反映总体数量分布特征的综合指标。在抽样调查中,总体指标都是未知的常数,需要使用样本指标进行推断估计。故称为待估的参数。在推断统计学中,称总体平均数为总体均值,记为。同样称样本平均数为样本均值,记为,10,(2)统计量,也称为样本指标,是根据样本数据计算的综合指标,用以估计总体指标。由于从同一个总体中抽取的不同样本,其样本指标值都不相同,因此样本指标是随机变量。常用的样本指标主要有以下几个,它们分别是对应总体指标的优良估计。样本均值,n 样本容量;f i 第 i 组子样本中的单位数;xi 第i个(组)样本单位的标志值或组中值;,11,样本方差和标准差,样本方差和样本标准差是反映样本数量标志变异程度的指标,分别是总体方差和标准差的优良估计。,12,样本比例,样本中具有某一属性的单位数在全部样本单位中所占的的比重,记为 p。,n1样本中具有某一属性的单位数。样本比例是总体比例的优良估计。,13,样本比例的均值、方差和标准差,记样本成数的方差和标准差分别为,则,设总体比例为P,,则 XB(n,P)。,则样本成数,从而,可得,X 为 n 次独立试验中具有该特征,的单位数,,14,5.抽样方式,抽样方式可分为重复抽样和不重复抽样两种。重复抽样又称放回抽样,指每次从总体中随机抽取一个样本单位,观察登记其标志值后再放回总体中,如此进行 n 次的抽样方法。重复抽样的特点:在重复抽样的过程中,被抽取的总体单位总数始终保持不变,每一次抽样中各总体单位被抽到的机会都相同,每次抽样结果相互独立。每一总体单位都有被重复抽取的可能。,15,不重复抽样,也称不放回抽样,指被抽到的单位不再放回总体,每次仅在余下的总体单位中抽取下一个样本的抽样方法。特点:任一总体单位都不会被重复抽到;每次抽样结果都受到以前各次抽取结果的影响,因此各次抽取结果是不独立的;可以一次抽取所需要的样本单位数。在实际应用中通常采用的都是不重复抽样方法。,16,抽样方法,抽样方法关系到抽样调查的成本费用和抽样误差的大小,应根据调查的目的、和调查对象的特点采取不同的抽样方法。抽样方法有两种分类方法:概率抽样:简单随机抽样分层随机抽样整群抽样机械抽样非概率抽样:方便抽样判断抽样,17,1.简单随机抽样,也称纯随机抽样,指不对总体作任何处理,直接按随机原则抽取调查单位的抽样方式。简单随机抽样最能体现抽样的随机原则,抽样误差的计算就是以简单随机抽样为基础的。局限性:当总体单位数很大时,就难以实现简单随机抽样,且抽样误差较大。使用EXCEL实现简单随机抽样,18,2.分层随机抽样,也称类型抽样,是将总体按某一主要标志进行分类(分组),分别从各类型组中随机抽取一部分调查单位共同组成样本。三种方法:(1)等数分配法(2)等比分配法(3)最优分配法例如,对企业进行调查时将企业划分为特大型企业、大型企业、中型企业和小型企业四个类型组。对家庭收入进行调查时将居民家庭分为高收入、中等收入、低收入三个类型组等。,19,3.整群抽样,人们就将总体的各单位按一定的标志或要求,分成若干群,然后以群为单位,随机抽取几个群,对被抽中的群进行全部调查,这就是整群抽样。如对人口普查资料进行复查,就采用整群抽样的方式。当群中的元素差异性大时,整群抽样得到的结果比较好。在理想状态下,每一群是整个总体小范围内的代表。,20,4.机械抽样,也称等距抽样和系统抽样,其步骤如下:(1)按某一标志值的大小将总体单位进行排队并顺序编号;(2)根据确定的抽样比例确定抽样间距;(3)随机确定第一个样本单位;(4)按顺序从总体中等间距地抽取其余样本单位。系统抽样的随机性主要体现在第一个样本单位的抽取上,因此一定要保证抽取第一个样本单位的随机性。,21,5.方便抽样,方便抽样是一种非概率抽样技术。正如名称所暗示的,样本的确定基于简便。样本中所包括的项不是事先确定或选取时有已知的概率。例如,一个教授在一所大学作一项调查,由于学生志愿者已准备好并且参加该项调查无需或几乎不需要成本,故由他们组成样本。,22,6.判断抽样,另一种非概率抽样技术为判断抽样,在这个方法中,由对总体非常了解的人选择总体中最具代表性的元素。经常这是一个相对容易选择样本的方法。例如,报告者可抽样选择2个或3个人大代表,认为这些代表反映了整个代表的普遍意见。然而,样本结果的质量依赖于选择样本的人的判断。,23,24,1.统计误差和抽样误差统计结果与现象实际之间存在的差异统称为统计误差。统计误差可以分为以下两类:(1)登记性误差指由于调查工作中的差错或弄虚作假等原因而引起的误差。无论是全面调查还是非全面调查,都可能存在登记性误差。登记性误差从理论上应是可以避免的,但实际中却难以完全避免,在误差理论中不考虑这类误差。,抽样误差和标准误差,25,(2)代表性误差,指由于随机样本内部结构与总体结构之间存在差异而引起的样本指标与总体指标之间的差异。代表性误差又可分为两类:系统性误差指由于违反抽样的随机原则而产生的误差。随机误差也称抽样误差,指由于随机抽样本身导致的现样本内部结构与总体结构不一致而产生的误差。在抽样调查中随机误差是不可避免的。如全部产品中有2%的次品,随机抽取100件,其中恰好有2件次品的可能性是很少的。,26,2.影响抽样误差的主要因素,(1)总体标准差总体标准差越大,样本结构就越难以接近总体结构,抽样误差也就越大。(2)样本容量 样本容量越大,样本结构就越接近总体结构,样本对总体的代表性就越高,抽样误差就越小。(3)抽样方法不同抽样的方法,将直接影响样本内部结构与总体结构之间的差异。如类型抽样就可以使样本结构更接近于总体结构,因而其抽样误差是所有抽样方法中最小的。(4)抽样方式不重复抽样可以使样本内部结构更接近总体结构。因此不重复抽样的抽样误差小于重复抽样。,27,3.标准误差(抽样平均误差),标准误差的概念在一次抽样中,均值和成数这两个指标的抽样误差可以分别表示为,但由于样本指标是随机变量,根据不同的样本计算的样本指标都不会相同,因而不同样本的抽样误差也就各不相同,因此需要引进标准误差即抽样平均误差的概念。标准误差是指所有可能样本的样本指标与总体指标间的平均离差,反映抽样误差的平均水平。,28,标准误差的计算,可以证明,样本均值的均值就是总体均值;同样,样本成数的均值就是总体成数。由此可知,抽样平均误差就是样本指标与其均值的平均离差。而测定平均离差最好的方法就是计算标准差。因此抽样平均误差就是样本指标的标准差,故称为标准误差。下面仅介绍简单随机抽样标准误差的计算公式。,29,简单随机抽样的标准误差,1.均值的标准误差,不重复抽样,N 总体单位总数;,当抽样比 n/N 5%,或总体单位数未知时,或无限总体时,可按重复抽样公式计算抽样平均误差。,重复抽样,30,2.比例的标准误差,重复抽样,P 总体比例 p 样本比例不重复抽样,31,例 1,某地在2800农户中随机抽取5%进行平均收入调查,调查结果:户均年收入为5965元,样本标准差为827元,分别求重复抽样和不重复抽样的标准误差。解:n=28005%=140,S=827(元)重复抽样:,不重复抽样:,32,例 2,某厂产品的的次品率为2%,现从10000件产品中抽取100件进行检验。分别求重复抽样和不重复抽样的标准误差。解:次品率是比例指标。由题意,P=0.02,N=10000,n=100,重复抽样:,不重复抽样:,33,33,5.2 统计量,统计量是用样本构造的函数,它包含了样本中的信息,因而可以用统计量的值来推断总体参数,如均值、方差、成数等。,设 X1,X2,Xn 为总体 X 的一个样本,g(X1,X2,Xn)为一连续函数,,若g中不含未知参数,,为一个统计量。,设 x1,x2,xn 是一组样本观察值,,称,g(x1,x2,xn),是统计量 g(X1,X2,Xn)的一个观察值。,则称,g(X1,X2,Xn),34,34,几个最常用的统计量,以上4个统计量是构造其他统计量的基础。,样本均值:,样本方差:,样本标准差:,样本成数:,35,35,5.3 参数的点估计,一.点估计的概念 设 是总体 X 分布的未知参数,,是用 X 的样本构造的统计量,,的一个观察值,去估计未知参数 的真值,,参数 的点估计;,为 的估计量;,为 的一个估计值。,由于估计量是随机变量,抽取不同的样本,其取值是各不相同的。用一个特定样本对总体未知参数所作的估计,仅是所有可能估计值中的一个点,故称为点估计。,称为,并称统计量,36,36,在大多数的实际问题中,需要估计的总体未知参数主要有总体成数、总体均值和总体方差。可以证明,样本成数、样本均值和样本方差分别是总体成数、总体均值和总体方差的优良估计。即,二.点估计的方法,37,37,设某种元件的寿命 XN(,2),其中,2未知,现随机测得10个元件的寿命如下(小时)1502,1453,1367,1108,1650 1213,1208,1480,1550,1700 试估计 和 2。解:使用计算器的 SD 功能可得,【例1】产品寿命均值和方差的估计,38,38,1.无偏性,为未知参数的估计量,,则称,为 的无偏估计量,,无偏性是对估计量的最基本要求,无偏估计将不会出现系统性的估计偏差。不难证明,对任意总体 X,,和样本,方差 S2 分别是总体均值和总体方差的无偏估计。,三.估计量的评价标准,简称无偏估计。,若,样本均值,样本成数也是总体成数的无偏估计。,39,39,有效性是衡量估计量最重要的标准。对给定的样本容量,有效估计是所有无偏估计量中估计误差最小的。,是参数 的两个无偏估计,,有效;,容量,,是 所有无偏估计中方差最小的,,是 的最小方差无偏估计,,2.有效性,若,对固定的样本,若,则称,也称为 的有效估计。,样本均值和样本比例,都是总体均值和总体比例的有效估计;,而对正态总体,,样本方差也是总体方差的有效估计。,可以证明,,对任意总体,,