《抽样与抽样估计》PPT课件.ppt
第四章 抽样估计,什么是抽样估计抽样估计的基本概念与点估计抽样误差与区间估计,什么是抽样估计?,The purpose of Statistics inference is to obtain information about a population from information contained in sample.例1 一汽车轮胎制造商生产一种被认为寿命更长的新型轮胎。,120个样本,测试,平均里程:36,500公里,推断,新轮胎平均寿命:36,500公里,400个样本,支持人数:160,推断,支持该候选人的选民占全部选民的比例:160/400=40%,例2:某党派想支持某一候选人参选美国某州议员,为了决定是否支持该候选人,该党派领导需要估计支持该候选人的民众占全部登记投票人总数的比例。由于时间及财力的限制:,抽样估计方法主要用在下列两种情况:,注意:抽样估计只得到对总体特征的近似测度,因此,抽样估计还必须同时考察所得结果的“可能范围”与“可靠程度”。,1、对所考查的总体不可能进行全部测度;2、从理论上说可以对所考查的总体进行全部测度,但实践上由于人力、财力、时间等方面的原因,无法(不划算)进行全部测度。,第一节 抽样推断的基本概念与点估计,例3:某大公司人事部经理整理其2500个中层干部的档案。其中一项内容是考察这些中层干部的平均年薪及参加过公司培训计划的比例。总体:2500名中层干部(population),如果:上述情况可由每个人的个人档案中得知,可容易地测出这2500名中层干部的平均年薪及标准差。,假如:1:已经得到了如下的结果:总体均值(population mean):=51800 总体标准差(Population standard deviation):=4000,参数是总体的数值特征 A parameter is a numerical characteristic of a population。,上述总体均值、总体标准差、比例均称为总体的参数,2、同时,有1500人参加了公司培训,则参加公司培训计划的比例为:P=1500/2500=0.60,如:例3中的中层干部平均年薪,年薪标准差及受培训人数所占比例均为该公司中层干部这一总体的参数。抽样估计就是要通过样本而非总体来估计总体参数。,一、简单随机抽样(Simple Random Sampling),注意:在有限总体的简单随机抽样中,由抽样是否具有可重复性,又可分为重复抽样与不重复抽样。而且,根据抽样中是否排序,所能抽到的样本个数往往不同。,简单随机抽样可根据总体的有限性或无限性分为有限总体随机抽样与无限总体随机抽样。,无限总体简单随机抽样:1、每一个体来自同一总体;2、每一个体是独立抽取的。,有限总体简单随机抽样:每个样本点(个体)能以相同的概率被抽出。,1、考虑顺序的不重复抽样:N(N-1)(N-2)(N-n+1)2、考虑顺序的重复抽样:Nn,在总体单位数为N的总体中抽取容量为n的样本,样本个数可能有:,在社会经济统计中,往往采用的是较大总体(视为无限总体)下的无序不重复抽样。,3、不考虑顺序的不重复抽样:,4、不考虑顺序的重复抽样:,在例3中,假如随机抽取了一个容量为30的样本:Annual Salary Management Training Program?49094.3 Yes 53263.9 Yes 49643.5 Yes,二、点估计(Point Estimation),假如根据该样本求得的年薪样本平均数、标准差及参加过培训计划人数的比例分别为:,则可用上述结果分别代表2500名中层干部的平均年薪、年薪的标准差及受训比例。,上述估计总体参数的过程被称为点估计(point estimation);样本均值(标准差/比例)称为总体均值(标准差/比例)的点估计量(point estimator);样本均值(标准差/比例)的具体数值称为总体均值(标准差/比例)的点估计值(point estimate)。由于点估计量是由样本测算的,因此也称为样本统计量。,在上述某公司30个中层干部的简单随机抽样中,如果再一次抽样的样本与前一次的不同,则可得到另外的平均年薪样本均值、标准差以及受训干部的比例。同样地,如果多次抽样,则可得到多个不同的结果。表4.1是一个假设的经过500次抽样后的情况表。,三、抽样分布,表4.2给出了500个 的频数分布与相对频数分布,,图4.1 500个 的相对频数分布,这里,的相对频数分布,就称为 的抽样分布。,正是抽样分布及其特征使得用样本统计量估计总体参数的“精确程度”能够给予概率上的描述。,一般地,样本统计量的可能取值及其取值概率所形成的概率分布,统计上称为抽样分布(sampling distribution)。,精确度,可靠度,(一)样本平均数的抽样分布(Sampling Distribution of),考察样本均值的概率分布形式。分两种况:1)总体分布已知且为正态分布;2)总体分布未知;,1、样本均值抽样分布的形状,(1)当总体分布已知且为正态分布或接近正态分布时,则无论样本容量大小如何,样本均值都为正态分布。,(2)当总体分布未知时,需要用到中心极限定理(Central limit Theorem),对容量为n 的简单随机样本,样本均值的分布随样本容量的增大而趋于正态分布。,经验上验证,当样本容量等于或大于30时,无论总体的分布如何,样本均值的分布则非常接近正态分布。因此统计上常称容量在30(含30)以上的样本为大样本(large-sample-size)。,例3中,中层干部年薪的总体均值为51800,因此所有可能的样本平均数的均值也为51800。,可证明在简单随机抽样中,2、样本均值抽样分布的数值特征,n=样本容量;N=总体单位个数可以证明样本均值的标准差:,如果总体单位数很“大”而样本容量很“小”,则该修正因子趋近于1,这时,对有限总体可直接按无限总体的公式去计算。一个经验的衡量标准是n/N=0.05。,有限总体:,无限总体:,称为有限总体修正因子(finite population correction factor)。,样本容量与总体单位数的比值为 n/N=30/2500=0.012,,样本均值的标准差可用来测度样本均值与总体均值的“距离”,即可用来计算可能的误差,它也被称为均值标准误(standard error of the mean)。,例3中:,因此,样本均值的标准差可计算如下:,样本统计量的估计值与其所要测度的总体参数值之间的绝对差距,被称为抽样误差(sampling error)。抽样分布能够用来提供抽样误差大小的可能性(概率)。,3、样本均值抽样分布的实际应用,在例3中,如果人事部经理认为在一次抽样中所得到的中层干部的平均年薪与总体均值(51800$)误差在500元以内,他就可以接受样本估计值。则问题归结为在一次抽样中,误差在500元以内的可能性(概率)有多大?,由于样本容量为30,可认为样本均值服从正态分布,因此,上述问题即为求一次抽样的样本均值点落在区间51300,52300内的概率,即求下图中阴影部分的面积。,该例中:52300对应的标准正态分布中的点为:(52300-51800)/730.3=0.68 查标准正态分布表:上述区间的面积为 0.2518+0.2518=0.5036,表明:在上述简单随机抽样中,只有50%的概率使得样本均值与总体实际均值的误差不超过500元。,由于样本标准差与总体标准差及样本容量有关:,4、样本容量与样本均值分布的关系,因此,样本容量增大,样本均值标准差变小,从而使样本分布峰度变高,于是在相同区间内,概率分布线下的面积变大,提高了样本均值落在该区间的可能性。注意:1、所有可能的样本均值的平均数等于总体均值,而与样本容量无关。2、点估计往往是在总体方差已知的情况下进行的。,在经济与商务的许多场合,需要用样本比例p对总体比例P进行统计推断。,(二)样本比例的抽样分布(Sampling Distribution of p),样本比例抽样分布的相关信息:,p的:期望值、标准差、抽样分布形状,样本比例的抽样分布是样本比例所有可能值的概率分布。The sampling distribution of p is the probability distribution of all possible values of the sample proportion p.,1、期望值(Expected value of p):E(p)=P,有限总体:,无限总体,2、标准差(Standard deviation of p):,3、样本比例抽样分布的形状(Form of the sampling distribution of p)根据中心极限定理有:当样本容量增大时(大样本),样本比例抽样分布趋向于以样本期望值为中心、以样本方差为方差的正态分布。,在例3中,由于全体中层干部接受过培训的人数比例为P=0.6,因此样本比例期望值为p=0.6;同时,由于n/N=30/2500=0.012=0.05,因此样本标准差为,经验上,当下面两个条件满足时,与p相关的样本为大样本:np=5 n(1-p)=5,又由于np=300.6=18,n(1-p)=30 0.4=12因此,样本比例服从如下正态分布:,用样本统计量(sample statistics)可以作为其对应的总体的点估计量(point estimator)。但要估计总体的某一指标,并非只能用一个样本指标,而可能有多个指标可供选择,即对同一总体参数,可能会有不同的估计量。,四、点估计量的性质:估计量优劣的衡量,作为一个好的点估计量,统计量必须具有如下性质:无偏性、有效性、一致性,可以证明:样本均值、样本比例、样本标准差:无偏、有效、一致,3、一致性(Consistency):当样本容量增大时,估计量依概率收敛于总体参数的真值。,1、无偏性(Unbiasedness):样本估计量的均值等于被估总体参数的真值;,2、有效性(Efficiency):好的点估计量应具有较小的方差;,注:样本二阶中心矩:不具有无偏性,一、抽样误差(Sampling Error)一个样本可以得到总体参数的一个点估计,该点估计值与总体参数真值之间的差异,即为抽样误差。有三个相互联系的概念:(一)实际抽样误差:,第二节 抽样误差与区间估计,(二)抽样平均误差:所有可能样本估计值与相应总体参数的平均差异程度:,(三)抽样极限误差,注意:1、统计学上往往用抽样极限误差来测度抽样误差的大小或者说测度点估计的精度。原因:总体参数值往往并不知道,因此,实际抽样误差与抽样平均误差也往往无法求出,但在抽样分布大体知道的情况下,抽样极限误差是可以估计出来的。,一定概率下抽样误差的可能范围(也称允许误差):,2、抽样极限误差的估计总是要和一定的概率保证程度联系在一起的。,原因:样本统计量往往是一随机变量,它与总体参数真值之差也是一个随机变量,因此就不能期望某次抽样的样本估计值落在一定区间内是一个必然事件,而只能给予一定的概率保证。因此,在进行抽样估计时,既需要考虑抽样误差的可能范围,同时还需考虑落到这一范围的概率大小。前者是估计的准确度问题,后者是估计的可靠性问题,两者紧密联系不可分开。这也正是区间估计所关心的主要问题。,点估计是通过样本估计量的某一次估计值来推断总体参数的可能取值;区间估计则是根据样本估计量以一定的可靠程度推断总体参数所在的区间范围。如果抽样分布已知,则在点估计中,可以知道抽样的点估计值与总体参数的离差在某一给定范围内的概率大小,即以一定的可靠程度知道以下抽样极限误差:,二、区间估计(Interval Estimation),因此,容易得到在抽样中,总体参数将以同样 的可能性(概率)存在于下面的区间内:,一般地,设总体参数为,L、U为由样本确定的两个统计量值,对于给定的(0 1),有,则称(L,U)为参数的置信度为1-的置信区间,L、U分别称为置信下限与置信上限,为显著性水平,1-为置信度。,置信区间,2、1-可以认为是用样本估计值 代替总体真值时误差在某一范围内的“可能性”,则 可认为是这种替代产生的抽样极限误差超过这一范围的“可能性”。,注意:1、置信区间的直观意义为:多次抽样形成的多个置信区间中,有(1-)100%包含总体参数真值。,/2,/2,(一)总体均值的区间估计,1、总体方差已知,正态总体均值的区间估计 对总体方差已知的正态总体,可以通过标准正态分布估计点估计的误差范围:,分总体方差已知与未知两种情况讨论:,给定置信度1-,可由标准正态分布表查得临界值Z/2,使得,从而可得置信度为1-时总体均值的置信区间:,或,在大样本下(=30),不论总体分布形式如何,均可用上述方法进行总体均值的区间估计,这时,如果总体方差未知,则直接用样本方差代替。,注意:,在上述中层干部平均年薪例中,如果假设总体均值及方差未知,一次容量为30的抽样的样本均值及方差分别为51814与3347.72,由于是大样本,则可求置信度为95%的置信区间如下:,2、小样本下总体方差未知时,正态分布总体均值的区间估计,如果是小样本,但总体为正态分布,在总体方差未知而需用样本方差代替时,则下式,服从自由度为n-1的t分布。,注意:如果小样本下总体分布非正态,则无法进行区间估计,唯一的解决方法就是增大样本。,从而可得置信度为1-时总体均值的置信区间:,或,于是,给定置信度为1-,可由t分布表查得临界值t/2(n-1),使得,总体均值区间估计程序,n=30?,知否?,用s代替,总体是否接近正太分布?,知否?,用s代替,增大样本容量至n=30,yes,No,yes,No,yes,yes,No,No,在大样本下,样本比率的分布趋近于均值为总体比率P、方差为P(1-P)/n的正态分布,则,即服从标准正态分布。,于是,给定置信度为1-,可由标准正态分布表查得临界值Z/2,从而可得总体比例(率)的区间估计:,(二)总体比率的区间估计,三、样本容量的确定,样本容量对估计精度有较大的影响,从理论上说,样本容量越大,对总体特征的估计误差越小;但从实践角度看,抽样数目过大,则会增大调查及相关的工作量。因此,样本容量的确定是至关重要的。一般说来,抽样数目以满足在一定的概率保证下抽样误差不超过给定的允许范围的最小样本容量为界。因此,可根据抽样极限误差与抽样数目的关系来确定抽样数。,根据抽样极限误差的定义,若用样本均值估计总体均值的极限误差为,则,1、总体均值参数估计中抽样数目的确定,为了简单,可直接考虑大样本的情况,这时样本均值 服从正态分布,于是:,由于在1-的置信度下,存在临界值Z/2,使得,或,故,在该置信度下,如果允许误差为 时,可以其为极限误差解出必须的抽样数:,2、总体比例(率)参数估计中抽样数目的确定,在大样本下,样本比例的分布趋近于如下正态分布:,于是:,注:1、如果总体方差或总体比例未知,可用样本方差或样本比例代替。2、为了保证抽样推断的把握程度,若有多个可供参考的方差数值,应选其中方差最大值来计算。对于比例的方差,比例应取接近50%的样本(Why?)。,设在1-的置信度下,对应的临界值为Z/2,则易知,于是,如果允许误差为 p,可得最小的抽样数目:,