统计学参数估计与假设检验ppt课件.ppt
二战中的点估计 德军有多少辆坦克?,二战期间,盟军非常想知道德军总共制造了多少辆坦克。德国人在制造坦克时是墨守成规的,他们把坦克从1开始进行了连续编号。在战争过程中,盟军缴获了一些敌军坦克,并记录了它们的生产编号。那么怎样利用这些号码来估计坦克总数呢?在这个问题中,总体参数是未知的坦克总数N,而缴获坦克的编号则是样本。假设我们是盟军手下负责解决这个问题的统计人员。制造出来的坦克总数肯定大于等于记录的最大编号。为了找到它比最大编号大多少,我们先找到被缴获坦克编号的平均值,并认为这个值是全部编号的中点。因此样本均值乘以2就是总数的一个估计;当然要特别假设缴获的坦克代表了所有坦克的一个随机样本。这种估计N的公式的缺点是:不能保证均值的2倍一定大于记录中的最大编号。,二战中的点估计 德军有多少辆坦克?,N的另一个点估计公式是:用观测到的最大编号乘以因子1+1/n,其中 n 是被俘虏坦克个数。假如你俘虏了10 辆坦克,其中最大编号是50,那么坦克总数的一个估计是(1+1/10)50=55。此处我们认为坦克的实际数略大于最大编号。从战后发现的德军记录来看,盟军的估计值非常接近所生产的坦克的真实值。记录仍然表明统计估计比通常通过其他情报方式作出估计要大大接近于真实数目。统计学家们做得比间谍们更漂亮!,资料来源:GUDMUND R.IVERSEN和MARY GERGRN著,吴喜之等译:统计学基本概念和方法,高等教育出版社,施普林格出版社,2000。,参数估计,参数估计的基本概念,用来推断总体参数的统计量称为估计量(estimator), 其取值称为估计值(estimate) 。 同一个参数可以有多个不同的估计量。参数是唯一的,但估计量(统计量)是随机变量,取值是不确定的。,本章的学习目的,抽样与抽样分布是推断统计的基础。统计推断就是根据样本的信息,对总体的特征作出推断,包括参数估计和假设检验。参数估计是在抽样及抽样分布的基础上,根据样本的统计量来推断总体参数。一个总体参数的估计,两个总体参数的估计,样本容量的确定。,统计方法,统计描述,统计推断,参数估计,假设检验,点估计,区间估计,基本概念,常用的估计量,样本平均数、样本方差、样本比率。点估计:用一个点(数)估计未知参数。 例如:用样本均值作为总体未知均值的估计值。 点估计没有给出估计值接近总体未知参数程度的信息 优点:简单,能够明确的估计总体参数。 缺点:其误差与可靠性不得而知。点估计的方法:特征数法、矩估计法、顺序统计量法、最大似然法、最小二乘法。区间估计:用一个区间估计未知数,把未知参数估计在某两界限之间。样本统计量加减抽样误差。,譬如,在估计湖中鱼数的问题中,若我们根据一个实际样本,得到鱼数 N 的极大似然估计为1000条.,若我们能给出一个区间,在此区间内我们合理地相信 N 的真值位于其中. 这样对鱼数的估计就有把握了.,实际上,N的真值可能大于1000条,也可能小于1000条.,参数的区间估计,也就是说,我们希望确定一个区间,使我们能以比较高的可靠程度相信它包含真参数值.,湖中鱼数的真值, ,这里所说的“可靠程度”是用概率来度量的 ,称为置信度或置信水平.,区间估计,根据事先确定的置信度1 - 给出总体参数的一个估计范围。置信度1 - 的含义是:在同样的方法得到的所有置信区间中,有 (1- )% 的区间包含总体参数。 抽样分布是区间估计的理论基础。,区间估计: 根据样本统计量以一定的可靠程度去估计总体参数值所在的范围或区间,是抽样估计的主要方法。,区间估计,抽样估计的置信度与精确度1.置信度:表示区间估计的可靠程度或把握程度,也 即所估计的区间包含总体参数真实值的可能性大小,一般以1- 表示。其中 表示显著性水平,即参数不落在区间内的概率。 置信度通常采用三个标准: (1)显著性水平=0.05, 即1- =0.95 (2)显著性水平=0.01, 即1- =0.99 (3)显著性水平=0.001,即1- =0.999,12,2.抽样估计的精确度: 用置信区间的大小即抽样极限/允许误差来表示。 3.抽样估计的置信度与区间大小关系: 在样本容量和其他条件一定的情况下,,区间估计,若希望抽样估计有较高的可靠度,则必须扩大置信区间;,即:抽样估计要求的把握度越高,则抽样允许误差越大,精确度越低;反之则相反。,68.27%,95.45%,99.73%,区间与置信水平,假定条件总体服从正态分布,且方差() 已知如果不是正态分布,可由正态分布来近似 (n 30),总体均值 在1-置信水平下的置信区间为,使用正态分布统计量,1,2,3,总体均值的区间估计(大样本),得到,从而,影响因素标准差 样本容量 n 置信水平 (1a),已知n=40, =15;计算得到样本均值 由1-=0.95,查标准正态分布概率表得:于是在95%的置信水平下的置信区间为:即(40.83,50.13)。结果表明:在95%的置信水平下,二手房交易价格的置信区间为40.83万元50.13万元。,沿用前例,假定房地产中介公司从上季度的二手房交易记录中得到以下信息:交易价格的标准差为15万元,于是我们假定总体标准差 =15。试在95%的置信水平下估计二手房平均价格的置信区间。,解答,假定条件总体服从正态分布,且方差() 未知小样本 n 30,总体均值 在1-置信水平下的置信区间为,使用正态分布统计量,1,2,3,总体均值的区间估计(小样本),t 分布,分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布,沿用前例,假定该房地产公司在某日随机抽取16位二手房购买者,得到二手房交易价格如下表所示(万元)。,根据以往交易情况得知:二手房交易价格服从正态分布,总体方差225。试在95%的置信水平下估计二手房交易平均价格的置信区间。,计算得到样本均值 ;,计算得到样本均值 ;由1 =0.95,查表得:于是在95%的置信水平下的置信区间为:即(36.12,50.82)。结果表明:在95%的置信水平下,二手房价格的置信区间为36.12万元50.82万元;即该公司可以有95%的把握认为,二手房交易价格介于36.12万元到50.82万元之间。,解答,沿用前例,假定该房地产公司在某日随机抽取16位二手房购买者,得到二手房交易价格如下表所示(万元)。,根据以往交易情况得知:二手房交易价格服从正态分布,但总体方差未知。试在95%的置信水平下估计二手房交易平均价格的置信区间。,已知n=16;计算得到样本均值 ;样本标准差s=14.175;,已知n=16;计算得到样本均值 ;样本标准差s=14.175;由1 =0.95,查表得:于是在95%的置信水平下的置信区间为:即(35.923,51.027)。结果表明:在95%的置信水平下,二手房价格的置信区间为35.923万元51.027万元;即该公司可以有95%的把握认为,二手房交易价格介于35.923万元到51.027万元之间。,解答,单一总体均值的区间估计总结,假定条件总体服从二项分布可以用正态分布近似估计n p 5 且 n (1 - p) 5,置信区间估计,1,2,单一总体比例的区间估计,根据前例的数据,整理得出2006年第一季度交易价格在43万元以上的二手房交易数量及所占比例,试在95%置信水平下估计交易价格在43万元以上的二手房交易所占比例置信区间。整理数据如下 :,示例,已知在95%置信水平下的置信区间为:即(61.76,77.12%)。结果表明:有95%的把握认为,这一时期价格在43万元以上的二手房交易所占比例的置信区间介于61.76到77.12%之间。,解答,假定E (Error)是在一定置信水平下允许的误差范围,又称边际误差,于是有:,估计总体比例时:,估计总体均值时:,1,2,样本容量的确定,已知: 样本容量: 即应抽取35个交易作为样本。,沿用引例,假定房地产中介公司想要估计2005年第四季度二房的平均交易价格。按照历史经验,总体标准差为15万手元。试问:在95%的置信水平下,使二手房平均交易价格的误差范围小于5万元,样本容量应定为多少?,1:一家食品生产企业以生产袋装食品为主,为对产量质量进行监测,企业质检部门经常要进行抽检,以分析每袋重量是否符合要求。现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如下表所示,样本均值为105.36。已知产品重量的分布服从正态分布,且总体标准差为10克。试估计该批产品平均重量的置信区间,置信水平为95%。2: 一家保险公司收集到由36投保个人组成的随机样本,得到每个投保人的年龄(周岁)数据如下表,样本均值39.5,方差为60.37。试建立投保人年龄90%的置信区间 3:已知某种灯泡的寿命服从正态分布,现从一批灯泡中随机抽取16只,测得其使用寿命(小时)如下,样本均值1490,方差613.6。建立该批灯泡平均使用寿命95%的置信区间,【例】一家食品生产企业以生产袋装食品为主,为对产量质量进行监测,企业质检部门经常要进行抽检,以分析每袋重量是否符合要求。现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如下表所示。已知产品重量的分布服从正态分布,且总体标准差为10克。试估计该批产品平均重量的置信区间,置信水平为95%。,练习,解:已知N(,102),n=25, 1- = 95%,z/2=1.96。 根据样本数据计算得: 总体均值在1-置信水平下的置信区间为,该食品平均重量的置信区间为101.44克109.28克之间,总体均值的区间估计,【例】一家保险公司收集到由36投保个人组成的随机样本,得到每个投保人的年龄(周岁)数据如下表。试建立投保人年龄90%的置信区间,总体均值的区间估计 (练习),总体均值的区间估计(例题分析),解:已知n=36, 1- = 90%,z/2=1.645。根据样本数据计算得: , 总体均值在1-置信水平下的置信区间为,投保人平均年龄的置信区间为37.37岁41.63岁,总体均值的区间估计(例题分析),【例】未知某种灯泡的寿命服从正态分布,现从一批灯泡中随机抽取16只,测得其使用寿命(小时)如下。建立该批灯泡平均使用寿命95%的置信区间,总体均值的区间估计(例题分析),解:n-1=15, 1- = 95%,t/2=2.131根据样本数据计算得: , 总体均值在1-置信水平下的置信区间为,该种灯泡平均使用寿命的置信区间为1476.8小时1503.2小时,1:某城市想要估计下岗职工中女性所占的比例,随机抽取了100个下岗职工,其中65人为女性职工。试以95%的置信水平估计该城市下岗职工中女性比例的置信区间2:拥有工商管理学士学位的大学毕业生年薪的标准差大约为2000元,假定想要估计年薪95%的置信区间,希望边际误差为400元,应抽取多大的样本量?,总体比例的区间估计(例题分析),【例】某城市想要估计下岗职工中女性所占的比例,随机抽取了100个下岗职工,其中65人为女性职工。试以95%的置信水平估计该城市下岗职工中女性比例的置信区间,解:已知 n=100,p65% , 1-= 95%,z/2=1.96,该城市下岗职工中女性比例的置信区间为55.65%74.35%,总体方差的区间估计(例题分析),【例】一家食品生产企业以生产袋装食品为主,现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如下表7所示。已知产品重量的分布服从正态分布。以95%的置信水平建立该种食品重量方差的置信区间,估计总体均值时样本量的确定 (例题分析),【例】拥有工商管理学士学位的大学毕业生年薪的标准差大约为2000元,假定想要估计年薪95%的置信区间,希望边际误差为400元,应抽取多大的样本量?,估计总体均值时样本量的确定 (例题分析),解: 已知 =2000, =400, 1-=95%, z/2=1.96 应抽取的样本量为,即应抽取97人作为样本,