抽样及参数估计-3参数估计.ppt
2023/10/26,非统计学专业本科3学分,1,第五章 抽样推断,第三节 参数估计,2023/10/26,非统计学专业本科3学分,2,统计估计问题的产生,以下情况会导致统计估计问题:需要估计分布类型的问题在许多实际问题中,总体被理解为我们所研究的某个统计指标,它在一定范围内取值,而且以一定的概率取各种可能的值,从而形成一个概率分布而这个概率分布往往未知。如,为了制定绿色食品的有关规定,需要研究蔬菜中残留农药的分布状况。对这个分布我们知之甚少,甚至不清楚它属于何种类型的分布需要估计分布参数的问题有时分布类型已知,如,在农民收入调查中,根据实际经验和理论分析,可以断定收入服从正态分布但分布中的参数未知,需要估计,2023/10/26,非统计学专业本科3学分,3,统计估计的类别,统计估计问题专门研究由样本估计总体的未知分布或分布中的未知参数的问题分为:非参数估计和参数估计直接对总体的未知分布进行估计的问题为非参数估计对分布的未知参数进行估计,称为参数估计,2023/10/26,非统计学专业本科3学分,4,参数估计在统计估计问题中的地位,统计估计方法,非参数估计,参数估计,点估计,区间估计,2023/10/26,非统计学专业本科3学分,5,参数估计的基本方法,2023/10/26,非统计学专业本科3学分,6,一、估计量与估计值,2023/10/26,非统计学专业本科3学分,7,估计量:用于估计总体参数的样本统计量如样本均值、样本比例(成数)、样本方差等例如:样本均值就是总体均值 的一个估计量估计值:估计参数时计算出来的统计量的具体数值如果样本均值 x=80,则80就是的估计值注:有时,对估计量和估计值并不刻意区分,都称为估计,根据上下文很容易明确其指代,估计量与估计值(estimator&estimated value),随机变量,2023/10/26,非统计学专业本科3学分,8,一个总体参数的估计,2023/10/26,非统计学专业本科3学分,9,二、估计量的优良标准 评价估计量的标准,所谓优良估计量,是从总体上来评价的对于总体的同一参数,可以有不同的估计量。例如,估计总体平均指标,可以用样本平均数,也可以用样本中位数,用哪种估计量更好呢?希望选择一个相对优良、估计效果更好的估计量。什么样的估计量才算是一个好的估计量呢?这就需要有一定的评价标准。统计学家给出了评价估计量的一些标准一个优良估计量主要需要符合下面三个标准:无偏性、有效性、一致性,2023/10/26,非统计学专业本科3学分,10,(一)无偏性(unbiasedness),估计量(随机变量)的数学期望等于被估计的总体参数中心极限定理证明了:样本平均数、样本成数都满足无偏性,2023/10/26,非统计学专业本科3学分,11,(二)有效性(efficiency),对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效,样本平均数比中位数更有效,2023/10/26,非统计学专业本科3学分,12,(三)一致性(consistency),随着样本容量的增大,估计量的值越来越接近被估计的总体参数大数定律已经证明了:样本平均数和样本成数都满足一致性,2023/10/26,非统计学专业本科3学分,13,三、总体参数的点估计和区间估计,2023/10/26,非统计学专业本科3学分,14,参数估计的方法 点估计和区间估计,估 计 方 法,点估计,区间估计,2023/10/26,非统计学专业本科3学分,15,(一)点估计/定值估计(point estimate),做法:用样本估计量的值直接作为总体参数的估计值例:用样本均值直接作为总体均值的估计例:用样本成数直接作为总体成数的估计例:用两个样本均值之差直接作为总体均值之差的估计缺点:没有考虑抽样误差的大小,没有给出估计值接近总体参数的程度,即,它没有给出一个用于衡量估计值的可靠程度的度量点估计的方法:矩估计法、顺序统计量法、最大似然法、最小二乘法等点估计方法是区间估计的基础,2023/10/26,非统计学专业本科3学分,16,点估计缺陷的弥补区间估计,虽然点估计可以给出未知参数的一个估计,但不能给出估计的精度人们希望利用样本给出一个范围,要求该范围以足够大的概率包含待估参数真值这就是区间估计问题,2023/10/26,非统计学专业本科3学分,17,(二)区间估计(interval estimate),构造置信区间(confidence interval):由样本统计量加减一个误差范围得到总体参数的一个区间范围同时指出了总体指标落在这一区间范围内的可能性大小,即给出了做出这种结论的概率保证程度,F(t)/置信度/置信水平(1-)(confidence level),抽样极限误差,2023/10/26,非统计学专业本科3学分,18,置信区间的三要素,总体参数的区间估计必须同时具备三个要素:点估计值(区间的中心)抽样极限误差(区间的半径)概率保证程度统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间,2023/10/26,非统计学专业本科3学分,19,区间估计的基本原理,2023/10/26,非统计学专业本科3学分,20,区间估计的图示,2023/10/26,非统计学专业本科3学分,21,置信区间与置信水平,均值的抽样分布,用某一具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值我们只能希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个,(1-)%区间包含了%的区间未包含,2023/10/26,非统计学专业本科3学分,22,总体参数区间估计的特点:根据给定的概率保证程度的要求,利用实际抽样资料,指出总体被估计值的上限和下限,即指出总体参数可能存在的区间范围,而不是直接给出总体参数的估计值。,总体参数的区间估计必须同时具备的三个要素:点估计值(区间的中心)抽样误差范围(区间的半径)置信水平/概率保证程度(1-),抽样误差范围决定估计的精度而概率保证程度则决定估计的可靠性,2023/10/26,非统计学专业本科3学分,23,1.实践中对区间估计的基本要求 置信度和精确度,置信区间的各要素给出的含义不同:说明了区间估计的精确性越小,置信区间越窄,估计的精确性越高,但可靠度会降低反之,越大,置信区间越宽,估计的精确性越低,但可靠度会提高置信度F(t)则说明了区间估计的可靠程度F(t)越高,置信区间越宽,估计的可靠性越高,但精确性却降低了相反,F(t)越低,置信区间越窄,估计的可靠性越低,但精确性却提高了由此可见,区间估计中精确性与可靠性是互相矛盾的两个方面,二者依照一定的联系而此消彼长因此,在实践中,根据对精确性和可靠性的要求不同,研究者有时先主观确定,有时先主观确定F(t),2023/10/26,非统计学专业本科3学分,24,2.区间估计方法,围绕置信区间的三要素展开,2023/10/26,非统计学专业本科3学分,25,区间估计做法1,情况1:在已经主观确定了抽样误差范围的情况下进行区间估计(1)抽取样本,计算抽样指标,如计算样本平均数或样本成数,作为相应总体指标的点估计值,并计算样本标准差以推算抽样平均误差(抽样标准误)(2)根据给定的抽样误差范围,给出总体参数估计的上、下限(3)将抽样误差范围除以抽样平均误差求出概率度t值,再根据t值查“正态分布概率表”求出相应的置信度F(t),2023/10/26,非统计学专业本科3学分,26,区间估计做法2,情况2:在已经主观确定了置信度F(t)的前提下进行区间估计(1)抽取样本,计算抽样指标,如计算抽样平均数或抽样成数作为相应总体指标的估计值,并计算样本标准差以推算抽样平均误差(2)根据给定的置信度F(t)要求,求得概率度t值(3)根据概率度t和抽样平均误差来推算的可能范围,再根据求出被估计总体指标的上下限,对总体参数做区间估计,2023/10/26,非统计学专业本科3学分,27,区间估计综合例题,例某外贸公司出口一种茶叶,规定每包规格不低于150克,现用不重复抽样方法从中随机抽取1%进行检验,抽检结果如表所示:,要求:(1)以允许误差范围0.2克,估计该批茶叶每包平均重量的区间及其概率保证程度。(2)茶叶包装合格率的误差范围不超过6%,估计包装合格率的区间及其概率保证程度。(3)要求以95.45%的概率保证程度,估计该批茶叶每包平均重量的区间。(4)要求以95.45%的概率保证程度,估计该批茶叶的包装合格率的区间。,2023/10/26,非统计学专业本科3学分,28,计算表,2023/10/26,非统计学专业本科3学分,29,解答,要求(1):以允许误差范围0.2克,估计该批茶叶每包平均重量的区间及其概率保证程度。计算过程为,上限=150.3+0.2=150.5克下限=150.3-0.2=150.1克 查概率表:该批茶叶每包平均重量落在区间150.1,150.5克内,概率保证程度为97.91%。,要求(2):茶叶包装合格率的误差范围不超过6%,估计包装合格率的区间及其概率保证程度计算过程为:上限=70%+6%76%下限=70%-6%64%,查概率表:t1.32时 该批茶叶的包装合格率落在区间64%,76%内,概率保证程度为81.32%。,2023/10/26,非统计学专业本科3学分,33,要求(3):以95.45%的概率保证程度,估计该批茶叶每包平均重量的区间计算过程为:上限=150.3+0.1734=150.47克下限=150.3-0.1734=150.13克以95.45%的概率保证程度估计该批茶叶每包平均重量在区间150.13,150.47内。,2023/10/26,非统计学专业本科3学分,34,要求(4):以95.45%的概率保证程度,估计该批茶叶的包装合格率的区间计算过程为:上限=70%+9.12%79.12%下限=70%-9.12%61.88%以95.45%的概率保证程度估计该批茶叶包装合格率的区间为61.88%,79.12%。,2023/10/26,非统计学专业本科3学分,35,注意:抽样平均误差和抽样极限误差的关系,抽样平均误差是客观存在的,根据抽样方法、总体离散度以及n大小可以计算出来,是抽样误差的衡量指标之一抽样极限误差是人为规定的。现实实践中总是通过人为规定来规定抽样推断的精度大小和通过概率度t连接到一起:=t客观存在,因此人为规定和人为规定t或F(t)是等价的,2023/10/26,非统计学专业本科3学分,36,区间估计方法,详细:分各种具体情况的,2023/10/26,非统计学专业本科3学分,37,总体均值的区间估计,重点:一个总体均值的区间估计大样本,2023/10/26,非统计学专业本科3学分,38,总体均值的区间估计1,正态总体、已知或者,大样本,2023/10/26,非统计学专业本科3学分,39,总体均值的区间估计1,假定条件总体服从正态分布,方差()已知若非正态分布,但是大样本(n 30),可近似正态总体均值在1-置信水平下的置信区间为,重复抽样,不重复抽样,2023/10/26,非统计学专业本科3学分,40,总体均值的区间估计1(例题分析),【例】某种零件的长度服从正态分布,从某天生产的一批零件中重复随机抽取了9个,测得其平均长度为21.4cm。已知总体标准差为=0.15cm。试估计该批零件平均长度的置信区间,置信水平为95%。,该批零件平均长度的置信区间在21.302cm21.498cm之间,解:已知N(,0.152),n=9,1-=95%,t/2=1.96 总体均值在1-置信水平下的置信区间为,2023/10/26,非统计学专业本科3学分,41,总体均值的区间估计1(例题分析),【例】在某天生产的500袋食品中,不重复随机抽取25袋进行检查,测得平均每袋的重量为996g。已知该种袋装食品的重量服从正态分布,且标准差为20g。试估计该种食品平均重量的置信区间,置信水平为95%。,该种食品平均重量的置信区间为988.35g1003.65g之间,解:已知N(,202),n=25,1-=95%,t/2=1.96 总体均值 在1-置信水平下的置信区间为,2023/10/26,非统计学专业本科3学分,42,中心极限定理(central limit theorem),中心极限定理:设从均值为,方差为 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布,2023/10/26,非统计学专业本科3学分,43,总体均值的区间估计2,正态总体、未知、小样本,2023/10/26,非统计学专业本科3学分,44,总体均值的区间估计2,1.假定条件总体服从正态分布,且方差()未知小样本(n 30)2.使用 t 分布统计量,总体均值 在1-置信水平下的置信区间为,2023/10/26,非统计学专业本科3学分,45,t 分布,t分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布,2023/10/26,非统计学专业本科3学分,46,总体均值的区间估计2(例题分析),【例】已知某种灯泡的寿命服从正态分布,现从一批灯泡中随机抽取16只,测得其使用寿命(小时)如下。建立该批灯泡平均使用寿命95%的置信区间,2023/10/26,非统计学专业本科3学分,47,总体均值的区间估计2(例题分析),该种灯泡平均使用寿命的置信区间为1476.8小时1503.2小时,解:已知N(,2),n=16,1-=95%,t/2=2.131根据样本数据计算得:,总体均值 在1-置信水平下的置信区间为,2023/10/26,非统计学专业本科3学分,48,总体比例的区间估计,重点:一个总体比例的区间估计大样本,2023/10/26,非统计学专业本科3学分,49,总体比例的区间估计1(大样本,重复抽样),1.假定条件总体服从二项分布,即考察0-1标志的分布特征可以由正态分布来近似使用正态分布统计量t,3.总体比例P在1-置信水平下的置信区间为,2023/10/26,非统计学专业本科3学分,50,总体比例的区间估计2(大样本,不重复抽样),1.假定条件总体服从二项分布可以由正态分布来近似使用正态分布统计量t,3.总体比例P在1-置信水平下的置信区间为,2023/10/26,非统计学专业本科3学分,51,总体比例的区间估计1(例题分析),【例】某城市想要估计下岗职工中女性所占的比例,随机重复抽取了100个下岗职工,其中65人为女性职工。试以95%的置信水平估计该城市下岗职工中女性比例的置信区间,解:已知 n=100,p65%,t/2=1.96,该城市下岗职工中女性比例的置信区间为55.65%74.35%,2023/10/26,非统计学专业本科3学分,52,总体比例的区间估计2(例题分析),【例】某企业共有职工1000人。企业准备实行一项改革,在职工中征求意见,采取不重复抽样方法随机抽取200人作为样本,调查结果显示,有150人表示赞成该项改革,50人表示反对。试以95%的概率确定赞成改革的人数比例的置信区间,解:已知 n=100,p75%,t/2=1.96,该企业职工中赞成改革的人数比例的置信区间为69.63%80.37%之间,2023/10/26,非统计学专业本科3学分,53,四、总体总量指标的推断,从抽样调查的任务来看,除了由样本平均数估计总体平均数,由样本成数估计总体成数外,有时还要求从样本指标推断总体总量指标,这就是总体总量指标的推断问题常用的推断方法:直接推断法区间推断法修正系数法,2023/10/26,非统计学专业本科3学分,54,(一)直接推断法,直接以样本平均数代表总体平均数,与总体单位数N相乘来推断总体的标志总量;直接以样本成数代表总体成数,与总体单位数N相乘来推断具有某种标志表现的总体单位数这是在点估计的前提下进行的总体总量指标的推断,没有考虑可能的误差大小,2023/10/26,非统计学专业本科3学分,55,(二)区间推断法,以区间估计为依据,在一定的概率保证程度下,推断总体总量指标的区间范围,2023/10/26,非统计学专业本科3学分,56,(三)修正系数法,全面调查的工作性误差往往比较大,而且无法计算为了检查全面调查资料的质量,提高其准确性,必要时,可以应用抽样调查的资料对全面调查的资料进行补充和修正一般采用修正系数法对全面调查的总体进行抽样调查,将抽样结果与相应范围的全面调查资料相对比,求得修正系数,再用它修正全面调查的资料,5.3结束,