《7第七讲++区间估计.ppt》由会员分享,可在线阅读,更多相关《7第七讲++区间估计.ppt(94页珍藏版)》请在三一办公上搜索。
1、第七章 总体参数估计,Population Parameter Estimation,第一节 参数估计的理解,推断统计,超越实际数据。是一个过程,它能在一定概率水平上,从样本数据得出与总体参数值有关的结论。由两部分构成:估计和假设检验。估计包括参数估计和非参数估计。,参数估计,当在研究中从样本获得一组数据后,如何通过这组信息,对总体特征进行估计,也就是如何从局部结果推论总体的情况,称为总体参数估计。,思 考,假设你正在研究平均一个人一生中要得到多少交通罚单。报告研究结果的方法有以下两种:“10”或者“8到12之间”,请考虑它们各自的优缺点。,参数估计,通俗地说,就是根据抽样结果来合理地、科学地
2、估计总体的参数很可能是什么?或者在什么范围。点估计:根据样本数据算出一个单一的估计值,用来估计总体的参数值。区间估计:计算抽样平均误差,指出估计的可信程度,进而在点估计的基础上,确定总体参数的所在范围或区间。,第二节 总体均值与方差的点估计,概括地说:经常需要对总体进行估计的两个数字特征是:总体的均值和方差。如果将总体的均值和方差视为数轴上的两个点,这种估计称为点估计。如果要求估计总体的均值或方差将落在某一段数值区间,这种估计称为区间估计。,一、点估计和区间估计(point estimation and interval estimation)1.点估计 点估计:当总体参数不清楚时,用一个特定
3、值(一般用样本统计量)对其进行估计,称为点估计。2区间估计 区间估计:是指用数轴上的一段距离表示未知参数可能落入的范围。,二、用样本平均数、方差和标准差估计总体平均数、方差和标准差,1.用样本平均数估计总体平均数 样本平均数是总体均值的良好估计。公式:,2.用样本方差估计总体方差,同理,用样本标准差估计总体标准差,3.一个好的样本统计量估计总体参数的要求,无偏性 是指如果用多个样本的统计量作为总体参数的估计值时,有的偏大,有的偏小,而偏差的平均数为0,这时,这个统计量就是无偏估计量。一致性 是指当样本容量无限增大时,估计值应能越来越接近它所估计的总体参数。即:当N时,X,S2n-12。,有效性
4、 是指当总体参数的无偏估计不止一个统计量时,无偏估计变异性小者有效性高,变异大者有效性低。充分性 是指一个容量为n的样本统计量,是否充分地反映了全部n个数据所反映总体的信息,这就是充分性。,例研究者要调查某社区居民家庭收入分布的差异情况,现随机抽查了10户,得到样本方差为200(元2)。试以此资料估计总体家庭收入分布的差异情况。解 因为样本容量较小,宜用修正样本方差作为总体方差点估计量。即 222.2,第三节 总体均数的区间估计,Gudmund R.Iversen说:,区间估计:给结论留一些余地。,一、区间估计的理解,(一)有关区间估计的几个概念1.置信区间:区间估计是求所谓置信区间的方法。置
5、信区间就是我们为了增加参数被估计到的信心而在点估计两边设置的估计区间。2.显著性水平:用置信区间来估计的不可靠程度。,区间估计的任务是,在点估计值的两侧设置一个区间,使得总体参数被估计到的概率大大增加。可靠性和精确性(即信度和效度)在区间估计中是相互矛盾的两个方面。,3.置信度(水平):用置信区间估计的可靠性(把握度)4.抽样平均误差 与概率度 Z 抽样平均误差:样本均值抽样分布的标准差。反映在参数周围抽样平均值的平均变异程度。越大,样本均值越分散。概率度:Z在参数估计中被称为概率度,其大小由 决定.,显著性水平、置信水平、概率度之间的关系:=0.10时,=0.90,Z/2=1.65=0.05
6、时,=0.95,Z/2=1.96=0.01时,=0.99,Z/2=2.58,二、区间估计的做法 从点估计值开始,向两侧展开一定倍数的抽样平均误差,并估计总体参数很可能就包含在这个区间之内。,设 为待估参数,是一给定的数,(01).若能找到统计量,使,置信区间或区间估计.,置信下限,置信上限,置信区间的定义,定义,反映了估计的可靠度,越小,越可靠.,置信区间的长度 反映了估计精度,越小,1-越大,估计的可靠度越高,但,确定后,置信区间 的选取方法不唯一,常选最小的一个.,几点说明,越小,估计精度越高.,这时,往往增大,因而估计精度降低.,处理“可靠性与精度关系”的原则,关于置信区间长度的小结,样
7、本中的观察值个数影响置信区间长度。大样本产生较短的置信区间。置信水平影响置信区间。短的置信区间能比长的置信区间提供更多的有关总体参数的信息。,区间估计,区间估计:给结论留一些余地。又称为置信区间,是用来估计参数的取值范围的。置信区间与显著性水平0.95置信区间0.05显著性水平的置信区间=0.01表示反复抽样1000次,则得到的1000个区间中不包含真值的仅为10个左右。区间估计的原理:样本分布理论置信区间(统计量标准误),(统计量标准误),要对总体参数值进行区间估计,既要在一定可靠度上求出总体参数的置信区间的上下限,需要以下条件:,1.要知道与所要估计的参数相对应的样本统计量的值,以及样本统
8、计量的理论分布;2.要求出该种统计量的标准误;3.要确定在多大的可靠度上对总体参数作估计,再通过查某种理论概率分布表,找出与某种可靠度相对应的该分布横轴上记分的临界值,才能计算出总体参数的置信区间上下限。,二、总体平均值的区间估计,(一)基本概念总体均值的区间估计,置信度,置信区间:日常用语表达:就是估计总体均值可能在什么范围之内。精确的数学语言表达:总体均值的区间估计就是确定总体均值将以特定概率落入其间的数值界限。这个特定概率称为置信度(或称显著性水平),用表示,这个数值界限称为置信界限,置信界限上下限之间的区间,称为置信区间。,(二)求解步骤,(1)根据实际样本的数据,计算样本的平均数和标
9、准差(2)计算标准误 a总体方差已知(查正态分布表)b总体方差未知(查t分布表)(3)确定置信区间(或显著性水平)(4)根据样本平均数的分布,确定查何种统计表(5)确定并计算置信区间(6)解释总体均数的置信区间。,不同情况总体均值的区间估计,(三)已知条件下,总体平均数的区间估计,(1)当总体已知,总体呈正态分布,大样本(n30)或小样本(n30)时(2)当总体已知,总体虽不呈正态分布,大样本(n30)时,样本平均数可以转换成标准记分。,1、两种类型,如果一个随机变量Z服从标准正态分布(=0,2=1的正态分布),那么 P-1.96Z1.96=0.95 P-2.58Z2.58=0.99,一个正态
10、总体 X N(2)的情形,方差 2已知,的置信区间,公式(一)(1),2、计算公式,解,得 的置信度为 的置信区间为,3、对总体参数进行区间估计的方法:,4、解释,在置信区间X-1.96SEx,X+1.96SEx内,正确估计总体均值所在区间的概率为0.95。但是,做这种区间估计不可能保证完全无误,估计错误的概率大约为0.05。,5、例题,已知某年某地区高考数学成绩的方差为100,从该地区随机抽得20名考生的数学成绩为:65、68、38、56、72、75、47、58、70、63、67、64、60、69、61、66、55、76、68、62,试求该地区这一年高考数学平均分95%和99%的置信区间。,
11、同理,总体平均数99%置信区间为:,答:该地区这一年高考数学平均分95%和99%的置信区间分别为58.62至67.38分之间和57.23至68.77分之间。由这些计算结果可以看到,置信区间与可靠度有关,可靠度要求越高,置信区间就越大,反过来,置信区间越大,则可靠度就越高,正确估计的把握就越大。,例 设某工厂妇女从事家务劳动服从正态分布,0.662,根据36人的随机抽样调查,样本每天平均从事家务劳动的时间为2.65小时,求 的置信区间(置信度=0.95)。解 按题意,此为大样本,且总体方差已知,又 36,2.65,0.66,0.95。查表得 1.96,代入公式有 2.65 1.96 2.65 0
12、.22 因此,有95的把握,该厂妇女的平均从事家务劳动的时间在2.87 2.43小时之间。,6、课堂练习,例,某弱智儿童学校的学生智力水平低于正常儿童,假设该校学生的智商分数遵从正态分布,抽查10名学生的智力水平,测得智商如下:85 70 90 81 72 75 80 82 76 79(1)试估计该校学生智商分数的平均值(2)如果知道该校学生智商分数的方差为25,试找出该校学生平均智商的置信区间。,课堂练习,已知总体为正态分布,=7.07,从总体中随机抽取n1=10和n2=36的两个样本,分别计算出样本1的平均数为78,样本2的平均数为79,试问总体参数的0.95和0.99置信区间。思考:两个
13、结果之间有何差异性?,课堂练习,某班49人期末考试成绩的平均分为85分,标准差s=6,假设此项考试能反映学生的学习水平,试推论该班学生学习的真实成绩分数。,(四)未知条件下总体平均数的区间估计,1.未知条件下总体平均数区间估计的基本原理当总体未知,总体呈正态分布,大样本或小样本时当总体未知,总体虽不呈正态分布,大样本容量较大(n30)时,样本平均数可以转换成t值。,方差 2未知,的置信区间,由,确定,故 的置信区间为,推导 选取枢轴量,公式(2),(1)求标准误计算标准误的公式为:样本n30则仍用正态分布。,平均数标准误的估计量有三种算法:,(2)利用t分布估计总体平均值的置信区间的解题步骤,
14、条件为:总体为正态分布,XN(,2),当总体方差2未知时,求总体平均值的置信区间步骤:由样本容量为n的随机变量X的值X1,X2,X3,Xn求出X,S,自由度df=n-1;求出SEx=S/n-1;确定显著性水平,查t值分布表,找出临界值;,查表的方法:,首先确定显著性水平和自由度;然后查附表2,在查表时注意双侧尾值或单侧尾值,由于 P t=0.95,将公式t=(X-)/SEx代入上式,得:P(X-)/SEx=0.95 整理得:PX-SEx X+SEx=0.95 分别求出:X-Sn-1/n和X+Sn-1/n求出总体平均值的置信区间:X-SEx,X+SEx,3课堂练习,例1:对某校学生的智商水平进行
15、抽样测查,共测量了20名学生,所得智商分数如下:90,92,94,95,97,98,99,101,101,102,103,104,105,105,106,110,115,120,88,85。问该校学生平均智商分数在什么范围内?给出平均数和标准差:X=Xi/n=100.5 S2n-1=(Xi-X)2/(n-1)=76,总体平均数95%置信区间为:,总体平均数99%置信区间为:,课堂练习,某校对高中一年级学生进行英语水平测试,测试后从中抽取的9个考生的成绩为83、91、62、50、74、68、70、65、85,试对该年级考生的该次考试成绩均值作区间估计(取=0.05),从来自在“白领犯罪与罪犯生涯
16、:一些初步研究结果”的一项研究报告的数据表明,白领犯罪可能是年纪较大者,并且显示比街头罪犯有较低的犯罪率。给出数据为:白领犯罪发作平均年龄为54岁,=100,标准差被估计为7.5岁。建立真实平均年龄的90%置信区间。,2、小样本,且为正态总体,总体均值的区间估计(用 分布),例 在一个正态总体中抽取一个容量为25的样本,其均值为52,标准差为12,求置信水平为95的总体均值的置信区间。解 根据题意,总体方差未知,且为小样本,故用 分布统计量。由95置信水平查 分布表得概率度(24)2.064 代入公式得 522.064 525.06 因此,置信水平95的总体均值的置信区 间是从46.94到57
17、.06。,例如:某年高考结束后从某地区随机抽取20名考生,计算得他们数学的平均分为63,标准差为8.922,试求该地区这一年高考数学平均分95%和99%的置信区间。,解:总体平均数95%置信区间为:,同理,总体平均数99%置信区间为:,答:该地区这一年高考数学平均分95%和99%的置信区间分别为58.72至67.28分之间和57.14至68.86分之间。,3.大样本的情况:首先看抽样分布如何,一般是t分布。但由t分布的性质可知,当样本容量比较大,自由度在逐渐增大,这时的t分布已经非常接近正态分布。这时可把t分布转成标准正态分布来作处理。然后再作区间估计。这时临界值就不用查表获得。当显著水平定为
18、95%时,就可以把1.96直接代入;同理,99%对应2.58。这时就得到所求估计区间。,未知,用 代替,例 从某校随机地抽取100名男学生,测得平均身高为170厘米,标准差为7.5厘米,试求该校学生平均身高95的置信区间。解 按题意,此为大样本,且总体方差未知,又 100,170,7.5,0.95查表得 1.96,代入公式有 1701.96 1701.47因此,有95的把握,该校学生的平均身高在168.5 171.5厘米之间。,课堂练习,1、根据某大学100名学生的抽样调查,每月平均用于购买书籍的费用为4.5元,标准差为5元,求大学生每月用于购买书籍费用的区间估计(置信度为95%)。2、某工厂
19、根据200名青年职工的抽样调查,其中60%参加各种形式的业余学习。求青年职工参加业余学习比例的区间估计(置信度为95%)。(3.52,5.48)(0.54,0.66),第四节 标准差与方差的区间估计,标准差与方差的区间估计,与平均数的估计相同,首先要知道它们的抽样分布(抽样分布的平均数和标准差),然后才能据此确定置信区间。,一、标准差的区间估计,当样本容量大于30时,样本标准差的分布渐进正态分布,标准差的平均数为:,标准差分布的标准差为:/有一个随机样本n=31,sn-1=5,问该样本总体标准差0.95的置信区间。,二、方差的区间估计,利用卡方分布,公式1,公式2,利用2分布估计总体方差2的置
20、信区间(1)利用公式1进行计算 已知:2=(n-1)S2n-1/2,置信度为0.05 在横轴上设2个临界点1和2,使:P1 2 2=0.95,将上式代入,得:P1(n-1)S2n-1/2 2=0.95 两边同除(n-1)S2n-1得:1/(n-1)S2n-1 1/2 2/(n-1)S2n-1,得总体方差2的置信区间:(n-1)S2n-1/2 2(n-1)S2n-1/1 写成:(n-1)S2n-1/2,(n-1)S2n-1/1 其中:1为2/2,2为21-/2(n-1)S2n-1/2/2,(n-1)S2n-1/21-/2,课堂练习,某校高中语文毕业考试中,随机抽取15份,其成绩如下:75,68,
21、72,89,86,78,91,92,79,83,88,90,85,77,82.试确定语文成绩的方差在什么范围?(5.36,11.54),(2)利用公式2计算 由 分布的性质,我们知道有 因此,对于给定的置信水平,总体方差的区间估计为,例 研究者调查某社区居民家庭收入情况,现随机抽查了10户,得到样本方差为S200(元2),试以90的置信水平估计居民总体家庭收入之方差的置信区间。解 根据题意,查分布表得 3.325 16.919代入公式有 所以该社区居民收入之方差90置信水平的置信区间为118.2601.5(元2)。,课堂练习,例:根据30名被试的视反应时的实验结果,计算出视反应时的方差为900
22、毫秒,试估计当置信度为0.05时,总体方差的置信区间。,三、F分布与二总体方差之比的区间估计,(一)利用F分布估计二总体方差之比的置信区间公式 由F分布知:F=S2n1-1/S2n2-1,服从F分布,且df1=n1-1,df2=n2-1。又知样本方差S2是总体方差的无偏估计,其之比S2n1-1/S2n2-1是围绕总体方差之比12/22上下波动,故二总体方差12=22 二个样本的总体方差相等的区间估计则用下式:12/22=1 而不用 12-22=0,由于F分布不是对称分布,若F分布右侧一端的概率为:F=S2n1-1/S2n2-1,则另一侧的概率可用:F=1/F=S2n2-1/S2n1-1,112
23、22,212=22,二、课堂练习,例:8名男女生在某项心理实验中所得测量结果的方差分别为1.12和4.98。问男女生测量值的总体方差是否相等。,样本统计量估计总体参数小结:,1.点估计用样本平均数、方差和标准差估计总体平均数、方差和标准差公式:,2.区间估计,(1)样本平均数对总体平均数的区间估计A。总体方差2已知,对总体平均数的估计 标准误:SEx=/n Z值:Z=(X-)/SEx 求解总体平均值估计的公式:PX-1.96SExX+1.96SEx=0.95,B。总体方差2未知时,对总体平均数的估计,求标准误公式:求总体平均值的置信区间:X-SEx,X+SEx其中,查t分布表得出临界值,(2)
24、利用2分布估计总体方差2的置信区间,A。样本方差已知 得总体方差2的置信区间:(n-1)S2/2 2(n-1)S2/1 写成:(n-1)S2/2,(n-1)S2/1 其中:1为2/2,2为21-/2,B。样本方差未知,总体方差2的置信区间:(Xi-X)2/2,(Xi-X)2/1 其中:1=21-/2,2=2/2,(3)利用F分布估计二总体方差之比的置信区间,A。1222B。12=22,7.3 区间估计,引例 已知 X N(,1),不同样本算得的 的估计值不同,因此除了给出 的点估计外,还希望根据所给的样本确定一个随机区间,使其包含参数真值的概率达到指定的要求.,的无偏、有效点估计为,7.3,如
25、引例中,要找一个区间,使其包含 的真值的概率为0.95.(设 n=5),取,查表得,这说明,即,称随机区间,为未知参数 的置信度为0.95的置信区间.,例1 某工厂生产一批滚珠,其直径 X 服从,解(1),即,正态分布 N(2),现从某天的产品中随机,(1)若 2=0.06,求 的置信区间(2)若 2未知,求 的置信区间(3)求方差 2的置信区间.,抽取 6 件,测得直径为,15.1,14.8,15.2,14.9,14.6,15.1,例1,由给定数据算得,由公式(1)得 的置信区间为,(2)取,查表,由给定数据算得,由公式(4)得 2 的置信区间为,(3)选取枢轴量,查表得,由公式(2)得 的置信区间为,若总体 X 的分布未知,但样本容量很大,由中心极限定理,可近似地视,若2已知,则 的置信度为1-的置信区间可取为,若2未知,则 的置信度为1-的置信区间可取为,(四)非正态总体均值的区间估计,(四),
链接地址:https://www.31ppt.com/p-2731960.html