教育统计学第六章.ppt
,第六章 抽样分布及总体 平均数的推断第一节 抽样分布第二节 总体平均数的推断第三节 假设检验的基本原理第四节 总体平均数的显著性检验,一、抽样分布的概念区分三种不同性质的分布总体分布:总体内个体数值的频数分布样本分布:样本内个体数值的频数分布抽样分布:某一统计量的频数分布,第一节 抽样分布,二、平均数抽样分布的几个定理(1)从总体中随机抽取容量为n的一切可能样本的平均数之平均数等于总体的平均数,即,(2)容量为n的平均数在抽样分布上的标准差,等于总体标准差除以n的平方根,即,(3)从服从正态分布的总体中,随机抽取容量为n的一切可能样本平均数的分布也呈正态分布。,(4)虽然总体不呈正态分布,如果样本容量较大,反映总体 和 的样本平均数的抽样分布,也接近于正态分布。,以上几条定理反应了平均数抽样分布的形态,一切可能样本平均数与总体平均数之间的关系;平均数抽样分布的标准差与总体标准差之间的关系。抽样分布是统计推断的理论依据。实际中只能抽取一个随机样本根据一定的概率来推断总体的参数。即使是抽取一切可能样本,计算出的某种统计量与总体相应参数的真值,大多也是不相同的,这是由于抽样误差的缘故。抽样误差用抽样分布的标准差来表示。因此,某种统计量在抽样分布上的标准差称为该种统计量的标准误。标准误越小,表明样本统计量与总体参数的值越接近,样本对总体越有代表性,用样本统计量推断总体参数的可靠度越大,所以标准误是统计推断可靠性的指标。,三、样本平均数与总体平均数离差统计量的形态,从正态总体中随机抽取样本容量为n的一切可能样本平均数以总体平均数为中心呈正态分布。当总体标准差已知时:,当总体标准差未知时:,总体标准差 的无偏估计量为,参数估计 假设检验 一、总体参数估计的基本原理 根据样本统计量对相应总体参数所作的估计叫总体参数估计。总体参数估计分为点估计和区间估计。1.点估计 点估计是指用样本统计量的值来估计相应总体参数的值。点估计的优点在于它能够提供总体参数的估计值;缺点在于它总是以误差的存在为前提,但又不能提供正确估计的概率。,第二节 总体平均数的估计,良好估计量的标准(1)无偏性:用统计量估计总体参数一定会有误差,不可能恰恰相同。因此,好的估计量应该是一个无偏估计量,即用多个样本的统计量作为总体参数的估计值,其偏差的的平均值为0。(2)有效性:当总体参数的无偏估计不止一个统计量,无偏估计变异性小者有效性高,变异大者有效性低。(3)一致性:当样本容量无限增大时,估计量的值能越来越接近它所估计的总体参数值,估计值越来越精确,逐渐趋近于真值。(4)充分性:一个容量为的样本统计量,是否充分地反映了全部个数据所反映总体的信息。,2.区间估计 区间估计的概念 区间估计是指以样本统计量的样本分布为理论依据,按一定的概率要求,由样本统计量的值估计总体参数值的所在范围。置信区间与显著性水平 置信区间是指在某一置信度时,总体参数所在的区域距离或区域长度。显著性水平是指估计总体参数落在某一区间时,可能犯错误的概率,用表示。1为置信度或置信水平。,区间估计的原理 区间估计的原理是样本分布理论。在计算区间估计值、解释估计的正确概率时,依据是该样本统计量的分布规律及样本分布的标准误。下面以平均数的区间估计为例,说明如何根据平均数的样本分布及平均数分布的标准误,计算置信区间和解释成功估计的概率。当总体标准差为已知时,样本平均数的分布为正态分布或渐近正态分布,此时样本平均数分布的平均数,标准误。根据正态分布,可以说:有95%的 落在 之间,或者说:之间包含所有的 的95%,即,但是,在实际研究中,只能得到一个样本平均数,我们可以将这个样本平均数看做是无限多个样本平均数之中的一个。于是将上式经过移项写成 这意味着有 95%的 落在 之间,或者说,估计 落在 之间正确的概率为 95%。,估计总体平均数的步骤(1)根据实得样本的数据,计算样本平均数与标准差。(2)计算标准误。(已知)或(未知)(3)确定置信区间或显著性水平。(4)根据样本平均数的抽样分布,确定查何种统计表。(5)计算置信区间。(正态分布)或(分布)(6)解释总体平均数的置信区间。,总体方差2 已知时,对总体平均数的估计,(1)当总体分布为正态时 当总体分布为正态,总体方差 已知时,样本平均数 的分布为正态分布,这时可用下式计算其置信区间:(其中)(2)当总体分布为非正态时 总体分布非正态,总体方差 已知,这时只有当样本容量 时,其样本平均数 的分布为渐近正态分布,这时可用下式计算其置信区间:(其中),例如:某小学10岁全体女童身高历年来标准差6.25cm,现从该校随机抽27名10岁女童,测得平均身高为134.2cm,试估计该校全体10岁女童平均身高95%和99%置信区间。,总体方差2 未知时,对总体平均数的估计,(1)当总体分布为正态时 当总体分布为正态,总体方差 未知时,样本平均数 的分布为分布,这时可用下式计算其置信区间:(其中)(2)当总体分布为非正态时 总体分布非正态,总体方差 未知,这时只有当样本容量 时,其样本平均数 的分布为渐近分布,这时可用下式计算其置信区间:(其中),小样本的情况,例如,从某小学二年级随机抽取12名学生,其阅读能力得分为28、32、36、22、34、30、33、25、31、33、29、26.试估计该校二年级阅读能力总体平均数95%和99%的置信区间。,大样本的情况,例如,从某年高考中随机抽取102份作文试卷,平均分数为26,标准差为1.5,估计总体平均数95%和99%的置信区间。说明:样本容量n=10330,t分布接近正态分布,故可用正态分布近似处理。,第三节 假设检验的基本原理,一、假设 假设是根据已知理论与事实对研究对象所做的假定性说明,统计学中的假设一般专指用统计学术语对总体参数所做的假定性说明。在进行任何一项研究时,都需要根据已有的理论和经验对研究结果作出一种预想的希望证实的假设,这种假设叫科学假设,用统计术语表示时叫研究假设(备择假设),记作H1。在统计学中不能对H1 的真实性直接检验,需要,建立与之对立的假设,称做零假设(虚无假设,无差假设,原假设),记作H0。假设检验的问题,就是要判断零假设H0 是否正确,决定接受还是拒绝零假设H0,若拒绝零假设H0,则接受备择假设H1。假设检验是从零假设出发,视其被拒绝的机会,如果根据样本信息,不得不否定零假设的真实性时,就不得不承认备择假设的真实性,这时,就要拒绝零假设而接受备择假设;如果根据样本的信息不能否定零假设的真实性时,就要保留零假设而拒绝备择假设。,二、小概率事件 假设检验的基本思想是概率性质的反证法。为了检验零假设,首先假定零假设为真。在零假设为真的前提下,如果导致违反逻辑或违反人们常识和经验的不合理现象出现,则表明“零假设为真”的假定是不正确的,也就不难接受零假设。若没有导致不合理的现象出现,那就认为“零假设为真”的假定是正确的,也就是接受了零假设。,假设检验中的“反证法”思想不同于数学中的反证法,后者是在假设某一条件下导致逻辑上的矛盾从而否定原来的假设。假设检验中“不合理现象”是指小概率事件在一次试验中发生了,它是基于人们在实践中广泛采用的小概率事件原理(小概率事件原理是指“小概率事件在一次试验中几乎不可能发生”。通常情况下,将概率不超过0.05或0.01的事件当做“小概率事件”)。,三、假设检验中的两类错误 统计学中将这类拒绝H0 时所犯的错误称做 错误,错误的概率,可以由研究者通过选择适当的显著性水平加以主动控制。称这类接受H0时所犯的错误为 错误,控制错误的概率有以下两种方法:利用已知的实际总体参数值与假设参数值之间大小关系,合理安排拒绝区域的位置;增大样本的容量。两类错误的关系:(1)不一定等于1;(2)与 不可能同时减小或增大;(3)1-反映着正确辨认真实差异的能力。,单侧检验与双侧检验,只强调差异而不强调方向性的检验叫双侧检验,假设形式为 强调某一方向的检验叫单侧检验。右侧检验:左侧检验:,假设检验的步骤,(1)根据问题要求,提出零假设和备择假设。(2)选择适当的检验统计量并计算其值。(3)规定显著性水平。(4)选择检验的方式(单侧还是双侧)。(5)做出统计决策。,假设检验的基本思想,引例,解,我们知道,即使应届与历届成绩一样,即 成立,个别应届毕业生成绩也是有波动的,成绩 r.v.正说明了这一点.故实测值与理论值总有一些差异.,用数理统计的语言就是说:,如果 成立,即往届应届成绩一样.,如果 不成立,即往届应届成绩 不一样.,如何确定k呢?,对于适当小的正数(=0.05,0.01,等),由实际推断原理,若 为真,综述假设检验方法的基本思想是:由样本出发,在 为真的前提下通过对被检参数的点估计量,结合统计量的分布,构造统计量(枢轴函数),由此结合实际,并利用上分位点确定小概率事件,便得检验 真伪的标准.,其思想方法是带有概率的反证法,理论依据是实际水平推断原理.,注1 称为原假设,称为备择假设,称为检验水平,U=称为检 验统计量.,注2 由小概率事件确定的区域 W=U|称为拒绝域,而U|称为接受域,称为临界值.,第四节 总体平均数的显著性检验,平均数的显著性检验是指根据样本平均数与假设总体平均数的差异检验样本所在总体的平均数与假设总体的平均数的差异。,(1)总体正态分布、总体方差已知的条件下平均数的显著性检验(2)总体正态分布、总体方差未知条件下平均数的显著性检验,平均数显著性检验的方法,(3)总体非正态分布条件下平均数的显著性检验 当 n30 时,尽管总体分布非正态,对于平均数的显著性检验仍可用Z 检验。(已知)或(未知)当 n30 时,若总体分布非正态,对于平均数的显著性检验不符合近似 Z 检验的条件,严格讲此时也不符合t 检验的条件。,一、已知条件下总体平均数的显著性检验,例1:某小学历届毕业生汉语拼音测验平均分数为66分,标准差为11.7.现已同样的试题测验应届毕业生,并从中随机抽18份试卷,算的平均分为69分,问该校应届与往届毕业生汉语拼音测验成绩是否一致?,(1)提出假设,(2)选择检验统计量并计算其值,(3)确定检验形式 双侧检验,(4)统计决断,表6.2 双侧Z检验统计决断规则,接收H0 拒绝H1结论为:该校应届与历届毕业生汉语拼音成绩无显著性差异,例2:某市高中入学考试数学平均分为68分,标准差为8.6.其中某所中学参加此次考试的46名学生的平均分数为63分,过去的资料表明,该校数学成绩低于全市平均水平,问此次考试该校数学平均分数是否仍显著低于全市平均分数?,(1)提出假设,(2)选择检验统计量并计算其值,(3)确定检验形式 左侧检验,(4)统计决断,表6.3 单侧Z检验统计决断规则,在0.01的水平上拒绝H0而接收H1。其结论为:该校高中入学考试数学的平均分数极其显著的低于全市平均分数。,二、未知条件下总体平均数的显著性检验,1.小样本情况,例1:某区初三英语统一测验平均分数为65分,该区某校20份试卷的分数为:72、76、68、78、62、59、64、85、70、75、61、74、87、83、54、76、56、66、68、62.问该校初三英语平均分数与全区是否一致?,(1)提出假设,(2)选择检验统计量并计算其值,未知,n=2030,(4)统计决断,表6.3 t检验统计决断规则,在0.05的显著性水平上拒绝H0而接收H1。其结论为:该校初三英语平均分数与全区平均分数有本质区别,或者说,它不属于平均分为65的总体。,(3)确定检验形式双侧检验,例2:某校上一届初一学生自学能力平均分为38分,这一届初一24个学生自学能力平均分为42分,标准差为5.7.假定这一届与上一届初一学生的学习条件相同,问这一届初一学生的自学能力是否高于上一届?,(1)提出假设,(2)选择检验统计量并计算其值,未知,n=2430,(3)确定检验形式右侧检验,(4)统计决断,表6.3 t检验统计决断规则,在0.01的显著性水平上拒绝H0而接收H1。其结论为:这一届初一学生的自学能力极其显著的高于上一届。,2.大样本情况,例:某年高考某市数学平均分为60,现从参加此次考试的文科学生中,随机抽取94份试卷,算得平均分数为58分,标准差为9.2,问文科数学成绩与全市考生是否相同?,(1)提出假设,(2)选择检验统计量并计算其值,未知,n=9430,(3)确定检验形式双侧检验,(4)统计决断,表6.3 单侧Z检验统计决断规则,在0.05的显著性水平上拒绝H0而接收H1。其结论为:某市文科学生数学平均分数与全市平均分数有本质区别,或者说,它不属于平均数为60的总体。,