拟合优度的卡方检.ppt
,在前面的课程中,我们已经了解了假设检验的基本思想,并讨论了当总体分布为正态时,关于其中未知参数的假设检验问题.,然而可能遇到这样的情形,总体服从何种理论分布并不知道,要求我们直接对总体分布提出一个假设.,例如,从1500到1931年的432年间,每年爆发战争的次数可以看作一个随机变量,椐统计,这432年间共爆发了299次战争,具体数据如下:,在概率论中,大家对泊松分布产生的一般条件已有所了解,容易想到,每年爆发战争的次数,可以用一个泊松随机变量来近似描述.也就是说,我们可以假设每年爆发战争次数分布X近似泊松分布.,上面的数据能否证实X 具有泊松分布的假设是正确的?,现在的问题是:,又如,某钟表厂对生产的钟进行精确性检查,抽取100个钟作试验,拨准后隔24小时以后进行检查,将每个钟的误差(快或慢)按秒记录下来.,问该厂生产的钟的误差是否服从正态分布?,再如,某工厂制造一批骰子,声称它是均匀的.,为检验骰子是否均匀,要把骰子实地投掷若干次,统计各点出现的频率与1/6的差距.,也就是说,在投掷中,出现1点,2点,6点的概率都应是1/6.,得到的数据能否说明“骰子均匀”的假设是可信的?,问题是:,K.皮尔逊,这是一项很重要的工作,不少人把它视为近代统计学的开端.,解决这类问题的工具是英国统计学家K.皮尔逊在1900年发表的一篇文章中引进的所谓 检验法.,检验法是在总体X 的分布未知时,根据来自总体的样本,检验关于总体分布的假设的一种检验方法.,H0:总体X的分布函数为F(x),然后根据样本的经验分布和所假设的理论分布之间的吻合程度来决定是否接受原假设.,这种检验通常称作拟合优度检验,它是一种非参数检验.,3.根据所假设的理论分布,可以算出总体X的值落入每个Ai的概率pi,于是npi就是落入Ai的样本值的理论频数.,1.将总体X的取值范围分成k个互不重迭的小区间,记作A1,A2,Ak.,2.把落入第i个小区间Ai的样本值的个数记作fi,称为实测频数.所有实测频数之和f1+f2+fk等于样本容量n.,标志着经验分布与理论分布之间的差异的大小.,皮尔逊引进如下统计量表示经验分布与理论分布之间的差异:,统计量 的分布是什么?,在理论分布已知的条件下,npi是常量,实测频数,理论频数,皮尔逊证明了如下定理:,若原假设中的理论分布F(x)已经完全给定,那么当 时,统计量,的分布渐近(k-1)个自由度的 分布.,如果理论分布F(x)中有r个未知参数需用相应的估计量来代替,那么当 时,统计量 的分布渐近(k-r-1)个自由度的 分布.,为了便于理解,我们对定理作一点直观的说明.,是k个近似正态的变量的平方和.,这些变量之间存在着一个制约关系:,故统计量 渐近(k-1)个自由度的 分布.,在理论分布F(x)完全给定的情况下,每个pi 都是确定的常数.由棣莫佛拉普拉斯中心极限定理,当n充分大时,实测频数 fi 渐近正态,,因此,在F(x)尚未完全给定的情况下,每个未知参数用相应的估计量代替,就相当于增加一个制约条件,因此,自由度也随之减少一个.,若有r个未知参数需用相应的估计量来代替,自由度就减少r个.,此时统计量 渐近(k-r-1)个自由度的 分布.,如果根据所给的样本值 X1,X2,Xn算得统计量 的实测值落入拒绝域,则拒绝原假设,否则就认为差异不显著而接受原假设.,得拒绝域:,(不需估计参数),(估计r 个参数),皮尔逊定理是在n无限增大时推导出来的,因而在使用时要注意n要足够大,以及npi 不太小这两个条件.,根据计算实践,要求n不小于50,以及npi 都不小于 5.否则应适当合并区间,使npi满足这个要求.,让我们回到开始的一个例子,检验每年爆发战争次数分布是否服从泊松分布.,提出假设H0:X服从参数为 的泊松分布,按参数为0.69的泊松分布,计算事件X=i 的概率pi,,=0.69,将有关计算结果列表如下:,根据观察结果,得参数 的极大似然估计为,因H0所假设的理论分布中有一个未知参数,故自由度为4-1-1=2.,将n 5的组予以合并,即将发生3次及4次战争的组归并为一组.,故认为每年发生战争的次数X服从参数为0.69的泊松分布.,按=0.05,自由度为4-1-1=2查 分布表得,=5.991,=2.435.991,,未落入否定域.,奥地利生物学家孟德尔进行了长达八年之久的豌豆杂交试验,并根据试验结果,运用他的数理知识,发现了遗传的基本规律.,在此,我们以遗传学上的一项伟大发现为例,说明统计方法在研究自然界和人类社会的规律性时,是起着积极的、主动的作用.,孟德尔,他的一组观察结果为:,黄70,绿27,近似为2.59:1,与理论值相近.,根据他的理论,子二代中,黄、绿之比 近似为3:1,,由于随机性,观察结果与3:1总有些差距,因此有必要去考察某一大小的差异是否已构成否定3:1理论的充分根据,这就是如下的检验问题.,这里,n=70+27=97,k=2,检验孟德尔的3:1理论:,提出假设H0:p1=3/4,p2=1/4,理论频数为:np1=72.75,np2=24.25,实测频数为70,27.,自由度为k-1=1,=0.41583.841,,按=0.05,自由度为1,查 分布表得,=3.841,未落入否定域.,故认为试验结果符合孟德尔的3:1理论.,这些试验及其它一些试验,都显 示孟德尔的3:1理论与实际是符合的.这本身就是统计方法在科学中的一项 重要应用.,用于客观地评价理论上的某个结论是否与观察结果相符,以作为该理论是否站得住脚的印证.,教材上的另一例留给同学们自己看.由于这种检验的计算量相对较大,一般要用统计软件包来实现.,这一讲我们介绍了拟合优度的 检验法.在对总体的分布进行检验时经常使用.,