卡方拟合优度检验.ppt
生物统计学,第七章 拟合优度检验-2检验,拟合优度检验的意义 判断实际观察的属性类别分配是否符合已知属性类别分配理论或学说的假设检验。简单的说:用于检验总体是否服从某个指定分布。.检测观察数与理论数之间的一致性;.通过检测观察数与理论数之间的一致性来判定事物之间的独立性。,7.1、拟合优度检验的一般原理,7.1.1 什么是拟合优度检验(P92),一、2统计量的意义 为了便于理解,现结合一实例说明2(读作卡方)统计量的意义。根据遗传学理论,动物的性别比例是1:1。统计某一年所产的876只实验动物,有雄性428只,雌性448只。按1:1的性别比例计算,雌雄均应为438只。以Oi表示实际观察次数,Ti 表 示 理 论次数,可将上述情况列成下表。,7.1.2 拟合优度检验的统计量(P92),表 动物性别实际观察次数与理论次数,从上表可以看到,实际观察次数与理论次数存在一定的差异。这个差异是属于抽样误差、还是其性别比例发生了实质性的变化?要回答这个问题:首先需要确定一个统计量用以表示实际观察次数与理论次数偏离的程度;然后判断这一偏离程度是否属于抽样误差,即进行显著性检验。,为了度量实际观察次数与理论次数偏离程度:A:最简单的办法是求出实际观察次数与理论次数的差数。如上表:O1-T1=-10,O2-T2=10,由于这两个差数之和为0,显然此方法不可行;B:计算(O-T)2,其值越大,实际观察次数与理论次数相差亦越大,反之则越小。但尚有不足。例如某一 组 实 际 观 察 次 数为505、理论次数为500,相差5;而另一组实际观察次数为26、理论次数为21,相差亦为5。,为了弥补B这一不足,将各差数平方除以相应的理论次数后再相加,并记之为2,即,也就是说2是度量实际观察次数与理论次数偏离程度的一个统计量,2越小,表明实际观察次数与理论次数越接近;2=0,表示两者完全吻合;2越大,表示两者相差越大。,二、2分布 上面引入了统计量2,它近似地服从统计学中一种连续型随机变量的概率分布2分布。下面对统计学中的2分布作一简略介绍。设有一平均数为、方差为 的正态总体。现从此总体中独立随机抽取n个随机变量:x1、x2、xn,并求出其标准正态离差:,记这n个相互独立的标准正态离差的平方和为2:它服从自由度为n的2分布,记为 2(n);,若用样本平均数 代替总体平均数,则随机变量 服从自由度为n-1的2分布,记为,显 然,20,即 2 的 取 值 范 围 是0,+;2分布密度曲线是随自由度不同而改变的一组曲线。随自由度的增大,曲线由偏斜渐趋于对称;df30时,接近正态分布。下面给出了几个不同自由度的2概率分布密度曲线。,的连续性矫正 由公式计算的2只是近似地服从连续型随机变量2分布。在对次数资料进行2检验利用连续型随机变量2分布计算概率时,常常偏低,特别是当自由度为1时偏差较大。Yates(1934)提出了一个矫正公式,矫正后的2值记为:=(7-2),当自由度大于1时,原公式的2分布与连续型随机变量2分布相近似,这时,可不作连续性矫正,但要求各组内的理论次数不小于5。若某组的理论次数小于5,则应把它与其相邻的一组或几组合并,直到理论次数大 于5 为止。,统计量:使用条件:各理论值均大于5。若自由度为1,则应作连续性矫正:,方法为:把x的值域分为r个不相重合的区间,再计算在指定的分布下,x落入每一区间的概率pi 统计样本含量为n的抽样中,观察值落入各区间的次数Oi用统计量进行检验,步骤如下:,7.2、拟合优度检验,7.2.1 一般程序(P93),检验步骤如下:(一)提出无效假设与备择假设(二)选择计算公式(三)计算理论次数(四)计算2值(五)查临界2值,作出统计推断,说明:(一)H0:实际观察的属性类别分配符合已知属性类别分配的理论或学说;HA:实际观察的属性类别分配不符合已知属性类别分配的理论或学说。(二)选择计算出2还是2c。(三)在无效假设成立的条件下,按已知属性类别分配的理论或学说计算 各属性类别的理论次数。,(四)计算出2或2c。(五)根据自由度k-1(若属性类别分类数为 k,则适合性检验的自由度为 k-1)查2值表(附表)所得的临界2值:20.05、20.01,将所计算得的2或2c值与其比较,作出统计推断:若2(或2c)20.05,P0.05,表明实际观察次数与理论次数差异不显著,可以认为实际观察的属性类别分配符合已知属性类别分配的理论或学说;若20.052(或2c)20.01,若2(或2c)20.01,,下面结合实例说明适合性检验方法。(总体参数已知)【例】在研究牛的毛色和角的有无两对相对性状分离现象时,用黑色无角牛和红色有角牛杂交,子二代出现黑色无角牛192头,黑色有角牛78头,红色无角牛72头,红色有角牛18头,共360头。试 问这两对性状是否符合孟德尔遗传规律中9331的遗传比例?,7.2.2 对二项分布的检验(P93),检验步骤:(一)提出无效假设与备择假设 H0:实际观察次数之比符合9331的理论比例。HA:实际观察次数之比不符合9331的理论比例。(二)选择计算公式 由于本例的属性类别分类数 k=4:自由 度df=k-1=4-1=31,故计算2。(三)计算理论次数 依据各理论比例9:3:3:1计算理论次数:,黑色无角牛的理论次数T1:3609/16=202.5;黑色有角牛的理论次数T2:3603/16=67.5;红色无角牛的理论次数T3:3603/16=67.5;红色有角牛的理论次数T4:3601/16=22.5。或 T4=360-202.5-67.5-67.5=22.5(四)列表计算2,表 2计算表,=0.5444+1.6333+1.6333+0.9=4.711(五)查临界2值,作出统计推断 当df=3时,20.05(3)=7.81,因 20.05,不能否定H0,表明实际观察次数与理论次数差异不显著,可以认为毛色与角的有无两对性状杂 交 二 代 的 分 离 现 象 符 合 孟 德 尔遗传规律中9331的遗传比例。,例7.1;7.2(P93;94),总体参数未知 例P95,表7-1不同之处:要由样本估计出总体参数。,7.2.3 对正态分布的检验(P96),7.2.4 其他类型问题的检验(P97),一、独立性检验的意义 对次数资料,除进行拟合优度检验外,有时需要分析两类因子是相互独立还是彼此相关。如研究两类药物对实验动物某种疾病治疗效果的好坏,先将动物分为两组,一组用第一种药物治疗,另一组用第二种药物治疗,然后统计每种药物的治愈头数和未治愈头数。,7.3、独立性检验,7.3.1 列联表2 检验(P97),这时需要分析药物种类与疗效是否相关,若两者彼此相关,表明疗效因药物不同而异,即两种药物疗效不相同;若两者相互独立,表明两种药物疗效相同。这种根据次数资料判断两类因子彼此相关或相互独立的假设检验就是独立性检验。独立性检验实际上是基于次数资料对因子间相关性的研究。,独立性检验与拟合优度检验是两种不同的检验方法,除了研究目的不同外,还有以下区别:(一)独立性检验的次数资料是按两因子属性类别进行归组。根据两因子属性类别数的不同而构成22、2c、rc列联表(r 为行因子的属性类别数,c 为 列 因子的属性类别数)。而适合性检验只按某一因子的属性类别将如性别、表现型等次数资料归组。,(二)拟合优度检验按已知的属性分类理论或学说,计算理论次数。独立性检验在计算理论次数时没有现成的理论或学说可资利用,理论次数是在两因子相互独立的假设下进行计算。(三)在拟合优度检验中确定自由度时,只有一个约束条件:各理论次数之和等于各实际次数之和,自由度为属性类别数减1。而在rc列联表的独立性检验中,共有rc个理论次数,但受到以下条件的约束:,1、rc个理论次数的总和等于rc个实际次数的总和;2、r个横行中的每一个横行理论次数总和等于该行实际次数的总和。独立的行约束条件只有r-1个;3、类似地,独立的列约束条件有c-1个。因而在进行独立性检验时,自由度为rc-1-(r-1)-(c-1)=(r-1)(c-1),即等于(横行属性类别数-1)(直列属性类别数-1)。,二、独立性检验的方法(一)22列联表的独立性检验 22列联表的一般形式如下表所示,其自由度 df=(c-1)(r-1)=(2-1)(2-1)=1,在进行2检验时,需作连续性矫正,应计算 值。,表 22列联表的一般形式,其中Aij为实际观察次数,Tij为理论次数。,其理论数的计算为:,例 7.3 下表是不同给药方式与给药效果表 给药方式与给药效果的22列联表,上表称为22列联表(22 contingency table)。22列联表的 c2 检验一般需经以下各步:,(1)提出零假设:认为有效或无效与给药方式并无关联。实际观察的结果与在两者之间并无关联的前提下,从理论上推导出的理论数之间无差异。即H0:OT0。(2)根据概率乘法法则,若事件A和事件B是相互独立的,或者说它们之间并无关联,这时事件A和事件B同时出现的概率等于它们分别出现的概率乘积。,反过来,若事件A和事件B同时出现的概率等于它们分别出现的概率的乘积,那么事件A 和事件B是独立的两者无关联。若事件A和事件B 同时出现的概率不等于它们分布出现的概率的乘积,则这两个事件间是有关联的。,例 7.3 的零假设是给药方式与给药效果之间无关联,则口服与有效同时出现的理论频率应为口服的频率与有效的频率的乘积,P(BA)P(B)P(A)(98193)(122193)。其理论数T1应当用理论频率乘以总数得出,T1(98193)(122193)(193)(98)(122)19361.15。同样可以计算出另外三种情况的理论数。(3)如吻合度检验那样计算c2值。若c2c2,则观察数与理论数是一致的,给药方式与给药效果间无关联的假设可以成立。若c2c2,则观察数与理论数不一致,说明给药方式与给药效果间是有关联的,不同的给药方式产生不同的效果。,(4)确定自由度,22列联表的自由度不再是413,而是(r1)(c1)或者写为(行1)(列1)。因为每一行的各理论数受该行总数的约束,每一列的各理论数受该列总数的约束,所以总的自由度只有(r1)(c1)。下面计算例 1.11的c2并做推断。首先计算各格的理论数,从下表中可以看出,任何一格的理论数等于这格所在的行总数乘以这格所在的列总数,再除以总数。在实际计算时,算出T1以后,可以用列总数减去T1得T3,用行总数减去T1得T2,列总数减去T2得T4。,结论是用口服方式与注射方式给药的效果没有显著不同。因为已经接受H0,不必再矫正。,【例】某研究用80头实验动物检验某种疫苗是否有预防效果。结果是注射疫苗的44头中有 12 头发病,32头未发病;未注射的36头中有22头发病,14头未发病,问该疫苗是否有预防效果?1、先将资料整理成列联表(22列联表),2、提出无效假设与备择假设 H0:发病与否和注射疫苗无关,即二因子相互独立。HA:发病与否和注射疫苗有关,即二因子彼此相关。3、计算理论次数 根据二因子相互独立的假设,由样本数据计算出各个理论次数。二因子相互独立,就是说注射疫苗与否不影响发病率。也就是说注射组与未注射组的理论发病率应当相同,均应等于总发病率34/80=0.425=42.5%。依 此计算出各个理论次数如下:,注射组的理论发病数:T11=4434/80=18.7 注射组的理论未发病数:T12=4446/80=25.3,或 T12=44-18.7=25.3;,未注射组的理论发病数:T21=3634/80=15.3,或 T21=34-18.7=15.3;未注射组的理论未发病数:T22=3646/80=20.7,或 T22=36-15.3=20.7。,从上述各理论次数Tij的计算可以看到,理论次数的计算利用了行、列总和,总总和,4个理论次数仅有一个是独立的。(括号内的数据为相应的理论次数)。4、计算 值 将表7-11中的实际次数、理论次数代入公式得:,5、由自由度df=1查临界2值,作出统计推断 因为 20.01(1)=6.6 3,而=7.94420.01(1),P0.01,否定H0,接受HA,表明发病率与是否注射疫苗极显著相关,这里表现为注射组发病率极显著低于未注射组,说明该疫苗是有预防效果的。,(二)2c列联表的独立性检验 2c列联表是行因子的属性类别数为2,列因子的属性类别数为c(c3)的列联表。其自由度d f=(2-1)(c-1)=(c-1),因为c3,所以自由度大于2,在进行2检验时,不需作连续性矫正。2c表的一般形式见表:,例见P99例7.4,此外,在畜牧、水产科学研究中,有时需将数量性状资料以等级分类,如剪毛量分为特等、一等、二等,产奶量分为高产与低产等,这些由数量性状资料转化为质量性状的次数资料检验,也可用2检验。,A、B两个品种产仔数的分类统计,(三)rc列联表的独立性检验 rc表是指行因子的属性类别数为r(r2),列因子的属性类别数为c(c2)的列联表。其一般形式见表7-17。,其中Aij(i=1,2,r;j=1,2,c)为实际观察次数。rc 列 联 表各个理论次数的计算方法与上述(22)、(2c)表适合性检验类似。【例】对三组实验动物(每组39头)分别喂给不同的饲料,各组发病次数统计如下表,问发病次数的构成比与所喂饲料是否有关?,表 三组动物的发病次数资料,检验步骤如下:1、提出无效假设与备择假设 H0:发病次数的构成比与饲料种类无关,即二者相互独立。HA:发病次数的构成比与饲料种类有关,即二者彼此独立。2、计算理论次数 对于理论次数小于5者,将相邻几个组加以合并(见表719),合并后的各组的理论次数均大于5。,表 资料合并结果(注:括号内为理论次数),3、计算2值 利用公式计算2值,得:,4、查临界2值,进行统计推断 由自由度df=(4-1)(3-1)=6,查临界2值得:20.05(6)=12.59 因为计算所得的20.05,不能否定HO,可以认为发病次数的构成比与饲料种类相互独立,即用三种不同的饲料饲喂动物,各组动物发病次数的构成比相同。,7.3.2 22列联表的精确检验(P99),22列联表的中的任何一格的理论数都不得小于5,当小于5时,需要用精确检验。,N40或T1,22列联表概率的计算方法:设4个格的取值分别为:a,b,c,d。令N=a+b+c+d,事件E为保持各行,列总数不变,事件F为各格取值为a,b,c,d,则有:,尾区建立方法:若a,b,c,d中任何一个为0,则可用上式算出的P值与或/2比较。若各格取值均不为0,按离散分布建立尾区,进行统计检验。离散分布尾区建立原则:从实际观察值开始,把对H0成立不利的方向上的概率全加起来,作为尾区的概率。,例7.5 例7.6 P100101,例见表7-5 P101用不同实验方法得到结果,一般不可以累加,但可以将其概率进行混合,以便累加得到各方面信息。例见P102,7.4、2 的可加性,7.4.1 2的齐性检验(P101),7.4.2 概率的混合(P102),题,圆粒豌豆与皱粒豌豆杂交,第二代的分离比例为:336粒圆粒对101粒皱粒,问这种分离比例是否符合孟德尔的3:1分离率?,课后习题7.2 P102,c20.1830.5500.733,结论是接受H0,实际数符合理论数,即符合孟德尔3:1的自由分离规律。,