两组两分类资料检验.ppt
《两组两分类资料检验.ppt》由会员分享,可在线阅读,更多相关《两组两分类资料检验.ppt(41页珍藏版)》请在三一办公上搜索。
1、两组两分类资料检验,内容,检验分类资料服从某个分布,设从总体A中随机抽取一个样本,样本量为n,其资料分布如下:,检验分类资料服从某个分布,举例:,某医生收治在某地50个患者,其血型分别如下:已知该地区的一般人群的血型分布如下:问题:患病人群的血型是否属于该地区一般人群的血样分布,实例,行列表资料的检验,卡方检验是以卡方分布为基础的一种常用假设检验方法,主要用于分类变量,它基本的无效假设是:H0:行分类变量与列分类变量无关联H1:行分类变量与列分类变量有关联=0.05统计量,其中Ai是样本资料的计数,Ti是在H0为真的情况下的理论数(期望值)。,卡方检验,在H0为真时,实际观察数与理论数之差Ai
2、Ti 应该比较接近0。所以在H0为真时,检验统计量 服从自由度为k-1的卡方分布。即:,拒绝H0。上述卡方检验由此派生了不同应用背景的各种问题的检验,特别最常用的是两个样本率的检验等。因为该原理的使用范围很广,但本次课程只学习用于推断两个分类变量是否相互关联。,方法原理,方法原理,理论频数基于H0成立,两样本所在总体无差别的前提下计算出各单元格的理论频数来,方法原理,残差设A代表某个类别的观察频数,E代表基于H0计算出的期望频数,A与E之差被称为残差。残差可以表示某一个类别观察值和理论值的偏离程度,但残差有正有负,相加后会彼此抵消,总和仍然为0。为此可以将残差平方后求和,以表示样本总的偏离无效
3、假设的程度。,方法原理,另一方面,残差大小是一个相对的概念,相对于期望频数为10时,20的残差非常大;可相对于期望频数为1000时20就很小了。因此又将残差平方除以期望频数再求和,以标准化观察频数与期望频数的差别。这就是我们所说的卡方统计量,在1900年由英国统计学家Pearson首次提出,其公式为:,方法原理,从卡方的计算公式可见,当观察频数与期望频数完全一致时,卡方值为0;观察频数与期望频数越接近,两者之间的差异越小,卡方值越小;反之,观察频数与期望频数差别越大,两者之间的差异越大,卡方值越大。当然,卡方值的大小也和自由度有关。,方法原理,卡方分布 显然,卡方值的大小不仅与A、E之差有关,
4、还与单元格数(自由度)有关,操作步骤,1.建立检验假设和确定检验水准H0:使用含氟牙膏和一般牙膏儿童龋患率相等H1:使用含氟牙膏和一般牙膏儿童龋患率不等2.=0.053.计算检验统计量2值,操作步骤,4.确定P值和作出推断结论查附表8,2界值表,得p0.05。按=0.05水准,不拒绝H0,尚不能认为使用含氟牙膏比使用一般牙膏儿童的龋患率低。对于四格表,卡方的计算公式又可进行简化,以方便手工计算对计算机而言并无实际价值tabi a b c d,chi2,操作步骤,值得指出,成组设计四格表资料的2检验与前面学习过的两样本率比较的双侧u检验是等价的。若对同一资料作两种检验,两个统计量的关系为2=u2
5、。其对应的界值也为平方关系。两者的应用条件也是基本一致的,连续性校正也基本互相对应。,卡方检验假设的等价性,两组儿童的龋齿率相同两组发生率的比较实际数据的频数分布和理论假设相同理论分布与实际分布的检验使用不同的牙膏并不会影响龋齿的发生(两个分类变量间无关联)两变量的相关分析,四格表2值的校正,英国统计学家Yates认为,2分布是一种连续型分布,而四格表资料是分类资料,属离散型分布,由此计算的2值的抽样分布也应当是不连续的,当样本量较小时,两者间的差异不可忽略,应进行连续性校正(在每个单元格的残差中都减去0.5)若n 40,此时有 1 T 5时,需计算Yates连续性校正2值T 1,或n40时,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 两组两 分类 资料 检验
链接地址:https://www.31ppt.com/p-5683109.html