第5章高维列联表.ppt
《第5章高维列联表.ppt》由会员分享,可在线阅读,更多相关《第5章高维列联表.ppt(38页珍藏版)》请在三一办公上搜索。
1、第五章 高维列联表,高维列联表的数据结构,三维rct列联表的数据结构:假设n个个体按照三个属性分类,其中属性A有r类,属性B有c类,属性C有t类;n个个体中属于Ai、Bj、Ck类的有nijk个,联合概率为pijk,高维列联表的结构,【例】为了解不同年龄的男性,吸烟与呼吸系统疾病之间的关系,调查数据见下表:上表为三维222列联表。其中,“年龄”为层属性,“呼吸情况”为行属性,“吸烟情况”为列属性。在每一层,都是一个二维列联表。,高维列联表的压缩,通过把不同年龄的数据合并,可以将三维列联表压缩成二维列联表。也可以合并“呼吸情况”的数据,得到“年龄与吸烟情况”的二维表;或合并“吸烟情况”的数据,得到
2、“年龄与呼吸情况”的二维表。,高维列联表的压缩,一般地,列联表压缩后的数据结构为:经过合并压缩后得到的二维表,称为边缘表。边缘表实际上是“忽略”某个属性后得到的列联表。,高维列联表的分层,与压缩相反,可以把三维表中的每一层的二维表分离出来加以研究,这时称为部分表。上述三维222列联表,可以通过按年龄分层,分离出两张二维列联表,即两个部分表。部分表中的关联性称为条件关联性,即某个属性给定(被控制)时,另外两个属性之间的关系。部分表的条件关联性可能和边缘表中的关联性有较大差异,甚至是自相矛盾(辛普森悖论)。正是边缘表与部分表分析的条件发生变化,所以把压缩与分层结合起来分析是完全必要的。,部分表与边
3、缘表,从分层后的两张二维表(部分表)中,根据各自的卡方值可以看出,在年龄40的部分表中,吸烟情况与呼吸情况是相互独立的;而在另一个部分表即年龄4059的二维表中,二者则是相关联的(或不独立)。从按年龄合并、压缩后的二维表(边缘表)来看,吸烟情况与呼吸情况之间是相关联的。可见,部分表与边缘表关联性不一致,有时甚至会明显矛盾,完全相反。,部分表与边缘表,从四格表可知,优势比可以用来度量属性之间的关联性;根据部分表计算的优势比,称为条件优势比;根据边缘表计算的优势比,称为边缘优势比;与前面所述的部分表与边缘表的关系相一致,条件优势比与边缘优势比是不同的,有时二者会给出完全相反的结论;当部分表中两个属
4、性变量条件独立时,所有的条件优势比都等于1;但根据边缘表计算的边缘优势比可能并不等于1,即条件独立不代表边缘独立。,高维列联表的分层,分层与压缩相类似地,都可以按照不同的属性压缩或者分层。一般地,按属性A分层,可以分成r个二维ct列联表;按属性B分层,可以得到c个二维rt列联表;按属性C分层,可以得到t个二维rc列联表.压缩与分层都是针对高维列联表的分析方法,是从不同角度和途径对不同属性之间的关系进行分析的需要。基于辛普森悖论的存在,压缩与分层经常结合起来使用。,高维列联表的条件独立性检验,对于三维列联表,按照某一属性进行分层研究,实际上就是要进行条件独立性检验。如:考虑C给定后A与B条件独立
5、问题的检验。第k个二维rc列联表的检验统计量应为:为此,可以把t个统计量的和作为条件独立性检验的检验统计量,其自由度为t(r-1)(c-1)。,高维列联表的条件独立性检验,另外还有两个条件独立性检验的问题,即A给定B与C条件独立和B给定A与C条件独立。这三种条件独立性检验见下表:,条件独立性检验举例,【例5.2】某研究生院某年有1659名男生和1413名女生申请报考,其中有733名男生和428名女生被录取。录取结果见表5.12:经检验,该表的G2=63.18,p值0.0001,故认为该校有偏爱男生的倾向。为此,学校想进一步了解哪些专业有偏爱男生的倾向,根据5个不同专业的招生录取情况进行分析(见
6、表5.13)。表5.12是由5.13合并压缩而成。从表5.13可以看出各个专业的男女生录取比例基本上一致,为此需要进行条件独立性检验。,条件独立性检验举例,将表5.13按专业分层后形成5个部分表,各自独立性检验统计量的值分别为:0.0175,0.2058,0.2364,0.0386,0.0126;将5个统计量的值加起来才是条件独立性检验统计量的值,应为0.5109,自由度为5;检验的p值=0.9917,故接受原假设,认为性别与是否录取无关,验证了男女录取比例基本一致的判断。可见,同样的数据合起来(边缘表)与分开来(部分表)的关联性检验的结论正好相反。这就是辛普森悖论。,条件独立性检验举例,辛普
7、森悖论产生的主要原因在于:在计算总的录取比例时,尽管各个专业的男女生录取比例没有显著差异,但是男生和女生所采用的权重相差较大。其中,在计算男生录取比例时,录取比例高的专业权重大,录取比例低的专业权重小,导致男生总的录取比例偏高;在计算女生录取比例时,录取比例高的专业权重小,而录取比例低的专业权重大,从而使总的录取比例偏小。因此,经过检验,不能说该校有偏爱男生的倾向。,高维列联表的独立性检验,三维列联表除面临前述的条件独立性检验外,还会遇到另外两种独立性检验问题。,高维列联表的独立性检验,以上三种情况下的独立性检验问题之间有以下关系:其中,由左到右是包含和推出的关系,所描述的模型也由简单到复杂。
8、为此,可以在处理三维列联表时,按照以上顺序进行检验。如果前面的检验没有被拒绝,就可以不用再进行后面的检验。,高维列联表的独立性检验,对于第一种情况下,原假设为:任意格(i,j,k)的期望频数为:其似然比统计量为:,高维列联表的独立性检验,对于第二种情况下,原假设:A和(B、C)相互独立,相当于把后两种属性组成一种新的属性(BC),因此原假设可以记为:任意格上的期望频数应为:其似然比统计量应为:,高维列联表的独立性检验,如果(A,BC)没有被拒绝,这时独立性检验就结束了。接下来可以分析二维BC列联表;如果(A,BC)被拒绝,需要类似地检验另外两种情形即(B,AC)和(C,AB).其期望频数及统计
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 章高维列联表
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-6147042.html