非参数统计第5章分类数据的关联分析.ppt
《非参数统计第5章分类数据的关联分析.ppt》由会员分享,可在线阅读,更多相关《非参数统计第5章分类数据的关联分析.ppt(76页珍藏版)》请在三一办公上搜索。
1、第5章 分类数据的关联分析,本章内容,本章要求,掌握分类数据的独立性研究方法;区分分类数据的独立性和齐性检验的异同;掌握Fisher检验与卡方检验的应用条件的异同;了解Ridit方法和应用;了解对数线性模型和卡方检验的异同;熟练应用R语言中的相关命令学习如上方法。,5.1 列联表和 独立性检验,分别为A和B的边缘概率.,若A和B独立,或者A和B之间没有关联,则A和B的联合概率应该等于A和B的边缘概率的乘积,假设检验问题:,当 取大值,或者p-值很小的时候,拒绝零假设。,独立性检验,零假设下,时,构造统计量:,blood=c(98,38,289,67,41,262,13,8,57,18,12,3
2、0)blood=matrix(blood,nrow=4,byrow=T)#如果想按照行填入矩阵 blood,1,2,31,98 38 2892,67 41 2623,13 8 574,18 12 30 chisq.test(blood)Pearsons Chi-squared testdata:bloodX-squared=15.0734,df=6,p-value=0.01969,R程序,要检验不同变量之间是否独立,频率过小的点不能太多.Siegel 和Castellan(1988)指出行数和列数至少其一要超过2,频数低于5个的单元格数不能超过20%,不能充许存在频数小于1的单元格,上一节是利
3、用列联表分析两个因素之间是否独立.当其中一个因素换成区组时,对应的问题是检验实验数据在不同区组上的分布是否一致,这类检验问题称为齐性检验.检验方法和独立性检验相同。,5.2 齐性检验,假设检验问题:,构造Pearson 统计量:,在零假设下近似有:,Jane_Austen=c(147,186,101,83,25,26,11,29,32,39,15,15,94,105,37,22,59,74,28,43,18,10,10,4)Jane_Austen=matrix(Jane_Austen,nrow=6,byrow=T)chisq.test(Jane_Austen)Pearsons Chi-squa
4、red testdata:Jane_AustenX-squared=45.5775,df=15,p-value=6.205e-05,例5.2 R程序,R程序,TV_lover=c(83,70,45,91,86,15,41,38,10)TV_lover=matrix(TV_lover,nrow=3,byrow=T)chisq.test(TV_lover)Pearsons Chi-squared testdata:TV_loverX-squared=18.6508,df=4,p-value=0.0009203,5.3 Fisher精确检验,Pearson 检验要求频数低于5个的单元格数不能超过20
5、%.对于22列联表,只要有一格数据小于5,就不能满足要求.因此有必要采用别的方法.Fisher精确检验(Fishers exact test)就是其中之一.下面以22列联表为例介绍Fisher精确检验,2*2列联表,假设边缘频数和总频数都是固定的.在因数A和因数B独立的零假设之下,服从超几何分布:,事实上,4个格点中只要一个数确定了,其它3个会随着而定,因此也可以表示为:R语言和EXCEL软件的调用函数分别为比如行总数依次为5,3,列总数依次为3,5时,所有可能的表为其R语言调用函数为,HYPGEOMDIST(n11,n1.,n.1,n),dhyper(n11,n.1,n.2,n1.,log=
6、FALSE),dhyper(k,3,5,5,log=FALSE),dhyper(0,3,5,5,log=FALSE)1 0.01785714 dhyper(1,3,5,5,log=FALSE)1 0.2678571 dhyper(2,3,5,5,log=FALSE)1 0.5357143 dhyper(3,3,5,5,log=FALSE)1 0.1785714,以上四种表格的概率依次为:,检验,任何一个格子中的的数目(我们只要考虑 就可以了)都不会过小或者过大,如果过小或者过大,相应的概率会很小,是小概率事件,因而可以拒绝零假设。当大样本时,还可以采用近似正态分布进行检验,即:,R 程序,me
7、dicine=c(8,2,7,23)medicine=matrix(medicine,nrow=2,byrow=T)fisher.test(medicine)Fishers Exact Test for Count Datadata:medicinep-value=0.002429alternative hypothesis:true odds ratio is not equal to 195 percent confidence interval:1.856547 143.340082sample estimates:odds ratio 12.12648,sum=0 for(k in 8
8、:10)sum=sum+dhyper(k,15,25,10,log=FALSE);sum1 0.0024286,dhyper(8,15,25,10,log=FALSE),用卡方检验,出现警告信息,medicine=c(8,2,7,23)medicine=matrix(medicine,nrow=2,byrow=T)chisq.test(medicine)Pearsons Chi-squared test with Yates continuity correctiondata:medicineX-squared=8,df=1,p-value=0.004678Warning message:In
9、 chisq.test(medicine):Chi-squared approximation may be incorrect,5.4 Mantel-Haenszel检验,前面介绍的Pearson 独立性(齐性)检验和Fisher精确性检验都是针对两因素的检验,若影响因素有三个,或者两因素之外还要考虑层次的影响,或者单因素还要考虑区组和层次影响,则可以利用Mantel-Haenszel检验,用于某两个因素之间是否有关联.比如产品研究中,需要研究城市和农村两个层次的人群对产品或服务的是否满意;比如,由于不同医院(相当于不同层次)收治的病人不同,需要在不同医院中研究不同治疗方案对病人的治疗效果的
10、差异性.,检验,以医院为例,令h=1,2,.,k代表k家医院(k个层次),表示h层四格列联表观测频数,表示第h家医院观测的病案总频数,n为所有k家医院的病案总频数.假设检验问题为:实验组与对照组在治疗效果上没有差异;实验组与对照组在治疗效果上有差异;将病案总频数构成一个三维列联表,其中第h层的列联表如下,QMH统计量,QMH统计量对于小样本,可以直接查表,也可以利用R语言.,例5.4 R程序求解,HA=c(50,15,92,90)HB=c(47,135,5,60)HA=matrix(HA,nrow=2,byrow=T)HB=matrix(HB,nrow=2,byrow=T)m=c(HA,HB)
11、x=array(m,c(2,2,2)mantelhaen.test(x)Mantel-Haenszel chi-squared test with continuity correctiondata:xMantel-Haenszel X-squared=21.9443,df=1,p-value=2.807e-06alternative hypothesis:true common odds ratio is not equal to 195 percent confidence interval:2.080167 6.099585sample estimates:common odds rat
12、io 3.562044,统计决策,以上得到的Mantel-Haenszel检验的结果为:通过检验,说明治癌药与效果有强关联(odds ratio=3.562044),即治癌药有效果.对于大样本,QMH统计量近似服从自由度为1的卡方分布,参见定理5.1.因此还可以利用卡方分布计算p值.Mantel-Haenszel检验方法消除了层次因素对结果的影响,从而提高了检验出来的关联性的可靠性.本例中,还可以对各层分别利用前面介绍的关联性检验:fisher.test(HA),fisher.test(HB),chisq.test(HA),chisq.test(HB),fisher.test(HA)Fishe
13、rs Exact Test for Count Datadata:HAp-value=0.0002323alternative hypothesis:true odds ratio is not equal to 195 percent confidence interval:1.651579 6.690462sample estimates:odds ratio 3.245835,fisher.test(HB)Fishers Exact Test for Count Datadata:HBp-value=0.001391alternative hypothesis:true odds rat
14、io is not equal to 195 percent confidence interval:1.550126 14.070352sample estimates:odds ratio 4.158592,chisq.test(HA)Pearsons Chi-squared test with Yates continuity correctiondata:HAX-squared=12.5737,df=1,p-value=0.0003912 chisq.test(HB)Pearsons Chi-squared test with Yates continuity correctionda
15、ta:HBX-squared=8.4144,df=1,p-value=0.003723,什么是关联规则挖掘?,关联规则挖掘:从事务数据库,关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。应用:购物篮分析、分类设计、捆绑销售等,5.5 关联规则,“尿布与啤酒”典型关联分析案例,采用关联模型比较典型的案例是“尿布与啤酒”的故事。在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,超市也因此发现了一个规律,在购买婴儿尿布的年轻父亲们中,有30%40%的人同时要买一些啤酒。超市随后调整了货架的摆放,把尿布和啤酒放在一起,明显增加了销售额。同样的,我们还可以根据
16、关联规则在商品销售方面做各种促销活动。,购物篮分析,如果问题的全域是商店中所有商品的集合,则对每种商品都可以用一个布尔量来表示该商品是否被顾客购买,则每个购物篮都可以用一个布尔向量表示;而通过分析布尔向量则可以得到商品被频繁关联或被同时购买的模式,这些模式就可以用关联规则表示.,关联规则(Association Rule Mining)挖掘是数据挖掘中最活跃的研究方法之一最早是由R.Agrawal等人提出的其目的是为了发现超市交易数据库中不同商品之间的关联关系。一个典型的关联规则的例子是:70%购买了牛奶的顾客将倾向于同时购买面包。经典的关联规则挖掘算法:Apriori算法,关联规则的基本概念
17、,1.购物篮分析引发关联规则挖掘的例子 问题:“什么商品组或集合顾客多半会在一次购物中同时购买?”购物篮分析:设全域为商店出售的商品的集合(即项目全集),一次购物购买(即事务)的商品为项目全集的子集,若每种商品用一个布尔变量表示该商品的有无,则每个购物篮可用一个布尔向量表示。通过对布尔向量的分析,得到反映商品频繁关联或同时购买的购买模式。这些模式可用关联规则描述。,关联(Associations)分析的目的是为了挖掘隐藏在数据间的相互关系,即对于给定的一组项目和一个记录集,通过对记录集的分析,得出项目集中的项目之间的相关性。项目之间的相关性用关联规则来描述,关联规则反映了一组数据项之间的密切程
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 参数 统计 分类 数据 关联 分析
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-6148798.html