列联表、卡方检验与对数线性模型.ppt
《列联表、卡方检验与对数线性模型.ppt》由会员分享,可在线阅读,更多相关《列联表、卡方检验与对数线性模型.ppt(43页珍藏版)》请在三一办公上搜索。
1、列联表、c2检验和对数线性模型,三维列联表(关于某项政策调查所得结果:table7.sav),列联表,前面就是一个所谓的三维列联表(contingency table).这些变量中每个都有两个或更多的可能取值。这些取值也称为水平;比如收入有三个水平,观点有两个水平,性别有两个水平等。该表为322列联表在SPSS数据中,表就不和课本印的一样,收入的“低”、“中”、“高”用代码1、2、3代表;性别的“女”、“男”用代码0、1代表;观点“赞成”和“不赞成”用1、0代表。有些计算机数据对于这些代码的形式不限(可以是数字,也可以是字符串)。,Table7.sav 数据,列联表,列联表的中间各个变量不同水
2、平的交汇处,就是这种水平组合出现的频数或计数(count)。二维的列联表又称为交叉表(cross table)。列联表可以有很多维。维数多的叫做高维列联表。注意前面这个列联表的变量都是定性变量;但列联表也会带有定量变量作为协变量。,二维列联表的检验,研究列联表的一个主要目的是看这些变量是否相关。比如前面例子中的收入和观点是否相关。这需要形式上的检验,二维列联表的检验,下面表是把该例的三维表简化成只有收入和观点的二维表(这是SPSS自动转化的:Analyze-Descriptive Statistics-Crosstabs-.).,二维列联表的检验,对于上面那样的二维表。我们检验的零假设和备选假
3、设为H0:观点和收入这两个变量不相关;H1:这两个变量相关。这里的检验统计量在零假设下有(大样本时)近似的c2分布。当该统计量很大时或p-值很小时,就可以拒绝零假设,认为两个变量相关。实际上有不止一个c2检验统计量。包括Pearson c2统计量和似然比(likelihood ratio)c2统计量;它们都有渐近的c2分布。根据计算可以得到(对于这两个统计量均有)p-值小于0.001。因此可以说,收入高低的确影响观点。,Pearson c2统计量,似然比c2统计量,Oi代表第i个格子的计数,Ei代表按照零假设(行列无关)对第i格子的计数的期望值,二维列联表的检验,刚才说,这些c2统计量是近似的
4、,那么有没有精确的统计量呢?当然有。这个检验称为Fisher精确检验;它不是c2分布,而是超几何分布。对本问题,计算Fisher统计量得到的p-值也小于0.001。聪明的同学必然会问,既然有精确检验为什么还要用近似的c2检验呢?这是因为当数目很大时,超几何分布计算相当缓慢(比近似计算会差很多倍的时间);而且在计算机速度不快时,根本无法计算。因此人们多用大样本近似的c2统计量。而列联表的有关检验也和c2检验联系起来了。,Fisher精确检验,SPSS:Weight-Describ-crosstab-exact,table7.sav 其中有变量性别(sex)、观点(opinion)和收入(inco
5、me);每一列相应于其代表的变量的水平;每一行为一种水平的组合(共有23212种组合(12行),而每种组合的数目(也就是列联表中的频数)在number那一列上面,这就是每种组合的权重(weight),需要把这个数目考虑进去,称为加权(weight).如果不加权,最后结果按照所有组合只出现一次来算(也就是说,按照列联表每一格的频数为1).由于在后面的选项中没有加权的机会,因此在一开始就要加权.方法是点击图标中的小天平(“权”就是天平的意思),出现对话框之后点击Weight cases,然后把“number”选入即可。,二维列联表情况加权之后,按照次序选AnalyzeDescriptive Sta
6、tisticsCrosstabs。在打开的对话框中,把opinion和income分别选入Row(行)和Column(列);至于哪个放入行或哪个放入列是没有关系的。如果要Fisher精确检验则可以点Exact,另外在Statistics中选择Chi-square,以得到c2检验结果。最后点击OK之后,就得到有关Pearson c2统计量、似然比c2统计量以及Fisher统计量的输出了(这里的Sig就是p-值)。,加权:,下面为SPSS对于table7.savs数据产生的下面二维列联表相关分析的输出,利用crosstabs处理三维列联表问题的SPSS选项,利用crosstabs处理三维列联表问题
7、的输出,利用crosstabs处理三维列联表问题的输出,利用crosstabs处理三维列联表问题的输出,高维列联表和(多项分布)对数线性模型,前面例子原始数据是个三维列联表,对三维列联表的检验也类似。但高维列联表在计算机软件的选项可有所不同,而且可以构造一个所谓(多项分布)对数线性模型(loglinear model)来进行分析。利用对数线性模型的好处是不仅可以直接进行预测,而且可以增加定量变量作为模型的一部分。,对数线性模型,现在简单直观地通过二维表介绍一下对数线性模型,假定不同的行代表第一个变量的不同水平,而不同的列代表第二个变量的不同水平。用mij代表二维列联表第i行,第j列的频数。人们
8、常假定这个频数可以用下面的公式来确定:,这就是所谓的多项分布对数线性模型。这里ai为行变量的第i个水平对ln(mij)的影响,而bj为列变量的第j个水平对ln(mij)的影响,这两个影响称为主效应(main effect)。,(多项分布)对数线性模型,这个模型看上去和回归模型很象,但由于对于分布的假设不同,不能简单地用线性回归的方法来套用(和Logistic回归类似);计算过程也很不一样。当然我们把这个留给计算机去操心了。只要利用数据来拟合这个模型就可以得到对于ai和bj的“估计”。有了估计的参数,就可以预测出任何i,j水平组合的频数mij了(通过其对数)。注意,这里的估计之所以打引号是因为一
9、个变量的各个水平的影响是相对的,因此,只有事先固定一个参数值(比如a1=0),或者设定类似于Sai=0这样的约束,才可能估计出各个的值。没有约束,则这些参数是估计不出来的。,(多项分布)对数线性模型,二维列联表的更完全的对数线性模型为,这里的(ab)ij代表第一个变量的第i个水平和第二个变量的第j个水平对ln(mij)的共同影响(交叉效应)。即当单独作用时,每个变量的一个水平对ln(mij)的影响只有ai(或bj)大,但如果这两个变量一同影响就不仅是ai+bj,而且还多出一项。这里的交叉项的诸参数的大小也是相对的,也需要约束条件来得到其“估计”;涉及的变量和水平越多,约束也越多。,注意,无论你
10、对模型假定了多少种效应,并不见得都有意义;有些可能是多余的。本来没有交叉影响,但如果写入,也没有关系,在分析过程中一般可以知道哪些影响是显著的,而那些是不显著的。,两种对数线性模型,前面介绍的多项分布对数线性模型假定所有的可能格子里面的频数满足多项分布。另一类为Poisson对数线性模型.它假定每个格子里面的频数满足一Poisson分布(后面再介绍).统计软件的选项中有关于分布的选项高维表的检验统计量和二维表一样也包含了Pearson c2统计量和似然比c2统计量。,用table7.sav数据拟合对数线性模型,假定(多项分布)对数线性模型为,这里ai为收入(i=1,2,3代表收入的低、中、高三
11、个水平),bj为观点(j=1,2代表不赞成和赞成两个水平),gk为性别(k=1,2代表女性和男性两个水平),mijk代表三维列联表对于三个变量的第ijk水平组合的出现次数。而从相应的参数估计输出结果,可以得到对ai的三个值的估计为0.5173,0.2549,0.0000,对bj的两个值的估计为-0.6931,0.0000,对gk的两个值的估计为 0.1139,0.0000。(多项对数线性模型常数无意义,输出的常数项仅仅是数学意义),SPSS输出,就这里的三维列联表问题,如只考虑各个变量单独的影响,而不考虑变量组合的综合影响,其SPSS输出的Pearson c2统计量和似然比c2统计量得到的p-
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 列联表 检验 对数 线性 模型
链接地址:https://www.31ppt.com/p-5243387.html