九章属分类数据分析.ppt
《九章属分类数据分析.ppt》由会员分享,可在线阅读,更多相关《九章属分类数据分析.ppt(46页珍藏版)》请在三一办公上搜索。
1、第九章 属性(分类)数据分析,9.1 属性数据及其分析9.2 SAS中的属性数据分析,9.1 属性数据及其分析9.1.1 属性数据分析与列联表9.1.2 属性变量关联性分析9.1.3 属性变量关联度计算9.1.4 有序变量关联性分析,9.1.1 属性数据分析与列联表1.属性变量与属性数据分析 从变量的测量水平来看分为两类:连续变量和属性(Categorical)变量,属性变量又可分为有序的(Ordinal)和无序的变量。对属性数据进行分析,将达到以下几方面的目的:1)产生汇总分类数据列联表;2)检验属性变量间的独立性(无关联性);3)计算属性变量间的关联性统计量;4)对高维数据进行分层分析和建
2、模。,2.列联表 列联表(contingency table)是由两个以上的属性变量进行交叉分类的频数分布表。例如一个集团公司在四个不同的区域设有分公司,现该集团公司欲进行一项改革,此项改革可能涉及各分公司的利益,故采用抽样调查方法,从四个分公司共抽取420个样本单位,了解职工对此项改革的看法,调查结果如表9-1所示。,表9-1 关于改革方案的调查结果(单位:人)表中的行(row)是态度变量,这里划分为两类:赞成改革方案或反对改革方案;表中的列(column)是单位变量,这里划分为四类,即四个分公司。表9-1所示的列联表称为24表。,交叉表的基本形式如图9-1所示。这是一张具有r行和c列的一般
3、列联表,称它为rc表。其中,第i行第j列的单元表示为单元ij。交叉表常给出在所有行变量和列变量的组合中的观测个数。表中的总观测个数用n表示,在单元ij中的观测个数表示为nij,称为单元频数。,9.1.2 属性变量关联性分析 对于不同的属性变量,从列联表中可以得到它们联合分布的信息。但有时还想知道形成列联表的行和列变量间是否有某种关联性,即一个变量取不同数值时,另一个变量的分布是否有显著的不同,这就是属性变量关联性分析的内容。属性变量关联性检验的假设为H0:变量之间无关联性;H1:变量之间有关联性 由于变量之间无关联性说明变量互相独立,所以原假设和备择假设可以写为:H0:变量之间独立;H1:变量
4、之间不独立,1.2检验 在双向表的情形下,如果行变量与列变量无关联性的原假设H0成立,则列联表中各行的相对分布应近似相等,即(j=1,2,c)或(j=1,2,c)其中mij称为列联表中单元ij在无关联性假设下的期望频数,而nij是单元ij的观测频数。,为了检验无关联性,将观测的单元频数与无关联的原假设为真时单元的期望频数进行比较。一个通常使用的检验是2检验。2统计量为:在H0成立的条件下,当观测数据较大时,2统计量的分布近似服从自由度为(r-1)(c 1)的2分布。,由于2分布是一种连续性分布,而属性数据是不连续的,故上式只是一个近似计算公式。计算出来的2值往往偏大,相应的p值偏小,从而人为地
5、增加了犯第一类错误的机会。为纠正这种偏性,可采用校正2,用C2表示。注:通常要求2检验应满足的条件是:n40且所有单元的期望频数均不小于5。2校正的条件:n40但有单元的期望频数小于5。,2.Fisher精确检验 Fisher精确检验建立在概率论中超几何分布的基础上,对于单元频数小的列联表来说,它是特别合适的。Fisher精确检验计算在H0成立的条件下,当总频数和边缘频数固定时,各种可能的表的超几何概率p之和 对于双边检验,A是具有概率p小于或等于观测表概率的表的集合;对于左(右)边检验,A是这样一些表的集合,其中每个表的单元ij中频数小于(大于)或等于观测表中相应的频数。,9.1.3 属性变
6、量关联度计算1.系数 系数是描述22表数据关联程度最常用的一种相关系数。其计算公式为:其中,2即2统计量。|的取值范围是在0 1之间,的绝对值越大,说明行变量与列变量的关联程度越高。=0,表示变量之间相互独立;|=1,表示变量之间完全相关,此时列联表某个方向对角线上的值全为0。当列联表r c中的行数r或列数c大于2时,系数将随着r或c变大而变大,且无上界。此时可用列联系数。,2.列联系数 列联系数(Contingency coefficient)简称为c系数,主要用于大于22表的情况。c系数的计算公式为:c系数的取值范围:1 c 1,特别当r c表中两个变量相互独立时,c=0。c系数的最大值依
7、赖于列联表的行数和列数,且随着r或c变大而变大。例如,对于22表,c=0.7071;对于33表,c=0.8165;对于44表,c=0.87,等等。c系数的缺点是,根据不同行列的列联表计算出来的c系数不便比较。,3.V系数 鉴于系数无上界、c系数小于1的不便,克莱默提出了V系数(Cramers V),其计算公式如下:其中min(r 1)(c 1)表示取(r 1),(c 1)中较小的一个。V=0,表示两个变量相互独立,|V|=1,表示变量之间完全相关。,9.1.4 有序变量关联性分析 对于数值变量,可以计算两两的相关系数。属性变量因为没有数值概念所以不能计算相关系数,但对于两个有序变量可以计算类似
8、于相关系数的关联性量度。用来度量有序变量关联程度的统计量有统计量、b统计量和c统计量等。这几个统计量均由以下定义的观测对一致或不一致的个数(即P和Q)来计算。设(A1,B1)和(A2,B2)是一对观测,若A1A2且B1B2,或A1A2且B1B2则称该对观测是不一致的。,用P表示所有观测对中一致对的个数,Q表示所有观测对中不一致对的个数。统计量(Gamma)的定义为:b统计量(Kendal Tau-b)的定义为:c统计量(Kendal Tau-c)的定义为:其中m=min(r,c)。这三个统计量的取值均在-1.0到1.0之间,值接近于1.0表示正关联,接近于-1.0表示负关联,等于0表示没有相关
9、关系。,9.2 SAS中的属性数据分析9.2.1 22表的分析9.2.2 r c表的分析9.2.3 分层列联表分析9.2.4 有序变量的关联性分析,9.2.1 22表的分析【例9-1】为了探讨吸烟与慢性支气管炎有无关系,调查了339人,情况如下:表9-2 吸烟与慢性支气管炎的关系调查表设想有两个随机变量:x表示吸烟与否,y表示患慢性支气管炎与否。检验吸烟与患慢性支气管炎有无关系,即检验x与y是否相互独立。数据集mylib.zqgy如图:原假设H0:x与y相互独立,表9-2中数据使用如下代码存入数据集mylib.bron,形式如图9-2所示。data mylib.bron;input x$y$n
10、umcell;label x=吸烟 y=慢性支气管炎;cards;吸烟 患病 43 吸烟 未患 162 不吸烟 患病 13 不吸烟 未患 121;Run;,1.分析步骤 1)在“分析家”中,打开数据集Mylib.bron;2)选择菜单:“Statistics”“Table Analysis”,打开“Table Analysis”对话框;,3)选中变量smoke,单击“Row”按钮,将其移到行变量框中;选中变量bron,单击按钮“Column”,将其移到列变量框中;选中变量numcell,单击按钮“Cell Counts”,将其移到单元格计数框中,如图所示;,4)为了使用2统计量检验变量的关联性
11、,单击“Statistics”按钮,打开“Table Analysis:Statistics”对话框,选中“Statistics”栏下的“Chi-square Statistics”复选框,如图9-4所示。图9-4“Table Analysis:Statistics”对话框 单击“OK”按钮,返回。,5)为了在列联表中显示各种频数、百分数,单击“Tables(列联表)”按钮,打开“Table Analysis:Tables”对话框。选中“Frequencies(频数)”栏下的“Expected(期望)”复选框,取消“Percentages(百分数)”栏下的复选框,如图9-5所示。图9-5“Ta
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 九章属 分类 数据 分析
链接地址:https://www.31ppt.com/p-5306380.html