分类数据分析.ppt
《分类数据分析.ppt》由会员分享,可在线阅读,更多相关《分类数据分析.ppt(37页珍藏版)》请在三一办公上搜索。
1、第9章 分类数据分析,9.1 分类数据与卡方统计量,9.1.1 分类数据调查结果虽然用数值表示,但不同数值描述的是调查对象的不同特征。分类数据汇总的结果表现为频数。卡方检验是对分类数据的频数进行分析的统计方法。,9.2 拟合优度检验,依据总体分布状况,计算出分类变量中各类别的期望频数,与分布的观察频数进行对比,判断期望频数与观察频数是否有显著差异。,1912年4月15日,豪华巨轮泰坦尼克号与冰山相撞沉没。当时船上共有2208人,其中男性1738人,女性470人。海难发生后,幸存者共718人,其中男性374人,女性344人,以=0.1的显著性水平检验存活状况与性别是否有关。,如果存活状况与性别无
2、关,男性与女性的幸存比例应该相等。海难后幸存比例为718/2208=0.325男性应该为1738*0.325=565人女性应该为470*0.325=153人。,H0:观察频数与期望频数一致,H1:观察频数与期望频数不一致,决策:拒绝H0结论:有证据表明存活状况与性别显著相关,拒绝域,一项统计结果声称,某市老年人口所占比例为14.7%,该市老年人口研究会为了检验该项统计是否可靠,随机抽选了400名居民,发现其中有57人老年人。调查结果是否支持14.7%的看法?,H0:观察频数与期望频数一致,H1:观察频数与期望频数不一致,如果该项统计可靠,400居民中老年人的频数应该为400*14.7%=59,
3、决策:接受H0结论:调查结果支持该项统计结论,拒绝域,9.3 列联分析:独立性分析,9.3.1 列联表由两个以上的变量进行交叉分类的频数分布表行变量的类别用 r 表示,ri 表示第 i 个类别列变量的类别用 c 表示,cj 表示第 j 个类别每种组合的观察频数用 fij 表示表中列出了行变量和列变量的所有可能的组合,所以称为列联表一个 r 行 c 列的列联表称为 r c 列联表,列联表的结构(2 列联表),列(cj),行(ri),一个2 列联表,列联表的结构(r c 列联表的一般表示),列(cj),行(ri),r 行 c 列的列联表,fij 表示第 i 行第 j 列的观察频数,【例】一个集团公
4、司在四个不同的地区设有分公司,现该集团公司欲进行一项改革,此项改革可能涉及到各分公司的利益,故采用抽样调查方式,从四个分公司共抽取420个样本单位(人),了解职工对此项改革的看法,调查结果如下表,边缘分布行边缘分布行观察值的合计数的分布例如,赞成改革方案的共有279人,反对改革方案的141人列边缘分布列观察值的合计数的分布例如,四个分公司接受调查的人数分别为100人,120人,90人,110人条件分布与条件频数变量 X 条件下变量 Y 的分布,或在变量 Y 条件下变量 X 的分布每个具体的观察值称为条件频数,行边缘分布,列边缘分布,条件频数,条件频数反映了数据的分布,但不适合进行对比为在相同的
5、基数上进行比较,可以计算相应的百分比,称为百分比分布行百分比:行的每一个观察频数除以相应的行合计数(fij/ri)列百分比:列的每一个观察频数除以相应的列合计数(fij/cj)总百分比:每一个观察值除以观察值的总个数(fij/n),总百分比,列百分比,行百分比,假定行变量和列变量是独立的一个实际频数 fij 的期望频数 eij,是总频数的个数 n 乘以该实际频数 fij 落入第 i 行 和第j列的概率,即,由于观察频数的总数为n,所以f11 的期望频数 e11 应为,例如,第1行和第1列的实际频数为 f11,它落在第1行的概率估计值为该行的频数之和r1除以总频数的个数 n,即:r1/n;它落在
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 分类 数据 分析

链接地址:https://www.31ppt.com/p-5040973.html