判别分析(SPSS应用).ppt
《判别分析(SPSS应用).ppt》由会员分享,可在线阅读,更多相关《判别分析(SPSS应用).ppt(116页珍藏版)》请在三一办公上搜索。
1、zf,第四章 判别分析(Discriminate Analysis),zf,2,距离判别 贝叶斯(Bayes)判别 费歇尔(Fisher)判别 逐步判别,zf,3,4.1 判别分析的基本思想,一、什么是判别分析?判别分析根据已知对象的某些观测指标和所属类别来判断未知对象所属类别的一种统计学方法。如何判断(判断依据)?利用已知类别的样本信息求判别函数,根据判别函数对未知样本所属类别进行判别 判别分析的特点(基本思想)、是根据已掌握的、历史上若干样本的p个指标数据及所属类别的信息,总结出该事物分类的规律性,建立判别公式和判别准则。2、根据总结出来的判别公式和判别准则,判别未知类别的样本点所属的类别
2、。判别分析的目的:识别一个个体所属类别,zf,4,判别分析的应用:无处不在医学:例1:在医学诊断中,一个病人肺部有阴影,医生要判断他患的是肺结核、肺部良性肿瘤还是肺癌?肺结核病人、肺部良性肿瘤病人、肺癌病人组成三个总体,病人来自其中一个总体,可通过病人的指标(阴影大小、边缘是否光滑等)用判别分析判断他来自哪个总体(即判断他患的什么病?),zf,5,经济学:例2:中小企业的破产模型为了研究中小企业的破产模型,选定4个经济指标:X1总负债率(现金收益/总负债)X2收益性指标(纯收入/总财产)X3短期支付能力(流动资产/流动负债)X4生产效率性指标(流动资产/纯销售额)对17个破产企业(1类)和21
3、个正常运行企业(2类)进行了调查,得如下资料:,zf,6,zf,7,zf,8,zf,9,zf,10,例3:根据信息基础设施的发展状况,对世界20个国家和地区进行分类。考察指标有6个:1、X1:每千居民拥有固定电话数目 2、X2:每千人拥有移动电话数目 3、X3:高峰时期每三分钟国际电话的成本 4、X4:每千人拥有电脑的数目 5、X5:每千人中电脑使用率 6、X6:每千人中开通互联网的人数,zf,11,分析结果:将20个国家分为两类 第1类(基础设施落后):巴西、墨西哥、波兰、匈牙利、智利、俄罗斯、泰国、印度、马来西亚 第2类(基础设施发达):瑞典、丹麦、美国、中国台湾、韩国、日本、德国、法国、
4、新加坡、英国、瑞士如果:我们想知道我国基础设施发展属于哪一类型?运用判别分析 依据:20个国家的分类信息构建判别函数,zf,12,例4:股票持有者根据股票近期的变化情况判断此种股票价格下一周是上升还是下跌?刑事学:例5:Smith先生被指控偷了邻居家的鸡。但Smith先生宣称他家冰箱里的鸡是野鸡。如何判定:Smith先生究竟是否偷了邻居的鸡呢?,zf,13,二、判别分析的基本要求:1、分组类型在两组以上;2、第一阶段每组样本(或案例)个数至少一个以上;3、解释变量必须是可测量的三、判别分析与聚类分析的比较:1、判别分析是在已知研究对象分成若干类型并已取得各种类型的一批已知样本的观测数据,在此基
5、础上根据某些准则建立判别式,然后对未知类型的样本进行判别分类。2、聚类分析则是对研究对象的类型未知的情况下,对其进行分类的方法。,zf,14,3、判别分析和聚类分析往往联合使用。当总体分类不清楚时,先用聚类分析对一批样本进行分类,再用判别分析构建判别式对新样本进行判别。此外判别分析变量情况:被解释变量为属性变量;解释变量是定量变量。,zf,15,四、判别分析类型及方法(1)按判别的组数来分,有两组判别分析和多组判别分析(2)按区分不同总体所用的数学模型来分,有线性判别和非线性判别(3)按判别对所处理的变量方法不同有逐步判别、序贯判别。(4)按判别准则来分,有费歇尔判别准则、贝叶斯判别准则,zf
6、,16,本章介绍的主要判别分析方法:距离判别 贝叶斯(Bayes)判别 费歇尔(Fisher)判别 逐步判别,zf,17,4.2 距离判别,基本思想:即:首先根据已知分类的数据,分别计算各类的重心即各组(类)的均值,判别的准则是对任给样品,计算它到各类平均数的距离,哪个距离最小就将它判归哪个类。(一)两个总体的距离判别法 1、方差相等 先考虑两个总体的情况,设有两个协差阵相同的p维正态总体,对给定的样本Y,判别一个样本Y到底是来自哪一个总体,一个最直观的想法是计算Y到两个总体的距离。故我们用马氏距离来给定判别规则,有:,zf,18,zf,19,zf,20,则前面的判别法则表示为,当 和已知时,
7、是一个已知的p维向量,W(y)是y的线性函数,称为线性判别函数。称为判别系数。用线性判别函数进行判别分析非常直观,使用起来最方便,在实际中的应用也最广泛。,zf,21,例6 在企业的考核中,可以根据企业的生产经营情况把企业分为优秀企业和一般企业。考核企业经营状况的指标有:资金利润率=利润总额/资金占用总额 劳动生产率=总产值/职工平均人数 产品净值率=净产值/总产值 三个指标的均值向量和协方差矩阵如下。现有二个企业,观测值分别为(7.8,39.1,9.6)和(8.1,34.2,6.9),问这两个企业应该属于哪一类?,zf,22,zf,23,线性判别函数:,zf,24,2、当总体的协方差已知,且
8、不相等,zf,25,(二)多总体的距离判别法 1、协方差阵相等 设有个K总体,分别有均值向量(i=1,2,k)和协方差阵i=,又设Y是一个待判样品。则Y与各总体的距离为(即判别函数):(与两个总体类似,书101102页),zf,26,则距离判别法的判别函数为:,判别规则为,注:这与前面所提出的距离判别是等价的.,zf,27,2、协方差阵不等 设有个K总体,分别有均值向量(i=1,2,k)和协方差阵不等,又设Y是一个待判样品。则Y与各总体的距离为(即判别函数):(与两个总体类似,书102页),zf,28,距离判别法的优缺点:该方法简单实用,但没有考虑到每个总体出现的机会大小,即先验概率,没有考虑
9、到错判的损失。贝叶斯判别法正是为了解决这两个问题提出的判别分析方法。,zf,29,4.3贝叶斯(Bayes)判别,贝叶斯判别法是通过计算被判样本x属于k个总体的条件概率P(n/x),n=1,2.k.比较k个概率的大小,将样本判归为来自出现概率最大的总体(或归属于错判概率最小的总体)的判别方法。一、最大后验概率准则 设有k个总体且总体的概率密度为,样本x来自的先验概率为满足 利用贝叶斯理论,x属于的后验概率(即当样本x已知时,它属于的概率为:最大后验概率判别准则:,zf,30,例7:设有,和三个类,欲判别某样本属于哪一类已知现利用后验概率准则计算属于各组的后验概率:,zf,31,例8:办公室新来
10、了一个雇员小王,小王是好人还是坏人大家都在猜测。按人们主观意识,一个人是好人或坏人的概率均为0.5。坏人总是要做坏事,好人总是做好事,偶尔也会做一件坏事,一般好人做好事的概率为0.9,坏人做好事的概率为0.2,一天,小王做了一件好事,小王是好人的概率有多大,你现在把小王判为何种人。,zf,32,Bayes公式:,zf,33,特别,总体服从正态分布的情形,则 判给。,zf,34,上式两边取对数并去掉与i无关的项,则等价的判别函数为:,问题转化为若,则判。,zf,35,则判别函数退化为:,令,问题转化为若,则判。,当协方差阵相等,zf,36,令,问题转化为若,则判。,当先验概率相等,,完全成为距离
11、判别法。判别准则1:后验概率最大 即判断x来自后验概率最大的总体,zf,37,例9:下表是某金融机构客户的个人资料,这些资料对一个金融机构来说,对于客户信用度的了解至关重要,因为利用这些资料,可以挖掘出许多的信息,建立客户的信用度评价体系。所选变量为:x1:月收入 x2:月生活费支出 x3:虚拟变量,住房的所有权,自己的为“1”,租用的“0”x4:目前工作的年限 x5:前一个工作的年限 x6:目前住所的年限 x7:前一个住所的年限 X8:家庭赡养的人口数 X9:信用程度,“5”的信用度最高,“1”的信用度最低。,zf,38,zf,39,zf,40,二、最小平均误判准则:错判损失最小概念作判别函
12、数【定义】(平均错判损失),用P(j/i)表示将来自总体Gi的样品错判到总体Gj的条件概率。,C(j/i)表示相应错判所造成的损失。,则平均错判损失为:,使ECM最小的分划,是Bayes判别分析的解。,zf,41,【定理】若总体G1,G2,Gk的先验概率为且相应的密度函数为,样本来自而误判为的损失为,则划分的ayes解为:,其中,zf,42,最小错判损失准则的含义是:当抽取了一个未知总体的样品值x,要判别它属于那个总体,只要先计算出k个按先验概率加权的误判平均损失然后比较其大小,选取其中最小的,则判定样品属于该总体。,zf,43,例:设先验概率、误判损失及概率密度如下:,zf,44,试用贝叶斯
13、判别法将样本x0判到G1、G2、G3中的一个。考虑与不考虑误判损失的结果如何?1、考虑误判损失:误判到G1的平均损失为ECM10.55*0.46*0+0.15*1.5*400+0.30*0.70*100 误判到G2的平均损失为ECM20.55*0.46*20+0.15*1.5*0+0.30*0.70*50 误判到G3的平均损失为ECM30.55*0.46*80+0.15*1.5*200+0.30*0.70*0 其中ECM2最小,故将x0判别到G2。,zf,45,2、不考虑误判损失:将x0判别到G1的条件概率为:P(G1/x0)=(0.55*0.46)/(0.55*0.46+0.15*1.5+0
14、.30*0.70)=将x0判别到G2的条件概率为:P(G2/x0)=(0.15*1.5)/(0.55*0.46+0.15*1.5+0.30*0.70)=将x0判别到G3的条件概率为:P(G3/x0)=(0.30*0.70)/(0.55*0.46+0.15*1.5+0.30*0.70)=其中P(G1/x0)取值最大,故将x0判别到G1。,zf,46,4.4费歇尔(Fisher)判别,所谓Fisher判别法,就是用投影的方法将k个不同总体在p维空间上的点尽可能分散,同一总体内的各样本点尽可能的集中。用方差分析的思想则可构建一个较好区分各个总体的线性判别法 例:考虑只有两个(预测)变量的判别分析问题
15、。假定这里只有两类。数据中的每个观测值是二维空间的一个点。见图(下一张幻灯片)。这里只有两种已知类型的训练样本。其中一类有38个点(用“o”表示),另一类有44个点(用“*”表示)。按照原来的变量(横坐标和纵坐标),很难将这两种点分开。于是就寻找一个方向,也就是图上的虚线方向,沿着这个方向朝和这个虚线垂直的一条直线进行投影会使得这两类分得最清楚。可以看出,如果向其他方向投影,判别效果不会比这个好。这种首先进行投影的判别方法就是Fisher判别法。,zf,47,zf,48,一、两个总体的费歇(Fisher)判别法 旋转坐标轴至总体单位尽可能分开的方向,此时分类变量被简化为一个,X不能使总体单位尽
16、可能分开的方向,u能使总体单位尽可能分开的方向,zf,49,(一)基本思想设有A、B两个总体,分别有 个历史样本数据,每个样本有P个观测指标,每个样本可看作P维空间中的一点。Fisher借助于方差分析的思想构造一个线性判别函数:其中,判别系数 的选择应使得y值满足:(1)A类和B类的样本点群尽可能远离;(2)同一类的样本点尽可能集中。,zf,50,zf,51,zf,52,zf,53,(二)Fisher两类判别的计算步骤:1、输入历史数据,计算 和 2、计算3、解方程组,求出,建立判别函数4、对新样本作判别(1)将新样本p个观测值带入判别函数,求出y值(2)确定临界值 分别将两类总体样本的判别函
17、数之均值 求加权平均值 作为临界值。,zf,54,5、作出判别(1)(2),zf,55,(三)判别效果的检验:1、总体差异的显著性检验。2、各判别变量的重要性检验。,zf,56,二、多个总体的Fisher判别法(一)判别函数 Fisher判别法实际上是致力于寻找一个最能反映组和组之间差异的投影方向,即寻找线性判别函数,设有 个总体,分别有均值向量,,和协方差阵,分别各总体中得到样品:,zf,57,第i个总体的样本均值向量,综合的样本均值向量,第i个总体样本组内离差平方和,综合的组内离差平方和,zf,58,组间离差平方和,zf,59,如果判别分析是有效的,则所有的样品的线性组合 满足组内离差平方
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 判别分析 SPSS 应用

链接地址:https://www.31ppt.com/p-5243635.html