判别分析案例.ppt
多元统计分析判别分析,判别分析把对象归到已知类中,人们常说:“像诸葛亮那么神机妙算”“像泰山那么稳固”“像钻石那么坚硬”一些判别标准都是有原型的,虽然这些判别的标准并不那么精确或严格,但大都是根据一些现有的模型得到的。,判别分析的方法,距离判别法Fisher判别法Bayes判别法逐步判别法,距离判别法,假设有两个总体G1和G2,如果能够定义点x到它们的距离D(x,G1)和D(x,G2),则如果D(x,G1)D(x,G2),则 xG1如果D(x,G2)D(x,G1),则 xG2如果D(x,G1)=D(x,G2),则待判。距离判别法的不足之处:判别方法与总体各自出现的的概率大小无关;判别方法与错判之后所造成的损失无关。,Fisher判别法,所谓Fisher判别法,就是一种先投影的方法,把高维空间中的点向低维空间进行投影。主要思想是通过将多维数据投影到某个合适的方向上。而投影的原则是将总体与总体之间尽可能的分开,然后选择合适的判别规则,进行分类判别。,Bayes判别法,当每个分类的观察值不同时,最好用Bayes判别。因为每个分类的观察值不同时,每类出现的机会是不同的,而Fisher判别法忽视了这个问题。具体方法是:对每一个样品先计算出判别分数D,然后根据先验概率和D的条件概率,计算出该样品被判为每一类的后验概率,哪 类的后验概率最大,则判为哪一类。,逐步判别法,逐步判别法就是在前面的方法中加入变量选择功能。有时,一些变量对于判别没有什么作用,为了得到对判别最合适的变量,可以使用逐步判别。逐步判别的思想是先用少数变量进行判别,然后一边判别,一边引进判别能力最强的变量,同时淘汰判别能力不强的的变量。主要利用一些检验来判断变量的判别能力。,大纲,disc.sav,disc.txt,数据介绍disc.sav,数据来源:吴喜之统计学:从数据到结论。数据介绍:某专家编出一套打分体系来描绘企业的状况。该体系对每个企业的一些指标(变量)进行评分。共有8个指标,如下页表格所示。有一些企业已经被某杂志划分为上升企业、稳定企业和下降企业。我们希望根据这些企业的上述变量的打分和它们已知的类别,找出分类标准,并对没分类的企业进行分类。,变量描述,数据展示,该数据disc.sav共有90个样本,其中30个属于上升型,30个属于稳定性,30属于下降型。这个已知类别的数据称为一个“训练样本”。,group表示类别,8个用来建立判别标准的变量,SPSS实现数据读入,File Open Data“Disc.sav”,SPSS实现数据编辑,Variable View“Group”变量Decimals:“2”“0”;Label:添加变量名称,便于识别;“Group”变量Value:添加组别。,SPSS实现数据分析,Analyze Classify Discriminant,SPSS实现模块介绍,Grouping Variable:选入分类变量“Group”,Define Range被激活。点击弹出Range对话框,分别输入分类变量最小值和最大值,本例为“1”和“3”。Independents:选入自变量。本例选入变量“iscs”。Enter independents together:所有自变量同时进入方程。Use stepwise method:逐步判别法。按自变量贡献大小,逐个引入和剔出变量,直到没有新的有显著作用的自变量可以引入,也没有无显著作用的自变量可以从方程内删除为止。选此项后,激活Method按钮。Select Variable:挑选观察单位。框内选入变量后(不能选入分类变量和自变量中已选入的变量),Value按钮被激活,填入数值。自己符合该数值的的观察单位才参与判别分析;若不选此项,则所有观察单位都参与判别分析。,SPSS实现选择变量的方法,两种变量选择方法,SPSS实现变量选择,group选入分组变量,is-cs选入自变量,选择自变量同时进入方程的方法,SPSS实现Statistics模块,Descriptives:描述性统计量。Means:均数估计。Univariate ANOVAs:单变量方差分析。Boxs M:组间协方差齐性检验。Matrices:矩阵Within-groups correlation:合并组内相关阵。Within-groups covariance:合并组内协方差阵。Separate-groups covariance:各组协方差阵。Total covariance:总协方差阵。Function Coefficients:函数系数。Fishers:Fisher函数系数Bayes判别函数系数。Unstandardized:非标准化函数系数Fisher判别函数系数。,SPSS实现Statistics模块,选择Means进行均数估计,选择Boxs M进行各组协方差阵相等检验,生成Bayes判别方程系数和Fisher判别方程系数。,选择ANOVAs进行各组均值相等检验,SPSS实现Classify模块,Prior Probabilities:设定先验概率。All groups equal:各组等概率。Compute from group sizes:各组样本量的百分比为先验概率。Display:输出。Casewise result:每个观察单位判别分析后所属类别。Limit cases to first:前若干观察单位判别分析后所属类别。Summary table:判别符合率表。Leave-one-out classification:以剔出某观察单位所建立的判别函数判别该观察单位所属类别。Use Covariance Matrix:使用协方差阵。Within-groups:组内协方差阵。Separate-groups:各组协方差阵。,SPSS实现Classify模块,Plots:判别图。Combined-groups:各类共同输出在一幅散点图中。Separate-groups:每类单独输出一幅散点图。Territorial map:分类区域图。Replace missing values with mean:用均数替代缺失值。,选择以样本量百分比为先验概率,显示每个单位判别分析后所属类别,显示判别符合率表,类别显示在同一散点图中,以剔出某观察单位所建立的判别函数判别该观察单位所属类别,SPSS实现Save模块,Save:存为新变量。Predicted group membership:预测观察单位所属类别。Discriminant scores:判别分。Probabilities of group membership:观察单位属于某一类的概率。,在数据中保存判别后数据所属类别,在数据中保存数据的判别分,结果分析,在判别分析主对话框中点击“OK”,生成输出output文件。,90个变量100%读入,没有缺失值,结果分析,各自变量的方差分析及统计量,说明在3类企业间,各变量均有显著差异,统计量在0-1之间。越接近0组间差异越显著;越接近1组间差异越不显著。,结果分析,各组协方差阵相等的检验,说明拒绝协方差矩阵相等的假设,即不能认为各组间协方差矩阵相等。,从一些统计实践的结果来看,很少有碰到检验不显著的情况。而在一些实践中,比如线性判别分析,即使方差协方差结构不相等,对于结果的影响也不会有非常大的影响。,结果分析Fisher判别法,标准化典型判别函数系数,得到2个标准化典型判别方程:,需要注意的是:这是标准化后的判别函数,若要将变量带入计算判别分,必须将变量进行标准化处理(即减均值除以标准差)。,结果分析Fisher判别法,结构系数矩阵用来说明判别变量对标准化典型判别方程的相关程度,结果说明,前6个变量(*)对方程1贡献比较大,后两个变量对方程2贡献较大。,结果分析Fisher判别法,未标准化典型判别函数系数Fisher判别法,得到2个未标准化典型判别方程:,可以将原变量值直接代入计算判别分进行分类。,结果分析Fisher判别法,生成3个新的变量,dis_1表示判别后所属组别的值,dis1_1表示样本代入第1个判别函数所得的判别分,dis2_1表示样本代入第2个判别函数所得的判别分,结果分析Fisher判别法,Fisher判别法得到的分组图,各组重心描述在判别空间每一组的中心位置,结果分析Fisher判别法,判别力指数两个判别函数的作用并不是平等的,判别力指数给出了判别函数的重要程度。,说明第一个判别函数的贡献率高达98.8%,第二个判别函数的贡献率仅为1.1%。,结果分析Fisher判别法,残余判别力指数残余判别力的含义是:在以前计算的函数已经提取过原始信息之后,残余的变量信息对于判别分组的能力。,值越小表示越高的判别力。说明方程1提取了很大的信息量,而残余变量信息对于判别分组的能力很小了。,结果分析Fisher判别法,分类结果,从表上看,我们的分类函数能够100%的把训练数据的每一个观测值分到其本来的类。该表分成两部分:上面一半是用从全部数据得到的判别函数来判断每一个点的结果;下面一半是对每一个观测值,都用仅缺少该观测值的全部数据得到的判别函数来进行判断的结果。,结果分析Bayes判别法,各分类的先验概率,先验概率是根据样本出现概率确定的,本例3类企业各有30个,因此先验概率相等都为33.3%。,结果分析Bayes判别法,Bayes判别法得到的判别函数系数,得到3个判别方程:,将观察单位的各个变量分别代入3个判别函数中,可求出3个判别函数值,哪一个最大就属于哪一类。,结果分析Bayes判别法,上述结果会生成一个Casewise Statistics的表格。显示实际分类和预测分类,系统会将分错的样本单位用*标注出来。本例用Bayes判别法判别的正确率为100%。需要指出的是,根据推导出来的分类函数来分类,即使是对训练样本的这些观测值,也不一定总能保证全都被正确划分。本例如果只用少数几个变量进行判别,结果就不一样了。,结果分析,使用企业规模(ie)、服务(se)和雇员工资比例(sa)三个变量进行判别,得到的分类图。,与8个变量进行判别相对比,明显的三类点分的就不那么开了。,结果分析,基于3个变量的分类结果表,结果显示,对于全部数据的判别,有85个点(94.4%)得到正确划分,5个点错判;其中第二类有3个被误判到第一类;有2个被误判到第三类。对于交叉验证的判别,有83个点(92.2%)得到正确划分,有7个点被错判;其中第二类有3个被误判为第一类,4个被误判为第三类。,SPSS实现,选择逐步判别法,Method模块被激活,SPSS实现Method模块,Method:逐步判别分析方法Wilks lambda:Wilks 统计量(组内离差平方和/总离差平方和)最小化法。Unexplained variance:组间不可解释方差和最小化。Mahalanobis distance:邻近组间马氏距离最大化法。Smallest F ratio:任两组间最小F值最大化法。Raos V:Rao V统计量最大化法。V-to-enter:V值最小增量值。Criteria:剔选标准Use F value:以F值为剔选变量准则。Use probability of F:以F值对应的P值为剔选变量准则。,SPSS实现Method模块,Display:输出Summary of steps:输出每一步的统计量。F for pairwise distance:输出两组间判别检验的F值及P值。,选择Wilks 统计量最小化法,选择输出每一步统计量,当F3.84时选入;当F 2.71时剔出。,结果分析,经过分析,淘汰了不显著的资金流动比例(cp)变量,当然判别系数也发生相应变化。,结果分析,虽然判别系数改变,但结果并未改变。,R语言实现,w=read.table(disc.txt);attach(w);w,V1代表Group。,V1=factor(V1)#把分组变量变成定性变量。,R语言实现,train=sample(1:90,45)#随即抽取一般样本作训练样本。table(V1train)#显示训练样本中各类的比例。library(MASS);z=lda(V1.,data=w,prior=c(1,1,1)/3,subset=train)#用V1作分组变量,V2-V9作判别变量,使用训练样本生成判别函数,先验概率各为33.3%。,R语言实现,先验概率各为33.3%。,判别系数,第1个判别函数贡献率为98.7%;第2个判别函数贡献率为1.3%。,R语言实现,a1=predict(z,w-train,)#用z的结果预测训练样本外的点 a2=predict(z,w)#对z的结果预测所有样本点 a2$class#给出分类结果 a2$x#给出每个点的二维坐标 y=cbind(a2$x,a2$class);y1=yy,3=1,-3;y2=yy,3=2,-3;y3=yy,3=3,-3;plot(y1,1,y1,2,pch=0,xlim=c(-10,8.5),ylim=c(-4,3),ylab=,xlab=)points(y2,1,y2,2,pch=1)points(y3,1,y2,2,pch=2),R语言实现,第一类,第二类,第三类,谢谢观看!,