五章判别分析.ppt
五章判别分析,五章判别分析,判别分析的目标,目标1(预测方面):分类(或分配)。在已知历史上用某些方法已把研究对象分成若干组(亦称类或总体)的情况下,来判定新的观测样品应归属的组别。目标2(描述方面):分离。就是用图形(通常二维,有时三维或一维,一般通过降维实现)方法或代数方法描述来自各组的样品之间的差异性,最大限度地分离各组。,2,判别分析的目标目标1(预测方面):分类(或分配)。4,5.1 引言,判别分类的例子:1.有偿付力与无偿付力的财产责任保险公司。 测量变量:总资产,股票与债券价值,股票与债券的市值,损失支出,盈余,签定的保费金额。2.非溃疡胃病组(胃功能紊乱者)与控制组(“正常”者)。测量变量:焦虑、依赖性、罪恶感、完美主义的量度,3,5.1 引言判别分类的例子:5,3.两种野草。 测量变量:萼片与花瓣的长度,花瓣裂缝的深度,苞的长度,花粉直径。4.新产品的速购者与迟购者。 测量变量:教育,收入,家庭大小,过去更换品牌的次数。5.良好信用与不良信用风险。 测量变量:收入,年龄,信用卡数目,家庭规模。每一组中所有样品的p维指标值 构成了该组的一个p元总体分布,我们试图主要从各组的总体分布或其分布特征出发来判断新样品x是来自哪一组的。,4,3.两种野草。6,5.2 距离判别,一、两组距离判别二、多组距离判别,5,5.2 距离判别一、两组距离判别7,一、两组距离判别,设组1和2的均值分别为1和2,协差阵分别为1和2(1,20) ,x是一个新样品(p维),现欲判断它来自哪一组。1. 1=2=时的判别2. 12时的判别,6,一、两组距离判别设组1和2的均值分别为1和2,协差阵,1. 1=2=时的判别,判别规则:,7,1. 1=2=时的判别判别规则:9,其中 。令 ,则上述判别规则可简化为称W(x)为两组距离判别的(线性)判别函数,称a为判别系数向量。,(5.2.3),8,其中 。(5.2.3)10,误判概率,误判概率设1Np(1, ), 2Np(2, ),则其中 是两组之间的马氏距离。可见,两个正态组越是分开(即越大),两个误判概率就越小,此时的判别效果也就越佳。当两个正态组很接近时,两个误判概率都将很大,这时作判别分析就没有什么实际意义了。,9,误判概率误判概率11,组之间是否已过于接近的界定,我们可对假设H0:1 =2,H1:12进行检验,若检验接受原假设H0 ,则说明两组均值之间无显著差异,此时作判别分析一般会是徒劳的;若检验拒绝 H0 ,则两组均值之间虽然存在显著差异,但这种差异对进行有效的判别分析未必足够大(即此时作判别分析未必有实际意义),故此时还应看误判概率是否超过了一个合理的水平。,10,组之间是否已过于接近的界定我们可对假设H0:1 =2,H,例5.2.1 设p=1,1和2的分布分别为N(1,2)和N(2,2),1,2,2均已知,12,则判别系数a=(12)/ 20,判别函数:判别规则:误判概率:误判概率图示:,11,例5.2.1 设p=1,1和2的分布分别为N(1,抽取样本估计有关未知参数,设 是来自组1的样本, 是来自组2的样本,n1+n22p,则1和2的一个无偏估计分别为的一个联合无偏估计为其中,12,抽取样本估计有关未知参数设 是来自组1,实际使用的判别函数为这里 。其判别规则为若1和2都为正态组,则两个误判概率P(2|1)和P(1|2)可估计为其中。该误判概率的估计是有偏的,但大样本时偏差的影响是可以忽略的。,(5.2.5),13,实际使用的判别函数为(5.2.5)15,误判概率的非参数估计,若两组不能假定为正态组,则P(2|1) 和 P(1|2) 可以用样本中样品的误判比例来估计,通常有如下三种非参数估计方法:(1)令n(2|1)为样本中来自1而误判为2的个数,n(1|2)为样本中来自2而误判为1的个数,则P(2|1) 和P(1|2) 可估计为该方法简单、直观,且易于计算。但遗憾的是,它给出的估计值通常偏低,除非n1和n2都非常大。,14,误判概率的非参数估计若两组不能假定为正态组,则P(2|1),出现这种乐观估计的原因是,被用来构造判别函数的样本数据又被用于对这个函数进行评估,该判别函数自然对构造它的样本数据有更好的适用性,以致出现偏低的误判率。,15,出现这种乐观估计的原因是,被用来构造判别函数的样本数据又被用,(2)将整个样本一分为二,一部分作为训练样本,用于构造判别函数,另一部分用作验证样本,用于对判别函数进行评估。误判概率用验证样本的被误判比例来估计,如此得到的估计是无偏的。该方法的两个主要缺陷:(i)需要用大样本;(ii)该方法构造的判别函数只用了部分样本数据,与使用全部样本数据构造的判别函数(这是作判别时实际使用的)相比,损失了过多有价值的信息,其效用自然不如后者,表现为前者的误判概率通常将高于后者的,而后者的误判概率才是我们真正感兴趣的。该缺陷随样本容量的增大而逐渐减弱,当样本容量相当大时此缺陷基本可忽略。,16,(2)将整个样本一分为二,一部分作为训练样本,用于构造判别函,(3)称为交叉验证法或刀切法。从组1中取出x1j,用该组的其余n11个观测值和组2的n2个观测值构造判别函数,然后对x1j进行判别,j=1,2,n1。同样,从组2中取出x2j,用这一组的其余n21个观测值和组1的n1个观测值构造判别函数,再对x2j作出判别,j=1,2,n2。令n*(2|1)为样本中来自1而误判为2的个数,n*(1|2)为样本中来自2而误判为1的个数,则两个误判概率P(2|1)和P(1|2)的估计量为它们都是接近无偏的估计量。,17,(3)称为交叉验证法或刀切法。从组1中取出x1j,用该组的,2. 12时的判别,判别规则也可采用另一种形式:选择判别函数为 它是x的二次函数,相应的判别规则为,(5.2.10),18,2. 12时的判别判别规则(5.2.10)20,例5.2.2 在例5.2.1中,设1和2这两个组的方差不相同,分别为 ,这时当1x2时,判别函数可简单地取为式中它是1与2的加权平均,常称为阈值点,如图5.2.2所示。,19,例5.2.2 在例5.2.1中,设1和2这两个组的方,判别规则为实际应用中,1和2,1和2一般都是未知的,可由相应的样本值代替。,图5.2.2 方差不同时两组判别的阈值点,20,判别规则为图5.2.2 方差不同时两组判别的阈值点22,二、多组距离判别,设有k个组1,2,k,它们的均值分别是1,2,k,协方差矩阵分别是1(0),2(0),k(0),x到总体i的平方马氏距离为判别规则为该判别规则不受变量单位的影响。若1=2=k=,则上述判别规则可简化为: d2(x,i)=(xi)1(xi)=x1x2i1x+i1i =x1x2(Iix+ci)其中 ,判别规则简化为,21,二、多组距离判别设有k个组1,2,k,它们的均值分,这里Iix+ci为线性判别函数。当组数k=2时,可将上式写成此式等价于书中的(5.2.3)式。实践中1,2,k和1,2,k一般都是未知的,它们的值可由相应的样本估计值代替。设 是从组i中抽取的一个样本,则i可估计为(i=1,2,k)。,(5.2.13),(5.2.14),22,(5.2.13)(5.2.14)24,1=2=k=的情形,的联合无偏估计为其中n=n1+n2+nk, 为第i组的样本协方差矩阵。实际应用中使用的判别规则是其中 。,(5.2.15),23,1=2=k=的情形的联合无偏估计为(5.2.1,1,2,k不全相等的情形,i可估计为Si(i=1,2,k)。实际应用中使用的判别规则是其中,(5.2.16),24,1,2,k不全相等的情形i可估计为Si(i=1,判别分类是否有效,除非各组均值向量之间有明显的差异,否则就不适合作判别分类。在各组的数据均近似服从多元正态分布,且有共同的协方差矩阵的假定下,我们可先进行多元方差分析。如果检验没有发现均值间的显著差异,则此时再作判别分类将是白费精力;如果检验结果有显著差异,则可考虑再进行判别分类,但并不意味着所作的判别一定有效,最终还得看一下误判概率。,25,判别分类是否有效除非各组均值向量之间有明显的差异,否则就不适,1,2,k是否假定为相等,在实际应用中,1,2,k不太会完全相等,我们需要关心的是,1,2,k之间是否存在着明显的差异。若没有明显的差异,则通常可以考虑假定1=2=k=,从而使用与此相应的判别规则。此时的判别函数为线性函数。如果对是否应该假定1=2=k=拿不准,则可以同时采用相等和不相等两种情形下的相应判别规则分别进行判别,然后用交叉验证法来比较其误判概率的大小,以判断到底采用哪种规则更为合适。,26,1,2,k是否假定为相等在实际应用中,1,2,例5.2.3,对破产的企业收集它们在破产前两年的年度财务数据,同时对财务良好的企业也收集同一时期的数据。数据涉及四个变量:x1=现金流量/总债务,x2=净收入/总资产,x3=流动资产/流动债务,以及x4=流动资产/净销售额。数据列于表5.2.1,组为破产企业,组为非破产企业。,27,例5.2.3 对破产的企业收集它们在破产前两年的年度财务数据,表5.2.1 破产状况数据,28,编号组别x1x2x3x4编号组别x1x2x3x41-0.4,使用书中判别规则(5.2.15)进行判别,29,使用书中判别规则(5.2.15)进行判别31,的联合估计为,30,的联合估计为32,于是对某个未判企业x=(0.16, 0.10, 1.45, 0.51),计算得按判别规则(5.2.15),该企业被判为破产企业。,表5.2.3 判别情况,31,表5.2.3 判别情况判别为真实组,在表5.2.3中,估计的误判概率为使用交叉验证法,判别情况列于表5.2.4。在表5.2.4中,估计的误判概率为,表5.2.4 判别情况,32,在表5.2.3中,估计的误判概率为表5.2.4,如果使用判别规则(5.2.16)进行判别,则由(5.2.7)式算出的误判率为由交叉验证法估算出的误判概率为,33,如果使用判别规则(5.2.16)进行判别,则由(5.2.7),5.3 贝叶斯判别,一、最大后验概率法二、最小期望误判代价法,34,5.3 贝叶斯判别一、最大后验概率法36,距离判别不合适的一个例子,1(校研究生组):N1=2000, 1=5002(校本科生组):N2=8000, 2=400研究生组中x500的有1000人,本科生组中 x500的有2000人。某学生的x=500,试判别该生归属哪一组。该例如采用距离判别法则显然不妥,应考虑利用如下的先验概率:,35,距离判别不合适的一个例子1(校研究生组):N1=2000,一、最大后验概率法,设有k个组1, 2, k,且组i的概率密度为fi (x) ,样品x来自组i的先验概率为pi ,i=1,2,k,满足p1+p2 +pk =1 。则x属于i的后验概率为最大后验概率法是采用如下的判别规则:,(5.3.2),36,一、最大后验概率法 设有k个组1, 2, k,且组,例5.3.1 设有1,2和3三个组,欲判别某样品x0属于何组,已知p1=0.05,p2=0.65,p3=0.30,f1(x0)=0.10, f2(x0)=0.63,f3(x0)=2.4。现计算x0属于各组的后验概率如下: 所以应将x0判为组3。,37,例5.3.1 设有1,2和3三个组,欲判别某样品x,皆为正态组的情形,设iNp(i,i),i0, i=1,2,k。这时,组i的概率密度为fi(x)=(2)p/2|i|1/2exp0.5d2(x,i)其中d2(x,i)=(xi)i 1 (xi)是x到i的平方马氏距离。以下各情形下后验概率的具体计算公式。当p1=p2=pk=1/k,1=2=k=时,,38,皆为正态组的情形设iNp(i,i),i0, i=,当p1=p2=pk=1/k,而1,2,k不全相等时,当1=2=k=,而p1,p2,pk不全相等时,当p1,p2,pk不全相等,1,2,k也不全相等时,,39,当p1=p2=pk=1/k,而1,2,k不全相,上述各情形的后验概率可统一表达为其中D2(x,i)=d2(x,i)+gi+hi,40,上述各情形的后验概率可统一表达为42,称D2(x, i)为x到i的广义平方距离。在正态性假定下,上述判别规则也可等价地表达为当1=2=k=时,上述后验概率公式可简化为其中Ii=1i,ci=0.5i1i, i=1,2,k。此时,判别规则等价于如果我们对x来自哪一组的先验信息一无所知,则一般可取p1=p2=pk=1/k。这时,判别规则简化为(5.2.13)式。,41,称D2(x, i)为x到i的广义平方距离。在正态性假定下,实际应用中,以上各式中的i和i(i=1,2,k)一般都是未知的,需用相应的样本估计值代替。例5.3.2 在例5.2.3中,已知破产企业所占的比例约为10%,即可取p1=0.1,p2=0.9,假定两组均为正态,且1=2=,则未判企业x=(0.16, 0.10, 1.45, 0.51)的后验概率为由于P(1|x)P(2|x),所以该企业被判为非破产企业,这与例5.2.3的结果正好相反,这正是先验概率的作用结果。,42,实际应用中,以上各式中的i和i(i=1,2,k)一般,二、最小期望误判代价法,例子:1:合格的药,2 :不合格的药对于新样品x 该问题中,两种误判造成的损失一般是明显不同的,只是根据后验概率的大小进行判别是不太合适的。1.两组的一般情形2.两个正态组的情形3.多组的情形,43,二、最小期望误判代价法例子:45,1.两组的一般情形,设组1和2的概率密度函数分别为f1(x)和f2(x),组1和2的先验概率分别为p1和p2,p1+p2=1。又设将来自i的x判为l的代价为c(l|i), l,i=1,2,代价矩阵表示为对于给定的判别规则,令R1=x:判别归属1,R2=x:判别归属2显然R1R2=,R1R2=xR1判x1 ,xR2判x2,44,1.两组的一般情形设组1和2的概率密度函数分别为f1(x,将1中的样品x误判到2的条件概率为类似地,将2中的样品x误判到1的条件概率为,45,47,期望误判代价(expected cost of misclassification),记为ECM,可计算为最小期望误判代价法采用的是使ECM达到最小的判别规则,即为,(5.3.13),46,期望误判代价(expected cost of miscla,误判代价之比,最小ECM规则需要三个比值:密度函数比、误判代价比和先验概率比。在这些比值中,误判代价比最富有实际意义,因为在许多应用中,直接确定误判代价会有一定困难,而确定误判代价比却相对容易得多。例11 :应该做手术 ,2 :不应该做手术例21 :硕士毕业后应继续攻读博士 2 :硕士毕业后应直接找工作,47,误判代价之比最小ECM规则需要三个比值:密度函数比、误判代价,(5.3.13)式的一些特殊情形,(1)当p1=p2=0.5时,(5.3.13)式简化为实际应用中,如果先验概率难以给出,则它们通常被取成相等。,48,(5.3.13)式的一些特殊情形 (1)当p1=p2=0.5,(2) 当c(1|2)= c(2|1)时,(5.3.13)式简化为该式等价于组数k=2时的 (5.3.2)式。实践中,若误判代价比无法确定,则通常取比值为1。记c(1|2)=c(2|1)=c,有ECM=cp1P(2|1) + p2P(1|2)总的误判概率=P(误判发生在组1中) + P(误判发生在组2中) = p1P(2|1) + p2P(1|2)可见,此时的判别规则(5.3.15)将使总的误判概率 (=ECM/c)达到最小,从而此时的最小期望误判代价判别规则即为最小总误判概率判别规则。,(5.3.15),49,(2) 当c(1|2)= c(2|1)时,(5.3.13)式,(3)当 (通常的情况是,p1=p2=0.5且c(1|2)=c(2|1))时,(5.3.13)式可进一步简化为这时,判别新样品x0的归属,只需比较在x0处的两个概率密度值 f1(x0) 和 f2(x0)的大小。作为特例,此时它自然也使总的误判概率达到最小。,(5.3.17),50,(3)当 (通常的情况是,p1=p2=0.5且c(1,如将上述判别规则用于例5.2.2中,则图5.2.2中的阈值点将移至两密度曲线相交点的正下方m处。,图5.2.2 方差不同时两组判别的阈值点,51,如将上述判别规则用于例5.2.2中,则图5.2.2中的阈值点,例5.3.3 设组1和2的概率密度函数分别为f1(x)和f2(x),又知c(1|2)=12个单位,c(2|1)=4个单位,根据以往经验给出p1=0.6,p2=0.4,则最小ECM判别规则为假定在一个新样品x0处算得f1(x0)=0.36,f2(x0)=0.24,于是因此,判x0来自组2。,52,例5.3.3 设组1和2的概率密度函数分别为f1(x,2.两个正态组的情形,假定iNp(i,i), i0, i=1,2。当1=2=时,(5.3.13)式可具体写成其中a=1(12), 。在p1=p2,c(1|2)=c(2|1)的条件下上式将退化为(5.2.3)式。,53,2.两个正态组的情形假定iNp(i,i), i0,重要结论:在两组皆为正态组且协差阵相等的情形下,距离判别(5.2.3)等价于不考虑先验概率和误判代价(相当于p1=p2,c(1|2)=c(2|1))时的贝叶斯判别,(作为(5.3.17)式的一个特例)此时它是最优的,即能使总的误判概率达到最小。实践中,因未知参数需用样本值替代,故实际所使用的判别规则(5.2.5)只是渐近最优的。当12时,(5.3.13)式可写为 其中d2(x,i)=(xi)i1(xi), i=1,2。,54,重要结论:在两组皆为正态组且协差阵相等的情形下,距离判别(5,在p1=p2,c(1|2)=c(2|1)的条件下上式可简化为若进一步假定|1|=|2|,则判别规则(5.3.20)将与距离判别的(5.2.10)式一致。基于二次函数的判别规则相比线性判别规则,其判别效果更依赖于多元正态性的假定(参见参考文献34,第462页)。实践中,为了达到较理想的判别效果,需要时可以考虑先将各组的非正态性数据变换成接近正态性的数据,然后再作判别分析。,(5.3.20),55,在p1=p2,c(1|2)=c(2|1)的条件下上式可简化为,3.多组的情形,设 fi(x)为组i的概率密度函数,i=1,2,k。令pi组i的先验概率,i=1,2,k。c(l|i)将来自i的x判为l的代价, l,i=1,2,k,对l=i,c(i|i)=0,i=1,2,k。Rl所有判为l的x的集合,l=1,2,k。因而对l,i=1,2,k,将来自i的样品x判为l的条件概率为,56,3.多组的情形设 fi(x)为组i的概率密度函数,i=1,期望误判代价,57,期望误判代价59,使ECM达到最小的判别规则是假定所有的误判代价都是相同的,不失一般性,可令c(l|i)=1, li, l,i=1,2,k,则此时称为总的误判概率。故此时的最小期望误判代价法也可称为最小总误判概率法,并且上式可简化为 让 减去上面等式的两边,即有更简洁的形式:,58,使ECM达到最小的判别规则是60,它与(5.3.2)式是等价的。因此,此时的最小总误判概率法等同于最大后验概率法,或者说,最大后验概率法可看成是所有误判代价均相同时的最小期望误判代价法。当p1=p2=pk=1/k时,上式又进一步简化为 该判别规则实际上也是一种极大似然法。,59,61,注 令B=误判,Ai=样品来自i,i=1,2,k 则利用全概率公式得总的误判概率为此外,总的正确判别概率为,60,62,例5.3.4 在例5.3.1中,假定误判代价矩阵为现采用最小ECM规则进行判别。l=1:p2f2(x0)c(1|2)+p3f3(x0)c(1|3) =0.650.6320+0.302.460=51.39l=2:p1f1(x0)c(2|1)+p3f3(x0)c(2|3) =0.050.1010+0.302.450=36.05l=3:p1f1(x0)c(3|1)+p2f2(x0)c(3|2) =0.050.10200+0.650.63100=41.95由于l=2时为最小值,故将x0判为2。,61,例5.3.4 在例5.3.1中,假定误判代价矩阵为63,5.4 费希尔判别,费希尔判别(或称典型判别)的基本思想是投影(或降维):用p 维向量 的少数几个线性组合(称为费希尔判别函数或典型变量) (一般r明显小于p)来代替原始的p 个变量x1,x2, ,xp ,以达到降维的目的,并根据这r个判别函数y1,y2,yr对样品的归属作出判别或将各组分离。成功的降维将使样品的归类或组的分离更为方便和有效,并且可以对前两个或前三个判别函数作图,从直观的几何图形上区别各组。,62,5.4 费希尔判别费希尔判别(或称典型判别)的基本思想是,一个说明性的二维例子,63,一个说明性的二维例子65,设来自组i的p维观测值为xij,j=1,2,ni,i=1,2,k,将它们共同投影到某一p维常数向量a上,得到的投影点可分别对应线性组合yij=axij,j=1,2,ni,i=1,2,k。费希尔判别需假定1=2=k=。,64,设来自组i的p维观测值为xij,j=1,2,ni,i=,三组之间的分离程度,图5.4.2 三组之间的分离程度,1,2,3,65,三组之间的分离程度图5.4.2 三组之间的分离程度12,yij的组间平方和及组内平方和分别为式中可用来度量yij的组之间分离程度的一个量是,66,yij的组间平方和及组内平方和分别为68,在约束条件aSpa=1下,寻找a,使得(a)达到最大,其中 是的联合无偏估计。设E1H的全部非零特征值依次为12s0,这里s=rank(H),且有smin(k1,p) 相应的特征向量依次记为t1,t2,ts(标准化为tiSpti=1, i=1,2,s)。当a1= t1时(a1)达到最大值1。所以,选择投影到t1上能使各组的投影点最大限度地分离,称y1=t1x为费希尔第一线性判别函数,简称第一判别函数。在许多情况下(如k或p是大的),仅仅使用第一判别函数也许不够,应考虑建立y2=a2x,且满足,67,在约束条件aSpa=1下,寻找a,使得(a)达到最大,其,用Sp代替未知的,于是在约束条件t1Spa2=0(或t1Ea2=0)下寻找a2,使得(a2)达到最大。当a2= t2时(a2)达到最大值2,称y2=t2x为第二判别函数。如还不够,可再建立第三判别函数y3,依次类推。一般地,我们要求第i个线性组合yi=aix不重复前i1个判别函数中的信息,即用Sp替代,上式变为在上述约束条件下寻找ai,使得(ai)达到最大。当ai=ti时(ai)达到最大值i,称yi=tix为第i判别函数,i=2,3,s。,68,用Sp代替未知的,于是在约束条件70,费希尔判别函数的特点,(1)各判别函数都具有单位(联合样本)方差;(2)各判别函数彼此之间不相关(确切地说,是彼此之间的联合样本协方差为零);(3)判别函数方向t1,t2,ts并不正交,但作图时仍将它们画成直角坐标系,虽有些变形,但通常并不严重。,69,费希尔判别函数的特点(1)各判别函数都具有单位(联合样本)方,组数k=2时只有一个判别函数,k=3时最多只有两个判别函数。(ti)=i表明了第i判别函数yi对分离各组的贡献大小,yi在所有s个判别函数中的贡献率为而前r(s)个判别函数y1,y2,yr的累计贡献率为 它表明了y1,y2,yr能代表y1,y2,ys进行判别的能力。在实际应用中,如果前r个判别函数的累计贡献率已达到了一个较高的比例(如75%95%),则就采用这r个判别函数进行判别。,70,组数k=2时只有一个判别函数,k=3时最多只有两个判别函数。,由于各判别函数都具有单位方差且彼此不相关,故此时的马氏距离等同于欧氏距离。我们采用距离判别法,依据(y1,y2,yr)值,判别新样品归属离它最近的那一组。判别规则为其中 ,i=1,2,k 。该判别规则也可表达为,71,由于各判别函数都具有单位方差且彼此不相关,故此时的马氏距离等,如果只使用一个判别函数进行判别(即r=1),则以上判别规则可简化为式中y和 (i=1,2,k)分别是前面判别规则中的y1和 (i=1,2,k)。有时我们也使用中心化的费希尔判别函数,即式中为k个组的总均值。仍使用同上的判别规则进行判别。对于两组的判别,费希尔判别等价于协差阵相等的距离判别,对两个正态组也等价于协差阵相等且先验概率和误判代价也均相同的贝叶斯判别。,72,如果只使用一个判别函数进行判别(即r=1),则以上判别规则可,当使用的判别函数个数r=2时,可将各样品的两个判别函数得分画成平面直角坐标系上的散点图,用目测法对新样品的归属进行辨别或对来自各组样品的分离情况及结构进行观测评估。当r=3时,可利用SAS的交互式数据分析菜单系统,让样本中来自不同组的样品点呈现不同颜色(或不同形状)以区分各组,然后作(三维)旋转图从多角度来辨别新样品的归属或观测评估各组之间的分离效果,但其目测效果一般明显不如r=2时清楚。能够利用降维后生成的图形用目测法进行判别是费希尔判别的最重要应用,图中常常能清晰地展示出(通过计算未必能得到的)丰富的信息,如发现构成各组的结构、离群样品点和数据中的其他异常情况等。,73,当使用的判别函数个数r=2时,可将各样品的两个判别函数得分画,例5.4.2,费希尔于1936年发表的鸢尾花(Iris)数据被广泛地作为判别分析的例子。数据是对3种鸢尾花:刚毛鸢尾花(第组)、变色鸢尾花(第组)和弗吉尼亚鸢尾花(第组)各抽取一个容量为50的样本,测量其花萼长(x1)、花萼宽(x2)、花瓣长(x3)、花瓣宽(x4),单位为mm,数据列于表5.4.1。,74,例5.4.2 费希尔于1936年发表的鸢尾花(Iris)数据,表5.4.1 鸢尾花数据,75,编号组别x1x2x3x4编号组别x1x2x3x415033,本题中,n1=n2=n3=50,n=n1+n2+n3=150。经计算,76,本题中,n1=n2=n3=50,n=n1+n2+n3=150,77,79,E1H的正特征值个数smin(k1,p)=min(2,4)=2,可求得两个正特征值1=32.192, 2=0.285相应的标准化特征向量,78,80,所以,中心化的费希尔判别函数为判别函数的组均值为对于任一样品x,可按下式进行判别:,79,所以,中心化的费希尔判别函数为81,由于n1,n2,n3都很大,因此用(5.2.7)式估计误判概率的效果还是不错的,判别情况列于表5.4.2。所以这些误判概率是比较低的。,表5.4.2 判别情况,80,由于n1,n2,n3都很大,因此用(5.2.7)式估计误判概,图5.4.2 鸢尾花数据两个判别式得分的散点图,81,图5.4.2 鸢尾花数据两个判别式得分的散点图83,5.5 逐步判别,逐步判别法是判别分析中一种自动搜索变量子集的方法,它未必最优,但往往却是有效的,是一种应用最广泛的判别变量选择方法。逐步判别法的基本思想及基本步骤类似于回归分析中的逐步回归法。一、附加信息检验二、变量选择的方法,82,5.5 逐步判别逐步判别法是判别分析中一种自动搜索变量子,一、附加信息检验,设x=(x1,x2),其中x1=(x1,x2,xr)是原先用作判别的变量,而x2=(xr+1,xr+2,xp)是新引入的变量。我们希望知道,在已有x1用作判别的条件下,x2所提供的(超越x1所含信息的)附加信息能否使区分各组的能力有显著的提高。如果没有显著提高,则就认为x2的引入是不值得的。设有k个组1,2,k,其x的分布皆为p元正态分布,且具有相同的协方差矩阵。从这k个组中各自独立地抽取一个样本,n为k个组的总样本容量。欲检验H0:各组的E(x2|x1)相等,83,一、附加信息检验设x=(x1,x2),其中x1=(x1,将组内平方和及叉积和矩阵E,组间平方和及叉积和矩阵H分块为: 则检验统计量为 其中,84,将组内平方和及叉积和矩阵E,组间平方和及叉积和矩阵H分块为:,当H0为真时,(x2|x1)服从(pr,k1,nkr)。我们特别感兴趣的是pr=1(即r=p1)时的情形,此时 偏统计量 偏F统计量对给定的,拒绝规则为:若FF(k1,nkp+1),则拒绝H0,85,当H0为真时,(x2|x1)服从(pr,k1,nk,二、变量选择的方法,判别分析的变量选择方法:前进法、后退法和逐步判别法。前进法开始时没有用作判别的变量,每次选入一个对判别能力的提高有最显著作用的变量,过程只进不出,当不再有未被选入的变量达到临界值时,前进选入的过程停止。后退法的过程与前进法相反,开始时引入所有变量,每次剔除一个对判别能力的提高最不显著的变量,过程只出不进,当余下的变量都达到用作判别的标准时,后退剔除的过程停止。逐步判别法是前进法和后退法的结合,在变量的选择过程中有进有出。实践中,逐步判别法通常最受欢迎。,86,二、变量选择的方法判别分析的变量选择方法:前进法、后退法和逐,逐步判别法的基本步骤,(1)对每个xi,计算其一元方差分析的F统计量F(xi),不妨设 ,即x1有最大的判别能力。 若F(x1)F(k1,nk),则表明没有一个变量可以选入; 若F(x1)F(k1,nk),则x1选入,并进入下一步。(2)对(1)中每一未选入的变量,计算偏F统计量F(xi|x1),不妨设 ,即x2对判别能力的提升有最大贡献。若F(x2|x1)F(k1,nk1),则选变量过程结束;若F(x2|x1) F(k1,nk1),则x2选入,并进入下一步。,87,逐步判别法的基本步骤(1)对每个xi,计算其一元方差分析的F,一般地,如已选入了r个变量,不妨设是x1,x2,xr,并设若 ,则选变量过程结束;若,则xr+1选入,并进入下一步。(3)在第r+1个变量选入后,要重新核实较早选入的r个变量,应将对判别效果不再显著的变量剔除出去。不妨设若 ,则没有变量需剔除,回到(2);若 F(k1,nkr),则剔除变量xl,再对其余r1个变量继续进行核实,直至无变量可剔除为止,然后再回到(2)。,88,一般地,如已选入了r个变量,不妨设是x1,x2,xr,并,(4)经过(2)和(3)的不断选入和剔除的过程,最后既不能选进新变量,也不能剔除已选入的变量,变量选择过程到此结束。如果选入变量的临界值F进和剔除变量的临界值F出相同,则有很小的可能性会使得变量的选入和剔除过程无休止、连续不断地循环进行下去。但只要在确定临界值时让F出比F进略微小一点,这种可能性就可以被排除。进行逐步判别实际上是在做逐步多元方差分析,在变量的筛选过程中没有任何判别函数被计算。在变量筛选完成后,我们方可以对选择的变量计算判别函数和建立判别规则。,89,(4)经过(2)和(3)的不断选入和剔除的过程,最后既不能选,例5.5.1 对例5.4.2中的数据作逐步判别,具体步骤如下:(1)对每一变量分别计算一元方差分析的F统计量和p值,并列于表5.5.1。x3第一个选入。(2),表5.5.1 F统计量和p值,90,例5.5.1 对例5.4.2中的数据作逐步判别,具体步骤,i=1,2,4,计算结果列于表5.5.2。x2选入。(3)核实x3是否因x2的选入仍保持显著。经计算,F(x3|x2)=1112.95,p0.0001,从而保留x3。,表5.5.2 x3已选入时的偏F统计量和p值,91,i=1,2,4,计算结果列于表5.5.2。x2选入。表5.5,i=1,4,结果见表5.5.3。可见,x4选入。(4)核实x4选入后早先已选入的x2和x3是否还显著,计算偏F统计量F(x2|x3,x4)和F(x3|x2,x4),结果列于表5.5.4。可见,x2和x3皆保留。继续计算,表5.5.3 x2,x3已选入时的偏F统计量和p值,92,i=1,4,结果见表5.5.3。可见,x4选入。表5.5.3,可得F(x1| x2,x3,x4)=4.72,p=0.0103,故x1也选入。(5)核实x1选入后原已选入的x2,x3,x4是否还是显著的,计算偏F统计量F(x2|x1,x3,x4), F(x3|x1,x2,x4)和F(x4| x1,x2,x3),结果列于表5.5.5。计算结果表明,已选入的变量无一剔除。,表5.5.5 选入x1后核实x2,x3和x4是否还显著的偏F统计量和p值,93,可得F(x1| x2,x3,x4)=4.72,p=0.010,表5.5.6 变量选择过程汇总,94,步骤1234变量x3x2x4x1F1180.1643.043,感谢聆听,感谢聆听,