《应用多元分析》第三版PPT(第五章).ppt

上传人：牧羊曲112

文档编号：6527318

上传时间：2023-11-09

格式：PPT

页数：70

大小：923KB

《《应用多元分析》第三版PPT(第五章).ppt》由会员分享，可在线阅读，更多相关《《应用多元分析》第三版PPT(第五章).ppt（70页珍藏版）》请在三一办公上搜索。

1、第五章判别分析,5.1 引言5.2 距离判别5.3 贝叶斯判别5.4 费希尔判别,5.1 引言,判别分析的例子：1.有偿付力与无偿付力的财产责任保险公司。测量变量：总资产，股票与债券价值，股票与债券的市值，损失支出，盈余，签定的保费金额。2.非溃疡胃病组（胃功能紊乱者）与控制组（“正常”者）。测量变量：焦虑、依赖性、罪恶感、完美主义的量度3.两种野草。测量变量：萼片与花瓣的长度，花瓣裂缝的深度，苞的长度，花粉直径。4.新产品的速购者与迟购者。测量变量：教育，收入，家庭大小，过去更换品牌的次数。5.良好信用与不良信用风险。测量变量：收入，年龄，信用卡数目，家庭规模。,判别分析要解决的问题是，在

2、已知历史上用某些方法已把研究对象分成若干组的情况下，来判定新的观测样品应归属的组别。每一组（亦称类或总体）中所有样品的p维指标值构成了该组的一个p元总体分布，我们试图主要从各组的总体分布或其分布特征出发来判断新样品x是来自哪一组的。本章介绍三种常用的判别分析方法：距离判别、贝叶斯（Bayes）判别和费希尔（Fisher）判别。,5.2 距离判别,一、两组距离判别二、多组距离判别,一、两组距离判别,设组1和2的均值分别为1和2，协差阵分别为1和2(1,20)，x是一个新样品（p维），现欲判断它来自哪一组。1.1=2=时的判别2.12时的判别,1.1=2=时的判别,判别规则：令，其中，则上述判别

3、规则可简化为称W(x)为两组距离判别的（线性）判别函数，称a为判别系数。,误判概率,误判概率设1Np(1,),2Np(2,)，则其中是两组之间的马氏距离。可见，两个正态组越是分开（即越大），两个误判概率就越小，此时的判别效果也就越佳。当两个正态组很接近时，两个误判概率都将很大，这时作判别分析就没有什么实际意义了。,组之间是否已过于接近的界定,我们可对假设H0：1=2，H1：12进行检验，若检验接受原假设H0，则说明两组均值之间无显著差异，此时作判别分析一般会是徒劳的；若检验拒绝 H0，则两组均值之间虽然存在显著差异，但这种差异对进行有效的判别分析未必足够大（即此时作判别分析未必有实际意义），

4、故此时还应看误判概率是否超过了一个合理的水平。,例5.2.1 设p=1，1和2的分布分别为N(1,2)和N(2,2)，1,2,2均已知，12，则判别系数a=(12)/20，判别函数：判别规则：误判概率：误判概率图示：,抽取样本估计有关未知参数,设是来自组1的样本，是来自组2的样本，n1+n22p，则1和2的一个无偏估计分别为的一个联合无偏估计为其中,估计的判别函数为这里。其判别规则为若1和2都为正态组，则两个误判概率P(2|1)和P(1|2)可估计为其中。该误判概率的估计是有偏的，但大样本时偏差的影响是可以忽略的。,误判概率的非参数估计,若两组不能假定为正态组，则P(2|1)和 P(1|2)

5、可以用样本中样品的误判比例来估计，通常有如下三种非参数估计方法：(1)令n(2|1)为样本中来自1而误判为2的个数，n(1|2)为样本中来自2而误判为1的个数，则P(2|1)和P(1|2)可估计为该方法简单、直观，且易于计算。但遗憾的是，它给出的估计值通常偏低，除非n1和n2都非常大。,出现这种乐观估计的原因是，被用来构造判别函数的样本数据又被用于对这个函数进行评估，评估的结果自然就倾向有利于所构造的判别函数。事实上，在误判概率的估计中，构造判别函数中使用过的样本数据在对该函数作出评估时已不能很好地代表总体了。,(2)将整个样本一分为二，一部分作为训练样本，用于构造判别函数，另一部分用作验证样

6、本，用于对判别函数进行评估。误判概率用验证样本的被误判比例来估计，如此得到的估计是无偏的。该方法的两个主要缺陷：(i)需要用大样本；(ii)在构造判别函数时，只用了部分样本数据，损失了过多有价值的信息。与使用所有的样本数据构造判别函数相比，该方法将使真实的误判概率上升。该缺陷随样本容量的增大而逐渐减弱，当样本容量相当大时此缺陷基本可忽略。,(3)称为交叉验证法或刀切法。该方法既避免了样本数据在构造判别函数的同时又被用来对该判别函数进行评价，造成不合理的信息重复使用，又几乎避免了构造判别函数时样本信息的损失。从组1中取出x1j，用该组的其余n11个观测值和组2的n2个观测值构造判别函数，然后对x

7、1j进行判别，j=1,2,n1。同样，从组2中取出x2j，用这一组的其余n21个观测值和组1的n1个观测值构造判别函数，再对x2j作出判别，j=1,2,n2。令n*(2|1)为样本中来自1而误判为2的个数，n*(1|2)为样本中来自2而误判为1的个数，则两个误判概率P(2|1)和P(1|2)的估计量为它们都是接近无偏的估计量。,2.12时的判别,判别规则也可采用另一种形式：选择判别函数为它是x的二次函数，相应的判别规则为,例5.2.2 在例中，设1和2这两个组的方差不相同，分别为，这时当1x2时，判别函数可简单地取为式中它是1与2的加权平均，常称为阈值点，如图所示。,判别规则为实际应用中，1

8、和2，1和2一般都是未知的，可由相应的样本值代替。,图5.2.2 方差不同时两组判别的阈值点,二、多组距离判别,设有k个组1,2,k，它们的均值分别是1,2,k，协方差矩阵分别是1(0),2(0),k(0)，x到总体i的平方马氏距离为判别规则为若1=2=k=，则上述判别规则可作进一步简化。d2(x,i)=(xi)1(xi)=x1x2i1x+i1i=x1x2(Iix+ci)其中，判别规则简化为,这里Iix+ci为线性判别函数。当组数k=2时，可将上式写成此式等价于书中的（）式。实践中1,2,k和1,2,k一般都是未知的，它们的值可由相应的样本估计值代替。设是从组i中抽取的一个样本，则i可估计为

9、(i=1,2,k)。,1=2=k=的情形,的联合无偏估计为其中n=n1+n2+nk，为第i组的样本协方差矩阵。实际应用中使用的判别规则是其中。,1,2,k不全相等的情形,i可估计为Si(i=1,2,k）。实际应用中使用的判别规则是其中,1,2,k是否假定为相等,在实际应用中，1,2,k不太可能完全相等，我们需要关心的是，1,2,k之间是否存在着明显的差异。若没有明显的差异，则通常可以考虑假定1=2=k=，从而使用与此相应的判别规则。此时的判别函数为线性函数。如果对是否应该假定1=2=k=拿不准，则可以同时采用相等和不相等两种情形下的相应判别规则分别进行判别，然后用交叉验证法来比较它们的误判概率

10、，以决定采用何种判别规则进行判别。,例5.2.3,对破产的企业收集它们在破产前两年的年度财务数据，同时对财务良好的企业也收集同一时期的数据。数据涉及四个变量：x1=现金流量/总债务，x2=净收入/总资产，x3=流动资产/流动债务，以及x4=流动资产/净销售额。数据列于表，组为破产企业，组为非破产企业。,表5.2.1 破产状况数据,使用书中判别规则（）进行判别,的联合估计为,于是对某个未判企业x=(0.16,0.10,1.45,0.51)，计算得按判别规则（），该企业被判为破产企业。,表5.2.3 使用（）式的判别情况,在表中，估计的误判概率为使用（）式的交叉验证法，判别情况列于表。在表中，估计

11、的误判概率为,表5.2.4 使用（）式的判别情况,如果使用判别规则（）进行判别，则由（）式估算出的误判概率为由（）式估算出的误判概率为评注例中，在过去两年至今后两年企业所处的经济大环境保持稳定的前提下，可将企业的当今值x=(x1,x2,x3,x4)代入例中样本所构造的判别函数来判别该企业两年后是否会破产。,5.3 贝叶斯判别,一、最大后验概率准则二、最小平均误判代价准则,距离判别不合适的一个例子,1（校研究生组）：N1=2000,1=5002（校本科生组）：N2=8000,2=400研究生组中x500的有1000人，本科生组中 x500的有2000人。某学生的x=500，试判别该生归属哪一组

12、。该例如采用距离判别法则显然不妥，应考虑利用如下的先验概率：,一、最大后验概率准则,设有k个组1,2,k，且组i的概率密度为fi(x)，样品x来自组i的先验概率为pi,i=1,2,k，满足p1+p2+pk=1。则x属于i的后验概率为最大后验概率准则是采用如下的判别规则：,例5.3.1 设有1、2和3三个组，欲判别某样品x0属于何组，已知p1=0.05，p2=0.65，p3=0.30，f1(x0)=0.10,f2(x0)=0.63，f3(x0)=2.4。现计算x0属于各组的后验概率如下：所以应将x0判为组3。,皆为正态组的情形,设iNp(i,i)，i0,i=1,2,k。这时，组i的概率密度为fi

13、(x）=(2)p/2|i|1/2exp0.5d2(x,i)其中d2(x,i)=(xi)i 1(xi)是x到i的平方马氏距离。以下各情形下后验概率的具体计算公式。当p1=p2=pk=1/k，1=2=k=时，,当p1=p2=pk=1/k，而1,2,k不全相等时，当1=2=k=，而p1,p2,pk不全相等时，当p1,p2,pk不全相等，1,2,k也不全相等时，,上述各情形的后验概率可统一表达为其中D2(x,i)=d2(x,i)+gi+hi,称D2(x,i)为x到i的广义平方距离。在正态性假定下，上述判别规则也可等价地表达为当1=2=k=时，上述后验概率公式可简化为其中Ii=1i，ci=0.5i1i,

14、i=1,2,k。此时，判别规则等价于如果我们对x来自哪一组的先验信息一无所知，则一般可取p1=p2=pk=1/k。这时，判别规则简化为（）式。,实际应用中，以上各式中的i和i(i=1,2,k）一般都是未知的，需用相应的样本估计值代替。例5.3.2 在例中，已知破产企业所占的比例约为10%，即可取p1=0.1，p2=0.9，假定两组均为正态，且1=2=，则未判企业x=(0.16,0.10,1.45,0.51)的后验概率为由于P(1|x)P(2|x)，所以该企业被判为非破产企业，这与例的结果正好相反，这正是先验概率的作用结果。,二、最小平均误判代价准则,例子：1：合格的药，2：不合格的药对于新样品

15、x 该问题中，两种误判造成的损失一般是明显不同的，只是根据后验概率的大小进行判别是不太合适的。1.两组的情形2.多组的情形,1.两组的情形,设组1和2的概率密度函数分别为f1(x)和f2(x)，组1和2的先验概率分别为p1和p2，p1+p2=1。又设将来自i的x判为l的代价为c(l|i),l,i=1,2，代价矩阵表示为对于给定的判别规则，令R1=x：判别样品x1，R2=x：判别样品x2显然R1R2=，R1R2=xR1判x1，xR2判x2,将1中的样品x误判到2的条件概率为类似地，将2中的样品x误判到1的条件概率为,平均误判代价(expected cost of misclassificatio

16、n)，记为ECM，可计算为最小平均误判代价准则是采用使ECM达到最小的判别规则，即为,误判代价之比,最小ECM准则需要三个比值：密度函数比、误判代价比和先验概率比。在这些比值中，误判代价比最富有实际意义，因为在许多应用中，直接确定误判代价会有一定困难，而确定误判代价比却相对容易得多。例11：应该做手术，2：不应该做手术例21：硕士毕业后应继续攻读博士 2：硕士毕业后应直接找工作,（）式的一些特殊情形,(1)当p1=p2=0.5时，（）式简化为实际应用中，如果先验概率未知，则它们通常被取成相等。,(2)当c(1|2)=c(2|1)时，（）式简化为该式等价于组数k=2时的（）式。实践中，若误判代价

17、比无法确定，则通常取比值为1。(3)当时，（）式可进一步简化为这时，判别新样品x0的归属，只需比较在x0处的两个概率密度值 f1(x0)和 f2(x0)的大小。,如将判别规则(3)用于例中，则图中的阈值点将移至两密度曲线相交点的正下方m处。,图5.2.2 方差不同时两组判别的阈值点,例5.3.3 设组1和2的概率密度函数分别为f1(x)和f2(x)，又知c(1|2)=12个单位，c(2|1)=4个单位，根据以往经验给出p1=0.6，p2=0.4，则最小ECM判别规则为假定在一个新样品x0处算得f1(x0)=0.36，f2(x0)=0.24，于是因此，判x0来自组2。,在统计实践中，基于正态总

18、体的判别方法居主导地位，此时的判别方法简单而高效。现假定iNp(i,i),i0,i=1,2。当1=2=时，（）式可具体写成其中a=1(12)，。在p1=p2，c(1|2)=c(2|1)的条件下上式将退化为（）式。,当12时，（）式可写为其中d2(x,i)=(xi)i1(xi),i=1,2。在|1|=|2|，p1=p2，c(1|2)=c(2|1)的条件下上式将化为（）式。,2.多组的情形,设 fi(x)为组i的概率密度函数，i=1,2,k。令pi组i的先验概率，i=1,2,k。c(l|i)将来自i的x判为l的代价,l,i=1,2,k，对l=i,c(i|i)=0。Rl所有判为l的x的集合，l=1,

19、2,k。因而对l,i=1,2,k，将来自i的样品x判为l的条件概率为,平均误判代价,使ECM达到最小的判别规则是假定所有的误判代价都是相同的，不失一般性，可令c(l|i)=1,li,l,i=1,2,k，则此时为所有误判概率之和，称之为总的误判概率。故此时的最小平均误判代价准则也可称为最小总误判概率准则，并且上式可简化为显然，它与（）式是等价的。故最小总误判概率准则与最大后验概率准则是彼此等价的，或者说，最大后验概率准则等价于所有误判代价相同时的最小平均误判代价准则。,注令B=误判，Ai=样品来自i，i=1,2,k 则利用全概率公式得总的误判概率为此外，总的正确判别概率为,例5.3.4 在例中

20、，假定误判代价矩阵为现采用最小ECM准则进行判别。l=1：p2f2(x0)c(1|2)+p3f3(x0)c(1|3)=0.650.6320+0.302.460=51.39l=2：p1f1(x0)c(2|1)+p3f3(x0)c(2|3)=0.050.1010+0.302.450=36.05l=3：p1f1(x0)c(3|1)+p2f2(x0)c(3|2)=0.050.10200+0.650.63100=41.95由于l=2时为最小值，故将x0判为2。,5.4 费希尔判别,费希尔判别（或称典型判别）的基本思想是投影（或降维）：用p 维向量的少数几个线性组合（称为判别式或典型变量）（一般r明显小

21、于p）来代替原始的p 个变量x1,x2,xp，以达到降维的目的，并根据这r 个判别式y1,y2,yr对样品的归属作出判别。成功的降维将使判别更为方便和有效，且可对前两个或前三个判别式作图，从直观的几何图形上区别各组。,一个说明性的二维例子,费希尔判别需假定1=2=k=。设来自组i的p维观测值为xij，j=1,2,ni，i=1,2,k，记式中则B是组间平方和及交叉乘积和，E是组内平方和及交叉乘积和，Sp是的联合无偏估计。,设E1B的全部非零特征值依次为12s0，其中的非零特征值个数smin(k1,p)相应的特征向量依次记为t1,t2,ts（标准化为tiSpti=1,i=1,2,s），称y1=t1

22、x为第一判别式，y2=t2x为第二判别式。一般地，称yi=tix为第i判别式，i=1,2,s。由smin(k1,p)知，组数k=2时只有一个判别式，k=3时最多只有两个判别式，判别式的个数不可能超过原始变量的个数p。特征值i表明了第i判别式yi对区分各组的贡献大小，yi的贡献率为,而前r(s)个判别式y1,y2,yr的累计贡献率为它表明了y1,y2,yr的判别能力。在实际应用中，如果前r个判别式的累计贡献率已达到了一个较高的比例(如75%95%)，则可采用这r个判别式做判别。判别规则为其中，i=1,2,k。该判别规则也可表达为,如果只使用一个判别式进行判别（即r=1），则以上判别规则可简化为式

23、中y和(i=1,2,k)分别是前面判别规则中的y1和(i=1,2,k)。有时我们也使用中心化的费希尔判别式，即式中为k个组的总均值。仍使用同上的判别规则进行判别。对于两组的判别，费希尔判别等价于协方差矩阵相等的距离判别，也等价于协方差矩阵相等且先验概率和误判代价也均相同的贝叶斯判别。,例5.4.2,费希尔于1936年发表的鸢尾花(Iris)数据被广泛地作为判别分析的例子。数据是对3种鸢尾花：刚毛鸢尾花(第组)、变色鸢尾花(第组)和弗吉尼亚鸢尾花(第组)各抽取一个容量为50的样本，测量其花萼长(x1)、花萼宽(x2)、花瓣长(x3)、花瓣宽(x4)，单位为mm，数据列于表。,表5.4.1 鸢尾花

24、数据,本题中，n1=n2=n3=50，n=n1+n2+n3=150。经计算,E1B的正特征值个数smin(k1,p)=min(2,4)=2，可求得两个正特征值1=32.192，2=0.285相应的标准化特征向量,所以，中心化的费希尔判别式为判别式的组均值为对于任一样品x，可按下式进行判别：,由于n1,n2,n3都很大，因此用（）式估计误判概率的效果还是不错的，判别情况列于表。所以这些误判概率是比较低的。,表5.4.2 判别情况,我们可以将样本中150个样品的判别式得分(y1,y2)作一散点图，下图是SAS9.1的输出结果。图中，Can1,Can2分别是指y1,y2。组、组和组的点分别用“1”、“2”和“3”标出，有7个点隐藏在图中，因与图中某些点的位置几乎重叠而未能标出。从图中可见，分离的效果相当好。对于一个新样品x0，可以用目测法从直觉上辨别其所归属的组。需要指出的是，对图形的目测法是费希尔判别的主要价值所在，图中常常能反映出计算中无法得到的丰富信息，从而可能会更有效地进行判别。,图5.4.2 鸢尾花数据两个判别式得分的散点图,