《应用多元分析》第三版PPT(第五章).ppt
《《应用多元分析》第三版PPT(第五章).ppt》由会员分享,可在线阅读,更多相关《《应用多元分析》第三版PPT(第五章).ppt(70页珍藏版)》请在三一办公上搜索。
1、第五章 判别分析,5.1 引言5.2 距离判别5.3 贝叶斯判别5.4 费希尔判别,5.1 引言,判别分析的例子:1.有偿付力与无偿付力的财产责任保险公司。测量变量:总资产,股票与债券价值,股票与债券的市值,损失支出,盈余,签定的保费金额。2.非溃疡胃病组(胃功能紊乱者)与控制组(“正常”者)。测量变量:焦虑、依赖性、罪恶感、完美主义的量度3.两种野草。测量变量:萼片与花瓣的长度,花瓣裂缝的深度,苞的长度,花粉直径。4.新产品的速购者与迟购者。测量变量:教育,收入,家庭大小,过去更换品牌的次数。5.良好信用与不良信用风险。测量变量:收入,年龄,信用卡数目,家庭规模。,判别分析要解决的问题是,在
2、已知历史上用某些方法已把研究对象分成若干组的情况下,来判定新的观测样品应归属的组别。每一组(亦称类或总体)中所有样品的p维指标值 构成了该组的一个p元总体分布,我们试图主要从各组的总体分布或其分布特征出发来判断新样品x是来自哪一组的。本章介绍三种常用的判别分析方法:距离判别、贝叶斯(Bayes)判别和费希尔(Fisher)判别。,5.2 距离判别,一、两组距离判别二、多组距离判别,一、两组距离判别,设组1和2的均值分别为1和2,协差阵分别为1和2(1,20),x是一个新样品(p维),现欲判断它来自哪一组。1.1=2=时的判别2.12时的判别,1.1=2=时的判别,判别规则:令,其中,则上述判别
3、规则可简化为称W(x)为两组距离判别的(线性)判别函数,称a为判别系数。,误判概率,误判概率设1Np(1,),2Np(2,),则其中 是两组之间的马氏距离。可见,两个正态组越是分开(即越大),两个误判概率就越小,此时的判别效果也就越佳。当两个正态组很接近时,两个误判概率都将很大,这时作判别分析就没有什么实际意义了。,组之间是否已过于接近的界定,我们可对假设H0:1=2,H1:12进行检验,若检验接受原假设H0,则说明两组均值之间无显著差异,此时作判别分析一般会是徒劳的;若检验拒绝 H0,则两组均值之间虽然存在显著差异,但这种差异对进行有效的判别分析未必足够大(即此时作判别分析未必有实际意义),
4、故此时还应看误判概率是否超过了一个合理的水平。,例5.2.1 设p=1,1和2的分布分别为N(1,2)和N(2,2),1,2,2均已知,12,则判别系数a=(12)/20,判别函数:判别规则:误判概率:误判概率图示:,抽取样本估计有关未知参数,设 是来自组1的样本,是来自组2的样本,n1+n22p,则1和2的一个无偏估计分别为的一个联合无偏估计为其中,估计的判别函数为这里。其判别规则为若1和2都为正态组,则两个误判概率P(2|1)和P(1|2)可估计为其中。该误判概率的估计是有偏的,但大样本时偏差的影响是可以忽略的。,误判概率的非参数估计,若两组不能假定为正态组,则P(2|1)和 P(1|2)
5、可以用样本中样品的误判比例来估计,通常有如下三种非参数估计方法:(1)令n(2|1)为样本中来自1而误判为2的个数,n(1|2)为样本中来自2而误判为1的个数,则P(2|1)和P(1|2)可估计为该方法简单、直观,且易于计算。但遗憾的是,它给出的估计值通常偏低,除非n1和n2都非常大。,出现这种乐观估计的原因是,被用来构造判别函数的样本数据又被用于对这个函数进行评估,评估的结果自然就倾向有利于所构造的判别函数。事实上,在误判概率的估计中,构造判别函数中使用过的样本数据在对该函数作出评估时已不能很好地代表总体了。,(2)将整个样本一分为二,一部分作为训练样本,用于构造判别函数,另一部分用作验证样
6、本,用于对判别函数进行评估。误判概率用验证样本的被误判比例来估计,如此得到的估计是无偏的。该方法的两个主要缺陷:(i)需要用大样本;(ii)在构造判别函数时,只用了部分样本数据,损失了过多有价值的信息。与使用所有的样本数据构造判别函数相比,该方法将使真实的误判概率上升。该缺陷随样本容量的增大而逐渐减弱,当样本容量相当大时此缺陷基本可忽略。,(3)称为交叉验证法或刀切法。该方法既避免了样本数据在构造判别函数的同时又被用来对该判别函数进行评价,造成不合理的信息重复使用,又几乎避免了构造判别函数时样本信息的损失。从组1中取出x1j,用该组的其余n11个观测值和组2的n2个观测值构造判别函数,然后对x
7、1j进行判别,j=1,2,n1。同样,从组2中取出x2j,用这一组的其余n21个观测值和组1的n1个观测值构造判别函数,再对x2j作出判别,j=1,2,n2。令n*(2|1)为样本中来自1而误判为2的个数,n*(1|2)为样本中来自2而误判为1的个数,则两个误判概率P(2|1)和P(1|2)的估计量为它们都是接近无偏的估计量。,2.12时的判别,判别规则也可采用另一种形式:选择判别函数为 它是x的二次函数,相应的判别规则为,例5.2.2 在例中,设1和2这两个组的方差不相同,分别为,这时当1x2时,判别函数可简单地取为式中它是1与2的加权平均,常称为阈值点,如图所示。,判别规则为实际应用中,1
8、和2,1和2一般都是未知的,可由相应的样本值代替。,图5.2.2 方差不同时两组判别的阈值点,二、多组距离判别,设有k个组1,2,k,它们的均值分别是1,2,k,协方差矩阵分别是1(0),2(0),k(0),x到总体i的平方马氏距离为判别规则为若1=2=k=,则上述判别规则可作进一步简化。d2(x,i)=(xi)1(xi)=x1x2i1x+i1i=x1x2(Iix+ci)其中,判别规则简化为,这里Iix+ci为线性判别函数。当组数k=2时,可将上式写成此式等价于书中的()式。实践中1,2,k和1,2,k一般都是未知的,它们的值可由相应的样本估计值代替。设 是从组i中抽取的一个样本,则i可估计为
9、(i=1,2,k)。,1=2=k=的情形,的联合无偏估计为其中n=n1+n2+nk,为第i组的样本协方差矩阵。实际应用中使用的判别规则是其中。,1,2,k不全相等的情形,i可估计为Si(i=1,2,k)。实际应用中使用的判别规则是其中,1,2,k是否假定为相等,在实际应用中,1,2,k不太可能完全相等,我们需要关心的是,1,2,k之间是否存在着明显的差异。若没有明显的差异,则通常可以考虑假定1=2=k=,从而使用与此相应的判别规则。此时的判别函数为线性函数。如果对是否应该假定1=2=k=拿不准,则可以同时采用相等和不相等两种情形下的相应判别规则分别进行判别,然后用交叉验证法来比较它们的误判概率
10、,以决定采用何种判别规则进行判别。,例5.2.3,对破产的企业收集它们在破产前两年的年度财务数据,同时对财务良好的企业也收集同一时期的数据。数据涉及四个变量:x1=现金流量/总债务,x2=净收入/总资产,x3=流动资产/流动债务,以及x4=流动资产/净销售额。数据列于表,组为破产企业,组为非破产企业。,表5.2.1 破产状况数据,使用书中判别规则()进行判别,的联合估计为,于是对某个未判企业x=(0.16,0.10,1.45,0.51),计算得按判别规则(),该企业被判为破产企业。,表5.2.3 使用()式的判别情况,在表中,估计的误判概率为使用()式的交叉验证法,判别情况列于表。在表中,估计
11、的误判概率为,表5.2.4 使用()式的判别情况,如果使用判别规则()进行判别,则由()式估算出的误判概率为由()式估算出的误判概率为评注 例中,在过去两年至今后两年企业所处的经济大环境保持稳定的前提下,可将企业的当今值x=(x1,x2,x3,x4)代入例中样本所构造的判别函数来判别该企业两年后是否会破产。,5.3 贝叶斯判别,一、最大后验概率准则二、最小平均误判代价准则,距离判别不合适的一个例子,1(校研究生组):N1=2000,1=5002(校本科生组):N2=8000,2=400研究生组中x500的有1000人,本科生组中 x500的有2000人。某学生的x=500,试判别该生归属哪一组
12、。该例如采用距离判别法则显然不妥,应考虑利用如下的先验概率:,一、最大后验概率准则,设有k个组1,2,k,且组i的概率密度为fi(x),样品x来自组i的先验概率为pi,i=1,2,k,满足p1+p2+pk=1。则x属于i的后验概率为最大后验概率准则是采用如下的判别规则:,例5.3.1 设有1、2和3三个组,欲判别某样品x0属于何组,已知p1=0.05,p2=0.65,p3=0.30,f1(x0)=0.10,f2(x0)=0.63,f3(x0)=2.4。现计算x0属于各组的后验概率如下:所以应将x0判为组3。,皆为正态组的情形,设iNp(i,i),i0,i=1,2,k。这时,组i的概率密度为fi
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用多元分析 应用 多元 分析 第三 PPT 第五
链接地址:https://www.31ppt.com/p-6527318.html