第六章判别分析方案课件.ppt
《第六章判别分析方案课件.ppt》由会员分享,可在线阅读,更多相关《第六章判别分析方案课件.ppt(83页珍藏版)》请在三一办公上搜索。
1、第六章 判别分析discriminant analysis,判别分析的基本概念两总体判别分析多总体判别分析SPSS的判别分析过程,一、判别分析的基本概念,判别分析问题的描述:已知若干组分类数据现有一新样本,要求判定新样本数据属于已知分类中的哪一类判别分析的关键:判别函数:由描述各类的数值指标构成的分类规则,明确已知各类应如何区别例:肝炎病人的诊断两总体判别:肝炎病人和正常人判别依据:一些化验指标,形成判别公式-判别函数,Simple,Two-Group DA,x,判别规则,中国属于发展中国家还是发达国家?,Pattern Recognition Problem,判别分析与方差分析、聚类分析,聚
2、类分析与判别分析间的联系,先采用聚类分析获得各个个体的类别(classification);然后采用判别分析建立判别函数,对新个体进行类型识别(identification),聚类分析的数据格式,k,判别分析的数据格式,判别分析的方法与数学描述,数据描述对于m类总体G1,G2,Gm,其分布函数分别为f1(y),f2(y),fm(y),对于一个给定样品y,我们要判断出这个样本来自哪个总体。判别分析的主要问题就是如何寻找最佳的判别函数和建立判别规则。误判问题肝功指标高就一定是肝炎病人吗?,误判率Misclassification(1-D case),两总体单指标的判别分析,假设正态分布,等方差,判
3、别规则,转氨酶,肝炎患者,非患者,非典?,?,Best-In What Sense?,Minimizes probability of misclassificationMaximizes posterior probability of correct classificationMany othersFor example minimizes the cost of misclassification具体问题具体分析疾病的诊断市场分析,Lots of perspectives suggest this basic rule as best,影响误判率的因素,当分布中心过于接近,误判率很高,
4、三总体单指标,组均值差异,Three groups-Two features,二、两总体判别分析,基本思想:样品和哪个总体距离最近,就判断它属于那个总体。设:两个总体G1和G2,x是一个p维样本,x到总体G1和G2的马氏距离分别记为d2(x,G1)和d2(x,G2),判别规则:若d2(x,G1)d2(x,G2),认为x属于G2。或判别函数:W(x)=d2(x,G2)-d2(x,G1),所谓“等距离”:到两总体距离相等的点构成类分界线,1.马氏等距离法,两指标、正态分布且方差相等的两总体,类分界线,样本点到某一类的距离越近,属于该类的概率越大,线性判别函数,设G1N(1,1)和G2N(2,2)为
5、两正态总体,且协差阵相等,即1=2=,则样本x到G1、G2的马氏距离为,可以证明:,容易看出上述函数W(x)为x的线性函数,称为线性判别函数,判别准则:W(x)与0比较,令W(x)=0可以得到两类分界线,Linear Discrimination Rule,考察p=1的情况,设G1N(1,2)和G2N(2,2),判别函数为:,x=0.5,误判率P(2/1)=0.3085,误判率P(1/2)=?,12时,非线性判别函数,判别函数W(x)为x的二次函数,G1:N(80,0.25),G2:N(75,4),75,80,x0=78,已知G1是设备A生产的产品,G2是设备B生产的产品。A设备质量高,其产品
6、平均耐磨度1=80,方差12=0.25,B设备质量较差,其产品平均耐磨度2=75,方差22=4。现有一产品X0,其耐磨度x0=78,试判断该产品是哪台设备生产的。建立判别规则,误判率多大?,考察p=1的情况,直观上看,x0距1较近,但是考虑到相对分散度,,判别准则,x1,x2,误判率:4.5%,2.Fisher 判别法,判别思想:投影,使多维问题简化为一维问题来处理方法:寻找原变量x的一个线性组合,使得各组在此方向上投影的差异最大化,再选择合适的判别规则对样品进行分类判别。,Fishers approach,Find a linear combination of variables x th
7、at would produce“maximally different”discriminant scores across group,数学模型,设:线性组合的系数向量为a,考虑线性组合:z=xaz:x在a方向的投影通过寻找合适的a,使投影到此方向的组间变异大,组内变异比较小,即使组间变异/组内变异(离差平方和)取最大值。,两总体Fisher判别函数,设:两协差阵相等的总体G1:n1个样本,G2:n2,1,2和分别表示两总体均值和总均值线性组合的系数向量为a,考虑线性组合:z=xa投影后的组内变异:组内离差平方和为,投影后的组间变异:组间离差平方和为,以上证明,当a-1(2-1)时满足我们
8、的要求,即:判别投影方向在两类均值点的连线上。通常我们将a标准化。判别函数为:z=x-1(2-1),判别规则:zc时,xG2;zc时,xG1,,Linear Discriminators,critical value,投影方向,判别函数,判别得分,c2c1,xG1c3c1,xG2,练习题,两类总体相关统计资料如下:,一个新的样本为x=(0.0,0.5),问x属于(1)类还是(2)类。,解法1:马式等距离法解法2:Fisher法,解:求Fisher判别函数z=x-1(2-1),结论:x属于(1)类,例:books by mail,某书商从事邮购书业务。有50,000个顾客的统计数据,现公司计划推
9、销一本新的艺术类书“the art history of Florence”。希望有针对性地邮寄订购单,即只向有可能购买该书的顾客推销,以降低成本。为了了解顾客情况,公司从50,000个现有顾客中随机抽取1000人发订购单,其中83人购买了该书。要求利用此数据中分析潜在购买者的特征。对1000个顾客样本进行判别分析,选取“最近一次购买至今的月数”和“购买艺术类书的本数”为判别变量。分类变量“buystatu”:0未购买者,1购买者,求判别函数系数a-1(2-1),判别函数为z=-0.056month+1.577artnum,z2=-0.0569.41+1.5771=1.05,z1=-0.056
10、12.73+1.5770.33=-0.19,c=(1.05-0.19)/2=0.43判别规则:z0.43buyer,SPSS输出结果,判别规则:zc=(1.018-0.0922)/2=0.4629buyer,判别函数:,判别变量和标准化判别函数的相关系数,购买艺术书越多的顾客越可能购买,越近期的顾客越可能购买,判别得分的分布,Non-buyers,buyers,z=0,z=0,回判结果,误判率25%,发出263封订购信,约18.3%会订购,协方差阵相等的检验-Boxs test,H0:1=2=m协方差不等时的判别:非线性判别函数如果仍用线性判别,误判率增大,组内协方差相等时,Books by
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第六 判别分析 方案 课件
链接地址:https://www.31ppt.com/p-3947373.html