第五章 判别分析ppt课件.ppt
《第五章 判别分析ppt课件.ppt》由会员分享,可在线阅读,更多相关《第五章 判别分析ppt课件.ppt(165页珍藏版)》请在三一办公上搜索。
1、,第五章,把对象归类,判别分析,(Discriminant Analysis),2008.8,安徽财经大学统计与应用数学学院,2008.8,安徽财经大学统计与应用数学学院,第章 判别分析,要点,5.1 判别分析的基本思想,5.2 距离判别,5.3 贝叶斯判别,推荐阅读,5.4 费雪尔判别,5.5 建立判别函数的方法,5.6 SPSS判别分析过程,返回,第5章 判别分析,学习目的和要求: 通过本章的学习,使学生了解判别分析概念及其适用范围,掌握四种判别分析的方法及其应用。应用SPSS进行计算处理。,2008.8,安徽财经大学统计与应用数学学院,5.1.1 引 例,5.1.2 判别分析的基本思想,
2、5.1.3 判别分析的类型,5.1 判别分析的基本思想,返回,5.1.4 与聚类的区别和联系,2008.8,安徽财经大学统计与应用数学学院,1、引 例 1,2、引 例 2,返回,5.1.1 引 例,5.1.2 判别分析的基本思想,5.1.3 判别分析的类型,5.1 判别分析的基本思想,5.1.4 与聚类的区别和联系,2008.8,安徽财经大学统计与应用数学学院,1、引 例 1,5.1.1 引 例,某医院已有1000个分别患有胃炎、肝炎、冠心病、糖尿病等的病人的资料,记录了他们每个人若干项症状指标数据,就可以从这些指标数据发现各类病人的区别。把这种区别表示为一个判别公式,在测得一个新病人若干项症
3、状指标的数据时,就可以根据其指标数据用判别公式诊断,判定他患的是哪种病。,2008.8,安徽财经大学统计与应用数学学院,2、引 例 2,5.1.1 引 例,有一些昆虫的性别很难看出,只有通过解剖才能够判别; 但是雄性和雌性昆虫在若干体表度量上有些综合的差异。于是统计学家就根据已知雌雄的昆虫体表度量(这些用作度量的变量亦称为预测变量)得到一个标准,并且利用这个标准来判别其他未知性别的昆虫。,2008.8,安徽财经大学统计与应用数学学院,2、引 例 2,5.1.1 引 例,这样的判别虽然不能保证百分之百准确,但至少大部分判别都是对的,而且用不着杀死昆虫来进行判别了。,2008.8,安徽财经大学统计
4、与应用数学学院,5.1.1 引 例,在生产、科研和日常生活中经常遇到需要判别的问题: 在经济学中,根据人均国民收入、人均消费水平、人均住房面积等多种指标来判定一个国家的经济发展程度所属类型。在考古学中,根据发掘出来的人类头盖骨的高、宽等特征来判断其性别是男性还是女性。在税务稽查中,要判断某纳税户是诚实户还是偷税户。 ,2008.8,安徽财经大学统计与应用数学学院,这些问题有一个共同的特点,就是事先已有“类”的划分,或事先已对某种已知样本分好了“类”。 判别分析要解决的问题就是在已知历史上用某些方法已把研究对象分成若干类的情况下,来判定新的观测样品属于已知类别中的哪一类。,5.1.1 引 例,2
5、008.8,安徽财经大学统计与应用数学学院,1、判别分析基本思想,2、判别分析基本思路,返回,5.1.1 引 例,5.1.2 判别分析的基本思想,5.1.3 判别分析的类型,5.1 判别分析的基本思想,5.1.4 与聚类的区别和联系,3、数据格式,2008.8,安徽财经大学统计与应用数学学院,1、判别分析基本思想,5.1.2 判别分析的基本思想,判别分析就是在已知研究对象分为若干类型(组别)并已经取得各种类型的一批已知样品的观测数据基础上,根据某些准则,建立起尽可能把属于不同类型的数据区分开来的判别函数,然后用它们来判别未知类型的样品应该属于哪一类。,2008.8,安徽财经大学统计与应用数学学
6、院,用统计的语言来表达,判别问题可以表述为:对于K个(类)总体G1,G2,GK (所有类的样品都测量了相同的p个指标,可表示为一个p维向量),其分布函数分别为F1(X),F2(X), FK(X)(均为p元分布函数),希望建立一个准则,对于一个给定样品X,依据这个准则就能判断出这个样品来自哪个总体。,1、判别分析基本思想,5.1.2 判别分析的基本思想,判别分析的主要问题就是如何寻找最佳的判别函数和建立判别规则。当然,我们应该要求判别准则在某种意义下是最优,例如错判的概率最小或错判的损失最小等。,2008.8,安徽财经大学统计与应用数学学院,设有G1、G2、GK个总体; 从不同的总体中抽出不同的
7、样本; 根据样本 建立判别法则 判别新的样品属于哪一个总体; 当然,根据不同的方法,建立的判别法则也是不同的,常用的判别方法有:距离判别、Fisher判别、Bayes判别。,2、判别分析基本思路,5.1.2 判别分析的基本思想,2008.8,安徽财经大学统计与应用数学学院,3、判别分析的数据格式,5.1.2 判别分析的基本思想,2008.8,安徽财经大学统计与应用数学学院,1、按判别的组数,2、按判别函数的形式,返回,5.1.1 引 例,5.1.2 判别分析的基本思想,5.1.3 判别分析的类型,5.1 判别分析的基本思想,5.1.4 与聚类的区别和联系,3、按处理变量的方法,4、按判别准则,
8、2008.8,安徽财经大学统计与应用数学学院,5.1.3 判别分析的类型,根据资料的性质,分为定性资料的判别分析和定量资料的判别分析。,本章的大部分内容是讨论定量资料的判别分析。,2008.8,安徽财经大学统计与应用数学学院,1、按判别的组数分,5.1.3 判别分析的类型,按判别的组数分,有两组判别分析和多组判别分析。,本章的大部分内容是讨论两组判别分析。,2008.8,安徽财经大学统计与应用数学学院,2、按判别函数的形式分,5.1.3 判别分析的类型,按判别函数的形式(区分不同总体所用的数学模型)分,有线性判别和非线性判别。,本章的大部分内容是讨论线性判别函数及其应用。,2008.8,安徽财
9、经大学统计与应用数学学院,3、按判别时处理变量的方法不同,5.1.3 判别分析的类型,根据判别时处理变量的方法不同,有逐步判别和序贯判别。,本章的大部分内容是讨论序贯判别。,2008.8,安徽财经大学统计与应用数学学院,4、按判别准则不同,5.1.3 判别分析的类型,按判别准则(判别的依据或标准)的不同有距离判别、费歇尔(Fisher)判别和贝叶斯(Bayes)判别。,距离判别原理简单,直观易懂。,2008.8,安徽财经大学统计与应用数学学院,1、与聚类分析的区别,2、与聚类分析的联系,返回,5.1.1 引 例,5.1.2 判别分析的基本思想,5.1.3 判别分析的类型,5.1 判别分析的基本
10、思想,5.1.4 与聚类的区别和联系,2008.8,安徽财经大学统计与应用数学学院,1、与聚类分析的区别,判别分析必须事先知道需要判别的类型和数目,并且要有一批来自已知类型的样品(训练样本),才能建立判别式(判别函数),然后对新样品进行判别归类(带有“预测”的意义)。对类的事先划分常常通过聚类分析得到;,5.1.4 判别分析与聚类分析的区别和联系,2008.8,安徽财经大学统计与应用数学学院,1、与聚类分析的区别,对于聚类分析来说,一批给定样品划分的类型和数目事先都不知道,完全根据一批样品的数据特征用某种方法对样品进行合理的分类,使的同一类的事物比较接近,把不相似的事物分在不同类中(只是描述性
11、的统计)。,5.1.4 判别分析与聚类分析的区别和联系,2008.8,安徽财经大学统计与应用数学学院,5.1.4 判别分析与聚类分析的区别和联系,2、与聚类分析的联系,聚类分析和判别分析有相似之处,即两者都是研究分类问题;在实际中两者往往结合起来使用,样品聚类是进行判别分析之前的必要工作,根据样品聚类的结果进行判别分析。,2008.8,安徽财经大学统计与应用数学学院,聚类与判别,聚类(clustering)分成几类?每个样品属于哪一类?判别(discriminate)已知分成几类(有师分类)根据训练样品建立判别函数根据判别函数对待判样品进行归类,2008.8,安徽财经大学统计与应用数学学院,5
12、.2 距离判别,返回,5.2.1 距离判别的基本思想,5.2.2 两总体判别,5.2.3 多总体判别,2008.8,安徽财经大学统计与应用数学学院,1、距离判别基本思想,返回,5.2.1 距离判别的基本思想,5.2.2 两总体距离判别,5.2.3 多总体距离判别,5.2 距离判别,2008.8,安徽财经大学统计与应用数学学院,1、距离判别基本思想,5.2.1 距离判别的基本思想,距离判别的基本思想按就近原则归类: 首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第i 类的重心距离最近,就认为它来自第 i 类。,2008.8,安徽财经大学统计与应用
13、数学学院,用统计语言表述:已知总体G1,G2,GK,从每个总体中分别抽取n1, n2, ,nk个样品,每个样品皆测量 P个指标,对新样品X=(X1,X2,XP),计算 X 到 G1,G2,GK的距离,记D(X, G1), D(X,G2) ,D(X, GK),按距离最近准则判别归类:,即根据资料建立关于各总体的距离判别函数式,将各样品数据逐一代入计算,得出各样品与各总体之间的距离值,判样品属于距离值最小的那个总体。,2008.8,安徽财经大学统计与应用数学学院,所以,我们首先考虑的是是否能够构造一个恰当的距离函数,通过样品与某类别之间距离的大小,判别其所属类别。,距离判别也称为直观判别法,因其方
14、法直观、简单。该方法适用于连续型变量的判别分类;对变量的概率分布不要求有什么限制。,1、距离判别基本思想,5.2.1 距离判别的基本思想,2008.8,安徽财经大学统计与应用数学学院,1、两总体距离判别,返回,5.2.1 距离判别的基本思想,5.2.2 两总体距离判别,5.2.3 多总体距离判别,5.2 距离判别,2、应用实例,2008.8,安徽财经大学统计与应用数学学院,1、两总体距离判别,5.2.2 两总体距离判别,设有两个总体G1和G2,X是一个P维样本,定义样本X到总体G1和G2的距离d2(X,G1)和d2(X,G2),当总体G1和G2为正态总体且协差阵相等时,距离选用马氏距离,即,其
15、中:1,2,1,2分别为总体G1和G2的均值和协差阵。,2008.8,安徽财经大学统计与应用数学学院,1、两总体距离判别,5.2.2 两总体距离判别,用如下的规则进行判别:若样本X到总体G1的距离小于到总体G2的距离,则认为样本X属于总体G1,反之则认为样本X属于总体G2;若样本X到总体G1和G2的距离相等,则让它待判。这个准则的数学模型为:,2008.8,安徽财经大学统计与应用数学学院,1、两总体距离判别,5.2.2 两总体距离判别,(5.1),2008.8,安徽财经大学统计与应用数学学院,1、两总体距离判别,5.2.2 两总体距离判别,与上述准则等价的想法,就是算出样品x 到总体G2和G1
16、的距离差,若差值为正,则样品X属于G1,否则,X 属于G2,据此考查二者的差,假设,则可证明:,2008.8,安徽财经大学统计与应用数学学院,1、两总体距离判别,5.2.2 两总体距离判别,2008.8,安徽财经大学统计与应用数学学院,已知时,令,W(X)=,W(x)=,令,当,(是一个已知的p维向量),2008.8,安徽财经大学统计与应用数学学院,于是判别规则(5.1)可表示为:,如W(X)0,如W(X)0,待判,如W(X)=0,称W(X)为判别函数。由于它是线性函数,又称为线性判别函数, 称为判别系数 ( 类似回归系数)。用线性判别函数进行判别分析非常直观,使用起来最方便,在实际中的应用也
17、最广泛。,1、两总体距离判别,5.2.2 两总体距离判别,2008.8,安徽财经大学统计与应用数学学院,未知时,可用样本来估计。设,是从G1中取出的样本,,是从G2中取出的样本,,则,的估计为:,当,1、两总体距离判别,5.2.2 两总体距离判别,2008.8,安徽财经大学统计与应用数学学院,2008.8,安徽财经大学统计与应用数学学院,它是 x 的二次函数,相应的判别规则为:,2008.8,安徽财经大学统计与应用数学学院,需要指出的是,按最小距离规则判别是会产生误判的。为了说明问题,不妨设G1和G2为正态分布,分别为N(1,2)和N(2, 2)(12),那么由图 5-1可以看出:当Y事实上属
18、于G1,它的观察值(测量值)在=(1+2)/2的右边,这时如果按上面讨论的规则就应把Y判断为属于G2,因为Y距G2的均值比距G1的均值要近。这就造成了错判。,1、两总体距离判别,5.2.2 两总体距离判别,2008.8,安徽财经大学统计与应用数学学院,图 5-1,1、两总体距离判别,5.2.2 两总体距离判别,2008.8,安徽财经大学统计与应用数学学院,由图可以看出,当两总体G1与G2十分接近时,则无论用什么方法,误判概率都很大,这时的判别是没有意义的。即如果两个总体(类别)间的差异本来就不显著,那么就根本没有必要去作判别,即有效的判别必须以显著的差异为前提。因此,在考虑建立判别函数之前,应
19、首先检验总体间是否存在显著的差异(在判别之前应对两总体的均值是否有显著差异进行检验)。,H0:,H1:,2008.8,安徽财经大学统计与应用数学学院,另外,以上讨论的判别函数及规则并没有涉及到总体的具体分布类型,只要逆矩阵存在就可以。当两总体的协方差矩阵不同时,就不能用前文的W(X)进行判别,这时可直接计算马氏距离进行判别。,1、两总体距离判别,5.2.2 两总体距离判别,2008.8,安徽财经大学统计与应用数学学院,2、应用实例,5.2.2 两总体距离判别,例5.2:例4.4.3中我们曾研究过全国城镇居民月平均消费情况,当划分为两类时,结果列于spssex-5:表5-1。120号省区为一类,
20、记为G1,2127号省、市、区为另一类,记为G2。试判别西藏、上海、广东三个省、市、区应归属哪一类(表后三行是待判的三省区数据)?,2008.8,安徽财经大学统计与应用数学学院,类G1为低消费的总体,类G2为高消费的总体。经计算,各类样品的指标均值为:,2、应用实例,5.2.2 两总体距离判别,2008.8,安徽财经大学统计与应用数学学院,总体协差阵的逆矩阵为:,0.539 0.044 -0.106 0.003 0.088 0.064 0.179 -0.053 0.044 0.032 -0.040 -0.025 0.106 -0.052 -0.042 -0.123-0.106 -0.040 0
21、.385 -0.006 -0.143 0.061 0.067 0.059 0.003 -0.025 -0.006 0.620 -0.495 0.122 0.627 -0.0830.088 0.106 -0.143 -0.495 0.713 -0.331 -0.583 -0.0120.064 -0.052 -0.061 0.122 -0.331 0.503 0.433 -0.0760.179 -0.042 0.067 0.627 -0.583 0.433 4.780 -0.015-0.053 -0.123 0.059 -0.083 -0.012 -0.076 -0.015 0.652,2008.
22、8,安徽财经大学统计与应用数学学院,将原27个样品的回判结果及3个待判样品的判别结果列于表Spssex-5:5-2和表5-3,回判误判率为零,西藏、上海、广东,三个省区应归属于高消费的总体G2。,2008.8,安徽财经大学统计与应用数学学院,1、多总体距离判别,返回,5.2.1 距离判别的基本思想,5.2.2 两总体距离判别,5.2.3 多总体距离判别,5.2 距离判别,2008.8,安徽财经大学统计与应用数学学院,类似于两总体情况,计算样品 X 到每个总体的距离d2(X,Gi)(i=1,2,-k,),然后比较这些距离,如 X 距离总体Gi的距离最短,则判X属于总体Gi。,1、多总体距离判别,
23、5.2.3 多总体距离判别,2008.8,安徽财经大学统计与应用数学学院,设有个总体 G1,,Gk, 它们的均值分别是 , 协方差矩阵均是 ,则,(1)协方差矩阵相同,1、多总体距离判别,5.2.3 多总体距离判别,2008.8,安徽财经大学统计与应用数学学院,判别函数为:,1、多总体距离判别,5.2.3 多总体距离判别,2008.8,安徽财经大学统计与应用数学学院,相应的判别准则为:,当,若有某一个,对一切,待判,,当,未知时可用其估计量代替。,1、多总体距离判别,5.2.3 多总体距离判别,2008.8,安徽财经大学统计与应用数学学院,1、多总体距离判别,5.2.3 多总体距离判别,此时判
24、别函数为:,(2)协方差矩阵不相同,2008.8,安徽财经大学统计与应用数学学院,相应的判别准则为,当,未知时,可用,的估计量代替。,1、多总体距离判别,5.2.3 多总体距离判别,2008.8,安徽财经大学统计与应用数学学院,5.3 贝叶斯判别,返回,5.3.1 Bayes判别的概念,5.3.2 Bayes判别的基本思想,2008.8,安徽财经大学统计与应用数学学院,1、距离判别的不足之处,返回,5.3.1 Bayes判别的概念,5.3.2 Bayes判别的统计思想,5.3 贝叶斯判别,2、Bayes判别的概念,2008.8,安徽财经大学统计与应用数学学院,1、距离判别的不足之处,5.3.1
25、 Bayes判别的概念,距离判别只要求知道总体的特征量(参数)均值和协差阵,不涉及总体的分布类型,当参数未知时,就用样本均值和样本协差阵来估计。距离判别方法简单、结论明确,是很实用的方法。,但距离判别方法也有缺点,一是判别法与各总体出现的机会大小(先验概率)完全无关;二是判别方法没有考虑错判造成的损失,这是不合理的。 Bayes判别法正是为解决这两方面问题而提出的判别方法。,2008.8,安徽财经大学统计与应用数学学院,1、距离判别的不足之处,5.3.1 Bayes判别的概念,设有两个总体G1和G2,根据某一判别规则,将实际上为G1的概率判为G2或者将实际上为G2的个体判为G1的概率就是误判概
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第五章 判别分析ppt课件 第五 判别分析 ppt 课件
链接地址:https://www.31ppt.com/p-1892259.html