判别分析-贝叶斯判别.ppt
第五章判别分析,判别分析是多元统计中用于判别样品所属类型的一种统计分析方法。是一种在一些已知研究对象用某种方法已经分成若干类的情况下,确定新的样品的观测数据属于那一类的统计分析方法。,判别准则:用于衡量新样品与各已知组别接近程度的思路原则。,判别函数:基于一定的判别准则计算出的用于衡量新样品与各已知组别接近程度的描述指标。,按照判别准则来分有 距离判别、费希尔判别与贝叶斯判别。,距离判别法,判别准则:对于任给一次观测值,若它与第 类的重心距离最近,就认为它来自于第 类。,马氏距离,1、协方差相等,两总体的距离判别,先考虑两个总体的情况,设有两个协差阵相同的p维正态总体 和,对给定的样本Y,判别一个样本Y到底是来自哪一个总体,一个最直观的想法是计算Y到两个总体的距离。我们用马氏距离来指定判别规则,有:,因此有,判别函数:,2、当总体的协方差已知,但不相等,3、当总体的协方差未知时,用样本的离差阵代替,步骤如下:(1)分别计算各组的离差矩阵 和;(2)计算(3)计算类的均值(4)计算(5)计算(6)生成判别函数,将检验样本代入,判类。,多总体的距离判别法,则,设有 个 元总体,分别有均值向量 和协方差阵,对任给的 元样品,判断它来自哪个总体,计算 到 个总体的马氏距离,比较后,把 判归给距离最小的那个总体,若,错判概率,由上面的分析可以看出,马氏距离判别法是合理的,但是这并不意谓着不会发生误判。,设两总体,分别服从 其线性判别函数为:,不妨设,则当 时,,当两总体靠得比较近时,即两总体的均值差异较小时,无论用何种判别方法,判错的概率都比较大,这时的判别分析也是没有意义的,因此只有当两总体的均值有明显差异时,进行判别分析才有意义,为此,要对两总体的均值差异性进行检验.,练习:P211:5-1,办公室新来了一个雇员小王,小王是好人还是坏人大家都在猜测。按人们主观意识,一个人是好人或坏人的概率均为0.5。坏人总是要做坏事,好人总是做好事,偶尔也会做一件坏事,一般好人做好事的概率为0.9,坏人做好事的概率为0.2,一天,小王做了一件好事,小王是好人的概率有多大,你现在把小王判为何种人。,贝叶斯判别法,一、标准的Bayes判别,一个好的判别方法,既要考虑到各个总体出现的先验概率,又要考虑到错判造成的损失,贝叶斯(Bayes)判别就具有这些优点,其判别效果更加理想,应用也更广泛。,贝叶斯公式是一个我们熟知的公式,距离判别简单直观,很实用,但是距离判别的方法把总体等同看待,没有考虑到总体会以不同的概率(先验概率)出现,也没有考虑误判之后所造成的损失的差异。,则 判给,在正态的假定下,为正态分布的密度函数。,设有总体,具有概率密度函 数。并且根据以往的统计分析,知道 出现的概率为。即当样本 发生时,求 属于某类的概率。由贝叶斯公式计算后验概率,有:,判别规则,则 判给。,上式两边取对数,下面讨论总体服从正态分布的情形,问题转化为若,则判。,当协方差阵相等时,去掉与i无关的项,等价的判别函数为:,判别函数退化为,令,问题转化为若,则判。,令,完全成为距离判别法。,令,有,问题转化为若,则判。,当先验概率相等,即 时,二、考虑错判损失的Bayes判别分析,设有总体,具有概率密度函 数。并且根据以往的统计分析,知道 出现的概率为,。,D1,D2,Dk是R(p)的一个分划,判别法则为:,关键的问题是寻找D1,D2,Dk分划,这个分划应该使平均错判率最小。,当样品X落入Di时,判,【定义】(平均错判损失),C(j/i)表示相应错判所造成的损失。,则平均错判损失为:,使ECM最小的分划,是Bayes判别分析的解。,用 表示将来自总体Gi的样品错判到总体Gj的条件概率。,【定理】,且相应的密度函数为,损失为 时,划分的贝叶斯解为,若总体G1,G2,Gk的先验概率为,其中,含义是:当抽取了一个未知总体的样品值x,要判别它属于哪个总体,只要先计算出k个按先验概率加权的误判平均损失 然后比较其大小,选取其中最小的,则判定样品属于该总体。,下面在k=2的情形下,计算作为例子,我们讨论。,由此可见,被积函数在D1是负数时,可使ECM最小,则有分划,Bayes判别准则为:,令,特别地,若,则 判给。与标准Bayes判别等价,当错判概率,广义平方距离法,其中,定义样品X到总体Gi的广义平方距离为:,判别准则:,练习:设三个总体 的分布分别为 按广义平方距离准则判断样品 应判归哪一类.,