贝叶斯决策理论ppt课件.ppt
第2章 贝叶斯(Bayes)决策理论,2.1 引言(已知条件、欲求解的问题)2.2 几种常用的决策规则2.3 正态分布时的统计决策2.4 离散情况的贝叶斯决策 2.5 分类器的错误率问题,2.1 引言,模式识别的分类问题:根据待识别对象的特征观察值,将其分到某一个类别中,Bayes决策理论的基本已知条件,已知决策分类的类别数为c,各类别的状态为:,已知各类别总体的概率分布(各个类别出现的先验概率和类条件概率密度函数),Bayes决策理论欲解决的问题,如果在特征空间中观察到某一个(随机)向量 x = ( x1 , x2 , xd )T那么,应该将x分到哪一个类才是最合理的?,2.2 几种常用的决策规则,2.2.1 基于最小错误率的Bayes决策2.2.2 基于最小风险的Bayes决策2.2.3 Neyman-Pearson决策2.2.4 最小最大决策2.2.5 序贯分类方法,2.2.1 基于最小错误率的Bayes决策,利用概率论中的Bayes公式进行分类,可以得到错误率最小的分类规则,已知条件,类别状态的先验概率类条件概率密度,根据Bayes公式得到状态的后验概率,基本决策规则,if,then,将 x 归属后验概率最大的类别,后验 = 似然 x 先验 / 证据因子,两类情况下的Bayes 决策规则及其变型,Bayes决策规则,变型1(消去相同的分母),变型2,变型3(取似然比的自然对数的负值),似然比,似然比阈值,两类的后验概率相等时,采取的策略:归属其中一类拒绝(设置一个拒绝类,供进一步分析),例:某地区细胞识别中,正常和异常细胞的先验概率: P(1)=0.9, P(2)=0.1 有未知细胞 x,对应的类条件概率密度:,P(x| 1)=0.2, P(x| 2)=0.4,判别该细胞属于正常细胞还是异常细胞?解:先计算后验概率:,属于正常细胞,注意:先验概率起主导作用如果先验概率相等,则属于异常细胞,正确分类与错误分类,正确分类:将样本归属到样本本身所属的类别错误分类:将样本归属到非样本本身所属的类别,以一维、两类情况为例,证明Bayes规则使分类错误率最小,(平均)错误率定义为,条件错误概率,Bayes决策规则:,此时,x (2) 的条件错误概率,此时,x (1)的条件错误概率,条件错误概率,Bayes公式,全概率公式,平均错误率,t 是两类的分界点,x轴分成两个区间,只有当 t 取两类后验概率相等的点时,错误率才是最小的(黄颜色区域变成零),红黄,绿,2.2.2 基于最小风险的Bayes决策,在医学诊断上,有误诊(无病说有病)、漏诊。在雷达防空中,有虚警、漏警(有飞机说成无飞机)。这些错误判断会造成不同的后果和损失。基于最小风险的Bayes决策是:在考虑各种错误可能造成不同的损失的情况下的Bayes决策规则,基本概念,决策(行动):所采取的决定决策(行动)空间:所有可能决策所构成的一个集合损失:每一个决策将付出的代价,通常为决策和自然状态(类)的函数,c 个自然状态(类),a个决策,损失,一般决策表,说明:,状态空间由 c 个自然状态(c 个类)组成:,决策空间由 a 个决策组成:,a=c 或者 a=c1 (拒绝类),损失函数有ac 个值:,含义:当真实状态为 j 而所采取的决策为 i 时所造成的损失大小,已知,后验概率,最小错误率Bayes决策取后验概率的最大者,对于给定的模式向量 x,在决策表中,每一个决策 i 对应存在 c 个损失。对于 x,定义在采取决策 i 时的条件期望损失(条件风险)为:,x 是随机向量的观察值,对于其不同观察值,采取不同的决策 i 时,对应不同的条件风险。所以,不同的x ,将会采用不同的决策决策可以看成随机向量 x 的函数,记为 (x)(随机变量),可以定义期望风险为,注:积分在整个特征空间上进行,差别:条件风险 R(i |x) 只反映出,对某一个 x 取值,采取决策行动 i 所带来的风险期望风险 R 则反映,在整个特征空间中不同的 x 取值,采取相应的决策 (x) 所带来的平均风险,目标:所采取的一系列决策行动应该使期望风险达到最小手段:如果在采取每一个决策时,都使其条件风险最小,则对所有的 x 作决策时,其期望风险也必然达到最小决策:最小风险Bayes决策,最小风险Bayes决策规则:,其中,采取决策,最小风险Bayes决策的步骤,在已知类先验概率和类概率密度函数的情况下,计算待识 x 的后验概率(Bayes公式),根据决策表,计算每一个决策的条件风险,找出条件风险最小值所对应的决策,对x采取该决策(归属到该类),例:区分正常与异常细胞,正常细胞,异常细胞,后验概率,条件风险,决策:归属到异常细胞原因:损失起主导作用,正常,异常,归正常,归异常,两种决策规则之间的关系,定义0-1损失函数,意义:正确决策没有损失,错误决策损失都为 1,附件条件:c 个类别对应 c 个决策(无拒绝类),对 x 采取决策(归属) i时的条件错误概率,结论:在 0-1 损失函数的条件下,使风险最小的Bayes决策等价于使错误率最小的Bayes决策,后者是前者的特例,最小,最小,最大,2.2.3 Neyman-Pearson(聂曼-皮尔逊)决策,在限定一类错误率条件下,使另一类错误率为最小的两类别决策,2.2.4 最小最大决策,考虑先验概率变化的情况下,如何使最大可能的风险为最小,即在最差的条件下争取最好的结果,2.2.5 序贯分类方法,原因:获取特征需要付出一定的代价(成本),我们要衡量,增加特征所付出的代价,减少错误率所得到的好处,序贯分类方法:先用一部分特征来分类,逐步加入特征以减少分类损失每步都要衡量加入新特征所花代价与所降低分类损失的大小,以便决定是否继续增加新特征,2.2.6 分类器设计,要点:判别函数决策面(分类面)分类器设计,决策面(分类面),对于 c 类分类问题,按照决策规则可以把 d 维特征空间分成 c 个决策域,我们将划分决策域的边界面称为决策面(分类面),判别函数,用于表达决策规则的某些函数,则称为判别函数判别函数可以取为决策规则的单调增函数,最简单的形式就是决策规则本身,决策面与判别函数的关系,判别函数决定决策面方程,分两类和多类情况来讨论判别函数、决策面方程、分类器设计,2.2.6.1 多类情况,设 c 类问题和 d 维模式(随机)向量为,最小错误率Bayes决策规则:,判别函数,定义一组( c 个)判别函数 gi(x) ,i=1,c来表示 c 类决策规则,可以取,决策规则,如果使,对all,成立,,则将 x 归于 i 类,决策面方程,各决策域被决策面所分割,决策面应该是特征空间中的超曲面。相邻的两个决策域在决策面上,其判别函数值是相等的,如果 Ri 和 Rj 是两个相邻的决策域,则它们之间的决策面方程:,分类器设计,分类器:可看成是由硬件或软件组成的一个“机器”(程序)功能:先计算出 c 个判别函数值,再从中选出对应于判别函数为最大值的类作为决策结果,2.2.6.2 两类情况,设两类问题和 d 维模式(随机)向量为,最小错误率 Bayes 决策规则:,判别函数,只需定义一个判别函数:,具体形式有:,决策规则,if,then,then,if,决策面方程,特征空间:一维,决策面:分界点 二维 曲线 三维 曲面 高维 超曲面,分类器设计,两类分类器的功能:计算判别函数,再根据计算结果的符号将 x 分类,g(x),判别计算,阈值单元,决策,2.3 正态分布时的统计决策,重点分析正态分布情况下统计决策的原因是:正态分布在物理上是合理的、广泛的正态分布 数学表达上简捷,如一维情况下只有均值和方差两个参数,因而易于分析,2.3.1 正态分布概率密度函数的定义与性质,单变量正态分布多变量正态分布,1 单变量正态分布,连续型概率密度函数应满足条件,单变量正态分布概率密度函数,其中,均值或数学期望,方差,2 多元正态分布,(1)定义,d 维向量d 维均值向量dd 协方差矩阵逆矩阵行列式,注:协方差矩阵是非负定的。一般情况情况下,我们假设是正定的,即|0,即存在逆矩阵,主对角线 ij2 为方差其他分量 ij2 ( i j ) 为协方差,对称矩阵, 参数 与 对分布的决定作用多元正态分布完全由均值向量 与协方差矩阵 决定 有 d 个分量, 由有 d(d+1)/2 元素 ,多元正态分布总共有 d + d (d+1) / 2个参数常记为: p(x)=N(, ),(2)性质, 等密度点的轨迹是一个超椭球面从正态分布总体中抽取的样本大部分落在由 和 所确定的一个区域中。区域的中心由均值向量 决定,区域的大小由协方差矩阵 决定等密度点满足下列方程,其解是一个超椭球面,constant,x 到 的Mahalanobis距离的平方等密度点轨迹是: x 到 的Mahalanobis距离为常数的超椭球面,不相关性等价于独立性如果 xi 与 xj 为两个随机变量(向量)独立:满足 p(xi , xj) = p(xi) p(xj)不相关:满足 E xi xj = E xi E xj ,相互独立,不相关,成立,成立?,多元正态分布的任意两个分量成立!,说明:正态分布中不相关意味着协方差矩阵是对角矩阵,并且有,边缘分布(对变量进行积分)和条件分布(固定变量)的正态性线性变换的正态性 y=AxA为线性变换的非奇异矩阵。若 x 为正态分布,则 y 也是正态分布线性组合的正态性,正态分布与熵之间的关系,熵的定义,单位为奈特,若换为 ,单位为比特。熵是一个非负的量用来描述一种分布中随机选取的样本点的不确定性。可以证明正态分布在所有具有给定均值和方差的分布中具有最大熵。,2.3.2 多元正态概率型下的最小错误率Bayes判别函数与决策面,多类情况下的判别函数,多元正态分布的类概率密度函数,i 类与 j 类的决策面方程,判别函数,常数,针对不同的协方差矩阵进行讨论,1 第一种情况,条件:每类的协方差矩阵都相等,类内各特征间相互独立,具有相等的方差分两种情形(1) 各类的先验概率不等(2) 各类的先验概率相等,判别函数,当前的协方差矩阵为,对于每一个判别函数都是相同的,(1) 先验概率不相等,消去相同的部分,代入协方差矩阵,得,其中,向量 x 到类 i 的均值向量 i 的欧氏距离的平方,(2) 各类先验概率相等,消去相同的部分,得,判别函数,Bayes决策规则:,决策规则简化为,解释:对于观察向量 x,只需要计算 x 到各类均值向量的欧氏距离的平方,再将 x 归于距离最小的类别中去,这样的分类器称之为最小距离分类器,(3) 直观的几何解释,判别函数,展开后得,对于每一个类都相同,消去相同部分,得,令,判别函数为:,判别函数是模式向量 x 的线性函数,这样的分类器称之为线性分类器,决策面方程( i 与 j 类),现在为,判别函数,1,令,决策面方程,超平面,乘于 2,提取,得,决策面方程:超平面,以二维为例,直观地解释它们的几何意义,当各类的先验概率相等时,有,i 类与 j 类之间的决策超平面通过它们均值向量 i 与 j 连线的中点并与之正交,四类,当各类先验概率不相等时,有,决策面,当P(i) P(j)N在M右侧,解释: w 是点 j 到点 i 的向量,x-x0是从点 x0 到点 x (位于决策面上)的向量。两者之间的点积为零,其意义是两者相互垂直,并通过x0当先验概率不相等时, x0位置不在i到 j 连线的中点上,靠近先验概率小的一边,远离先验概率大的一边;决策面通过x0,并与向量 i - j 正交,2 第二种情况:i (各类协方差相等),判别函数,简化后得,如果各类先验概率相等,常数,定义新的判别函数(Mahalanobis距离的平方),决策规则:对于观察向量 x,计算 x 到每一类均值向量 i 的马氏距离的平方 2,最后归于 2 最小的类别,考察判别函数的几何意义,展开后,得,每一类判断函数都相同的部分,消去与类别判断无关的项,得,其中,线性判别函数,决策面为一个超平面,根据,其中,类似可得,解释:向量 w 一般不再在 i - j 方向上,有一个坐标旋转。向量 (x - x0) 通过 x0 点。 w与(x - x0) 点积为零,表示两者正交。决策面仍过x0点,与w正交,但不再与i - j 正交,当各类先验概率相等,则 x0 点是两个均值向量连线的中点如果各类先验概率不相等,则x0 点偏向先验概率小的一边,3 第三种情况:各类协方差矩阵不等,判别函数,消去与类别无关的项并展开后,得,其中,判别函数是二次型,决策面方程为:,决策面为超二次曲面,随着类先验概率、类正态密度函数参数的不同,出现为某种形式的超二次曲面,如超球面、超椭球面、超抛物面、超双曲面或超平面,二维正态分布情况下的一些例子:,决策面:带斜线部分的外轮廓线,方差,2.4 离散情况的贝叶斯决策,以上几节所讨论的特征向量 可以是d维特征空间中的任一点,即为连续的随机向量。但在许多的模式识别问题中,特征向量 是一个离散型随机向量,仅可取 个离散值 中的一个。此时,我们仍可以利用贝叶斯公式计算,式中,可以看出,贝叶斯决策规则仍然不变,最小错误率的贝叶斯 决策法则仍为:如果 对于一切 成立,则决策 。,最小风险的Bayes决策法则仍是:如果 ,则对应的决策 。,对于二类模式的分类问题,通常采用下述形式的判别函数:,下面考虑一个两类模式的分类问题。设特征向量 ,它的各个分量都是或为0或为1的二值特征,并且各特征相互独立。并令:,以一种分类问题的模型来说明。这类模型中,对模式的每一个特征需要给出一个“是”与“否”的答案,“是”表示该模式具有对应特征,其值就为1,否则不具有对应特征,其值就为0。,因为模式中各特征相互独立,所以可以把条件概率 写成 的分量的概率之积的形式:,因此似然比为:,如果采用对数形式的判别函数,则有:,上式关于 是线性的,因此可以改写得到线性判别函数的形式:,是 的分量的线性组合,它们的系数是权 ,它的值表示在作分类决策时对特征 作“是”回答的关联程度。在判别中,先验概率仅对阈值权 起作用。如果 ,则 ,说明 不能给出有关类别的信息。如果 ,则 ,从而 是正的。这种情况下,特征 对于 类 给出的是的频率要高于 类。同样如果 ,则 是负的,此时特征 对于 类给出的“是”的频率要低于 类。,2.5 关于分类器的错误率问题,任何一种决策规则都有其相对应的错误率。在已知类条件概率密度及先验概率的条件下,当采取指定的决策规则分类,其错误率应该是固定的在分类器设计出来后,通常总是以错误率的大小来衡量其性能的优劣。当用不同的分类方法处理同一问题时,通常总是以错误率大小作为比较方案好坏的标准,在模式识别的理论和实践中错误率是非常重要的参数。但是,计算错误率是复杂和困难的现在计算或估计错误率的方法分成三大类:按理论公式计算(非常简单的情况)计算错误率的上界(要尽可能紧)实验估计,本章小结,内容:Bayes决策理论,正态分布情况下的详细讨论特点:依据Bayes理论设计的分类器理论上讲具有最优的性能,可以被用来作为衡量其他分类器设计方法优劣的标准问题:如何估计出类先验概率、类条件概率密度函数(实现时的难点),