贝叶斯决策理论课件.ppt
第二章 贝叶斯决策理论,2.1 引言2.2几种常用的决策规则2.3正态分布时的统计决策2.4关于分类器的错误率问题,2.1 引 言,模式识别的分类问题是根据识别对象特征的观察值将其分到某个类别中去。例:医生要根据病人血液中白细胞的浓度来判断病人是否患血液病。两类的识别问题。,2.1 引 言,根据医学知识和以往的经验医生知道:患病的人,白细胞的浓度服从均值2000,方差1000的正态分布;未患病的人,白细胞的浓度服从均值7000,方差3000的正态分布;一般人群中,患病的人数比例为0.5%。一个人的白细胞浓度是3100,医生应该做出怎样的判断?,贝叶斯决策理论,贝叶斯决策理论方法的假设:各类别总体的概率分布是已知的;要决策分类的类别数是一定的。在连续情况下,假设要识别的对象有d种特征量x1,x2,xd,这些特征的所有可能的取值范围构成了d维特征空间,称 x=x1,x2,xdT 为d维特征向量。,2.1 引 言,假设说明,假设要研究的分类问题有c个类别i,i=l,2,c;对应于各个类别i出现的先验概率P(i)及类条件概率密度函数p(x/i)是已知的。如果在特征空间已观察到某一向量x,x=x1,x2,xdT那么应该把x分到哪一类去才是最合理呢?这就是本章所要研究的主要问题。,2.1 引 言,2.2 几种常用的决策规则,基于最小错误率的贝叶斯决策 基于最小风险的贝叶斯决策 在限定一类错误率条件下使另一类错误率为最小的两类别决策极小化极大决策序贯分类方法,2.2.1基于最小错误率的贝叶斯决策,利用概率论中的贝叶斯公式,得出使错误率为最小的分类规则,称之为基于最小错误率的贝叶斯决策。,2.2 几种常用的决策规则,举例说明,以鱼分类为例说明解决问题的过程。假设已抽取出d个表示鱼的特征,成为一个d维空间的向量x,目的是要将x分类为鲈鱼或者鲑鱼。如果用表示状态,就是将x归类于两种可能的自然状态之一,则=1 表示鲈鱼=2 表示鲑鱼,2.2.1基于最小错误率的贝叶斯决策,只以先验概率决策存在问题,假设已知出现鲈鱼的先验概率为P(1)和出现鲑鱼的先验概率为P(2)。在两类别问题中存在P(1)+P(2)=1,2.2.1基于最小错误率的贝叶斯决策,只以先验概率决策存在问题,若P(1)P(2),=1;P(1)P(2),出现的鱼归为鲈鱼。如果仅做一次判别,这种分类可能是合理的;如果多次判别,则根本未达到要把鲈鱼与鲑鱼区分开的目的。,2.2.1基于最小错误率的贝叶斯决策,解决方法,利用对鱼观察到的光泽度提高分类器的性能。不同的鱼产生不同的光泽度,将其表示为概率形式的变量,设x是连续的随机变量,其分布取决于类别状态,表示为p(x|),即类条件概率分布(class-conditional probability density)函数,则 p(x|1)与p(x|2)之间的区别就表示为鲈鱼与鲑鱼间光泽度的区别,如图2.1所示:,2.2.1基于最小错误率的贝叶斯决策,图2.1 类条件概率密度函数图概率函数已经归一化,每条曲线下的面积为1,2.2.1基于最小错误率的贝叶斯决策,已知:状态先验概率P(i),i=1,2。类条件概率密度p(x|i),i=1,2,利用贝叶斯公式,2.2.1基于最小错误率的贝叶斯决策,条件概率P(i|x)称为状态的后验概率贝叶斯公式实质上是通过观察x把状态的先验概率P(i)转化为状态的后验概率P(i|x),如图2.2所示。,2.2.1基于最小错误率的贝叶斯决策,图2.2 P(1)=2/3和P(2)=1/3 及图2.1下的后验 概率图,基于最小错误率的贝叶斯决策规则为:如果P(1|x)P(2|x),则把x归类于鲈鱼1;反之P(1|x)P(2|x),则把x归类于鲑鱼2。,2.2.1基于最小错误率的贝叶斯决策,上面的规则可简写为:,如果 P(i|x)=P(j|x),则xi,利用贝叶斯公式(1)还可以得到几种最小错误率贝叶斯决策规则的等价形式:,如果 p(x|i)P(i)=p(x|j)P(j),则 xi,2.2.1基于最小错误率的贝叶斯决策,对上式的l(x)取自然对数的负值,可写为,举例,假设在某个局部地区细胞识别中正常(1)和异常(2)两类先验概率分别为正常状态:P(1)=0.9;异常状态:P(2)=0.1。现有一待识的细胞,其观察值为x,从类条件概率密度分布曲线上查得p(x|1)=0.2,p(x|2)=0.4。试对该细胞x进行分类。,2.2.1基于最小错误率的贝叶斯决策,解:利用贝叶斯公式,分别计算出1及2的后验概率。,P(2|x)=1 P(1|x)=10.818=0.182,根据贝叶斯决策规则(2),有P(1|x)=0.818 P(2|x)=0.182所以合理的决策是把 x 归类于正常状态。,2.2.1基于最小错误率的贝叶斯决策,从这个例子可见,决策结果取决于实际观察到的类条件概率密度p(x|i)和先验概率P(i)两者。在这个例子中由于状态1的先验概率比2的先验概率大好几倍,使先验概率在做出决策中起了主导作用。,2.2.1基于最小错误率的贝叶斯决策,最小错误率贝叶斯决策规则证明,错误率平均错误率,以P(e)来表示,其定义为,2.2.1基于最小错误率的贝叶斯决策,2.2.1基于最小错误率的贝叶斯决策,多类别决策,在多类决策的最小错误率贝叶斯决策规则。如果,P(i|x)=P(j|x),则xi,p(x|i)P(i)=p(x|j)P(j),则xi,2.2.1基于最小错误率的贝叶斯决策,多类别决策,多类别决策过程中,要把特征空间分割成R1,R2,Rc个区域,可能错分的情况很多,平均错误概率P(e)将由c(c1)项组成。,2.2.1基于最小错误率的贝叶斯决策,P(e)=P(xR2|1)+P(xR3|1)+P(xRc|1)P(1),c行,+P(xR1|2)+P(xR3|2)+P(xRc|2)P(2),+,+P(xR1|c)+P(xR2|c)+P(xRc-1|c)P(c),每行c1项,2.2.1基于最小错误率的贝叶斯决策,即:,直接求P(e)的计算量较大。如果代之计算平均正确分类概率P(c),则,P(e)=1P(c),c项,2.2.1基于最小错误率的贝叶斯决策,Bayes Decision Theory(General),Generalize Bayes Decision Theory by允许使用多于一个的特征(allowing to use multi features)允许多于两种类别状态(allowing to use more that two states)允许有其他行为而不仅仅是判定类别(allowing actions rather than choosing states)引入损失函数代替误差概率(introducing a loss function rather than probability of error),2.2.1基于最小错误率的贝叶斯决策,2.2.2基于最小风险的贝叶斯决策,x:feature vector(d1)x=x1,x2,xdT 状态空间states(classes)由c个自然状态(c类)组成。=1,2,cactions(allows possibility of rejection),A=,,loss for taking action i for state j,2.2 几种常用的决策规则,2.2.2基于最小风险的贝叶斯决策,根据贝叶斯公式,后验概率为,其中,2.2.2基于最小风险的贝叶斯决策,对于给定的x如果采取决策,从决策表可见,对应于决策,可以在c个,j=1,c值中任取一个,其相应概率为P(j|x)。因此在采取决策 情况下的条件期望损失R(|x)为,i=1,2,a,2.2.2基于最小风险的贝叶斯决策,定义期望风险R为,期望风险R反映对整个特征空间上所有x的取值采取相应的决策 所带来的平均风险;,只是反映了对某一x的取值采取决策 所带来的风险。,如果在采取每一个决策或行动时,都使其条件风险最小,则对所有的x做出决策时,其期望风险也必然最小。,最小风险贝叶斯决策,2.2.2基于最小风险的贝叶斯决策,最小风险贝叶斯决策规则为,最小风险贝叶斯决策的实现步骤:,2.2.2基于最小风险的贝叶斯决策,在已知P(j),p(x|j),j=1,2,c及给出待识别的x的情况下,根据贝叶斯公式计算出后验概率:,j=1,2,c,2.2.2基于最小风险的贝叶斯决策,利用计算出的后验概率及决策表,按(2-15)计算出采取,i=1,2,a的条件风险R(|x),i=1,2,a,2.2.2基于最小风险的贝叶斯决策,对中得到的a个条件风险值R(|x),i=1,2,a 进行比较,找出使条件风险最小的决策,即,即 就是最小风险贝叶斯决策。,2.2.2基于最小风险的贝叶斯决策,举例,例2.2假设在某个局部地区细胞识别中正常(1)和异常(2)两类先验概率分别为正常状态:P(1)=0.9;异常状态:P(2)=0.1。现有一待识的细胞,其观察值为x,从类条件概率密度分布曲线上查得p(x|1)=0.2,p(x|2)=0.4。损失函数分别为,。试对该细胞x按最小风险贝叶斯决策进行分类。,2.2.2基于最小风险的贝叶斯决策,当x1时决策为x1的损失,,当x1时决策为x2的损失,,当x2时决策为x2的损失,,当x2时决策为x1的损失。,2.2.2基于最小风险的贝叶斯决策,举例,解:已知条件为P(1)=0.9,P(2)=0.1,p(x|1)=0.2,p(x|2)=0.4,c=2,。,根据例2.1的计算结果可知后验概率为,P(1|x)=0.818,P(2|x)=0.182,2.2.2基于最小风险的贝叶斯决策,再按下式计算出条件风险,由于,2.2.2基于最小风险的贝叶斯决策,x2,最小错误率和最小风险贝叶斯决策规则的关系。设损失函数为01损失函数,i,j=1,2,c,2.2.2基于最小风险的贝叶斯决策,条件风险为,表示对x采取决策i的条件错误概率,2.2.2基于最小风险的贝叶斯决策,的最小风险贝叶斯决策就等价于,的最小错误率贝叶斯决策。,由此可见,最小错误率贝叶斯决策就是在01损失函数条件下的最小风险贝叶斯决策。前者是后者的特例。,在0 1损失函数时,使,2.2.2基于最小风险的贝叶斯决策,有大量的方式来表述最小风险决策规则,每种都有自己的优点。用后验概率的形式表述为,如果,那么判决为1。,2.2.2基于最小风险的贝叶斯决策,两类分类问题的最小风险贝叶斯决策,通常,一次错误判决所造成的损失比正确判决要大,且因子21-11和12-22都是正的。实践中,尽管必须通过损失函数的差别对后验概率作调整,但是判决通常是依据最可能的类别状态来决定的。利用贝叶斯公式,也可用先验概率和条件密度来表示后验概率,这种等价规则为:如果,那么判决为1。,2.2.2基于最小风险的贝叶斯决策,两类分类问题的最小风险贝叶斯决策,另一种表示方法是,在合理假设2111的条件下,如果下式成立,则判决为1。,这种判决规则的形式主要依赖于x的概率密度。,2.2.2基于最小风险的贝叶斯决策,两类分类问题的最小风险贝叶斯决策,2.2.2基于最小风险的贝叶斯决策,2.2.3 在限定一类错误率条件下使另一类错误率为最小的两类别决策,在两类别决策问题中,有犯两种错误分类的可能性:(1)在采取决策1时其实际自然状态为2;(2)在采取决策2时其实际自然状态为1,这两种错误的概率分别是P(2)P2(e)和P(1)P1(e)。最小错误率贝叶斯决策是使这两种错误率之和P(e)为最小。,2.2 几种常用的决策规则,2.2.3 在限定一类错误率条件下使另一类错误率为最小的两类别决策,由于先验概率P(1)和P(2)对具体问题来说往往是确定的,所以一般称P1(e),P2(e)为两类错误率。实际中,有时要求限制其中某一类错误率不得大于某个常数而使另一类错误率尽可能地小。,2.2 几种常用的决策规则,2.2.3 在限定一类错误率条件下使另一类错误率为最小的两类别决策,例如在癌细胞识别中,把异常误判为正常的损失更为严重,所以常希望这种误判的错误率P2(e)很小,即P2(e)=0,0是一个很小的常数,在这种条件下再要求P1(e)尽可能地小。这样的决策可看成是在P2(e)=0条件下,求P1(e)极小值的条件极值问题。,2.2 几种常用的决策规则,2.2.3 在限定一类错误率条件下使另一类错误率为最小的两类别决策,可以用求条件极值的拉格朗日(Lagrange)乘子法解决。拉格朗日乘子法是一种在等式约束条件下的优化算法。基本思想是将等式的约束问题转化为无约束问题。拉格朗日乘子法为:,2.2 几种常用的决策规则,=0,2.2.3 在限定一类错误率条件下使另一类错误率为最小的两类别决策,按Lagrange乘子法建立数学模型为,2.2 几种常用的决策规则,目的是求的极小值,已知,根据类条件概率密度的性质,有,2.2.3 在限定一类错误率条件下使另一类错误率为最小的两类别决策,则,2.2 几种常用的决策规则,2.2.3 在限定一类错误率条件下使另一类错误率为最小的两类别决策,2.2 几种常用的决策规则,满足左式的最佳 及满足右式的边界面就能使 极小。此时其决策规则可以写为,2.2.3 在限定一类错误率条件下使另一类错误率为最小的两类别决策,与最小错误率贝叶斯决策规则对比,2.2 几种常用的决策规则,这种在限定一类错误率 为常数而使另一类错误率 最小的决策规则也称Neyman-Pearson决策规则。,2.2.3 在限定一类错误率条件下使另一类错误率为最小的两类别决策,2.2 几种常用的决策规则,可以看出Neyman-Pearson决策规则与最小错误率贝叶斯决策规则都是以似然比为基础的,所不同的只是最小错误率决策用的阈值是先验概率之比P(2)/P(1),而Neyman-Pearson决策用的阈值则是Lagrange乘子,类似地,最小风险贝叶斯决策规则可以写成似然比形式:即,2.2.3 在限定一类错误率条件下使另一类错误率为最小的两类别决策,2.2 几种常用的决策规则,但在高维时,求解边界面是不容易的,这时可利用似然比密度函数来确定。似然比为l(x)=p(x|1)/p(x|2),似然比密度函数为p(l|2),求解,的显式解不容易求出。,2.2.4 极小化极大决策,2.2 几种常用的决策规则,从最小错误率或最小风险贝叶斯决策中可以看出其决策都是与先验概率P(i)有关的。如果对给定的x,其P(i)不变,按照贝叶斯决策规则,可以使错误率或风险最小。,2.2.4 极小化极大决策,2.2 几种常用的决策规则,但如果P(i)是可变的,或事先对先验概率毫无所知,若再按某个固定的P(i)条件下的决策规则来进行决策就往往得不到最小错误率或最小风险。极小化极大决策就是在考虑P(i)变化的情况下,如何使最大可能的风险为最小,也就是在最差的条件下争取最好的结果。,2.2.4 极小化极大决策,2.2 几种常用的决策规则,通常做出错误决策总是比做出正确决策所带来的损失要大,即,及,再假定决策域R1和R2已确定,则风险R可按式得出,2.2.4 极小化极大决策,2.2 几种常用的决策规则,则,2.2.4 极小化极大决策,2.2 几种常用的决策规则,目的是要分析风险R与先验概率P(1)之间的关系。两类情况下P(1)与P(2)应满足下式,P(1)+P(2)=1,目的是要分析风险R与先验概率P(1)之间的关系。两类情况下P(1)与P(2)应满足下式,2.2.4 极小化极大决策,2.2 几种常用的决策规则,一旦R1和R2被确定,风险R就是先验概率P(1)的线性函数,即R=a+b P(1),2.2.4 极小化极大决策,2.2 几种常用的决策规则,其中,=Rmm,极小化极大风险,=0,对于极小化极大求解,2.2.4 极小化极大决策,2.2 几种常用的决策规则,在已知类概率密度函数,损失函数及某个确定的先验概率P(1)时,可以按最小风险贝叶斯决策找出两类的分类决策面,把特征空间分割成两部分R1和R2,使其风险为最小。,2.2.4 极小化极大决策,2.2 几种常用的决策规则,在(0,1)区间内,对先验概率P(1)取若干个不同的值,分别按最小风险贝叶斯决策确定其相应的决策域,从而计算出其相应的最小风险R,这样就得出最小贝叶斯风险R与先验概率P(1)的关系曲线,如图2.4的曲线部分所示。,2.2.4 极小化极大决策,2.2 几种常用的决策规则,在(0,1)区间内,,对应,直线方程:R=a+b P(1),风险值在(a,a+b)的范围变化,其最大风险为a+b。,R*a,2.2.4 极小化极大决策,2.2 几种常用的决策规则,在(0,1)区间内,,那么风险R就为,如果在某个P(1)情况下,能找出其决策域使P(1)的系数b=0,即,2.2.4 极小化极大决策,2.2 几种常用的决策规则,在(0,1)区间内,,红线表明不管P(1)作什么变化,其风险都不再变化,其最大风险也等于a,这时就使最大风险最小。,R*b,2.2.4 极小化极大决策,2.2 几种常用的决策规则,结论:在作最小风险贝叶斯决策时,若考虑P(1)有可能改变或对先验概率毫无所知的情况,则应选择使最小贝叶斯风险R*为最大值时的P*(1)来设计分类器,即对应于图2.4(b)中的B点,其风险Rb*相对于其他的P(1)为最大,而能保证在不管P(1)如何变化时,使最大风险将为最小,将这样的决策称为极小化极大决策。,2.2.4 极小化极大决策,2.2 几种常用的决策规则,因此,极小化极大决策的任务就是寻找使贝叶斯风险为最大时的决策域R1和R2,它对应于积分方程的解。用极小化极大决策进行分类是偏于保守的分类方法。,2.2.5序贯分类方法,2.2 几种常用的决策规则,前面所讲方法中都认为d个特征都同时给出且不考虑获取特征所花的代价。有些实际问题(如医疗诊断)中特征的获取要花一定代价,这样除了错分会造成损失外还应考虑获取特征所花的代价。可能会有这样的情况,获取了k个特征(kd)后就做判决分类更为合理。,2.2.5序贯分类方法,2.2 几种常用的决策规则,这是因为其余d-k个特征的加入使分类错误降低而造成的代价减少补偿不了获取这些特征所花费的代价。解决上述问题的方法可用序贯分类方法,就是先用一部分特征来分类,逐步加入特征以减少分类损失。而每步都要衡量加入新特征所花代价与所降低分类损失的大小,以便决定是继续再加新特征还是停止。,2.2.5序贯分类方法,2.2 几种常用的决策规则,为此可以分别计算停止损失s 和继续损失c 并加以比较。设观测了k个特征得到取值分别为,,,停止损失是:,2.2.5序贯分类方法,2.2 几种常用的决策规则,假设观测第k+1个特征所需要的代价是g(k+l)而在条件,下第k+1步的最小代价的期望值是:,则在第k步的继续损失是,2.2.5序贯分类方法,2.2 几种常用的决策规则,这里第k步的最小代价 由下式定义:,由此可得,2.2.5序贯分类方法,2.2 几种常用的决策规则,显然,为了计算 必须计算第k+1步的最小损失,依此类推,直到首先应求出,才能得到第k步的最小损失。当停止损失等于最小损失时就做出分类决策。,2.2.6 分类器、判别函数及判定面,多类情况判别函数 有很多方式表述分类器,其中用的最多的是一组判别函数gi(x),i=1,2,c。用于表示多类决策规则:如果使gi(x)gj(x)对一切ji成立,则将x归于i类。,2.2 几种常用的决策规则,多类情况,贝叶斯分类器可以简单自然地表示成这种形式:在最小错误率的情况下,gi(x)可定义为:gi(x)=P(i|x)gi(x)=p(x|i)P(i)gi(x)=lnp(x|i)+lnP(i),2.2.6 分类器、判别函数及判定面,多类情况,决策面方程,各决策域Ri被决策面所分割,这些决策面是特征空间中的超曲面,相邻的两个决策域在决策面上其判别函数值是相等的,如图2-5所示。如果Ri和Rj是相邻的,则分割它们的决策面方程应满足 gi(x)=gj(x),2.2.6 分类器、判别函数及判定面,多类情况,2.2.6 分类器、判别函数及判定面,决策面方程,多类情况,2.2.6 分类器、判别函数及判定面,决策面方程,多类情况,图2-6在这个二维的两类问题的分类器中,概率密度为高斯分布,判决边界由两个双曲线构成,因此判决区域R2并非是简单的连通的。椭圆轮廓线标记出1/e乘以概率密度的峰值,分类器设计,分类器可看成是由硬件或软件组成的一个“机器”。它的功能是先计算出c个判别函数gi,再从中选出对应于判别函数为最大值的类作为决策结果,下图用框图形式表示了这种分类器。很多由软件组成的分类器已经模块化。,2.2.6 分类器、判别函数及判定面,多类情况,2.2.6 分类器、判别函数及判定面,分类器设计,多类情况,分类器的网络结构,两类问题,判别函数在两类情况下。仅定义一个判别函数 g(x)=g1(x)g2(x)并将决策规则表示为如果 g(x)0,则决策1;g(x)0,则决策2。显然,可定义出如下的判别函数:g(x)=P(1|x)P(2|x)g(x)=p(x|1)P(1)p(x|2)P(2),2.2.6 分类器、判别函数及判定面,两类问题,决策面方程,决策面方程 g(x)=0相应于前面(2)的决策面方程为p(x|1)P(1)p(x|2)P(2)=0其它可类似得出。,2.2.6 分类器、判别函数及判定面,两类问题,分类器设计,两类分类器可看作只是计算判别函数g(x)的一个机器。它根据计算结果的符号将x分类,其结构框图如2.7所示。,2.2.6 分类器、判别函数及判定面,两类问题,例2.3 对例2.1,2.2分别写出其判别函数和决策面方程。,解:对例2.1利用前面式中的(2)g(x)=p(x|1)P(1)p(x|2)P(2)其对应的判别函数为g(x)=0.9p(x|1)0.1p(x|2)决策面方程为g(x)=0即9p(x|1)p(x|2)=0,2.2.6 分类器、判别函数及判定面,对例2.2,判别函数可定义为,故其判别函数为,而,g(x)=0.9p(x|1)0.6p(x|2),决策面方程为g(x)=0即9p(x|1)6p(x|2)=0,2.2.6 分类器、判别函数及判定面,练习题 在两类问题中,遵循贝叶斯规则的条件误差率由式(7)P(error|x)=minP(1|x),P(2|x)给出,尽管后验概率是连续的,当用式(5),2.2.1基于最小错误率的贝叶斯决策,计算总误差时,这种形式的条件误差率实际将导致一个不连续的被积函数。,(a)证明对任意密度,可将(7)式替换成P(error|x)=2P(1|x)P(2|x)的积分,且可获得总误差率的上界。(b)证明如果对任给1,使用P(error|x)=P(1|x)P(2|x),那么将不能保证此积分可以得到一个误差率的下界。,2.2.1基于最小错误率的贝叶斯决策,解:(a)假设没有一般的损失,对于给定的x,P(2|x)P(1|x),则P(error|x)=P(1|x),因为P(1|x)1P(2|x),意味着P(2|x)1/2或2P(2|x)1,2P(2|x)P(1|x)P(1|x)=P(error|x)则对于任意x,遵从积分,2.2.1基于最小错误率的贝叶斯决策,所以2P(1|x)P(2|x)为P(error|x)提供了上界。,解:(b)从(a)知P(2|x)1/2,对于2,P(2|x)不大于1/。如4/3、P(1|x)0.4和P(2|x)=0.6。此时P(error|x)P(1|x)0.4。则P(1|x)P(2|x)4/30.40.6=0.32 P(error|x)故对于所有的P(1|x)值没有提供一个上界。(c)令P(error|x)=P(1|x),此时对于所有的x,有P(2|x)P(1|x)P(2|x)P(2|x),2.2.1基于最小错误率的贝叶斯决策,因此有一个下界。,解:(d)将(b)的解应用于此。对于1,如3,P(2|x)1/3,同(b)中假设P(1|x)0.4和P(2|x)=0.6。此时P(error|x)P(1|x)0.4。则P(1|x)P(2|x)30.40.6=0.72 P(error|x)所以不能得到一个误差率的下界。,2.2.1基于最小错误率的贝叶斯决策,假设两个等概率的一维密度具有如下形式:对任给i=1,2及0bi,,2.2.1基于最小错误率的贝叶斯决策,(a)写出每个密度的解析表达式,即对任意的ai和正的bi,将每一个函数归一化。(b)计算似然比,作为4个变量的函数。(c)绘出在a1=0,b11,a21,b22时的似然比p(x|1)/p(x|2)的曲线图。,解:设给定的概率密度形式是:,2.2.1基于最小错误率的贝叶斯决策,(a)为了求k假设概率密度函数是归一化的,并设函数的积分是1。,结果为2bik1或k=1/(2bi)。注意归一化与ai无关。,解:因此分布为,2.2.1基于最小错误率的贝叶斯决策,(b)似然比可以直接写为,(c)对于a1=0,b11,a21,b22时的似然比为,解:曲线如图所示:,2.2.1基于最小错误率的贝叶斯决策,考虑0-1损失函数的极小化极大原则,即,11=22=0且12=21=1。(a)证明在这种情况下判决区域将满足,2.2.1基于最小错误率的贝叶斯决策,(b)此解是否总是唯一的?如果不是,请构造一个简单的反例。,解:使用标准的0-1损失函数11=22=0且12=21=1进行讨论。(a)假设先验概率为P(1)和P(2)=1-P(1)。Bayes风险由教材(12)、(13)式给出,2.2.1基于最小错误率的贝叶斯决策,(12),(13),解:为了获得最小风险的先验概率,对上式求P(1)的微分,并令其为零,2.2.1基于最小错误率的贝叶斯决策,解:(b)此解并不总是唯一的,给出一个简单的反例(counterexample)。令P(1)=P(2)=0.5且,2.2.1基于最小错误率的贝叶斯决策,容易验证决策域R1=-0.5,0.25和R1=0,0.5满足(a)中的等式,这样解就不是唯一的。,