第6章贝叶斯学习与EM算法课件.ppt
《第6章贝叶斯学习与EM算法课件.ppt》由会员分享,可在线阅读,更多相关《第6章贝叶斯学习与EM算法课件.ppt(127页珍藏版)》请在三一办公上搜索。
1、第6章 贝叶斯学习与EM算法( Bayesian Learning and EM Algorithm ),概述,贝叶斯推理提供了一种概率手段,基于如下的假定:待考察的量遵循某概率分布,且可根据这些概率及已观察到的数据进行推理,以作出最优的决策。贝叶斯推理为衡量多个假设的置信度提供了定量的方法。贝叶斯推理为直接操作概率的学习算法提供了基础,也为其它算法的分析提供了理论框架。,简介,贝叶斯学习算法与机器学习相关的两个原因:贝叶斯学习算法能够计算显示的假设概率,比如朴素贝叶斯分类器;贝叶斯方法为理解多数学习算法提供了一种有效的手段,而这些算法不一定直接操纵概率数据,比如:Find-S候选消除算法神经
2、网络学习:选择使误差平方和最小化的神经网络推导出另一种误差函数:交叉熵可分析决策树的归纳偏置可考察最小描述长度原则,贝叶斯学习方法的特性,观察到的每个训练样例可以增量地降低或升高某假设的估计概率。而其它算法会在某个假设与任一样例不一致时完全去掉该假设;(最大优点)先验知识可以与观察数据一起决定假设的最终概率,先验知识的形式是:1)每个候选假设的先验概率;2)每个可能假设在可观察数据上的概率分布;贝叶斯方法可允许假设做出不确定性的预测;新的实例分类可由多个假设一起做出预测,用它们的概率来加权;即使在贝叶斯方法计算复杂度较高时,它们仍可作为一个最优的决策标准衡量其它方法;,贝叶斯方法的难度,难度之
3、一:需要概率的初始知识,当概率预先未知时,可以基于背景知识、预先准备好的数据以及基准分布的假定来估计这些概率;难度之二:一般情况下,确定贝叶斯最优假设的计算代价比较大(在某些特定情形下,这种计算代价可以大大降低)。,内容安排,介绍贝叶斯理论;定义极大似然假设(ML)和极大后验概率假设(MAP);将此概率框架应用于分析前面章节的相关问题和学习算法;介绍几种直接操作概率的学习算法;贝叶斯最优分类器Gibbs算法朴素贝叶斯分类器讨论EM算法,一类参数估计的方法。,统计推断中可用的三种信息,美籍波兰统计学家耐曼(E.L.Lehmann18941981) 高度概括了在统计推断中可用的三种信息:,1总体信
4、息,即总体分布或所属分布族给我们的信息。譬如“总体视察指数分布”或“总体是正态分布”在统计推断中都发挥重要作用,只要有总体信息,就要想方设法在统计推断中使用2样本信息,即样本提供我们的信息,这是任一种统计推断中都需要,3先验信息,即在抽样之前有关统计推断的一些信息。 譬如,在估计某产品的不合格率时,假如工厂保存了过去抽检这种产品质量的资料,这些资料(包括历史数据)有时估计该产品的不合格率是有好处的。这些资料所提供的信息就是一种先验信息。 又如某工程师根据自己多年积累的经验对正在设计的某种彩电的平均寿命所提供的估计也是一种先验信息。 由于这种信息是在“试验之前”就已有的,故称为先验信息。,假设
5、随机变量X有一个密度函数p(x;),其中是一个参数,不同的对应不同的密度函数,故从贝叶斯观点看,p(x;)是在给定后是个条件密度函数,因此记为p(x)更恰当一些。这个条件密度能提供我们的有关的信息就是总体信息。,假设 当给定后,从总体p(x)中随机抽取一个样本 ,该样本中含有的有关信息。这种信息就是样本信息。,贝叶斯公式的密度函数形式,假设 对参数已经积累了很多资料,经过分析、整理和加工,可以获得一些有关的有用信息,这种信息就是先验信息。参数不是永远固定在一个值上,而是一个事先不能确定的量。从贝叶斯观点来看,未知参数是一个随机变量。而描述这个随机变量的分布可从先验信息中归纳出来,这个分布称为先
6、验分布,其密度函数用()表示。,前面的分析总结如下:人们根据先验信息对参数已有一个认识,这个认识就是先验分布()。通过试验,获得样本。从而对的先验分布进行调整,调整的方法就是使用上面的贝叶斯公式,调整的结果就是后验分布 。后验分布是三种信息的综合。获得后验分布使人们对的认识又前进一步,可看出,获得样本的的效果是把我们对的认识由()调整到 。所以对的统计推断就应建立在后验分布 的基础上。,贝叶斯法则,机器学习的任务:在给定训练数据D时,确定假设空间H中的最佳假设。最佳假设:一种方法是把它定义为在给定数据D以及H中不同假设的先验概率的有关知识下的最可能假设。贝叶斯理论提供了一种计算假设概率的方法,
7、基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身。,先验概率和后验概率,用P(h)表示在没有训练数据前假设h拥有的初始概率。P(h)被称为h的先验概率;先验概率反映了关于h是一正确假设的机会的背景知识;如果没有这一先验知识,可以简单地将每一候选假设赋予相同的先验概率;类似地,P(D)表示训练数据D的先验概率,P(D|h)表示假设h成立时D的概率;机器学习中,我们关心的是P(h|D),即给定D时h的成立的概率,称为h的后验概率。,贝叶斯公式,贝叶斯公式提供了从先验概率P(h)、P(D)和P(D|h)计算后验概率P(h|D)的方法; (6.1)P(h|D)随着P(h)和P(D
8、|h)的增长而增长,随着P(D)的增长而减少,即如果D独立于h时被观察到的可能性越大,那么D对h的支持度越小。,极大后验假设,学习器在候选假设集合H中寻找给定数据D时可能性最大的假设h,h被称为极大后验假设(MAP);确定MAP的方法是用贝叶斯公式计算每个候选假设的后验概率,计算式如下: (6.2) 最后一步,去掉了P(D),因为它是不依赖于h的常量。,极大似然假设,在某些情况下,可假定H中每个假设有相同的先验概率,这样式子6.2可以进一步简化,只需考虑P(D|h)来寻找极大可能假设。P(D|h)常被称为给定h时数据D的似然度,而使P(D|h)最大的假设被称为极大似然假设:假设空间H可扩展为任
9、意的互斥命题集合,只要这些命题的概率之和为1。,举例:一个医疗诊断问题,有两个可选的假设:病人有癌症、病人无癌症可用数据来自化验结果:正+和负-有先验知识:在所有人口中,患病率是0.008对确实有病的患者的化验准确率为98%,对确实无病的患者的化验准确率为97%总结如下P(cancer)=0.008, P(cancer)=0.992P(+|cancer)=0.98, P(-|cancer)=0.02P(+|cancer)=0.03, P(-|cancer)=0.97,举例:一个医疗诊断问题(2),问题:假定有一个新病人,化验结果为正,是否应将病人断定为有癌症?求后验概率P(cancer|+)和
10、P(cancer|+)利用式子6.2找到极大后验假设P(+|cancer)P(cancer)=0.0078P(+|cancer)P(cancer)=0.0298hMAP=cancer确切的后验概率可将上面的结果归一化以使它们的和为1P(canner|+)=0.0078/(0.0078+0.0298)=0.21P(cancer|+)=0.79贝叶斯推理的结果很大程度上依赖于先验概率,另外不是完全接受或拒绝假设,只是在观察到较多的数据后增大或减小了假设的可能性,基本概率公式表,乘法规则:P(AB)=P(A|B)P(B)=P(B|A)P(A)加法规则:P(AB)=P(A)+P(B)-P(AB)贝叶斯
11、法则:P(h|D)=P(D|h)P(h)/P(D)全概率法则:如果事件A1.An互斥,且满足 , 则,贝叶斯法则和概念学习,贝叶斯法则为计算给定训练数据下任一假设的后验概率提供了原则性方法,因此可以直接将其作为一个基本的学习方法:计算每个假设的概率,再输出其中概率最大的。这个方法称为Brute-Force贝叶斯概念学习算法。将上面方法与第2章介绍的概念学习算法比较,可以看到:在特定条件下,它们学习得到相同的假设,不同的是第2章的方法不明确计算概率,而且效率更高。,Brute-Force贝叶斯概念学习,概念学习问题:有限假设空间H定义在实例空间X上,任务是学习某个目标概念c。Brute-Forc
12、e MAP学习算法对于H中每个假设h,计算后验概率输出有最高后验概率的假设上面算法需要较大计算量,因为它要计算每个假设的后验概率,对于大的假设空间显得不切实际,但是它提供了一个标准以判断其它概念学习算法的性能,特定情况下的MAP假设,假定训练数据D是无噪声的,即di=c(xi)目标概念c包含在假设空间H中每个假设的先验概率相同求得由于所有假设的概率之和是1,因此由于训练数据无噪声,那么给定假设h时,与h一致的D的概率为1,不一致的概率为0,因此,特定情况下的MAP假设(2),考虑Brute-Force MAP算法的第一步h与D不一致,h与D一致, ,VSH,D是关于D的变型空间(见第2章,即与
13、D一致的假设集),特定情况下的MAP假设(3),P(D)的推导P(D) 图6-1假设的概率演化情况如图6-1所示,初始时所有假设具有相同的概率,当训练数据逐步出现后,不一致假设的概率变为0,而整个概率的和为1,它们均匀分布到剩余的一致假设中每个与D一致的假设都是MAP假设,h,P(h|D1,D2),P(h),P(h|D1),h,h,MAP假设和一致学习器,一致学习器:如果某个学习器输出的假设在训练样例上为0错误率,则称为一致学习器;如果H上有均匀的先验概率,且训练数据是确定性和无噪声的,任意一致学习器将输出一个MAP假设;Find-S算法按照特殊到一般的顺序搜索假设空间H,并输出一个极大特殊的
14、一致假设,因此可知在上面定义的P(h)和P(D|h)概率分布下,它输出MAP假设;更一般地,对于先验概率偏袒于更特殊假设的任何概率分布,Find-S输出的假设都是MAP假设。,MAP假设和一致学习器(2),贝叶斯框架提出了一种刻画学习算法行为的方法,即便该学习算法不进行概率操作,通过确定算法输出最优假设时使用的概率分布P(h)和P(D|h),可以刻画出算法具有最优行为时的隐含假定;使用贝叶斯方法刻画学习算法,与揭示学习器中的归纳偏置在思想上是类似的;在第2章,将学习算法的归纳偏置定义为断言集合B,通过它可充分地演绎推断出学习器所执行的归纳推理结果,即学习器的输出是由其输入和隐含的归纳偏置所演绎
15、得出的。,MAP假设和一致学习器(3),贝叶斯解释对于描述学习算法中的隐含假定提供了另一种方法,用基于贝叶斯理论的一个等效的概率推理系统来建模;贝叶斯解释隐含的假定形式为:H上的先验概率由P(h)分布给出,数据拒绝或接受假设的强度由P(D|h)给出;在已知这些假定的概率分布后,一个基于贝叶斯理论的概率推理系统将产生等效于Find-S、候选消除等算法的输入-输出行为;,极大似然和最小误差平方假设(1),前面分析表明:某些学习算法即使没有显示地使用贝叶斯规则,或以某种形式计算概率,但它们输出的结果符合贝叶斯原理,是一个MAP假设;通过简单的贝叶斯分析,可以表明在特定前提下,任一学习算法如果使输出的
16、假设预测和训练数据之间的误差平方和最小化,它将输出一极大似然假设;上面结论的意义是,对于许多神经网络和曲线拟合的方法,如果它们试图在训练数据上使误差平方和最小化,此结论提供了基于贝叶斯的理论依据。,极大似然和最小误差平方假设(2),问题框架:学习器L工作在实例空间X和假设空间H上,H中的假设为X上定义的某种实数值函数;L面临的问题是学习一个从H中抽取出的未知目标函数f,给定m个训练样例的集合,每个样例的目标值被某随机噪声干扰,此随机噪声服从正态分布;更精确地讲,每个训练样例是序偶,di=f(xi)+ei,ei是代表噪声的随机变量,假定ei的值是独立抽取的,并且它们的分布服从0均值的正态分布;学
17、习器的任务是在所有假设有相等的先验概率前提下,输出极大似然假设(即ML假设);,极大似然和最小误差平方假设(3),用一个简单情况,即线性函数来说明问题。如图所示,实线表示线性目标函数f,实点表示有噪声的训练样例集,虚线对应有最小平方训练误差的假设hML,即极大似然假设。对于e这样的连续变量上的概率,使用概率密度表示概率分布,它在所有值上的积分为1,用小写的p表示。有限概率P有时又称为概率质量;概率密度函数:,极大似然和最小误差平方假设(4),假定有一固定的训练实例集合,因此只考虑相应的目标值序列D=,这里di=f(xi)+ei。假定训练样例是相互独立的,给定h时,可将P(D|h)写成各p(di
18、|h)的积如果误差ei服从0均值和未知方差2的正态分布,那么每个di服从均值为f(xi),方差不变的正态分布。因此,p(di|h)可写为方差2、均值f(xi)的正态分布;使用第5章中的正态分布公式并将相应的参数代入,由于概率di的表达式是在h为目标函数f的正确描述条件下的,所以替换=f(xi)=h(xi),极大似然和最小误差平方假设(5),hML上式说明了极大似然假设等价于使训练值和假设预测值之间的误差的平方和最小的那个假设;这个结论的前提是:训练值等于真实目标值加上随机噪声,其中随机噪声从一个均值为0的正态分布中独立抽取。,采用正态分布的合理性,数学计算的简洁性;对许多物理系统的噪声都有良好
19、的近似;第5章中心极限定理显示,足够多的独立同分布随机变量的和服从正态分布;由许多独立同分布的因素的和所生成的噪声将成为正态分布(当然,现实中不同的分量对噪声的贡献也许不是同分布的);使误差平方最小化的方法经常被用于神经网络、曲线拟合及其他许多实函数逼近的算法中;上面的分析只考虑了训练样例的目标值中的噪声,而没有考虑实例属性值的噪声。,用于预测概率的极大似然假设,问题框架:学习一个不确定性函数f: X0,1,它有两个离散的值输出;这种不可预测性来源于未能观察到的因素,导致目标函数的输出是输入的概率函数。学习得到的神经网络(或其它实函数学习器)的输出是f(x)=1的概率,表示为: f: X0,1
20、,即f=P(f(x)=1),用于预测概率的极大似然假设(2),Brute-Force法首先收集对x的每个可能值观察到的1和0的频率,然后训练神经网络,对每个x输出目标频率可以直接从f的训练样例中训练神经网络,而且能推导出f的极大似然假设D=.,用于预测概率的极大似然假设(3),hML (6.13)式子6.13与熵函数的一般式相似,因此它的负值常称为交叉熵,在神经网络中梯度搜索以达到似然最大化,前面讨论了利用式子6.13求极大似然假设,现用G(h,D)表示,为神经网络学习推导一个权值训练法则,使用梯度上升法使G(h,D)最大化考虑简单的情况,假定神经网络从一个单层的sigmoid单元建立,则,在
21、神经网络中梯度搜索以达到似然最大化(2),因为要使P(D|h)最大化而不是最小化,因此执行梯度上升搜索,而不是梯度下降搜索。与反向传播更新法则对比使误差平方最小化的法则寻找到极大似然假设的前提是:训练数据可以由目标函数值加上正态分布噪声来模拟使交叉熵最小化的法则寻找极大似然假设基于的前提是:观察到的布尔值为输入实例的概率函数,最小描述长度准则,奥坎姆剃刀可以概括为:为观察到的数据选择最短的解释;此处给出一个贝叶斯分析,提出最小描述长度准则,根据信息论中的基本概念来解释hMAP的定义 (6.16)上式可以解释为在特定的假设编码表示方案上“优先选择短的假设”,最小描述长度准则(2),信息论中的编码
22、理论设想要为随机传送的消息设计一个编码,其中遇到消息i的概率是pi感兴趣的是,使得传输随机信息所需的最小期望传送位数的编码直观上,为使期望的编码长度最小,可能性大的消息应该赋予较短的编码Shannon & Weaver证明了最优编码对消息i的编码长度为-log2pi使用代码C来编码消息i所需的位数被称为消息i关于C的描述长度,记为LC(i),最小描述长度准则(3),使用编码理论的结论来解释等式6.16-log2P(h)是在假设空间H的最优编码下h的描述长度。换言之,这是假设h使用其最优表示时的大小 ,CH为假设空间H的最优编码-log2P(D|h)是在给定假设h时,训练数据D的描述长度, ,C
23、D|h是假定发送者和接送者都知道假设h时描述数据D的最优编码因此式子6.16显示,hMAP是使假设描述长度和给定假设下数据描述长度之和最小化的假设最小描述长度准则:,最小描述长度准则(4),如果选择C1为假设的最优编码CH,C2为最优编码CD|h,那么hMDL=hMAP可将MDL准则想象为选择最短的方法来重新编码训练数据,其中不仅计算假设的大小,并且计算给定假设时编码数据的附加开销将MDL准则应用于决策树,如何选择假设和数据的表示C1和C2?对于C1,很自然地选择某种明确的决策树编码方法,其中描述长度随着树中节点和边的增长而增加对于C2,如果训练分类f(xi)与假设的预计相同,那么就不需要传输
24、有关这些样例的任何信息;如果不同,则要传输更正消息,最小描述长度准则(5),MDL准则提供了一种方法在假设的复杂性和假设产生错误的数量之间进行折中,它有可能选择一个较短的产生少量错误的假设,而不是完美地分类训练数据的较长的假设上面讨论自然给出了一种处理数据过度拟合的方法Quinlan & Rivest描述了应用MDL准则选择决策树大小的几个实验,报告指出,基于MDL的方法产生的决策树的精度相当于第3章中讨论的标准树修剪方法,分类问题?,能否利用MAP解决分类问题?假设类别为Ci,其后验概率公式如何表述?如何选取判别函数?假设p(x|Ci)为高斯分布,其参数如何求取?先验概率P(Ci)如何求取?
25、,贝叶斯最优分类器,前面我们讨论的问题是:给定训练数据,最可能的假设是什么?另一个相关的更有意义的问题是:给定训练数据,对新实例的最可能的分类是什么?显然,第二个问题的解决可以将第一个问题的结果(MAP)应用到新实例上得到,还存在更好的算法?,贝叶斯最优分类器(2),例子考虑一个包含三个假设h1, h2, h3的假设空间。假定已知训练数据时三个假设的后验概率分别是0.4, 0.3, 0.3,因此h1为MAP假设。若一新实例x被h1分类为正,被h2和h3分类为反计算所有假设,x为正例的概率为0.4,为反例的概率为0.6因此,这时最可能的分类与MAP假设生成的分类不同矛盾!,贝叶斯最优分类器(3)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 章贝叶斯 学习 EM 算法 课件

链接地址:https://www.31ppt.com/p-1454517.html