第06章 贝叶斯网络课件.ppt
《第06章 贝叶斯网络课件.ppt》由会员分享,可在线阅读,更多相关《第06章 贝叶斯网络课件.ppt(117页珍藏版)》请在三一办公上搜索。
1、2022/12/20,1,贝叶斯网络概 率 推 理,2022/12/20,2,内容提要,1.1 概述 1.2 贝叶斯概率基础1.3 贝叶斯问题的求解1.4 简单贝叶斯学习模型1.5 贝叶斯网络的建造1.6 贝叶斯潜在语义模型1.7 半监督文本挖掘算法,2022/12/20,3,1.1 概 述,贝叶斯网络是用来表示变量间连接概率的图形模式,它提供了一种自然的表示因果信息的方法,用来发现数据间的潜在关系。在这个网络中,用节点表示变量,有向边表示变量间的依赖关系。贝叶斯方法以其独特的不确定性知识表达形式、丰富的概率表达能力、综合先验知识的增量学习特性等成为当前数据挖掘众多方法中最为引人注目的焦点之一
2、。,2022/12/20,4,1.1 概 述,1.1.1 贝叶斯网络的发展历史贝叶斯(Reverend Thomas Bayes, 1702-1761)学派奠基性的工作是贝叶斯的论文“关于几率性问题求解的评论”。或许是他自己感觉到它的学说还有不完善的地方,这一论文在他生前并没有发表,而是在他死后,由他的朋友发表的。著名的数学家拉普拉斯 (Laplace P. S.)用贝叶斯的方法导出了重要的“相继律”,贝叶斯的方法和理论逐渐被人理解和重视起来。但由于当时贝叶斯方法在理论和实际应用中还存在很多不完善的地方,因而在十九世纪并未被普遍接受。,2022/12/20,5,1.1 概 述,1.1.1 贝叶
3、斯网络的发展历史二十世纪初,意大利的菲纳特(B. de Finetti)以及英国的杰弗莱(Jeffreys H.)都对贝叶斯学派的理论作出重要的贡献。第二次世界大战后,瓦尔德(Wald A.)提出了统计的决策理论,在这一理论中,贝叶斯解占有重要的地位;信息论的发展也对贝叶斯学派做出了新的贡献。1958年英国最悠久的统计杂志Biometrika全文重新刊登了贝叶斯的论文,20世纪50年代,以罗宾斯(Robbins H.)为代表,提出了经验贝叶斯方法和经典方法相结合,引起统计界的广泛注意,这一方法很快就显示出它的优点,成为很活跃的一个方向。,2022/12/20,6,1.1 概 述,1.1.1 贝
4、叶斯网络的发展历史随着人工智能的发展,尤其是机器学习、数据挖掘等兴起,为贝叶斯理论的发展和应用提供了更为广阔的空间。贝叶斯理论的内涵也比以前有了很大的变化。80年代贝叶斯网络用于专家系统的知识表示,90年代进一步研究可学习的贝叶斯网络,用于数据采掘和机器学习。近年来,贝叶斯学习理论方面的文章更是层出不穷,内容涵盖了人工智能的大部分领域,包括因果推理、不确定性知识表达、模式识别和聚类分析等。并且出现了专门研究贝叶斯理论的组织和学术刊物International Society Bayesian Analysis。,2022/12/20,7,1.1 概 述,1.1.2 贝叶斯方法的基本观点贝叶斯分
5、析方法的特点是用概率去表示所有形式的不确定性,学习或其它形式的推理都用概率规则来实现。贝叶斯学习的结果表示为随机变量的概率分布,它可以解释为我们对不同可能性的信任程度。贝叶斯学派的起点是贝叶斯的两项工作:贝叶斯定理和贝叶斯假设。贝叶斯定理将事件的先验概率与后验概率联系起来。,2022/12/20,8,1.1 概 述,1.1.2 贝叶斯方法的基本观点 假定随机向量x,的联合分布密度是p(x, ),它们的边际密度分别为p(x)、p()。一般情况下设x是观测向量, 是未知参数向量,通过观测向量获得未知参数向量的估计,贝叶斯定理记作:,() 是的先验分布 (1.1),2022/12/20,9,1.1
6、概 述,1.1.2 贝叶斯方法的基本观点 贝叶斯方法对未知参数向量估计的一般过程为: 将未知参数看成随机向量,这是贝叶斯方法与传统的参数估计方法的最大区别。 根据以往对参数的知识,确定先验分布() ,它是贝叶斯方法容易引起争议的一步,因此而受到经典统计界的攻击。 计算后验分布密度,做出对未知参数的推断。 在第步,如果没有任何以往的知识来帮助确定() ,贝叶斯提出可以采用均匀分布作为其分布,即参数在它的变化范围内,取到各个值的机会是相同的,称这个假定为贝叶斯假设。,2022/12/20,10,1.1 概 述,1.1.3 贝叶斯网络的应用领域,辅助智能决策 数据融合 模式识别 医疗诊断 文本理解
7、数据挖掘,1. 贝叶斯方法用于分类及回归分析2. 用于因果推理和不确定知识表达3. 用于聚类模式发现,2022/12/20,11,1.2 贝叶斯概率基础,1.2.1 概率论基础 概率论是研究随机现象规律性的数学。随机现象是指在相同的条件下,其出现的结果是不确定的现象。随机现象又可分为个别随机现象和大量的随机现象。对大量的随机现象进行观察所得到的规律性,被人们称为统计规律性。 在统计上,我们习惯把一次对现象的观察、登记或实验叫做一次试验。随机性实验是指对随机现象的观察。随机试验在完全相同的条件下,可能出现不同的结果,但所有可能结果的范围是可以估计的,即随机试验的结果具有不确定性和可预计性。在统计
8、上,一般把随机实验的结果,即随机现象的具体表现称为随机事件,简称事件。 随机事件是指试验中可能出现,也可能不出现的结果。,2022/12/20,12,1.2 贝叶斯概率基础,1.2.1 概率论基础 定义1.1 统计概率 若在大量重复试验中,事件A发生的频率稳定地接近于一个固定的常数p,它表明事件A出现的可能性大小,则称此常数p为事件A发生的概率,记为P(A), 即 pP(A) (1.2)可见概率就是频率的稳定中心。任何事件A的概率为不大于1的非负实数,即0P(A)1,2022/12/20,13,1.2 贝叶斯概率基础,定义1.2 古典概率 我们设一种次试验有且仅有有限的N个可能结果,即N个基本
9、事件,而A事件包含着K个可能结果,则称K/N为事件A的概率,记为P(A)。即P(A)K/N 定义1.3 几何概率 假设是几何型随机试验的基本事件空间,F是中一切可测集的集合,则对于F中的任意事件A的概率P(A)为A与的体积之比,即 P(A)V(A)/V() (1.3),2022/12/20,14,1.2 贝叶斯概率基础,定义1.4 条件概率 我们把事件B已经出现的条件下,事件A发生的概率记做为P(A|B)。并称为在B出现的条件下A出现的条件概率,而称P(A)为无条件概率。 若事件A与B中的任一个出现,并不影响另一事件出现的概率,即当P(A)P(AB)或P(B)P(BA)时,则称A与B是相互独立
10、的事件。,2022/12/20,15,1.2 贝叶斯概率基础,定理1.1 加法定理 两个不相容(互斥)事件之和的概率,等于两个事件概率之和,即P(A+B)P(A)P(B) 两个互逆事件A和A-1的概率之和为1。即当A+A-1,且A与A-1互斥,则P(A)P(A-1) 1,或常有P(A) 1P(A-1) 。 若A、B为两任意事件,则P(A+B)P(A)P(B)P(AB),2022/12/20,16,1.2 贝叶斯概率基础,定理1.2 乘法定理 设A、B为两个不相容(互斥)非零事件,则其乘积的概率等于A和B概率的乘积,即P(AB)P(A)P(B) 或 P(AB)P(B) P(A) 设A、B为两个任
11、意的非零事件,则其乘积的概率等于A(或B)的概率与在A(或B)出现的条件下B(或A)出现的条件概率的乘积。P(AB)P(A)P(B|A) 或 P(AB)P(B)P(A|B),2022/12/20,17,1.2 贝叶斯概率基础,1.2.2 贝叶斯概率 (1) 先验概率。先验概率是指根据历史的资料或主观判断所确定的各事件发生的概率,该类概率没能经过实验证实,属于检验前的概率,所以称之为先验概率。先验概率一般分为两类,一是客观先验概率,是指利用过去的历史资料计算得到的概率;二是主观先验概率,是指在无历史资料或历史资料不全的时候,只能凭借人们的主观经验来判断取得的概率。,2022/12/20,18,1
12、.2 贝叶斯概率基础,(2) 后验概率。后验概率一般是指利用贝叶斯公式,结合调查等方式获取了新的附加信息,对先验概率进行修正后得到的更符合实际的概率。,(3) 联合概率。联合概率也叫乘法公式,是指两个任意事件的乘积的概率,或称之为交事件的概率。,2022/12/20,19,1.2 贝叶斯概率基础,(4)全概率公式。设B1,B2,Bn是两两互斥的事件,且P(Bi)0,i =1,2,n,B1+B2+,+Bn=。,另有一事件A= AB1+AB2+,+ABn,称满足上述条件的B1,B2,Bn为完备事件组。,A,1.2 贝叶斯概率基础,由此可以形象地把全概率公式看成为“由原因推结果”,每个原因对结果的发
13、生有一定的“作用”,即结果发生的可能性与各种原因的“作用”大小有关。全概率公式表达了它们之间的关系。,诸Bi是原因A是结果,B1,B2,B3,B4,B5,B6,B7,B8,A,1.2 贝叶斯概率基础,该公式于1763年由贝叶斯(Bayes)给出。它是在观察到事件A已发生的条件下,寻找导致A发生的每个原因的概率。,(5)贝叶斯公式。贝叶斯公式也叫后验概率公式,亦叫逆概率公式,其用途很广。设先验概率为P(Bi),调查所获的新附加信息为P(Aj|Bi) (i=1,2,n; j=1,2,m), 则贝叶斯公式计算的后验概率为,(1.5),2022/12/20,22,贝叶斯规则,基于条件概率的定义p(Ai
14、|E) 是在给定证据下的后验概率p(Ai) 是先验概率P(E|Ai) 是在给定Ai下的证据似然p(E) 是证据的预定义后验概率,A1,A2,A3,A4,A5,A6,E,2022/12/20,23,贝叶斯网络的概率解释,任何完整的概率模型必须具有表示(直接或间接)该领域变量联合分布的能力。完全的枚举需要指数级的规模(相对于领域变量个数)贝叶斯网络提供了这种联合概率分布的紧凑表示:分解联合分布为几个局部分布的乘积: 从公式可以看出,需要的参数个数随网络中节点个数呈线性增长,而联合分布的计算呈指数增长。网络中变量间独立性的指定是实现紧凑表示的关键。这种独立性关系在通过人类专家构造贝叶斯网中特别有效。
15、,2022/12/20,24,1.4 简单贝叶斯学习模型,简单贝叶斯(nave Bayes或simple Bayes)学习模型将训练实例I分解成特征向量X和决策类别变量C。简单贝叶斯模型假定特征向量的各分量间相对于决策变量是相对独立的,也就是说各分量独立地作用于决策变量。尽管这一假定一定程度上限制了简单贝叶斯模型的适用范围,然而在实际应用中,不仅以指数级降低了贝叶斯网络构建的复杂性,而且在许多领域,在违背这种假定的条件下,简单贝叶斯也表现出相当的健壮性和高效性,它已经成功地应用到分类、聚类及模型选择等数据挖掘的任务中。目前,许多研究人员正致力于改善特征变量间独立性的限制,以使它适用于更大的范围
16、。,2022/12/20,史忠植 高级人工智能,25,简单贝叶斯 Nave Bayesian,结构简单只有两层结构推理复杂性与网络节点个数呈线性关系,2022/12/20,26,设样本A表示成属性向量,如果属性对于给定的类别独立,那么P(A|Ci)可以分解成几个分量的积:,ai是样本A的第i个属性,1.4 简单贝叶斯学习模型,2022/12/20,27,简单贝叶斯分类模型,这个过程称之为简单贝叶斯分类 (SBC: Simple Bayesian Classifier)。一般认为,只有在独立性假定成立的时候,SBC才能获得精度最优的分类效率;或者在属性相关性较小的情况下,能获得近似最优的分类效果
17、。,1.4 简单贝叶斯学习模型,1.4.1 简单贝叶斯学习模型的介绍,2022/12/20,28,1.4.2 简单贝叶斯模型的提升 提升方法(Boosting)总的思想是学习一系列分类器,在这个序列中每一个分类器对它前一个分类器导致的错误分类例子给与更大的重视。尤其是在学习完分类器Hk之后,增加了由Hk导致分类错误的训练例子的权值,并且通过重新对训练例子计算权值,再学习下一个分类器Hk+1。这个过程重复T次。最终的分类器从这一系列的分类器中综合得出。,1.4 简单贝叶斯学习模型,2022/12/20,29,1.5 贝叶斯网络的建造,1.5.1 贝叶斯网络的建构及建立方法 贝叶斯网络是表示变量间
18、概率依赖关系的有向无环图,这里每个节点表示领域变量,每条边表示变量间的概率依赖关系,同时对每个节点都对应着一个条件概率分布表(CPT) ,指明了该变量与父节点之间概率依赖的数量关系。,2022/12/20,30,贝叶斯网的表示方法,= P(A) P(S) P(T|A) P(L|S) P(B|S) P(C|T,L) P(D|T,L,B),P(A, S, T, L, B, C, D),贝叶斯网络是表示变量间概率依赖关系的有向无环图,2022/12/20,31,Boosting背景,来源于:PAC-Learning Model Valiant 1984 -11提出问题:强学习算法: 准确率很高的学习
19、算法弱学习算法: 准确率不高,仅比随机猜测略好是否可以将弱学习算法提升为强学习算法,2022/12/20,32,Boosting背景,最初的boosting算法 Schapire 1989AdaBoost算法 Freund and Schapire 1995,2022/12/20,33,Boostingconcepts(3),弱学习机(weak learner): 对一定分布的训练样本给出假设(仅仅强于随机猜测)根据有云猜测可能会下雨强学习机(strong learner): 根据得到的弱学习机和相应的权重给出假设(最大程度上符合实际情况:almost perfect expert)根据CNN
20、,ABC,CBS以往的预测表现及实际天气情况作出综合准确的天气预测弱学习机 强学习机,2022/12/20,34,Boosting流程(loop1),强学习机,弱学习机,原始训练集,加权后的训练集,加权后的假设,X1?1:-1,弱假设,2022/12/20,35,Boosting流程(loop2),强学习机,弱学习机,原始训练集,加权后的训练集,加权后的假设,Y3?1:-1,弱假设,2022/12/20,36,Boosting流程(loop3),强学习机,弱学习机,原始训练集,加权后的训练集,加权后的假设,Z7?1:-1,弱假设,2022/12/20,37,Boosting,过程:在一定的权重
21、条件下训练数据,得出分类法Ct根据Ct的错误率调整权重,Set of weightedinstances,Classifier Ct,train classifier,adjust weights,2022/12/20,38,流程描述,Step1: 原始训练集输入,带有原始分布Step2: 给出训练集中各样本的权重Step3: 将改变分布后的训练集输入已知的弱学习机,弱学习机对每个样本给出假设Step4: 对此次的弱学习机给出权重Step5: 转到Step2, 直到循环到达一定次数或者某度量标准符合要求Step6: 将弱学习机按其相应的权重加权组合形成强学习机,2022/12/20,39,核心
22、思想,样本的权重没有先验知识的情况下,初始的分布应为等概分布,也就是训练集如果有N个样本,每个样本的分布概率为1/N每次循环一后提高错误样本的分布概率,分错样本在训练集中所占权重增大, 使得下一次循环的弱学习机能够集中力量对这些错误样本进行判断。弱学习机的权重准确率越高的弱学习机权重越高循环控制:损失函数达到最小在强学习机的组合中增加一个加权的弱学习机,使准确率提高,损失函数值减小。,2022/12/20,40,简单问题演示(Boosting训练过程),2022/12/20,史忠植 高级人工智能,41,算法问题描述,训练集 (x1,y1), (x2,y2), (xN,yN) xi Rm, yi
23、 -1,+1Dt 为第t次循环时的训练样本分布(每个样本在训练集中所占的概率, Dt总和应该为1)ht:X-1,+1 为第t次循环时的Weak learner,对每个样本给出相应的假设,应该满足强于随机猜测:wt为ht的权重 为t次循环得到的Strong learner,2022/12/20,42,算法样本权重,思想:提高分错样本的权重 反映了strong learner对样本的假设是否正确采用什么样的函数形式?,2022/12/20,43,算法弱学习机权重,思想:错误率越低,该学习机的权重应该越大 为学习机的错误概率采用什么样的函数形式? 和指数函数遥相呼应:,2022/12/20,44,算
24、法-Adaboost,2022/12/20,45,AdaBoost.M1,初始赋予每个样本相等的权重1/N ;For t = 1, 2, , T Do 学习得到分类法Ct;计算该分类法的错误率Et Et=所有被错误分类的样本的权重和;t= Et/(1 - Et)根据错误率更新样本的权重; 正确分类的样本: Wnew= Wold* t 错误分类的样本: Wnew= Wold调整使得权重和为1;每个分类法Ct的投票价值为log 1 / t ,2022/12/20,46,AdaBoost Training Error,将t=1/2-Et ;Freund and Schapire 证明: 最大错误率为
25、:即训练错误率随t的增大呈指数级的减小.,2022/12/20,47,AdaBoost Generalization Error(1),最大总误差:m : 样本个数d : VC维T : 训练轮数Pr: 对训练集的经验概率如果T值太大,Boosting会导致过适应(overfit),2022/12/20,史忠植 高级人工智能,48,AdaBoost Generalization Error(2),许多的试验表明: Boosting不会导致overfit,2022/12/20,49,AdaBoost Generalization Error(3),解释以上试验现象;样本(X,Y)的margin:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第06章 贝叶斯网络课件 06 贝叶斯 网络 课件
链接地址:https://www.31ppt.com/p-1824886.html