《条件随机场》PPT课件.ppt
《《条件随机场》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《条件随机场》PPT课件.ppt(85页珍藏版)》请在三一办公上搜索。
1、条件随机场conditional random fields,条件随机场模型是Lafferty于2001年,在最大熵模型和隐马尔科夫模型的基础上,提出的一种判别式概率无向图学习模型,是一种用于标注和切分有序数据的条件概率模型。,条件随机场概述,CRF最早是针对序列数据分析提出的,现已成功应用于自然语言处理(Natural Language Processing,NLP)、生物信息学、机器视觉及网络智能等领域。,序列标注,标注:人名 地名 组织名,观察序列:毛泽东,标注:名词 动词 助词 形容词 副词,观察序列:今天天气非常好!,实体命名识别,汉语词性标注,四、隐马尔可夫模型(Hidden Ma
2、rkov Model,HMM),一、产生式模型和判别式模型(Generative model vs.Discriminative model),二、概率图模型(Graphical Models),五、最大熵模型(Maximum Entropy Model,MEM),七、条件随机场(conditional random fields,CRF),三、朴素贝叶斯分类器(Naive Bayes Classier),六、最大熵马尔可夫模型(MEMM),一、产生式模型和判别式模型(Generative model vs.Discriminative model),产生式模型:构建o和s的联合分布p(s,o
3、),因可以根据联合概率来生成样本,如HMM,BNs,MRF。,产生式模型:无穷样本=概率密度模型=产生模型=预测判别式模型:有限样本=判别函数=预测模型=预测,判别式模型:构建o和s的条件分布p(s|o),因为没有s的知识,无法生成样本,只能判断分类,如SVM,CRF,MEMM。,o和s分别代表观察序列和标记序列,一个举例:,(1,0),(1,0),(2,0),(2,1),产生式模型:P(x,y):P(1,0)=1/2,P(1,1)=0,P(2,0)=1/4,P(2,1)=1/4.,判别式模型:P(y|x):P(0|1)=1,P(1|1)=0,P(0|2)=1/2,P(1|2)=1/2,两种模
4、型比较:,Generative model:从统计的角度表示数据的分布情况,能够反映同类数据本身的相似度,不关心判别边界。,优点:实际上带的信息要比判别模型丰富,研究单类问题比判别模型灵活性强能更充分的利用先验知识模型可以通过增量学习得到,缺点:学习过程比较复杂在目标分类问题中易产生较大的错误率,Discriminative model:寻找不同类别之间的最优分类面,反映的是异类数据之间的差异。,优点:分类边界更灵活,比使用纯概率方法或生产模型得到的更高级。能清晰的分辨出多类或某一类与其他类之间的差异特征在聚类、viewpoint changes,partial occlusion and s
5、cale variations中的效果较好适用于较多类别的识别,缺点:不能反映训练数据本身的特性。能力有限,可以告诉你的是1还是2,但没有办法把整个场景描述出来。,二者关系:由生成模型可以得到判别模型,但由判别模型得不到生成模型。,二、概率图模型(Graphical Models),顶点/节点,表示随机变量,边/弧,两个节点邻接:两个节点之间存在边,记为,不存在边,表示条件独立,路径:若对每个i,都有,则称序列 为一条路径,概率图模型:是一类用图的形式表示随机变量之间条件依赖关系的概率模型,,是概率论与图论的结合。图中的节点表示随机变量,缺少边表示条件独立假设。,根据图中边有无方向,常用的概率
6、图模型分为两类:,有向图:最基本的是贝叶斯网络(Bayesian Networks,BNs),举例,有向图模型的联合概率分解,每个节点的条件概率分布表示为:,P(当前节点|它的父节点),联合分布:,无向图:马尔可夫随机场(Markov Random Fields,MRF),马尔可夫随机场模型中包含了一组具有马尔可夫性质的随机变量,这些变量之间的关系用无向图来表示,马尔科夫性:,举例,团(clique):任何一个全连通(任意两个顶点间都有边相连)的子图最大团(maximal clique):不能被其它团所包含的团,例如右图的团有C1=X1,X2,X3和C2=X2,X3,X4,无向图模型的联合概率
7、分解,势函数(potential function),是关于 上 随机变量的函数,设x是一个类别未知的数据样本,Y为类别集合,若数据样本x属于一个特定的类别yj,那么分类问题就是决定P(yj|x),即在获得数据样本x时,确定x的最佳分类。所谓最佳分类,一种办法是把它定义为在给定数据集中不同类别yj先验概率的条件下最可能的分类。贝叶斯理论提供了计算这种可能性的一种直接方法。,三、朴素贝叶斯分类器(Naive Bayes Classier),如果没有这一先验知识,那么可以简单地将每一候选类别赋予相同的先验概率。不过通常我们可以用样例中属于yj的样例数|yj|比上总样例数|D|来近似,即,P(yj)
8、代表还没有训练数据前,yj拥有的初始概率。P(yj)常被称为yj的先验概率(prior probability),它反映了我们所拥有的关于yj是正确分类机会的背景知识,它应该是独立于样本的。,是联合概率,指当已知类别为yj的条件下,看到样本x出现的概率。,若设,则,条件独立性:,在给定随机变量C时,a,b条件独立。,假定:在给定目标值 yj 时,x的属性值之间相互条件独立。,P(yj|x)被称为Y的后验概率(posterior probability),因为它反映了在看到数据样本x后yj成立的置信度。,是后验概率,即给定数据样本x时yj成立的概率,而这正是我们所感兴趣的。,后验概率,基本假设,
9、朴素贝叶斯分类器的概率图表示,隐马尔可夫模型的概率图表示,三、隐马尔可夫模型(Hidden Markov Model,HMM),马尔可夫模型:是一个三元组=(S,A)其中 S是状态的集合,是初始状态的概率,A是状态间的转移概率。,一阶马尔可夫链,晴 云 雨,一阶马尔可夫模型的例子,问题:假设今天是晴天,请问未来三天的天气呈现云雨晴的概率是多少?,隐马尔可夫模型(HMM),HMM是一个五元组=(Y,X,A,B),其中 Y是隐状态(输出变量)的集合,)X是观察值(输入)集合,是初始状态的概率,A是状态转移概率矩阵,B是输出观察值概率矩阵。,HMM实例,实验进行方式如下:根据初始概率分布,随机选择N
10、个缸中的一个开始实验根据缸中球颜色的概率分布,随机选择一个球,记球的颜色为x1,并把球放回缸中根据缸的转移概率分布,随机选择下一口缸,重复以上步骤。,最后得到一个描述球的颜色的序列x1,x2,称为观察值序列X。,问题2:给定观察序列 以及模型,如何选择一个对应的状态序列,使得Y能够最为合理的解释观察序列X?,问题1:给定观察序列 以及模型,计算,问题3:给定观察序列,调整模型参数,使 最大?,评价问题,解码问题,参数学习问题,基本算法:,问题1:给定观察序列 以及模型,计算,终结:,递归:,定义前向变量:,初始化:,前向算法:,前向算法举例:,前向法示意图,后向法,定义后向变量,终结:,递归:
11、,初始化:,问题2:给定观察序列 以及模型,如何选择一个对应的状态序列,使得Y能够最为合理的解释观察序列X?,定义:,要找的就是T时刻 所代表的那个状态序列,Viterbi 算法:,Viterbi 算法:,初始化,递归,结束,得到最优路径,Viterbi 算法举例:,思想:给定一个模型和输出字符序列,任意设定初始参数值,通过不断循环更新参数的方法,设法达到最优。Baum 1970,算法步骤:,2.基于 0 以及观察值序列X,训练新模型;,1.初始模型(待训练模型)0,3.如果 logP(X|)-log(P(X|0)Delta,说明训练已经达到预期效果,算法结束。,4.否则,令 0,继续第2步工
12、作,问题3:给定观察序列,调整模型参数,使 最大?,Baum-Welch算法,定义:,重新估计,该算法又称为向前向后算法(Forward-backward algorithm)经常得到局部最优解,HMMs等生产式模型存在的问题:,1.由于生成模型定义的是联合概率,必须列举所有观察序列的可能值,这对多数领域来说是比较困难的。,2.基于观察序列中的每个元素都相互条件独立。即在任何时刻观察值仅仅与状态(即要标注的标签)有关。对于简单的数据集,这个假设倒是合理。但大多数现实世界中的真实观察序列是由多个相互作用的特征和观察序列中较长范围内的元素之间的依赖而形成的。,四、最大熵模型(Maximum Ent
13、ropy Model,MEM),最大熵的原理认为,从不完整的信息(例如有限数量的训练数据)推导出的唯一合理的概率分布应该在满足这些信息提供的约束条件下拥有最大熵值。求解这样的分布是一个典型的约束优化问题。,最大熵模型主要是在已有的一些限制条件下估计未知的概率分布。,熵的计算公式:,熵的性质:,其中X在离散分布时是随机变量的个数;,当X为确定值,即没有变化的可能时,左边等式成立;,可以证明,当X服从均匀分布时,右边等式成立,即均匀分布时熵最大。,定义条件熵,模型目的,定义特征函数,约束条件,(1),(2),该条件约束优化问题的Lagrange函数,最大熵模型:,最大熵模型的概率图,2 不同之处无
14、向图模型因子是势函数,需要全局归一有向图模型因子是概率分布、无需全局归一,有向图模型和无向图模型的对比,1 共同之处将复杂的联合分布分解为多个因子的乘积,3 优缺点无向图模型中势函数设计不受概率分布约束,设计灵活,但全局归一代价高有向图模型无需全局归一、训练相对高效,HMMs,MEMs,?,NBs,MEMM:用一个P(yi|yi-1,xi)分布来替代HMM中的两个条件概率分布,它表示从先前状态,在观察值下得到当前状态的概率,即根据前一状态和当前观察预测当前状态。每个这样的分布函数都是一个服从最大熵的指数模型。,HMM:状态集合Y,观察值集合X,两个状态转移概率:从yi-1到yi的条件概率分布P
15、(yi|yi-1),状态yi的输出观察值概率P(xi|yi),初始概率P0(y).,六、最大熵马尔可夫模型(MEMM),参数学习,目的:通过学习a使得MEMM中的每个转换函数达到最大熵。,GIS(Generalized Iterative Scaling)算法,编码问题,Viterbi算法的思想,MEMM存在的问题:标记偏见(Label Bias Problem)问题,HMMs,MEMs,linear-chain CRF,NBs,五、条件随机场(conditional random fields,CRF),简单地讲,随机场可以看成是一组随机变量的集合(这组随机变量对应同一个样本空间)。当给每一
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 条件随机场 条件 随机 PPT 课件
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-5584607.html