统计自然语言处理基础.ppt
《统计自然语言处理基础.ppt》由会员分享,可在线阅读,更多相关《统计自然语言处理基础.ppt(56页珍藏版)》请在三一办公上搜索。
1、1,统计自然语言处理基础,第14章 聚类王建华2007-09-07,2,提纲,聚类概述用途种类“软”聚类,”硬”聚类层级聚类单连通、全连通平均连通自顶向下聚类非层级聚类K平均算法EM算法,3,提纲,聚类概述用途种类“软”聚类,”硬”聚类层级聚类单连通、全连通平均连通自顶向下聚类非层级聚类K平均算法EM算法,4,聚类概述,聚类算法的目标:是将一组对象划分成若干组或类别,简单地说就是相似元素同组、相异元素不同组的划分过程。定义:聚类是一个无指导的学习过程,它是指根据样本之间的某种距离在无监督条件下的聚簇过程。,5,6,聚类概述,用途:在统计自然语言处理中,聚类算法有两个重要的用途:1.用于试探性数
2、据分析2.概念一般化,7,聚类概述,用途:1.用于试探性数据分析当我们面临一个新问题,并且希望建立一个概率模型或者仅仅是为了理解现象的基本特性时,这是一个首要步骤。对于不懂英语的人也能通过下面的聚类树图对英文的词性有大致的了解。,8,9,聚类概述,用途:2.概念一般化以法英翻译为例,Friday前的介词未知,进行推断。已有的英文数据:on Sunday,on Monday,on Thursday.按照语法和语义聚类,Sunday,Monday,Thursday就会被聚到一类,因为它们有相同的上下文模式。Until day-of-the-week,last day-of-the-week,day
3、-of-the-week morning同类中的元素具有互换性,因此可以推断on Friday的正确性。,10,聚类概述,聚类算法与分类算法的区别:分类算法是一个有监督的学习过程,它需要对标注数据集合进行训练;聚类算法则不需要”教师”的指导,不需要提供训练数据,倾向于数据的自然划分,因此被称为无监督的学习或者自动学习.,11,聚类概述,聚类算法的分类:聚类算法可分为两大类:层级聚类非层级聚类,12,聚类概述,层级聚类每个结点都是父类的一个类;聚类可以表示成为树图的形式。,非层级聚类类别结构简单;类别之间的关系没有前者清晰;是一个迭代过程:初始聚类分配样本数据,13,聚类概述,聚类算法的分类:按
4、照聚类方法不同划分:“硬”聚类;每个样本只能属于一个聚类集合;“软”聚类;一个对象可以同时属于几个聚类集合,但是属于各个类别的概率不同;,14,聚类概述,“硬”聚类例:前面的单连通聚类树图所示的聚类。层级聚类通常都是“硬”聚类;,“软”聚类评估单词和某个主题的相关程度时,它体现出来优势。例:inning和score都是sport类的别中的单词,但是它们的概率分别是0.93和0.65,score属于government的概率为0.12,说明score还和其他类别有关。,15,提纲,聚类概述用途种类“软”聚类,”硬”聚类层级聚类单连通、全连通平均连通自顶向下聚类非层级聚类K平均算法EM算法,16,
5、层级聚类,层级聚类算法分为“自底向上”和“自顶向下”两种:“自底向上”:开始时每个对象都被作为一个类别,然后合并两个最相似的类别,直到只存在一个类别为止。“自顶向下”:开始时全体对象作为一个类别,然后每次迭代分割内聚度最小的类别集合,直到每个类别中只有一个对象。在这两类算法中,都要用到相似度函数,17,层级聚类,“自底向上”算法(3、4)将每个对象初始化为一个类别;(8)判断最相似的两个聚类;(9)将选出的最相似的聚类进行合并。,18,层级聚类,“自顶向下”(4)所有样本做为一个类别;(7)选择最小内聚度的类别;(8)分割最小内聚度的类别集合。,19,层级聚类,三种相似度函数的大概计算原则单连
6、通聚类:两个集合间最相似样本之间的相似度;有好的局部一致性;,20,单连通聚类,21,层级聚类,三种相似度函数的大概计算原则单连通聚类:两个集合间最相似样本之间的相似度;有好的局部一致性;和最小生成树的方法很类似;,22,层级聚类,三种相似度函数的大概计算原则全连通聚类两个集合间最不相似样本之间的相似度;考虑到了全局因素,避免了单连通算法中“拉长”区域的产生;,23,单连通聚类,24,层级聚类,三种相似度函数的大概计算原则全连通聚类两个集合间最不相似样本之间的相似度;考虑到了全局因素,避免了单连通算法中“拉长”区域的产生;假定“内部紧密”比“内部松散”聚类效果好;例外:夏威夷岛火山;比较而言,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 自然语言 处理 基础
链接地址:https://www.31ppt.com/p-5442033.html