基于《知网》的词汇语义相似度计算.doc
《基于《知网》的词汇语义相似度计算.doc》由会员分享,可在线阅读,更多相关《基于《知网》的词汇语义相似度计算.doc(13页珍藏版)》请在三一办公上搜索。
1、基于知网的词汇语义相似度计算 本项研究受国家重点基础研究计划(973)支持,项目编号是G1998030507-4和G1998030510。刘群 李素建liuqun,lisujian 中国科学院计算技术研究所 北京大学计算语言学研究所摘要:知网是一部比较详尽的语义知识词典。在基于实例的机器翻译中,词语相似度计算是一个重要的环节。不过,由于知网中对于一个词的语义采用的是一种多维的知识表示形式,这给词语相似度的计算带来了麻烦。这一点与WordNet和同义词词林不同。在WordNet和同义词词林中,所有同类的语义项(WordNet的synset或同义词词林的词群)构成一个树状结构,要计算语义项之间的距
2、离,只要计算树状结构中相应结点的距离即可。而在知网中词语相似度的计算存在以下问题:1 每一个词的语义描述由多个义原组成,例如“暗箱”一词的语义描述为:part|部件,%tool|用具,body|身,“写信”一词的语义描述为:#TakePicture|拍摄write|写,ContentProduct=letter|信件;2 词语的语义描述中各个义原并不是平等的,它们之间有着复杂的关系,通过一种专门的知识描述语言来表示。我们的工作主要包括:1 研究知网中知识描述语言的语法,了解其描述一个词义所用的多个义原之间的关系,区分其在词语相似度计算中所起的作用;2 提出利用知网进行词语相似度计算的算法;3
3、通过实验验证该算法的有效性,并与其他算法进行比较。关键词:知网 词汇语义相似度计算 自然语言处理1 引言在基于实例的机器翻译中,词语相似度的计算有着重要的作用。例如要翻译“张三写的小说”这个短语,通过语料库检索得到译例:1)李四写的小说the novel written by Li Si2)去年写的小说the novel written last year通过相似度计算我们发现,“张三”和“李四”都是具体的人,语义上非常相似,而“去年”的语义是时间,和“张三”相似度较低,因此我们选用“李四写的小说”这个实例进行类比翻译,就可以得到正确的译文:the novel written by Zhang
4、 San如果选用后者作为实例,那么得到的错误译文将是:* the novel written Zhang San通过这个例子可以看出相似度计算在基于实例的机器翻译中所起的作用。在基于实例的翻译中另一个重要的工作是双语对齐。在双语对齐过程中要用到两种语言词语的相似度计算,这不在本文所考虑的范围之内。除了基于实例的机器翻译之外,词语相似度计算在信息检索、信息抽取、词义排歧等领域都有着广泛的应用。2 词语相似度及其计算的方法2.1 什么是词语相似度什么是词语相似度?我们认为,词语相似度是一个主观性相当强的概念。脱离具体的应用去谈论词语相似度,很难得到一个统一的定义。因为词语之间的关系非常复杂,其相似
5、或差异之处很难用一个简单的数值来进行度量。从某一角度看非常相似的词语,从另一个角度看,很可能差异非常大。不过,在具体的应用中,词语相似度的含义可能就比较明确了。例如,在基于实例的机器翻译中,词语相似度主要用于衡量文本中词语的可替换程度;而在信息检索中,相似度更多的要反映文本或者用户查询在意义上的符合程度。本文的研究主要以基于实例的机器翻译为背景,因此在本文中我们所理解的词语相似度就是两个词语在不同的上下文中可以互相替换使用而不改变文本的句法语义结构的程度。两个词语,如果在不同的上下文中可以互相替换且不改变文本的句法语义结构的可能性越大,二者的相似度就越高,否则相似度就越低。相似度是一个数值,一
6、般取值范围在0,1之间。一个词语与其本身的语义相似度为1。如果两个词语在任何上下文中都不可替换,那么其相似度为0。相似度这个概念,涉及到词语的词法、句法、语义甚至语用等方方面面的特点。其中,对词语相似度影响最大的应该是词的语义。2.2 词语相似度与词语距离度量两个词语关系的另一个重要指标是词语的距离。一般而言,词语距离是一个0,)之间的实数。一个词语与其本身的距离为0。词语距离与词语相似度之间有着密切的关系。两个词语的距离越大,其相似度越低;反之,两个词语的距离越小,其相似度越大。二者之间可以建立一种简单的对应关系。这种对应关系需要满足以下几个条件:1) 两个词语距离为0时,其相似度为1;2)
7、 两个词语距离为无穷大时,其相似度为0;3) 两个词语的距离越大,其相似度越小(单调下降)。对于两个词语W1和W2,我们记其相似度为Sim(W1,W2),其词语距离为Dis(W1,W2),那么我们可以定义一个满足以上条件的简单的转换关系: (1)其中是一个可调节的参数。的含义是:当相似度为0.5时的词语距离值。这种转换关系并不是唯一的,我们这里只是给出了其中的一种可能。在很多情况下,直接计算词语的相似度比较困难,通常可以先计算词语的距离,然后再转换成词语的相似度。所以在本文后面的有些章节,我们只谈论词语的距离,而没有提及词语的相似度,读者应该知道这二者是可以互相转换的。2.3 词语相似度与词语
8、相关性度量两个词语关系的另一个重要指标是词语的相关性。词语相关性反映的是两个词语互相关联的程度。可以用这两个词语在同一个语境中共现的可能性来衡量。词语相关性也是一个0,1之间的实数。词语相关性和词语相似性是两个不同的概念。例如“医生”和“疾病”两个词语,其相似性非常低,而相关性却很高。可以这么认为,词语相似性反映的是词语之间的聚合特点,而词语相关性反映的是词语之间的组合特点。同时,词语相关性和词语相似性又有着密切的联系。如果两个词语非常相似,那么这两个词语与其他词语的相关性也会非常接近。反之,如果两个词语与其他词语的相关性特点很接近,那么这两个词一般相似程度也很高。2.4 词语相似度的计算方法
9、词语距离有两类常见的计算方法,一种是根据某种世界知识(Ontology)来计算,一种利用大规模的语料库进行统计。OLBAala b01 02. 01 01 0101 02. 01 . 01 01 01 0201.01 01 01 .虚线用于标识某上层节点到下层节点的路径根据世界知识(Ontology)计算词语语义距离的方法,一般是利用一部同义词词典(Thesaurus)。一般同义词词典都是将所有的词组织在一棵或几棵树状的层次结构中。我们知道,在一棵树形图中,任何两个结点之间有且只有一条路径。于是,这条路径的长度就可以作为这两个概念的语义距离的一种度量。图1 同义词词林语义分类树形图王斌(199
10、9)采用这种方法利用同义词词林来计算汉语词语之间的相似度(如图1所示)。有些研究者考虑的情况更复杂。Agirre & Rigau (1995)在利用Wordnet计算词语的语义相似度时,除了结点间的路径长度外,还考虑到了其他一些因素。例如:1) 概念层次树的深度:路径长度相同的两个结点,如果位于概念层次的越底层,其语义距离较大;比如说:“动物”和“植物”、“哺乳动物”和“爬行动物”,这两对概念间的路径长度都是2,但前一对词处于语义树的较高层,因此认为其语义距离较大,后一对词处于语义树的较低层,其语义距离更小;2) 概念层次树的区域密度:路径长度相同的两个结点,如果位于概念层次树中高密度区域,其
11、语义距离应大于位于低密度区域。由于Wordnet中概念描述的粗细程度不均,例如动植物分类的描述及其详尽,而有些区域的概念描述又比较粗疏,所以加入了概念层次树区域密度对语义距离的影响。另一种词语相似度的计算方法是大规模的语料来统计。例如,利用词语的相关性来计算词语的相似度。事先选择一组特征词,然后计算这一组特征词与每一个词的相关性(一般用这组词在实际的大规模语料中在该词的上下文中出现的频率来度量),于是,对于每一个词都可以得到一个相关性的特征词向量,然后利用这些向量之间的相似度(一般用向量的夹角余弦来计算)作为这两个词的相似度。这种做法的假设是,凡是语义相近的词,他们的上下文也应该相似。李涓子(
12、1999)利用这种思想来实现语义的自动排歧;鲁松(2001)研究了如何如何利用词语的相关性来计算词语的相似度。Dagan(1999)使用了更为复杂的概率模型来计算词语的距离。这两种方法各有特点。基于世界知识的方法简单有效,也比较直观、易于理解,但这种方法得到的结果受人的主观意识影响较大,有时并不能准确反映客观事实。另外,这种方法比较准确地反映了词语之间语义方面的相似性和差异,而对于词语之间的句法和语用特点考虑得比较少。基于语料库的方法比较客观,综合反映了词语在句法、语义、语用等方面的相似性和差异。但是,这种方法比较依赖于训练所用的语料库,计算量大,计算方法复杂,另外,受数据稀疏和数据噪声的干扰
13、较大,有时会出现明显的错误。本文主要研究基于知网(Hownet)的词语相似度计算方法,这是一种基于世界知识的方法。3 知网(Hownet)简介按照知网的创造者董振东先生自己的说法(杜飞龙,1999):知网是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。知网中含有丰富的词汇语义知识和世界知识,为自然语言处理和机器翻译等方面的研究提供了宝贵的资源。不过,在我们真正试图利用知网来进行计算机处理时,发现还是会遇到不少困难。我们的感觉是,知网确实是一座宝库,但另一方面,知网的内容又非常庞杂。尽管知网的提供了详细的文档,但由于这些文
14、档不是以一种形式化的方式说明的,很多地方多少显得有些混乱。当我们阅读这些文档时,很容易一下子陷入大量的细节之中,而很难对知网有一个总体的把握。这使得我们在进行计算的时候觉得很不方便。因此,我们在试图利用知网进行计算的过程中,也在逐渐加深我们对于知网的认识,并试图整理出一个关于知网的比较清晰的图象。本节中,我们对于知网的描述是按照我们自己的语言来组织的,很多地方加入了我们的理解,并不一定都是知网文档中描述。我们希望通过这种方法,使读者更快地了解知网,对知网有一个比较清晰而全面的印象。当然,我们的理解也难免有错误和遗漏之处,欢迎知网的作者和其他读者批评指正。3.1 知网的结构董振东先生反复强调,知
15、网并不是一个在线的词汇数据库,知网不是一部语义词典。在介绍知网的结构之前,我们首先要理解知网中两个主要的概念:“概念”与“义原”。“概念”是对词汇语义的一种描述。每一个词可以表达为几个概念。“概念”是用一种“知识表示语言”来描述的,这种“知识表示语言”所用的“词汇”叫做“义原”。“义原”是用于描述一个“概念”的最小意义单位。与一般的语义词典(如同义词词林,或Wordnet)不同,知网并不是简单的将所有的“概念”归结到一个树状的概念层次体系中,而是试图用一系列的“义原”来对每一个“概念”进行描述。知网一共采用了1500义原,这些义原分为以下几个大类:1) Event|事件2) entity|实体
16、3) attribute|属性值4) aValue|属性值5) quantity|数量6) qValue|数量值7) SecondaryFeature|次要特征8) syntax|语法9) EventRole|动态角色10) EventFeatures|动态属性对于这些义原,我们把它们归为三组:第一组,包括第1到7类的义原,我们称之为“基本义原”,用来描述单个概念的语义特征;第二组,只包括第8类义原,我们称之为“语法义原”,用于描述词语的语法特征,主要是词性(Part of Speech);第三组,包括第9和第10类的义原,我们称之为“关系义原”,用于描述概念和概念之间的关系(类似于格语法中的
17、格关系)。除了义原以外,知网中还用了一些符号来对概念的语义进行描述,如下表所示:,多个属性之间,表示“和”的关系#表示“与其相关”%表示“是其部分”$表示“可以被该V处置,或是该“V”的受事,对象,领有物,或者内容*表示“会V或主要用于V,即施事或工具+对V类,它表示它所标记的角色是一种隐性的,几乎在实际语言中不会出现&表示指向表示多半是,多半有,很可能的表示可以做“V”的空间或时间?表示可以是“N”的材料,如对于布匹,我们标以“?衣服”表示布匹可以是“衣服”的材料(1) 对于V类,置于 中的是该类V所有的“必备角色”。如对于“购买”类,一旦它发生了,必然会在实际上有如下角色参与:施事,占有物
18、,来源,工具。尽管在多数情况下,一个句子并不把全部的角色都交代出来(2) 表示动态角色,如介词的定义()置于其中的应该是一个词表记,例如,(China|中国)表示不存在,或没有,或不能!表示某一属性为一种敏感的属性,例如:“味道”对于“食物”,“高度”对于“山脉”,“温度” 对于“天象”等标识概念的共性属性表1: 知网知识描述语言中的符号及其含义我们把这些符号又分为几类,一类是用来表示语义描述式之间的逻辑关系,包括以下几个符号:, ,另一类用来表示概念之间的关系,包括以下几个符号: # % $ * + & ? ! ,第三类包括几个无法归入以上两类的特殊符号: () 。我们看到,概念之间的关系有
19、两种表示方式:一种是用“关系义原”来表示,一种是用表示概念关系的符号来表示。按照我们的理解,前者类似于一种格关系,后者大部分是一种格关系的“反关系”,例如“$”我们就可以理解为“施事、对象、领有、内容”的反关系,也就是说,该词可以充当另一个词的“施事、对象、领有、内容”。义原一方面作为描述概念的最基本单位,另一方面,义原之间又存在复杂的关系。在知网中,一共描述了义原之间的8种关系:上下位关系、同义关系、反义关系、对义关系、属性-宿主关系、部件-整体关系、材料-成品关系、事件-角色关系。可以看出,义原之间组成的是一个复杂的网状结构,而不是一个单纯的树状结构。不过,义原关系中最重要的还是的上下位关
20、系。根据义原的上下位关系,所有的“基本义原”组成了一个义原层次体系(如图2)。这个义原层次体系是一个树状结构,这也是我们进行语义相似度计算的基础。- entity|实体 thing|万物 physical|物质 animate|生物 AnimalHuman|动物 human|人 humanized|拟人 animal|兽 beast|走兽 图2 树状的义原层次结构从表面上看,其他的语义词典,如同义词词林和Wordnet,也有一个树状的概念层次体系,好像知网和它们很相似,但实际上有着本质的不同。在同义词词林和Wordnet种,概念就是描写词义的最小单位,所以,每一个概念都是这个概念层次体系中的一
21、个结点。而在知网中,每一个概念是通过一组义原来表示的,概念本身并不是义原层次体系中的一个结点,义原才是这个层次体系中的一个结点。而且,一个概念并不是简单的描述为一个义原的集合,而是要描述为使用某种专门的“知识描述语言”来表达的一个语义表达式。也就是说,在描述一个概念的多个义原中,每个义原所起到的作用是不同的,这就给我们的相似度计算带来了很大的困难。下面我们就对这个描述概念的知识描述语言进行一些考察。3.2 知网的知识描述语言知网对概念的描述是比较复杂的。在知网中,每一个概念用一个记录来表示,如下所示:NO.=017144W_C=打G_C=VE_C=网球,牌,秋千,太极,球得很棒W_E=play
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 知网 基于 词汇 语义 相似 计算
链接地址:https://www.31ppt.com/p-4957964.html