搜索引擎日志中“N+V”型短语分析.doc
《搜索引擎日志中“N+V”型短语分析.doc》由会员分享,可在线阅读,更多相关《搜索引擎日志中“N+V”型短语分析.doc(5页珍藏版)》请在三一办公上搜索。
1、搜索引擎日志中“N+V”型短语分析摘 要 句法分析是自然语言处理中的一个难点和重点。基于搜狗日志语料,提出一种用层叠条件随机场模型实现搜索引擎日志中“N+V”型短语分析的方法。将短语分析分为两个阶段:“N+V”型短语内部结构分析和外部功能分析。这为 “N+N+V”型短语和“N+V+V”型短语等外显型歧义结构的消歧提供了解决方法,从而为搜索引擎用短语词典构建提供基础研究服务。关键词 “N+V”型短语内部结构 “N+V”型短语外部功能 层叠条件随机场模型中图分类号 TP391 文献标识码 A Phrase Parsing of “N+V” Structure in Search Engine Qu
2、ery LogsAbstract Syntactic parsing is an important and difficult problem in natural language processing.Based on Sogou log corpus,this paper presents an approach which realizes phrase parsing of“N+V”structure,adopting cascaded conditional random fields model. Phrase parsing is divided into two stage
3、s:internal structure parsing and external function type of the phrase of “N+V”structure. The method proposes a solution to the problem of the phrase structure ambiguities of explicit type,and provides basic service for the construction of phrase dictionary which is used by search engine.Keywords Int
4、ernal Structure Parsing of the Phrase of “N+V” Structure External Function Type of the Phrase of “N+V”Structure Cascaded Conditiona Random Fields Model0 引 言收稿日期: 2012-02-15,国家社会科学基金资助项目(09CYY021);赵红改(1981-),女(汉族),河南内乡人,北京信息科技大学中文信息处理研究中心,在读硕士,中文信息和多媒体处理;吕学强,博士,中文信息处理;肖诗斌,高级工程师,中文信息处理句法分析是在自然语言处理中起着举
5、足轻重的作用,在机器翻译、自动问答和自动标引等领域有着广泛的应用。但是,它的研究和发展比较缓慢。目前短语通常采用“分而治之”的原则,降低完全句法分析的难度,进行部分的句法分析,而对于短语的分析使其重要部分之一1。文献2探讨了汉语中基于短语的语法分析方法的优势,指出单独的短语分析和提取在汉语的句法分析中有重要地位。基于以上理论,本文对搜索引擎日志中“N+V”型短语进行内部结构和外部功能的分析,为“N+N+V”型短语和“N+V+V”型短语等外显型歧义结构2的消歧提供了解决方法,从而为完全句法分析打下基础,为搜索引擎用短语词典构建3提供基础研究服务。短语分析主要分为基于规则的和基于统计的两种。文献4
6、指出现代汉语中,对短语的分类一般采用下面两种分类标准:内部结构;外部功能。按照内部结构,可分为:定中短语、状中短语、主谓短语、述宾短语等;而按外部功能,则一般分为名词短语、动词短语、主谓短语、形容词短语等。文献5以1998年半年人民日报语料,对常用的组合歧义字段,通过建立以歧义字段的上下文的词和词性的复合特征模板,实现其消歧。文献6提出一种基于层叠条件随机场的句法语义自动标注方法,该方法在底层条件随机场模型中解决框架元素的识别,将识别结果传递到上层短语类型识别的条件随机场模型,再将识别结果传递到上层句法功能识别的条件随机场模型,有效地解决了短语句法语义自动标注问题。基于以上理论,本文将基于层叠
7、条件随机场实现对搜狗日志语料中的“N+V型短语”分析。其分析分为两个阶段:确定“N+V”型内部结构;确定“N+V”外部功能类别。对搜狗日志语料中“N+V”型短语进行初步人工校对,发现“N+V”型短语呈现五种结构类型:主谓、定中、状中、同位和联合;三种外部功能类别:名词短语、动词短语和主谓短语。首先,是对搜狗日志语料中已经进行过短语边界识别的“N+V”型短语,通过条件随机场模型,依据句子中词语、音节信息和词类信息,预测每个词对应的短语内部结构标记信息;然后,通过对短语的内部结构的预测信息进行校对处理,得到正确的短语内部结构标记信息,作为短语外部功能类别识别的一个输入特征;其次,根据短语的词语、词
8、类信息、词语长度信息和短语内部结构信息,运用条件随机场模型,预测每个词对应的短语外部功能标记信息;最后,对短语的外部功能标记信息进行校对处理,得到正确的短语外部功能类别标记信息。1 条件随机场模型条件随机场模型是一种用于标注和切分的序列化标注模型,它是Lafferty在最大熵和隐马尔科夫模型的基础上,提出的一种判别式概率无向图学习模型7。条件随机场作为一个无向图模型比隐马模型和最大熵模型等有向图模型识别的效果好。隐马最大的一个缺点是它的输出独立性假设条件,使得不能考虑上下文的特征信息,限制了特征的选择;而最大熵模型解决了这个瓶颈,但是又引来了新的问题:它可以随意的选择特征,由于其在每个节点上都
9、要进行归一化处理,所以只能达到局部最优,不能达到全局最优。而条件随机场解决了以上两种问题,它不是在每个节点进行归一化处理,而是对所有特征都进行全局归一化处理,具有表达元素长距离依赖性和交叠型特征的能力,能方便地在模型中包含领域知识,因此,可以达到全局最优。但是条件随机场也有一个缺点:当需要识别的类别数很大,以及数据规模比较大的时候,会产生许多可区分的特征,导致训练和测试的效率降低。搜索引擎日志中“N+V”型短语的内部结构和外部功能类别确定问题可以转化为对搜索引擎日志查询串利用词语、词类信息、词语长度信息、边界信息、信息焦点等特征,选择标记的问题。而条件随机场是一个序列标注化模型,因此,将搜索引
10、擎日志中“N+V”型短语分析的过程通过基于层叠条件随机场模型来实现。2 搜索引擎日志中“N+V”型短语分析模型2.1 “N+V”型短语分析的问题描述“N+V”型短语分析的过程其实是通过层叠条件随机场实现“N+V”型短语的内部结构和外部功能类别识别的过程。本文采用S/E(Start/End)8编码方式,B表示一个短语的开始,I表示短语的内部,E表示短语的结尾词,O表示短语的外部的词。如搜狗语料中的查询串:海南/ns康/b 德/b 泰/b 电力/n 开发/vn 有限公司/n;依据S/E编码方式,可以编码为:海南ns2OOO康b1OOO德b1OOO泰b1OOO电力n2B-NVB-NV4B-NV1开发
11、vn2E-NVE-NV4E-NV1有限公司n4OOO。其中,第二列是词的音节列;第三列是短语边界标记列,“O”、“B-NV”、“E-NV”分别表示短语边界类型的外部标记、短语边界的开始标记、短语边界的结束标记;第四列是短语的内部结构标记列,“O”、“B-NV4”、“E-NV4”分别表示短语内部结构标记的外部标记、开始标记、结束标记;第五列是短语的外部功能类别标记列,“O”、“B-NV1”、“E-NV1”分别表示短语外部功能类别标记的外部标记、开始标记、结束标记。通过这样标记之后,可以清楚地知道上面的查询词串中存在一条“N+V”型定中结构的名词短语“电力/n 开发/vn”。 2.2 搜索引擎日志
12、中“N+V”型短语分析的特征描述 对搜索引擎日志中的“N+V”型短语进行分析,需要分为两个阶段:短语内部结构分析和外部功能分析,因此需要将以词为标注单位的词信息、音节信息、信息焦点等信息融合到模型当中。为此,通过S/E编码方式,参照文献9对名动式偏正结构短语的研究,以及文献10短语标注集集的确定方法,将需要标注的信息进行如下标注:(1)以词为标注单位的边界特征描述。边界的标注集为:B-NV、E-NV和O。(2)以词为标注单位的信息焦点特征描述。信息焦点的特征标注集为:1、0和O;1表示当前词是“N+V”型短语的信息焦点;0表示当前词不是 “N+V”型短语的信息焦点。如果是则标记为1;O表示当前
13、词是“N+V”型短语的外部词。 (3)以词为标注单位的短语内部结构特征描述。短语内部结构的特征标注集为:B-NV1、E-NV1、O;B-NV2、E-NV2、O;B-NV3、E-NV3;B-NV4、E-NV4、O;B-NV5、E-NV5、O。其中,NV1、NV2、NV3、NV4、NV5分别表示短语内部结构为主谓、联合、定中、同位、状中。B、E、O表示短语内部结构的起始词、结尾词、外部词。按照语法结构,“N+V”型短语的内部结构关系仅有:主谓、定中和状中三种。但是,在搜狗语料中,有少量的查询串,如“歌曲/n 欢聚一堂/vl”、“电影/n 征服/v ”等这种形式, V已经名词化,和V形成了复指关系,
14、因此将这种短语的内部关系视为同位关系;像“短发/n 卷发/vn 造型/n”、“服饰/n 化装/v”等这种形式的短语,V已经名词化,N和V之间没有直接的关系,只是形成了并列的形式,因此将这种短语的内部关系视为联合关系。 (4)以词为标注单位的短语外部功能类别特征描述。短语外部功能的特征标注集为:B-NV1、E-NV1、O;B-NV2、E-NV2、O;B-NV3、E-NV3、O。其中,NV1、NV2、NV3分别表示短语外部功能为:名词、动词、主谓。B、E、O表示短语内部结构的起始词、结尾词、外部词。3 搜索引擎日志中“N+V”型短语分析的特征模板的确定特征是基于条件随机场的短语识别的核心,特征选择
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 搜索引擎 日志 短语 分析

链接地址:https://www.31ppt.com/p-2328865.html