【大学】基于词典和WEB资源的词汇关系抽取.ppt
《【大学】基于词典和WEB资源的词汇关系抽取.ppt》由会员分享,可在线阅读,更多相关《【大学】基于词典和WEB资源的词汇关系抽取.ppt(28页珍藏版)》请在三一办公上搜索。
1、基于词典和web资源的词汇关系抽取,http:/,词汇关系大纲,引言同义词抽取资源中文概念词典(CCD)哈工大同义词词林(扩展版)百度百科百度翻译+有道翻译同义词抽取流程下位词抽取资源中文概念词典(CCD)百度百科互动百科维基百科百度相关搜索下位词抽取流程实验结果,http:/,引言,同义词和下位词的发现在自然语言处理领域中对信息检索,机器翻译等领域的研究有重要的意义。传统的同义词和下位词的发现是基于词典知识库,如中文概念词典,同义词词林等知识库。随着Web的发展,网络上出现了大量的资源知识库。例如“百度百科”、“有道翻译”、“维基百科”等Web资源。把传统的词典和Web资源各自优势进行结合,
2、将会更加有效的抽取词汇关系。,http:/,1 同义词抽取资源,中文概念词典(CCD)哈工大同义词词林(扩展版)百度百科百度翻译+有道翻译,http:/,1.1 中文概念词典(CCD),CCD是一个WordNet类型的汉英双语语义词典,从关系语义学的观点出发,以同义词集(Synset)定义概念(concept),在概念之间定义关系(relation)来描述语义,http:/,1.2 哈工大同义词词林,同义词词林(扩展版)在原有的三层分类体系上增加两层,得到最终过的五层分类体系,唯一的代表词典中出现词语的编码如:Ba01A02=物质 质 素Cb02A01=东南西北 四方Ba01A03 万物Cb0
3、6E09 民间Ba01B08#固体 液体 气体 流体 半流体Ba01B10#导体 半导体 超导体以上词语编码中第八位编码的标记“=”、“”、“#”,“=”代表“相等”、“同义”,“”代表“自我封闭”,“#”代表“不等”、“同类”。,http:/,1.3 百度百科(1/4),根据特征词进行模式识别,其中查询词用W(w),特征词用S(w)表示,其在百科中的同义词用T(w)表示,抽取的模式有:1 W(w)+S(w)+T(w)例如:“埃菲尔铁塔”百科中内容:埃菲尔铁塔(又译“艾菲尔铁塔”)是法国巴黎著名铁塔,坐落在塞纳河南岸马尔斯广场的北端。以上内容中查询词W(w):“埃菲尔铁塔”,特征词S(w):“
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大学 基于 词典 WEB 资源 词汇 关系 抽取
链接地址:https://www.31ppt.com/p-5792872.html