中文同义词自动抽取研究ppt课件.ppt
《中文同义词自动抽取研究ppt课件.ppt》由会员分享,可在线阅读,更多相关《中文同义词自动抽取研究ppt课件.ppt(27页珍藏版)》请在三一办公上搜索。
1、中文同义词自动抽取研究,南京师范大学计算机学院自然语言处理小组曹冉 孙玉霞 狄颖指导老师:曲维光 周俊生,目录,基于语义词典的方法基于同义词词林(扩展版)基于中文概念词典CCD基于网络资源的方法基于模式匹配的方法基于并列结构的方法同义词传递性扩充的方法,目录,基于语义词典的方法基于同义词词林(扩展版)基于中文概念词典CCD基于网络资源的方法基于模式匹配的方法基于并列结构的方法同义词传递性扩充的方法,同义词词林(扩展版),在同义词词林(扩展版)中,编码末尾为=的词语集合表示的是同一个语义。因此,目标词的同义词即为包含目标词的编码末尾为=的词语集合。,目标词“规则”对应的同义词集合:,目录,基于语
2、义词典的方法基于同义词词林(扩展版)基于中文概念词典CCD基于网络资源的方法基于模式匹配的方法基于并列结构的方法同义词传递性扩充的方法,中文概念词典 CCD,CCD中使用Synset字段来描述概念。但是在Synset中的词语并不完全是同义词,而是某种意义上的相关词。一个词语也可能出现在多个Synset中。,如目标词“爱好”:,基于中文概念词典,本文提出基于典型同义词的过滤方法。基本思想:在包含目标词的Synset中统计出典型同义词。使用典型同义词按照一定规则在Synset中过滤出同义词。,典型同义词统计方法,典型同义词统计方法,基于典型同义词的过滤算法,最终“爱好”的同义词为 嗜好,喜好,业余
3、爱好,偏好,偏爱,偏袒,喜欢。,基于语义词典-实验结果,基于同义词词林获取到5277个目标词的同义词,平均每个词语对应13个同义词。基于CCD获取到5727个目标词的同义词,平均每个对应6个同义词。基于字典的方法获取到的同义词的目标词大多是普通名词、动词、形容词。,目录,基于语义词典的方法基于同义词词林(扩展版)基于中文概念词典CCD基于网络资源的方法基于模式匹配的方法基于并列结构的方法同义词传递性扩充的方法,基于模式匹配方法-基本思想,在互联网上抓取目标词的百度百科词条在百科词条概述中,利用人工提取的“目标词+模式词+候选同义词”模式取得高质量同义词。利用高质量同义词在百科全文中获取限定语料
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中文 同义词 自动 抽取 研究 ppt 课件
链接地址:https://www.31ppt.com/p-5809504.html