自然语言处理与Web知识工程.ppt
《自然语言处理与Web知识工程.ppt》由会员分享,可在线阅读,更多相关《自然语言处理与Web知识工程.ppt(59页珍藏版)》请在三一办公上搜索。
1、自然语言处理与Web知识工程,穗志方北京大学信息科学技术学院计算语言所,内容,知识工程与Web知识工程Web知识工程中的NLP技术研究基于NLP的知识工程实践,知识服务的现状,知识爆炸的时代对某个领域、某个主题存在多来源、多层次的知识资源来源1:专业百科全书、教科书(系统、全面、但太陈旧)来源2:期刊、文献(专业、深入、但不系统)来源3:网络(新、全、但太杂乱、不可信)无结构、无系统、无关联性、无对错不是知识不够用,而是计算机无法有效利用现有的知识,迫切需要高效的知识组织和管理模式,知识工程,什么是知识工程?1977年,美国斯坦福大学计算机科学家费根鲍姆教授在第五届国际人工智能会议上提出“知识
2、工程”的概念;知识工程是用人工智能的原理和方法,为那些需要专家知识才能解决的应用难题提供求解的手段;以知识为处理对象,借用工程化的思想,研究如何用人工智能的原理、方法和技术为设计、构造和维护知识型系统服务,是人工智能的一个应用分支;知识工程的目的是在研究知识的基础上开发智能系统;知识的表示、知识的获取和知识的运用构成知识工程的三大要素。,知识工程的bottleneck知识获取,传统知识工程往往依赖于人工构建需要耗费大量的人力和时间构建的知识库通常规模不大,难以支撑实际应用系统难以实时更新,通常大大落后于实际发展CYC从1984年开始,25年时间10万概念,百万关系中国大百科全书从1978年开始
3、,30年时间66个学科,8万个条目,1.264亿汉字,需要研发自动获取知识的技术,Web时代的知识工程,海量的数据Google 索引网页数突破1万亿(2008年)用户协作式构建的大规模百科知识维基百科:2001年开始,目前近300万条目(英文),26万(中文)百度百科:2006年开始,170万条目由全球100多万网民共同编写而成这些知识源,为大规模建立知识库提供了重要的知识来源。但是,它们都还是面向人的知识库,计算机难以利用。如何把它们转化为计算机能理解和使用的知识库,是一个重要的问题。,Web知识工程机遇与挑战,海量性与开放性 知识需求精细化 不确定性 多源异构性,Web知识工程机遇与挑战,
4、冗余性 半结构化网络百科用户日志搜索引擎API,Web知识工程机遇与挑战,在Web知识提取中,如何充分利用Web资源特有的各种优势,从多源异构、海量、开放的网络文本中准确地提取各种知识组成要素,是实现Web知识获取的一个关键问题。,从NLP的角度看知识工程,知识获取技术研究:利用NLP技术进行文本挖掘分析自然语言文本,发现知识点以及知识点之间的概念关系,辅助进行知识获取;知识型系统工具的建立:在知识系统的开发环境中,集成基于NLP的知识获取技术,利用自然语言处理技术将领域专家的劳动降到最低,解决知识获取的瓶颈问题。,自然语言处理与知识工程,基础与应用以知识工程为应用背景和实验平台,驱动、促进和
5、检验相关NLP的理论、方法与技术;以NLP技术为工具,辅助进行知识工程的实践。,内容,知识工程与Web知识工程Web知识工程中的NLP技术研究基于NLP的知识工程实践,Web知识工程中的NLP技术,利用自然语言处理和文本挖掘技术实现本体知识库的自动进化与扩充,使得大规模知识库的快速构建成为可能。,一个知识本体的自动生成过程,心脏病,心律失常,心血管疾病,心房颤动,心房扑动,1.提取术语,一个知识本体的自动生成过程,心脏病,心律失常,心血管疾病,心房颤动,心房扑动,1.提取术语2.提取概念属性概念学习,治疗,病因,症状,头晕胸闷气促,一个知识本体的自动生成过程,心脏病,心律失常,心血管疾病,心房
6、颤动,心房扑动,1.提取术语2.提取概念属性概念学习3.建立概念层级关系,治疗,病因,症状,头晕胸闷气促,术语自动提取概念属性的自动学习概念层级结构的自动生成,Web知识工程中的NLP技术研究,术语自动提取,输入:某领域的语料输出:该领域中出现的所有概念知识元基本原理概念在专业语料中的表现形式术语什么是术语?在特定专业领域中的一般概念的指称(GB/T 15237.1-2000 术语工作 词汇)术语的特点一个词语,完整的语言单位出现频繁、结合紧密、使用自由单元度特定领域中的词语特定领域的一般概念领域度术语=单元度+领域度,单元度=内部结合紧密度+边界自由度领域度=基于领域部件+分类语料库,总体结
7、构,主要分为语料预处理模块、单元度计算模块、术语部件特征计算模块、领域度计算模块四个部分,术语部件特征计算,领域词典,通用领域语料,语料预处理模块对输入语料进行分词和串频统计单元度计算模块单元度计算综合考虑词串内部的结合紧密度以及词串之间的边界自由程度。根据串频统计的结果计算所有词串的单元度,并把单元度高于阈值的词串作为候选术语。术语部件特征计算模块从领域术语词典中提取术语部件,并利用术语词典统计术语部件的位置模板特征权值,以及利用两个规模相近的领域语料库和通用语料库统计术语部件的领域特征权值。领域度计算模块利用术语部件特征计算模块得到的术语部件特征,对单元度计算得到的候选术语计算领域度,并综
8、合单元度和领域度计算候选术语的综合权值并按该权值对候选术语降序排列输出。,知识元自动挖掘模块 准确率:,基于互联网的属性值提取方法,自动提取概念之后,要进一步学习概念的属性知识概念提取:非典型性肺炎 属性值提取:“非典型性肺炎”的症状、用药、并发症.基于WWW的Ontology属性值自动提取方法,基本假设,WWW海量网页信息的冗余性有利于属性值自动提取频繁出现的短语很可能是目标短语,利用网页信息的冗余性辅助计算机判断获取的信息的可靠性和权威性互联网数据足够大,只选取简单的语法结构即可保证信息的完备性,基于互联网的属性值提取方法,输入输出输入:互联网上的网页、概念列表、属性名列表输出:属性值填充
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 自然语言 处理 Web 知识工程

链接地址:https://www.31ppt.com/p-5823167.html