《自然语言处理与领域知识工程研究探索.ppt》由会员分享,可在线阅读,更多相关《自然语言处理与领域知识工程研究探索.ppt(94页珍藏版)》请在三一办公上搜索。
1、自然语言处理与领域知识工程研究探索,穗志方北京大学计算语言所,内容,知识工程与领域知识工程领域知识工程中的NLP技术研究基于NLP的领域知识工程实践研究框架的初步形成,内容,知识工程与领域知识工程领域知识工程中的NLP技术研究基于NLP的领域知识工程实践研究框架的初步形成,知识工程,什么是知识工程?1977年,美国斯坦福大学计算机科学家费根鲍姆教授在第五届国际人工智能会议上提出“知识工程”的概念;知识工程是用人工智能的原理和方法,为那些需要专家知识才能解决的应用难题提供求解的手段;以知识为处理对象,借用工程化的思想,对如何用人工智能的原理、方法和技术为设计、构造和维护知识型系统服务进行研究的一
2、门学科,是人工智能的一个应用分支;知识工程的目的是在研究知识的基础上开发智能系统;知识的表示、知识的获取和知识的运用构成知识工程的三大要素。,知识工程,知识工程的研究内容:基础理论研究实用技术开发知识型系统工具研究,知识工程,基础理论研究:知识的本质、知识的表示、获取、推理和学习方法;实用技术研究:解决建立知识系统过程中遇到的问题,实用知识表示方法、实用知识获取技术、实用知识推理方法、知识库结构系统、实用知识描述体系的建立、知识库管理技术、知识型系统的调试和评估技术等知识型系统工具的建立:为知识系统的开发提供良好的环境工具,以提高系统研制的质量和缩短系统研制周期。,从NLP的角度看知识工程,基
3、础理论研究:知识的本质、知识的表示、获取、推理和学习方法;实用技术研究:解决建立知识系统过程中遇到的问题,实用知识表示方法、实用知识获取技术、实用知识推理方法、知识库结构系统、实用知识描述体系的建立、知识库管理技术、知识型系统的调试和评估技术等知识型系统工具的建立:为知识系统的开发提供良好的环境工具,以提高系统研制的质量和缩短系统研制周期。,从NLP的角度看知识工程,大规模知识工程需要自动化的手段以保证知识库的规模、质量、一致性和时效性;知识获取技术研究:利用NLP技术进行文本挖掘分析自然语言文本,发现知识点以及知识点之间的概念关系,辅助进行知识获取;知识型系统工具的建立:在知识系统的开发环境
4、中,集成基于NLP的知识获取技术,利用自然语言处理技术将领域专家的劳动降到最低,解决知识获取的瓶颈问题;,领域知识工程,针对性实用性可行性,自然语言处理与领域知识工程研究探索,基础与应用以领域知识工程为应用背景和实验平台,驱动、促进和检验相关NLP的理论、方法与技术;以NLP技术为工具,进行领域知识工程的实践。,内容,知识工程与领域知识工程领域知识工程中的NLP技术研究基于NLP的领域知识工程实践研究框架的初步形成,领域知识工程中的NLP技术研究,术语自动提取术语间概念关系的自动提取子类框架的设定及自动提取句法语义角色标注,领域知识工程中的NLP技术研究,术语自动提取:从大规模的领域语料中自动
5、发现术语(从自由文本中挖掘知识点),术语自动提取的任务,输入为切分好的文本语料输出为候选术语列表,研究框架,什么是术语?在特定专业领域中的一般概念的指称(GB/T 15237.1-2000 术语工作 词汇)术语的特点一个词语,完整的语言单位(单元度)出现频繁、结合紧密、使用自由特定领域中的词语(领域度)特定领域的一般概念术语=单元度+领域度单元度=内部结合紧密度+边界自由度领域度=基于领域部件+分类语料库,术语自动提取系统框架,内部结合紧密度,字符串内部结合紧密度:反应了一个字符串内部单元的结合稳定程度使用MI(Mutual Information)来计算语料单元的内部结合紧密度P(X,Y)X
6、和Y共现的概率P(X),P(Y)为X,Y单独出现的概率可以把字符串序列看成随机事件,这样就可以计算字符之间的互信息。互信息值越高,X和Y 组成词的可能性越大;互信息值越低,X和Y 之间存在短语边界的可能性越大。,边界自由度,字符串边界自由度(Border variability of the string)字符串的边界上出现多种符号的可能性度量边界上出现的符号种类越多,自由度越大左右熵A 代表 在输入符号串左边出现的所有不同的字的集合B 代表 在输入符号串右边出现的所有不同的字的集合LeftEntropy 代表 符号串左边界的信息熵的大小RightEntropy 代表 符号串右边界的信息熵的大
7、小,领域度的计算可以从术语内外部两个角度来考虑术语内部构成特征术语内部不同位置用词特征首末位置用词、词长、词性等基于领域部件计算领域度方法术语外部环境特征术语在不同领域中的出现特征频率、共现、排序等无监督的rank相减方法有监督的SVM方法,基于领域部件计算领域度,领域部件指的是领域术语组成中具有领域性的成分。“大规模并行程序设计”/“人民群众”并行、程序领域部件的获得从分词、词性标注的14万IT领域中英文对照术语表中提取出领域部件、使用的位置、概率信息,来作为基于部件评价候选术语领域性的依据。,使用领域部件计算领域度 其中D为候选术语,D.pPrefix为在D首位置出现的领域部件的概率,D.
8、pMidAverage为在D中中间位置出现的部件的概率的平均值,D.pSuffix为D中末位置出现的部件的概率。,基于分类语料库计算领域度,现有分类语料库资源,A:计算机领域候选术语B:与计算机同层次的电子、自动化等领域语料C:人民日报语料ABC:是领域无关的平凡词AB-ABC:排名靠前的有一些是IT领域的平凡词AC-ABC:是否A领域的旧词新用?,SVM方法,术语提取分类问题特定子领域的候选术语领域性计算问题,可以看作是对待处理语料中的候选术语进行分类的问题。,将A类语料看作一类样本,B类和C类看作另外一类样本。对候选术语的提取可以看作是将候选术语分类到A类和B,C类中的过程。三类特征:第一
9、类特征是待处理词串在A类领域语料出现的特点(rank值、首尾词特征等);第二类特征是待处理词串在B类领域语料出现的特征(频率、词长等);第三类特征是待处理词串在C类领域语料中出现的特征。使用SVM light工具包进行分类,领域知识工程中的NLP技术研究,术语间概念关系的自动提取:术语间概念关系提取的任务是:对于给定的两个术语,术语间概念关系提取首先要判断这两个术语之间是否存在某种关系,如果有,那么最终确定它们之间的关系类型。(从自由文本中挖掘知识点之间的关系),supervised method,Conceptual relationships are provided by some pa
10、rts of the text,by means of certain linguistic pattern.search linguistic pattern which expressing a special kind of conceptual relationship.X is a YX is a kind of YX such as LIST,corpus,Shallow parsing,Pattern learner,Term pair learner,Lex-syn patterns,Associate term pairs,Associate term pair set,Le
11、x-syn Pattern set,Manuallyconfirm,Manually confirm,acquisition of lexico-syntactic patterns,extraction of pairs of conceptual related terms,领域知识工程中的NLP技术研究,子类框架的设定及自动提取:建立动词与它所搭配的句法成分之间的搭配模式中国 妇女 在“平等、发展、和平”的方向 上 取得了 历史性 的 伟大进步取得:NP+PP+取得+NP,领域知识工程中的NLP技术研究,句法语义角色标注:在大规模文本中分析和标注动词与其搭配的句法成分之间的语法语义关系。
12、取得:NP+PP+取得+NP 施事:中国妇女取得:范围:在“平等、发展、和平”的方 向上?结果:历史性 的 伟大进步?,汉语动词子类框架的设定及自动提取,对于汉语动词SCF研究,尤其是建立用于NLP的汉语动词SCF及语义资源知识库,首先要做的就是确立汉语中动词的SCF种类,即设定汉语动词SCF的集合,在这个基础上,可以通过机器自动获取的方式获取具体动词的SCF信息。,领域知识工程中的NLP技术研究,研究目标:建立汉语动词子类框架模式集合研究汉语动词子类框架的自动获取技术获取汉语高频动词的子类框架的概率信息,汉语动词子类框架集合设置 参考“语法信息词典”动词的相关属性来设定从句法规则抽象到SCF
13、 利用N元统计在浅层句法分析的基础上提取SCF SCF获取技术也可用于SCF 模式的获取以上策略的有机融合,汉语动词子类框架的自动获取,A frame work for subcategorization acquisition(1),A taggerA lemmatizer,A frame work for subcategorization acquisition(2),A probabilistic LR parser,A frame work for subcategorization acquisition(3),A pattern extractorExtracts subcate
14、gorization patternA pattern classifierAssigning pattern to SCFs or rejecting as unclassifiableA SCF filterEvaluating sets of SCFs gathered for a predicate,领域知识工程中的NLP技术研究,术语自动提取术语间概念关系的自动提取子类框架的设定及自动提取句法语义角色标注,内容,知识工程与领域知识工程领域知识工程中的NLP技术研究基于NLP的领域知识工程实践研究框架的初步形成,基于NLP的领域知识工程实践,项目名称:知识元数据库及基础平台建设中国新闻
15、出版集团科技项目合作双方:北京大学计算语言所中国大百科全书出版社合作时间:2005年8月-2006年7月2006年8月-2007年7月,研究目标,建立知识元数据库及其基础平台。面向社会、面向不同知识层次的人群,提供知识服务。,社会意义,网络社会,信息泛滥海量数据 300多亿个网页,每天以几百万增加由于人阅读能力的限制,对某个人来说,网络上的大多数信息是垃圾,迫切需要信息服务工具!,目前的信息服务现状,Google、百度、一人坐在计算机前,试图寻找需要的信息:键入关键字:信息的目录已经应接不暇翻着网页:犹如大海捞针只能提供表层信息,不能准确地提供知识,目前的信息服务现状,(2)用户希望了解有关法
16、律问题的相关知识,借助于网上的法律咨询服务系统,寻找与“交通事故”有关的法律知识。但提供的知识很局限,并且当需要了解这一点相联系的医学知识时,又断线,是一个片面的信息孤岛:例如:一场车祸 咨询:肇事司机应负的法律责任如果造成被害人死亡或脑死亡,则如何判断脑死亡?脑死亡的临床症状?,目前的信息服务只能提供表层信息,不能准确地提供知识,更不能实现不同领域知识之间的相互贯通。,由信息服务转化为知识服务!,社会意义,我国有13亿人口,大约有十亿人口为初中及初中以下文化水平 迫切需要:建立面向和基于基础教育的知识传播和知识服务机制实现全民教育,终身学习提高广大人民的文化水平,经济效益,以医学为例:建立系
17、统全面的疾病基础知识数据库;向人民大众普及准确权威的指病、治病、防病知识;使大多数群众能够防患于未然;从根本上降低整个社会在医疗方面的投资和成本。,核心理念:从语言到知识,在统一的知识表达架构之下整合不同领域、不同类型的知识资源,形成网状、互联、包含各领域核心知识的知识元数据库,并配套提供知识库建设及应用的系列支撑软件在此基础上催生多种知识服务类型与方式引领信息服务到知识服务的转型,提供精、准、快的知识服务。,从自然语言和知识概念两个层面建设人机沟通的桥梁,知识元数据库?,现有的中文网络数据库:清华同方CNKI数字图书馆,万方科技系统数据库、维普科技期刊数据库,超星图书馆等基于文献的资料库:注
18、重对不同来源文献、网页的收集与索引。面向学生、学者,提供对整篇文献的查询结果。,检索“高血压”,检索结果:5245条记录,什么是高血压?,高血压的症状有哪些?,确诊高血压要做哪些检查?,怎样预防高血压?,?,知识元数据库,以知识元为知识表示的基本单位,通过建立知识元之间的概念关联,构建网状、互联的知识元数据库。,高血压,症状,头痛,心脏杂音,心律失常,疲劳,眩晕,高血压,实验室检查,血细胞计数,尿分析,心电图,血压测定,高血压,并发症,高血压脑病,脑出血,脑梗塞,心力衰竭,肾功能衰竭,症状,实验室检查,并发症,知识系统、全面、准确,精品知识,广泛、全面的互联,消除信息孤岛,以知识元的形式表示知
19、识,计算机充分理解和使用,特点:,有什么用?,下一代互联网语义网的基础构件语义Web 与当前Web 的最大区别是:内容层之上提供了本体层这个描述语义的层次。,有什么用?,在商业系统中的广泛应用:决策支持系统、行业垂直检索、软件工程、电子商务、半导体制造、飞机设计、企业过程管理,有什么用?,全方位、多样化、个性化的知识服务智能检索、远程教学、知识咨询,有什么用?,全球化的知识交流与共享,知识元数据库与现有网络数据库的对比,自然语言处理、文本挖掘、知识组织,怎么做?,将线性的百科全书、文献资料转变为计算机可以理解和操作的结构化知识库。,知识元数据库建设步骤,收集整理不同领域、不同类型的知识资源;利
20、用中文自然语言分析技术分析文献;发现知识点以及知识点之间的内在关联将大量的知识点结构化地组织和关联起来,产生信息智能连结;在统一的知识表达架构之下分类、重组、合并、整合,形成网状、互联的知识元数据库。,中文自然语言分析技术,文本挖掘技术,知识表示与知识组织,从自然语言和知识概念两个层面建立人机沟通的桥梁,本期定位,建立知识元数据库是一项规模浩大的知识基础设施工程,应分阶段进行;本期选择医学领域作为实验学科,通过建立该学科的知识元数据库,探索并确立建立知识体系的科学方法和基本原则,建立知识元数据库的构建平台以及建立知识元数据库的服务示范平台,为下一期建立更多学科的知识元数据库做准备。,主要任务,
21、建立知识元数据库的知识描述体系 开发知识元数据库辅助构建平台 实现知识元数据库的智能化编辑流程建立知识元数据库的服务示范平台,主要任务,建立知识元数据库的知识描述体系 开发知识元数据库辅助构建平台 实现知识元数据库的智能化编辑流程建立知识元数据库的服务示范平台,建立知识元数据库的知识描述体系,选择实验学科确定原始资料来源确定服务对象、服务方式以及服务范围知识元的选取知识元的表示确定知识元之间的关联关系,建立知识元数据库的知识描述体系,知识描述体系的基础:美国国立医学图书馆编纂的医学主题词表(MeSH)第一级知识重组以“疾病”为核心组织知识从树状结构转变到网状结构!,建立知识元数据库的知识描述体
22、系,第二级知识重组以“临床”为核心组织疾病类知识从服务于文献检索转变到服务于临床诊断!,建立知识元数据库的知识描述体系,第三级知识重组主题词与自然语言的互联,NLP语义分析利用自然语言分析技术将知识解析为知识基本单元,建立网状、互联、结构化的知识元数据库自然语言分析、知识点挖掘、主题标引从传统的知识描述转变到智能化的多维网状描述!,建立知识元数据库的知识描述体系,特点:立足国际标准面向临床实践多维网状的知识描述NLP智能分析,主要任务,建立知识元数据库的知识描述体系 开发知识元数据库辅助构建平台 实现知识元数据库的智能化编辑流程建立知识元数据库的服务示范平台,开发知识元数据库辅助构建平台,实现
23、数据库的基本编辑功能:结构的调整内容的编辑内容的检索实现基于NLP的智能编辑功能:,主要任务,建立知识元数据库的知识描述体系 开发知识元数据库辅助构建平台 实现知识元数据库的智能化编辑流程建立知识元数据库的服务示范平台,实现知识元数据库的智能化编辑流程,传统的编辑流程:医学专家在编辑平台上录入知识库内容!领域知识工程的瓶颈:专家时间少;专家不能熟练操作计算机!为快速准确地建立大规模精品知识库,必须设计更优的编辑流程,!智能化解决方案,利用NLP技术尽量将专家的劳动降到最低智能编辑流程:选定教材(医学专家)勾选内容(医学专家在教材上)确定录入格式(软件工程师)批量录入(录入员)NLP智能化处理(
24、软件工程师)自动导入编辑平台(软件工程师)修改确认(医学专家在编辑平台上),开发知识元数据库辅助构建平台,实现基于NLP的智能编辑功能:从半结构化文本中自动提取知识元针对每个知识元,针对它对应的属性集合,通过自然语言分析、模式匹配等技术自动提取属性值;属性知识的自动标引多来源异构知识的融合,开发知识元数据库辅助构建平台,特点:多样化的导入、导出方式;强大的编辑功能强大的检索功能多层次网络的知识互联基于NLP的智能化编辑为快速准确地建立大规模精品知识库搭建基础平台!,主要任务,建立知识元数据库的知识描述体系 开发知识元数据库辅助构建平台 实现知识元数据库的智能化编辑流程建立知识元数据库的服务示范
25、平台,建立知识元数据库的服务示范平台,基于知识元数据库进行相关的知识服务:建立网上疾病咨询服务平台。,建立知识元数据库的服务示范平台,基于知识元数据库的知识检索与文本挖掘基于知识元数据库,自动生成医学知识,引证和补充百科知识库;基于知识元数据库,从互联网中搜索相关文献,提高网络搜索的查准率;在搜索文献基础上分析文献内容,基于知识元数据库整理相关数据,形成对当前最新研究现状的总结、述评以及趋势预测;通过以上几方面的分析对比,基于网络资源更新百科全书,基于百科全书指导网络资源的开发和利用。,展望,建立知识元数据库是一项规模浩大的知识基础设施工程,第一阶段选择医学领域作为实验学科,建立了知识元数据库
26、基础平台;下一阶段,将在本期成果的基础上从深度和广度上拓展知识元数据库。最终目标是建立包含各领域核心知识的网状、互联的多领域核心知识元数据库在此基础上支撑多种知识服务类型与方式为建立新一代知识服务奠定资源基础。,下一阶段的具体研究目标,(1)平台功能的扩充:自然语言处理技术、网络内容提取和挖掘技术(2)医学领域的深入开发(3)更完善的知识服务。,内容,知识工程与领域知识工程领域知识工程中的NLP技术研究基于NLP的领域知识工程实践研究框架的初步形成,研究历程,2002年,中国标准化研究院项目“信息科学技术领域术语库的建设及术语自动提取软件的开发”资源、软件:术语库、语料库、术语自动提取软件20
27、03年,863项目“奥运多语言智能信息服务系统关键技术及示范系统研究”资源:旅游、商务、餐饮、体育领域的术语库2004年,中国大百科全书出版社项目“面向百科全书编纂的语言分析及知识更新平台”知识库建设平台初步:语言分析及知识更新平台2005年-2007年,北京市自然科学基金项目“基于自然语言文本分析的领域知识库建造技术研究”2005年-2009年,973课题“文本内容理解的数据基础”“人机互动的百科知识工程”面向领域知识工程的NLP技术研究人机交互的领域知识库构建平台建设2006年-2008年,国家自然科学基金项目“汉语动词子语类框架自动获取技术研究”汉语动词子语类框架自动获取技术高频动词的子语类框架概率信息,研究框架,基础与应用以领域知识工程为应用背景和实验平台,驱动、促进和检验相关NLP的理论、方法与技术;以NLP技术为工具,进行领域知识工程的实践。,研究框架,平台的构建资源的建设关键技术的研发基于领域知识的知识服务,研究框架,平台的构建基于NLP的知识元数据库开发平台资源的建设多领域术语库信息科学技术语料库现代医学心血管疾病、计算机硬件知识库原型关键技术的研发术语自动提取软件术语间概念关系自动提取原型系统子类框架自动获取关系提取,知识库构建平台,领域术语库领域语料库领域知识库,基于NLP的知识获取技术,训练集,集成以提高自动化程度,规模化建设,知识服务,谢谢!,
链接地址:https://www.31ppt.com/p-5823163.html