自然语言处理与领域知识工程研究探索.ppt
《自然语言处理与领域知识工程研究探索.ppt》由会员分享,可在线阅读,更多相关《自然语言处理与领域知识工程研究探索.ppt(94页珍藏版)》请在三一办公上搜索。
1、自然语言处理与领域知识工程研究探索,穗志方北京大学计算语言所,内容,知识工程与领域知识工程领域知识工程中的NLP技术研究基于NLP的领域知识工程实践研究框架的初步形成,内容,知识工程与领域知识工程领域知识工程中的NLP技术研究基于NLP的领域知识工程实践研究框架的初步形成,知识工程,什么是知识工程?1977年,美国斯坦福大学计算机科学家费根鲍姆教授在第五届国际人工智能会议上提出“知识工程”的概念;知识工程是用人工智能的原理和方法,为那些需要专家知识才能解决的应用难题提供求解的手段;以知识为处理对象,借用工程化的思想,对如何用人工智能的原理、方法和技术为设计、构造和维护知识型系统服务进行研究的一
2、门学科,是人工智能的一个应用分支;知识工程的目的是在研究知识的基础上开发智能系统;知识的表示、知识的获取和知识的运用构成知识工程的三大要素。,知识工程,知识工程的研究内容:基础理论研究实用技术开发知识型系统工具研究,知识工程,基础理论研究:知识的本质、知识的表示、获取、推理和学习方法;实用技术研究:解决建立知识系统过程中遇到的问题,实用知识表示方法、实用知识获取技术、实用知识推理方法、知识库结构系统、实用知识描述体系的建立、知识库管理技术、知识型系统的调试和评估技术等知识型系统工具的建立:为知识系统的开发提供良好的环境工具,以提高系统研制的质量和缩短系统研制周期。,从NLP的角度看知识工程,基
3、础理论研究:知识的本质、知识的表示、获取、推理和学习方法;实用技术研究:解决建立知识系统过程中遇到的问题,实用知识表示方法、实用知识获取技术、实用知识推理方法、知识库结构系统、实用知识描述体系的建立、知识库管理技术、知识型系统的调试和评估技术等知识型系统工具的建立:为知识系统的开发提供良好的环境工具,以提高系统研制的质量和缩短系统研制周期。,从NLP的角度看知识工程,大规模知识工程需要自动化的手段以保证知识库的规模、质量、一致性和时效性;知识获取技术研究:利用NLP技术进行文本挖掘分析自然语言文本,发现知识点以及知识点之间的概念关系,辅助进行知识获取;知识型系统工具的建立:在知识系统的开发环境
4、中,集成基于NLP的知识获取技术,利用自然语言处理技术将领域专家的劳动降到最低,解决知识获取的瓶颈问题;,领域知识工程,针对性实用性可行性,自然语言处理与领域知识工程研究探索,基础与应用以领域知识工程为应用背景和实验平台,驱动、促进和检验相关NLP的理论、方法与技术;以NLP技术为工具,进行领域知识工程的实践。,内容,知识工程与领域知识工程领域知识工程中的NLP技术研究基于NLP的领域知识工程实践研究框架的初步形成,领域知识工程中的NLP技术研究,术语自动提取术语间概念关系的自动提取子类框架的设定及自动提取句法语义角色标注,领域知识工程中的NLP技术研究,术语自动提取:从大规模的领域语料中自动
5、发现术语(从自由文本中挖掘知识点),术语自动提取的任务,输入为切分好的文本语料输出为候选术语列表,研究框架,什么是术语?在特定专业领域中的一般概念的指称(GB/T 15237.1-2000 术语工作 词汇)术语的特点一个词语,完整的语言单位(单元度)出现频繁、结合紧密、使用自由特定领域中的词语(领域度)特定领域的一般概念术语=单元度+领域度单元度=内部结合紧密度+边界自由度领域度=基于领域部件+分类语料库,术语自动提取系统框架,内部结合紧密度,字符串内部结合紧密度:反应了一个字符串内部单元的结合稳定程度使用MI(Mutual Information)来计算语料单元的内部结合紧密度P(X,Y)X
6、和Y共现的概率P(X),P(Y)为X,Y单独出现的概率可以把字符串序列看成随机事件,这样就可以计算字符之间的互信息。互信息值越高,X和Y 组成词的可能性越大;互信息值越低,X和Y 之间存在短语边界的可能性越大。,边界自由度,字符串边界自由度(Border variability of the string)字符串的边界上出现多种符号的可能性度量边界上出现的符号种类越多,自由度越大左右熵A 代表 在输入符号串左边出现的所有不同的字的集合B 代表 在输入符号串右边出现的所有不同的字的集合LeftEntropy 代表 符号串左边界的信息熵的大小RightEntropy 代表 符号串右边界的信息熵的大
7、小,领域度的计算可以从术语内外部两个角度来考虑术语内部构成特征术语内部不同位置用词特征首末位置用词、词长、词性等基于领域部件计算领域度方法术语外部环境特征术语在不同领域中的出现特征频率、共现、排序等无监督的rank相减方法有监督的SVM方法,基于领域部件计算领域度,领域部件指的是领域术语组成中具有领域性的成分。“大规模并行程序设计”/“人民群众”并行、程序领域部件的获得从分词、词性标注的14万IT领域中英文对照术语表中提取出领域部件、使用的位置、概率信息,来作为基于部件评价候选术语领域性的依据。,使用领域部件计算领域度 其中D为候选术语,D.pPrefix为在D首位置出现的领域部件的概率,D.
8、pMidAverage为在D中中间位置出现的部件的概率的平均值,D.pSuffix为D中末位置出现的部件的概率。,基于分类语料库计算领域度,现有分类语料库资源,A:计算机领域候选术语B:与计算机同层次的电子、自动化等领域语料C:人民日报语料ABC:是领域无关的平凡词AB-ABC:排名靠前的有一些是IT领域的平凡词AC-ABC:是否A领域的旧词新用?,SVM方法,术语提取分类问题特定子领域的候选术语领域性计算问题,可以看作是对待处理语料中的候选术语进行分类的问题。,将A类语料看作一类样本,B类和C类看作另外一类样本。对候选术语的提取可以看作是将候选术语分类到A类和B,C类中的过程。三类特征:第一
9、类特征是待处理词串在A类领域语料出现的特点(rank值、首尾词特征等);第二类特征是待处理词串在B类领域语料出现的特征(频率、词长等);第三类特征是待处理词串在C类领域语料中出现的特征。使用SVM light工具包进行分类,领域知识工程中的NLP技术研究,术语间概念关系的自动提取:术语间概念关系提取的任务是:对于给定的两个术语,术语间概念关系提取首先要判断这两个术语之间是否存在某种关系,如果有,那么最终确定它们之间的关系类型。(从自由文本中挖掘知识点之间的关系),supervised method,Conceptual relationships are provided by some pa
10、rts of the text,by means of certain linguistic pattern.search linguistic pattern which expressing a special kind of conceptual relationship.X is a YX is a kind of YX such as LIST,corpus,Shallow parsing,Pattern learner,Term pair learner,Lex-syn patterns,Associate term pairs,Associate term pair set,Le
11、x-syn Pattern set,Manuallyconfirm,Manually confirm,acquisition of lexico-syntactic patterns,extraction of pairs of conceptual related terms,领域知识工程中的NLP技术研究,子类框架的设定及自动提取:建立动词与它所搭配的句法成分之间的搭配模式中国 妇女 在“平等、发展、和平”的方向 上 取得了 历史性 的 伟大进步取得:NP+PP+取得+NP,领域知识工程中的NLP技术研究,句法语义角色标注:在大规模文本中分析和标注动词与其搭配的句法成分之间的语法语义关系。
12、取得:NP+PP+取得+NP 施事:中国妇女取得:范围:在“平等、发展、和平”的方 向上?结果:历史性 的 伟大进步?,汉语动词子类框架的设定及自动提取,对于汉语动词SCF研究,尤其是建立用于NLP的汉语动词SCF及语义资源知识库,首先要做的就是确立汉语中动词的SCF种类,即设定汉语动词SCF的集合,在这个基础上,可以通过机器自动获取的方式获取具体动词的SCF信息。,领域知识工程中的NLP技术研究,研究目标:建立汉语动词子类框架模式集合研究汉语动词子类框架的自动获取技术获取汉语高频动词的子类框架的概率信息,汉语动词子类框架集合设置 参考“语法信息词典”动词的相关属性来设定从句法规则抽象到SCF
13、 利用N元统计在浅层句法分析的基础上提取SCF SCF获取技术也可用于SCF 模式的获取以上策略的有机融合,汉语动词子类框架的自动获取,A frame work for subcategorization acquisition(1),A taggerA lemmatizer,A frame work for subcategorization acquisition(2),A probabilistic LR parser,A frame work for subcategorization acquisition(3),A pattern extractorExtracts subcate
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 自然语言 处理 领域 知识工程 研究 探索

链接地址:https://www.31ppt.com/p-5823163.html