第三章-自然语言的处理课件.ppt
《第三章-自然语言的处理课件.ppt》由会员分享,可在线阅读,更多相关《第三章-自然语言的处理课件.ppt(156页珍藏版)》请在三一办公上搜索。
1、1,第3章 自然语言的处理,2,3.1 基本概念,3,信息的主要载体语言语言的两种形式文字和声音 文字和声音作为语言的两个不同形式的载体,所承载的信息占整个信息组成的90以上。如何让计算机实现人们希望实现的语言处理功能?如何让计算机真正实现海量的语言信息的自动处理和有效利用?,4,自然语言处理(Natural Language Processing,简称NLP)是利用计算机为工具,对人类特有的书面形式和口头形式的自然语言的信息进行各种类型处理和加工的技术。冯志伟自然语言的计算机处理 NLP是用计算机通过可计算的方法对自然语言的各级语言单位(字、词、语句、篇章等)进行转换、传输、存储、分析等加工
2、处理的理论和方法。,5,其它名称 自然语言理解(Natural Language Understanding)计算语言学(Computational Linguistics)现代语言学的一大分支,它是用计算机理解、生成和处理自然语言,即它的研究范围不仅涵盖语言信息的处理,还包括语言的理解和生成。,6,研究语言的目的,7,不关注与所使用的特定媒介相关的问题,例如手写输入、键盘输入或语音输入的问题。关注在词语识别完成后理解和使用语言的过程。,8,NLP的历史,20世纪50年代起步提出机器翻译等重要问题50年代-60年代采用模式匹配法和文法分析方法对基于理解和基于统计方法的讨论60年代后期衰落70-
3、80年代采用了面向受限域的深入理解方法80年代后期至今统计方法占据主流大规模语料可用,计算机性能大幅提高互联网的迅速发展为NLP提供了实验数据来源和新的应用场景,9,3.2 自然语言处理技术可以为我们做什么?,1、信息检索http:/.hk 微软:106,000,000条(8年前2,060,000 条)微软,亚洲研究院:1,060,000条微软,亚洲研究院,研究方向:116,000条微软,亚洲研究院,自然语言处理:38,900 条 08年7月一万亿个网页,每天数十亿增加 获得的信息只有1被有效利用,10,“框”计算,“框计算”是2009年8月18日,百度董事长兼首席执行官李彦宏在2009百度技
4、术创新大会上所提出的全新技术概念。用户只要在“百度框”中输入服务需求,系统就能明确识别这种需求,并将该需求分配给最优的内容资源或应用提供商处理,最终精准高效地返回给用户相匹配的结果。这种高度智能的互联网需求交互模式,以及“最简单可依赖”的信息交互实现机制与过程,称之为“框计算”。,11,2、借助于语言信息处理的web智能,http:/,12,13,微软亚洲研究院人立方,14,输入“王菲”得到的人物关系图,15,Ex-1:The spirit is willing,but the flesh is weak.(心有余,而力不足。)译:精神是愿意的,但骨肉是微弱的。(Systran,现在已经能够正
5、确翻译)Ex-2:,3、机器翻译,http:/,16,在网络上输入“问句”,自动给出精确地答案。自动问答系统的结构三个模块:提问处理模块(Question-Processing);文献处理模块(Document-Processing);答案的提取和构造模块(Answer Extraction and Formulation)。冯志伟,4、自动问答系统,17,如“给我找出所有有关在1986年到1990年之间曾经尝试而最终失败且金额超过1亿美元的融资收买的文章。”处理方法:1、对数据库的每篇文章建立一种表示形式 2、这种表示形式能用于后续的推理,5、复杂的检索任务,18,输入:美欧贸易摩擦升级识别
6、结果:美欧贸易摩擦生机输入:新技术的发展日新月异识别结果:新纪录的发展日新月异,6、语音识别,19,信息过滤,信息安全文摘生成问答系统,人机交互语言教学文字输入,文字编辑与排版语音翻译网络内容管理与知识发现,20,1.3 关于“理解”的理解,他说:“她这个人真有意思(funny)”。她说:“他这个人怪有意思的(funny)”。于是人们以为他们有了意思(wish),并让他向她意思意思(express)。他火了:“我根本没有那个意思(thought)”!她也生气了:“你们这么说是什么意思(intention)”?事后有人说:“真有意思(funny)”。也有人说:“真没意思(nonsense)”。生
7、活报1994.11.13.第六版,21,人脑对语言的理解是一个复杂的思维过程。自然语言理解技术同多个学科有着千丝万缕的关系。,语言学:研究语言本身的结构语言心理学:研究人类生成和理解语言的过程逻辑学:计算机科学人工智能数学与统计学,22,一种测试机器是不是具备人类智能的方法。,图灵测试,23,1.4 自然语言理解研究的基本问题,研究的层次语法学:研究语句的组成结构,包括词和短语 在语句中的作用等。为什么一句话可以这么说也可以那么说?,24,研究的层次语义学:研究如何从一个语句中推导词的意义,以及这些词在该语句中句法结构中的作用来推导出该语句的意义。这句话说了什么?(1)今天中午我吃食堂。(2)
8、这个人真牛。(3)这个人眼下没些什么,那个人嘴不太好。,25,研究的层次语用学:研究在不同上下文中的语句的应用,以及上下文对语句理解所产生的影响。为什么要说这句话?(1)火,火!(2)A:看看鱼怎么样了?B:我刚才翻了一下。,26,自然语言理解的基本模型,27,汉语的特点:汉语是大字符集(GBK字符集)的意音文字(图形符号既代表语素,又代表音节的文字系统);汉语词与词之间没有空格,没有形态变化;汉语的同音词较多;字形复杂;汉语的语法研究尚未规范化;汉语的语言学知识的量化与形式化工作滞后。,1.5 汉语的自然语言理解,英语只有26 个字母,中文却有44 908 个汉字(中华大辞典)。英语有150
9、0 年历史牛津英语辞典收词40 多万条。汉语长达六千多年历史中华大辞典收词六十多万条,比英语多50%。这一特性为汉字的输入和计算机编码造成了极大的困难。,西方语言的形态对于计算机来说就是标记;汉语以字为基本单位,词之间没有明显的标记,需要词的切分,而分词本身有一定的错误率,降低了后续处理的实际效果。汉语词本身没有性、数、格、时态变化等形态标志,给语义分析增加了困难。,方块汉字由象形文字演化而来,汉字字形的信息量较大,给计算机的内部信息压缩和文字显示制造了困难。,汉语句子中词序虽同可能意义迥异;虚词并非非用不可,特别是在口语里,虚词更少,因此虚词只能是解决词与词、句与句关系问题的辅助手段;“意合
10、”包含着许多语言环境、语言背景和语言风格知识以及缺省问题,如何全面把握有关意义的诸项要素,并把它形式化,是最大的难题。,28,1、交集型切分歧义问题 乒乓球/拍卖/完/了 乒乓球拍/卖/完/了 美国/会通过对台售武法案 美/国会/通过对台售武法案,汉语自然语言理解的难点,29,2、未登录词(新词)问题汉语词典中未列入的词包括:专有名词:中文人名、地名、机构名称、外国译名、时间词重叠词:高高兴兴派生词:一次性用品专业术语:互联网,30,3、词性岐义问题 多词性和多词义是语言的一种普遍现象,汉语这种现象比西方语言严重得多。和 根据现代汉语词典,可以有五种读音:he2;he4;hu2;huo2;hu
11、o4 六种词性:名词、形容词、连词、动词、介词、量词 十六种不同的词义,31,4、否定词和语义上的混乱 汉语上的否定词“不”有时并不表示否定。相反,反而会更肯定。如:“可不是”比“可是”更可是。,32,5、汉语的岐义结构(短语歧义)岐义结构是句子自生固有的,必须在整个语境环境下才可能消歧,自动消歧是很难的。彩色铅笔盒子 彩色铅笔盒子 彩色铅笔盒子 他在看病 他在给别人看病 大夫给他看病,33,6、汉语的词义岐义打乒乓球打电话打毛衣7、语用岐义 你真讨厌!,34,1.6 自然语言处理技术,自然语言处理的过程,35,如何描述一种语言?,穷举:给出语言中所有的句子;只适合含有有限多个句子的语言。文法
12、:给出可以生成语言中所有句子的方法;当且仅当能够用该方法产生的句子属于该语言。自动机:给出识别该语言中句子的机械方法;可以检验输入句子是否属于该语言。,36,按技术路线分为:基于语言学规则的语言处理技术基于统计的语言处理技术 两者结合,37,1、基于语言学规则的语言处理技术,通过对语言学知识的形式化、形式化规则的算法化,以及算法实现等步骤将语言学知识转化为计算机可以处理的形式。强调语言学家对语言现象的认识。采用非歧义的规则形式描述或解释歧义行为或歧义特性。,理性主义方法,38,语言学家:撰写“规则库”(包括“词典”)计算机学家:编写算法程序,对“规则库”进行解释和执行。,39,2、基于统计的语
13、言处理技术,从大规模真实语料库中获得各级语言单位上的统计信息,并依据较低级语言单位上的统计信息,用相关的统计推理技术计算较高级语言单位上的统计信息。注重用数学方法概率论与数理统计。能从代表自然语言规律的大规模真实文本中发现知识,抽取语言现象或统计规律(从大量的语言数据中获得语言的知识结构)。,经验主义方法,40,语言学家:建立“语料库”经科学取样和加工的大规模电子文本库。存放的是在语言的实际使用中真实出现过的语言材料;以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源。计算机学家:建立统计模型 利用语料库训练模型参数 编写算法解决问题,41,二者区
14、别研究对象不同,基于规则的方法主要研究人的语言知识结构,实际的语言数据只提供了这种内在知识的间接证据。基于统计的方法研究对象就是实际的语言数据。,42,二者区别理论基础不同,基于规则的方法是基于乔姆斯基的语言理论的。通过语言所必须遵守的一系列原则来描述语言,以此判断一个句子是正确的还是错误的。基于统计的方法基于香农的信息论。将语言事件赋予概率,作为其可信度,由此来判断一个句子是常见的还是罕见的。,43,二者区别范围不同,基于规则的方法通过对一些特定领域或范围内的语言现象的研究来得到对人的语言能力的认识,而这些语言现象在实际应用中可能并不常见。基于统计的方法偏重于对语料库中人们实际使用的普通语言
15、现象的统计表述。,44,二者区别方法不同,基于规则的方法:符号处理系统。基于统计的方法偏重于对语料库中人们实际使用的普通语言现象的统计表述。,45,1.7 基于语言学规则的语言处理技术,规则举例新词抽取的常规规则:1、If(pos(A)=N AND(pos(B)=V OR pos(B)=A or pos(B)=N OR pos(B)=Q)Then AB is new 该规则表示:如果由两个词构成的二元组中A为名词,而B为动词或形容词或名词或量词,则将该二元组做标记,认为是新词。2、If(pos(A)=V AND pos(B)=A)Then AB is new 例如:减肥,模仿秀,46,分词结果
16、中含词数最少等价于在有向图中搜索最短路径方法:最小匹配算法分段;逐段统计最短路径(dijkstra算法:用于计算一个节点到其他所有节点的最短路径);得到若干分词结果:发展/中/国家发展/中国/家;统计排歧。,最少分词问题,47,48,按处理对象的不同,可分为:1、字处理技术2、词处理技术 词是自然语言中最小的有意义的构成单位,是最基本的研究对象。词处理主要包括分词、词性标注、词义消歧。3、语句处理技术4、篇章处理技术,49,基于规则的句法分析理论和方法,Chomsky的形式语言理论上下文无关文法转移生成文法扩充转移网络,50,1、chomsky的形式语言理论,51,52,53,54,用G表示形
17、式语法,G定义为四元组:G=(Vn,Vt,S,P)(1)Vt:终结符集合。是一个形式语言的基本符号。它们能在一个形式语法的推导规则的输入或输出字符串存在,而且它们不能被分解成更小的单位。一个语法的规则不能改变终结符。下面的语法有两个规则:x xa x ax 在这种语法之中,a是一个终结符,因为没有规则可以把a变成别的符号。不过,有两个规则可以把x变成别的符号,所以x是非终结符。一个形式语法所推导的形式语言必须完全由终结符构成。,短语结构语法,55,(2)Vn:非终结符集合,是可以被取代的符号,不能处于生成过程的终点,即在实际句子中不出现。在上下文无关文法中,每个推导规则的左边只能有一个非终结符
18、而不能有两个以上的非终结符或终结符。(3)S:起始符号。一个语法中必须有一个起始符号,这个起始符号属于非终结符的集合。(4)P:重写规则,也叫做产生式规则集合(产生式的形式是P a)。,56,采用短语结构语法对英语子集语法的描述,G=(Vn,Vt,S,P)Vn=S,NP,VP,PP,N,V,Prep,Det;Vt=the,girl,letter,pencil,write,with a;S=s;P:SNP VP.该规则表示“句子”由“名词短语 动词短语”组成NPDet N.该规则表示“名词短语”由“冠词 名词”组成VPVP PP.该规则表示“动词短语”由“动词短语 介词短语”组成,57,VPV
19、NP.该规则表示“动词短语”由“动词 名词短语”组成PPPrep NP.该规则表示“介词短语”由“介词 名词短语”组成Detthe|a.该规则表示“冠词”由the 或 a 组成Ngirl|letter|pencil.该规则表示“名词”由girl 或 letter 或 pencil组成Vwrite.该规则表示“动词”由write组成Prepwith.该规则表示“介词”由with组成,58,在对一个句子分析过程中,如果把分析句子各成分间关系的推导过程用树形图表示出来的话,那么这种图称作句法分析树。对句子“the girl writes the letter with a pencil”进行分析的语
20、法树如下:,句法分析树,语法树中的叶子结点即为分析的句子。,59,例:已知汉语句子的分词和词性标注结果如下:他/PRON 教/V 我/PRON 学/V 日语/N请画出该句子的语法树,并给出上下文无关规则。G=(Vt,Vn,S,P)Vn=S,PRON,V,OBJECT,NVt=他,教,我,学,日语S=SP:SPRON V OBJECT OBJECTN|S PRON他|我 V教|学 N日语,PRON主语OBJECT宾语,60,61,62,0型文法(type 0 grammar),63,上下文有关文法(CSG),如果所有产生式都有右边部分长度大于等于左边部分,那么G是上下文有关文法,64,上下文无关
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第三 自然语言 处理 课件

链接地址:https://www.31ppt.com/p-4092918.html