自然语言处理现状与未来课件.ppt
《自然语言处理现状与未来课件.ppt》由会员分享,可在线阅读,更多相关《自然语言处理现状与未来课件.ppt(104页珍藏版)》请在三一办公上搜索。
1、自然语言处理的现状与未来,李 生哈尔滨工业大学2019.5.21,一.信息与自然语言处理二.自然语言处理的主要研究方向三.下一代信息检索研究四.自然语言处理的未来思考,一.信息与自然语言处理,(一)语言是信息的载体(二)自然语言处理的概念及其研究方法(三)中文信息处理的特殊问题及所做工作(四)当前研究的特点,一.信息与自然语言处理,(一)语言是信息的载体 信息同能源、材料一起构成经济发展与社会进步的三大战略资源。信息技术正在推动和改变人类的生产、生活甚至是思维方式。 信息是无形的,但它可以用语言来表达。语言是信息的载体,语言是文化的支柱,语言是人类思维、沟通与交流的工具。语言技能是一种人力资本
2、。语言与经济、文化、教育,与社会发展和人类进步有着紧密的关系。,一.信息与自然语言处理,中国中文信息学会是一个学术性的群众组织。学会的学术研究内容是利用计算机对中文的音、形、义等语言文字信息进行加工和操作,包括对字、词、短语、句子、篇章进行输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等。它是语言学、计算机科学、认知科学、数学等多学科交叉的边缘学科。 自然语言处理是计算机应用的一个分支,是人工智能的一部分,但计算机技术和人工智能技术又都从属于信息技术。,一.信息与自然语言处理,(二)自然语言处理的概念及其研究方法 1.概念 自然语言处理通常是指用计算机对人类自然语 言进行的有意义的
3、分析与操作。 字 编码(机内码、输入码) 词 分词、词性标注、词义消岐 自然语言 句法分析 处理 句子 语义分析 语用分析 段落与篇章 话语结构分析,一.信息与自然语言处理,2.研究方法 基于规则 人工获取语言规则 基于统计 通过对大规模语料库的统计分析,实现对自然语言的处理 3.处理过程 语言问题形式化表示(模型)算法转换程序编制机器运行结果输出系统评测,一.信息与自然语言处理,(三)中文信息处理的特殊问题及所做工作 1.特殊问题 句子中单词的切分; 时态、语态、语气等没有严格的形式标记; 句子成分的省缺及指示代词的频繁出现; 语言资源的缺乏及其规范化问题。,一.信息与自然语言处理,2.所做
4、工作理论、方法与技术研究 结合汉语特点,引进国外技术实验和应用系统的研制开发 包括汉字处理、中文文本处理、中文语音处理、少数民族语言处理等资源建设 词典和语料库等评测 国内:863 国际:SIGHAN(分词)、NIST(机器翻译)、TREC(信息检索)等,一.信息与自然语言处理,(四)当前研究的特点 使用语料库处理大规模真实文本; 使用机器学习的方法自动获取语言知识; 使用统计数学(概率统计)的方法来分析语言数据; 以语言知识为核心的多种方法融合。,二.自然语言处理的主要研究方向,(一)基础与共性技术(二)机器翻译(三)信息检索(四)社会计算,二.自然语言处理的主要研究方向,(一)基础与共性技
5、术 1.汉字处理技术 汉字编码 汉字输入 汉字输出 2.词法分析 词是组成句子的基本单元。词法分析是要先将构成句子的字符串变成词串;然后再给句子中的每个词加上句法范畴标记(有时还需加上语义范畴标记)。,二.自然语言处理的主要研究方向,汉语自动分词 最大匹配法 最大概率法英语的词形还原词性标注 词性(part-of-speech)是词汇基本的语法属性,也称之为词类。词性标注就是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程。标注的重点是解决兼类词和确定未登录词的词性问题。,二.自然语言处理的主要研究方向,词义标注(Word Sence Disambiguation,WSD) 重点是
6、解决如何确定多义词在具体语境中的义项问题。对于多义词来说,一个词可以表达一个以上的意义,但它在具体的语境当中,意思往往是确定的。 标注过程中,通常是先确定语境,再明确词义。,二.自然语言处理的主要研究方向,3.句法分析 句子的结构分析,即找出句子所包含的句法单位以及这些单位之间的句法关系。有浅层句法分析和完全句法分析之分。 词的构成和变化规律称为词法;句子和短语的构成规则成为句法;语法研究的是语言结构的规律。狭义的语法等同于句法,广义的语法应为词法、句法、语义与语用的总称。,二.自然语言处理的主要研究方向,句法结构的形式化描述方法通常有两种:句法结构树、依存关系图。前者描述了句子的组成成分及各
7、个成分之间的结构关系,后者则描述了句子中词与词的依存关系。 任何句子都由关键成分(主、谓、宾)和修饰成分(定、状、补)构成,关键成分为主,修饰成分为辅。通常主语和宾语为名词或代词,谓语则为动词。谓语动词在句子中处于中心地位。,二.自然语言处理的主要研究方向,完全句法分析是要通过一系列的句法分析过程,最终得到一个句子的完整的句法树或依存树。浅层句法分析也叫部分句法分析或语块分析,它只是要求识别出句子中某些结构相对简单的成分,如非递归的名词短语、动词短语等。这些被识别出来的结构称之为语块(chunk),语块是一种介于词汇和句子之间的具有非传递特征的句子的重要成分,有时也可能就是通常的短语。,二.自
8、然语言处理的主要研究方向,语义分析 根据句法结构和句子中每个实词的词义推导出能够反映这个句子意义的形式表示。语义分析也可以由浅入深地进行,浅层语义分析又称语义角色标注,他的任务是将句子中各单元成分(短语或词汇)所扮演的语义角色(基于目标谓语的关系)标注出来。,二.自然语言处理的主要研究方向,语用、语境与篇章分析 语用是指人对语言的具体运用,研究和分析语言使用者的真正用意,他与语境、语言使用者的知识状态、言语行为、想法和意图有关联,是对自然语言的深层理解。 语境分析主要涉及的是情景语境和文化语境。 篇章分析是将研究扩展到句子界限之外,对段落和整篇文章进行理解和分析。,二.自然语言处理的主要研究方
9、向,词义消岐 确定在给定上下文语境中多义词的义。指代消解 确定指代词的先行语(指代词所指的对象或内容)的过程叫做指代消解,指代消解是建立概念关联的过程。命名实体识别 命名实体基本类型包括:人名、地名、组织机构名、数量表达式、时间短语、货币短语和百分比等7种。,二.自然语言处理的主要研究方向,信息抽取 是指从文本中抽取核心内容(包括实体、关系、事件等)并将其转换成结构化形式的过程。文本挖掘 从大量文本集合中获取用户感兴趣或者有用的模式的过程。,二.自然语言处理的主要研究方向,文本分类与聚类 文本分类 文本分类是一个有指导的学习过程。它根据一个已经被标注的训练文本样本集合,找到文本属性和文本类别之
10、间的关系模型,然后利用这种学习得到的关系模型对新的文本进行类别判断。 文本聚类 文本聚类是一个无指导的学过程。它是根据文本数据的不同特征,将其划分为不同数据类的过程,其目的是使同一类别的文本间的距离尽可能小,而不同类别的文本间的距离尽可能的大。,二.自然语言处理的主要研究方向,自动文摘 文摘是依据用户需求从源文本中提取最重要的信息内容,生成一个精简版本的过程。文摘应具有压缩性、内容完整性和可读性。文摘可分为单文档文摘和多文档文摘。自动文摘的生成有浅层方法和深层方法。,二.自然语言处理的主要研究方向,复述与文本生成 复述 复述研究的是短语或句子的同义现象,任务有两条:一是识别两个短语或句子是否互
11、为复述-抽取,二是将给定的短语或句子复述成另外一个短语或句子-生成。复述保留了“概念上的近似等价”,而结构却不一定相似。 文本生成 文本生成是研究计算机如何根据信息在机器内部的表达形式生成一段高质量的自然语言文本。,二.自然语言处理的主要研究方向,话题检测与跟踪 在海量数据流中自动发现话题,并将与话题相关的内容联系在一起。时间是话题的一个重要特征,从时间概念出发,话题又可以分成“突发性话题”和“持久性话题”。话题具有“语义”和“时间”两个主要特征。除了事件内容之外,话题还通常包涵人物、时间、地点等命名实体。,二.自然语言处理的主要研究方向,情感分析 识别出文本中所包含的主观性句子,并对其情感趋
12、势进行分析与判断。 例:我前几天买了一台汽车,它不仅外观漂亮,而且性能很好。 这里的第一个句子为客观句,二、三两句诗主观句,主体是“我”,主题(评价对象)分别是“外观”和“性能”,他们都是汽车的属性,而情感词(评价词)分别为“漂亮”和“很好”。,二.自然语言处理的主要研究方向,处理过程大致如下: 1.识别出主观句; 2.找出主题词; 3.识别出情感词; 4.判断出情感词的极性; 5.句子倾向性分析; 6.确定主体。,二.自然语言处理的主要研究方向,(二)机器翻译 机器翻译的概念 机器翻译(Machine Translation,MT)是运用计算机来实现不同语言之间的自动翻译。通常,被翻译的语言
13、称之为源语言(source language),翻译结果的语言称之为目标语言(targer language)。机器翻译就是从源语言到目标语言的转换过程。从形式上看,机器翻译是一个符号序列的变换过程。,二.自然语言处理的主要研究方向,机器翻译的方法 机器翻译方法总体上可以分成基于规则的和基于语料库的两大类。 .基于规则的机器翻译方法 (RBMT,Rule-Based MT) 主要资源是词典与知识库(存放规则与常识性知识)。 基于转换的方法 通常由分析、转换、生成三个步骤构成。,二.自然语言处理的主要研究方向,这里的分析是指对源语言句子的分析,包括词法分析、句法分析、语义分析、语境分析等等,重点
14、在句子的结构分析,经过分析之后生成源语言的句法结构树(往往附有一定的语义信息);转换阶段要依据翻译规则实现将源语言的句法结构树转换成等价的目标语言的句法结构树;再运用词典和常识性知识等完成目标语言的生成。在实际翻译中往往是一个由词到短语再到句子的分层次转换的过程,二.自然语言处理的主要研究方向,基于中间语言的方法 这种方法首先将源语言句子转换成一种与具体语种无关的通用语言或中间语言,然后再将这种语言的句子转换成目标语言的句子。整个翻译过程包含了两个独立转换的过程。 这种方法适用于一对多的翻译。 基于枢轴语翻译。 基于语料库的机器翻译方法 主要资源是经过标注的语料库,语料库是按照一定原则组织在一
15、起的大规模真实自然语言数据的集合。,二.自然语言处理的主要研究方向,基于实例的方法 ( EBMT,Example-Based MT) 该方法需要对已有的语料进行词法、句法甚至语义等分析,建立存放翻译实例的实例库。系统在执行翻译的过程中,将翻译句子与实例库中的翻译实例进行相似性分析,其中最相似的句子的译文便为翻译句子的译文。,二.自然语言处理的主要研究方向,基于统计的方法 (SMT,Statistical MT) 运用概率统计等机器学习方法来获取知识,解决机器翻译中的问题。以双语对齐语料库为基础,对源语言和目标语言的词汇(或短语)的对应关系进行统计,通过同现的可能性计算两种语言映射的概率。 统计
16、机器翻译又称之为数据驱动(data-driver)方法,它是通过数学模型来描述翻译过程,利用双语语料库来估计模型参数,再用已获得的模型和参数进行解码(搜索),得到目标语言的译文。,二.自然语言处理的主要研究方向,通常使用的方法有基于规则的(实际上是指基于转换的),基于实例的和基于统计的三种。 基于规则的方法通过计算机程序最好地反映了人们对于语言翻译的认知和理解,基于实例的方法有效地发挥了计算机的存储能力,而基于统计的方法充分发挥了计算机的数学建模能力。,二.自然语言处理的主要研究方向,目前市场上应用的机器翻译系统多半是基于规则的和基于实例的,但由于基于规则的机器翻译系统人工编写规则的工作量太大
17、,知识库的规模和一致性都难以把握。基于实例的机器翻译系统的不足在于翻译实例的泛化、覆盖率以及实例的匹配等问题。基于统计的机器翻译大规模细粒度知识的自动获取能力较强,可以弥补前面两者的一些不足。基于统计的机器翻译方法已成为当前的主流研究方向。 影响机器翻译系统质量的主要障碍:歧义问题的处理,常识性知识的使用。,二.自然语言处理的主要研究方向,(三)信息检索 1.概念 信息检索就是指从有关文档集合中查找用户所需信息的过程。广义的信息检索是指先将信息按一定的方式组织和存储起来,然后再根据用户的需求从已经存储的文档集合当中找出相关的信息。其中包括“存”与“取”两个方面,“存”即信息存储,是对信息进行收
18、集、标引、描述、组织,进行有序的存放。“取”即信息查找,是按照某种查询机制从有序存放的信息集合(数据库)中找出用户所需信息或获取其线索的过程。,二.自然语言处理的主要研究方向,基本原理 是将用户的检索提问词(关键词)与数据库文献纪录中的标引词进行对比,二者匹配一致时,即为命中,检索成功。这里“存”和“取”的联系一致是通过检索标识来实现的,检索标识是为沟通文献标引和检索提问而编制的人工语言。 检索结果按与提问词的关联度输出,供用户选择。用户通常是采用“关键词查询+选择性浏览”的与机器交互方式获取信息。,二.自然语言处理的主要研究方向,搜索引擎 信息检索最早是在上个世纪50年代提出的。90年代互联
19、网出现以后,其导航工具-搜索引擎可以看成是一种特殊的信息检索系统,如果说二者有区别的话,那就是语料库集合和用户群体有所不同,搜索引擎面临的语料库是规模浩大、内容繁杂、动态变化的互联网,用户群体不再是具有一定知识水平的科技工作者,而是兴趣爱好、知识背景、年龄结构差异很大的网民群体。目前多数人习惯于二者通用。,二.自然语言处理的主要研究方向,以谷歌为代表的“关键词查询+选择性浏览”的交互方式的特点是:用户用简单的关键词作为查询提交给搜索引擎,搜索引擎并非直接把检索目标页面反馈给用户,而是提供给用户一个可能的检索目标页面列表,用户浏览该列表并从中选择出能够满足其信息需求的页面加以浏览。 这种交互方式
20、对于用户来说查询输入简单了,但机器却难以通过简单的关键词准确的理解用户的真正查询意图,因此只能将有可能满足用户需求的结果集合以列表的形式提供给用户。,二.自然语言处理的主要研究方向,问答系统 是要机器自动地从互联网上找出问题的答案。这里的用户查询(提问)是自然语言,而返回的结果是直接答案(不是网页)。 信息过滤 信息检索是针对动态变化的信息需求从固定的信息集合中获取相关知识,信息过滤则是针对固定的信息需求从动态变化的信息流中获取相关知识。二者都是依靠信息的相关性进行判断。 衡量信息过滤效果的依据在于系统要尽可能多地获取相关信息,而同时也要尽可能多地屏蔽掉不相关信息。这里的关键技术在于去噪声能力
21、要强。噪声即来源于不相关文本,也来源于相关文本中的不相关信息。,二.自然语言处理的主要研究方向,(四)社会计算 概念 也称计算社会学,是指在互联网的环境下,以现代信息技术为手段,以社会科学理论为指导,帮助人们分析社会关系,挖掘社会知识,协助社会沟通,研究社会规律,破解社会难题的学科。 社会行为与计算系统交互融合,计算机科学、社会科学、管理科学等多学科交叉所形成的研究领域。 用社会的方法计算社会。 基于社会的计算,面向社会的计算。,二.自然语言处理的主要研究方向,社会媒体 社会媒体(Social Media)是社会计算的主要工具和手段,它是一种在线交互媒体,有着广泛的用户参与性,允许用户在线交流
22、、协作、发布、分享、传递信息,组成虚拟的网络社区等等。近年来,社会媒体呈现多样化的发展趋势,从早期的论坛、博客、维基到风头正劲的社交网站、微博,正在成为网络技术发展的热点和趋势。,二.自然语言处理的主要研究方向,社会媒体的文本属性特点是其具有草根性,字数少、噪声大、书写随意;社会属性特点是其具有社交性,在线、交互。它赋予了每个用户创造并传播内容的能力,实施个性化发布,社会化传播,将用户群体组织成社会化网络,目前典型的社会媒体是Twitter和Facebook,在我国则是微博,用户已经超过了3亿。微博即微博客(Micro Blog)的简称,是一个基于用户关系的信息分享、传播以及获取的平台。,二.
23、自然语言处理的主要研究方向,社会网络分析 社会媒体是允许用户广泛参与的新型在线媒体,通过社会媒体用户之间可以彼此之间在线交流,形成虚拟的网络社区,构成了社会网络。社会网络是一种关系网络,通过个人与群体及其相互之间的关系和交互,发现它们的组织特点,行为方式等特征,进而研究人群的社会结构,以利于他们之间的进一步共享、交流与协作。,三.下一代信息检索研究,(一)互联网及其相关技术(二)当前搜索引擎存在的问题(三)垂直搜索(四)智能搜索(五)个性化搜索(六)跨语言信息检索(七)多媒体信息检索,三.下一代信息检索研究,(一)互联网及其相关技术 互联网 互联网是一个具有开放性、动态性、异构性的全球分布式网
24、络。通常,搜索引擎要从互联网上抓取几千万甚至是几十亿个网页并按关键词构建索引,当用户提出查询请求的时候,所有在页面内容中包含有查询关键词的网页都被作为搜索结果查找出来,然后再按与查询关键词的相关程度将结果排序输出。,三.下一代信息检索研究,网络资源的特点(1)海量数据;(2)分散无序,信息存在于各服务器上,而数以千万计的网络服务器则散布世界的各个角落;(3)动态更新(不稳定性);(4)种类/形式多种多样,文字、图形、图像、音频和视频等,多种语言;,三.下一代信息检索研究,(5)非结构化与半结构化;(6)语义冗余和质量难以控制;(7)需求与使用方式个性化。 海量、分布、无序、动态、 多样、异构、
25、冗余、质杂、 需求各异,三.下一代信息检索研究,相关技术(1)自动搜索技术 搜索引擎利用爬虫技术(Crawler),根据网 页链接抓取互联网上相关页面并建立起它们之间的超链接关系。(2)自动标引技术 对搜索到的信息进行标引,然后建立倒排索引(Inverted Index),并形成索引数据库。,三.下一代信息检索研究,(3)自动匹配技术 用户输入检索项后,系统将检索项与索引数 据库中的索引项匹配,再按相关度大小将结果 排序输出。 根据以下两项因素对结果进行排序:检 索项与文档的匹配程度,主要是通过TF-IDF反 映;网页的质量,通过是预先算好的基于链接分析(Pagerank)反映。,三.下一代信
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 自然语言 处理 现状 未来 课件

链接地址:https://www.31ppt.com/p-1516625.html