《自然语言》PPT课件.ppt
《《自然语言》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《自然语言》PPT课件.ppt(87页珍藏版)》请在三一办公上搜索。
1、1,第四章 自然语言与信息组织,2,4.1 自然语言是一种发展趋势4.2 自然语言的应用方式4.3 汉语自然语言的特殊问题及分词技术4.4 单汉字检索4.5 后控词表4.6 自然语言检索的效率问题4.7 自然语言与分类主题语言的比较4.8 大众分类法TAG,3,4.1 概述,自然语言在信息组织与检索方面的应用是以计算机检索为前提的;自然语言本身有突出的优点;研究广泛;汉语分词技术的发展;节省时间,建检索系统速度快;多数数据库都具有自然语言检索功能。,4,4.2 自然语言的应用方式,自然语言在信息组织与检索中大致有三种应用方式:不标引(无标引)方式自动抽词标引方式人工标引方式,5,4.2 自然语
2、言的应用方式,不标引(无标引)方式文本关键词匹配检索单汉字检索文本检索作为辅助检索途径,标引对信息单元的内容进行调查,形成其相应概念概念标引,主题分析;将概念转换为检索语言标识符号标引,6,文本关键词匹配,数据库中存储的是文本(全文、摘要、标题),不进行任何标引,检索时用关键词进行匹配,多称为文本检索;如果是针对全文数据库,则称为全文检索;检索表达式可以是词、词的组配;最普通的应用方式。,7,字符串匹配检索算法,精确匹配检索假设两个串t和p:t=t0t1t2tn-1 目标p=p0p1pm-1 模式其中,1mn(通常mn)。从目标t中查找与模式p完全相同的子串的过程叫做模式匹配。匹配结果有两种:
3、如果t中存在等于p的子串,就指出该子串在t中的位置,称为匹配成功;否则称为匹配失败。,8,(1)朴素模式匹配用p中的字符依次与t中的字符比较。每次顺序比较p和t的对应字符,如果所有得字符都相同,就说明发现了一个匹配。这种算法效率不高,主要原因在于执行中有回溯,一旦比较不等,就将p所指的串右移一个字符,并从p0开始比较。最坏的情况是,每次比较都在最后出现不等,最多比较n-m1趟,总比较次数为m*(n-m+1)。,9,(2)KMP算法 每当匹配过程中出现字符串比较不等时,不需回溯i指针,而是利用已经得到的“部分匹配”结果将模式向右“滑动”尽可能远的一段距离后,继续进行比较。,10,(3)BM算法,
4、11,模糊匹配模糊匹配检索的效率与精确匹配检索相比要低很多,当进行二叉树搜索时耗费时间将随着数据库的增长呈现出对数增长;模糊检索提高了检全率;其原理简单来说就是给定两个字符串,如何找到一个最经济的操纵序列,使得一个字符串可以转换为另一个字符串。这组操作的成本就是两个字符串的相似度。也就是说,转换成本越低,两个字符串的相似度就越高;反之就相似度越低。基本的转换操作是插入、删除和替换。,12,13,单汉字检索,汉语自然语言检索的特有方式;原理类似与文本关键词匹配;处理单位是“字”,不是“词”;数据库采用“全标引”,即所有汉字(除禁用词)都做倒排索引;单个汉字表达概念能力较弱,因此几乎等同于不标引。
5、,14,15,文本检索作为辅助途径,信息单元用检索语言进行标引;但是题名,摘要等用自然语言提供自由匹配检索。,16,全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。全文检索的方法主要分为按字检索和按词检索两种。按字检索是指对于文章中的每一个字都建立索引,检索时将词分解为字的组合。按词检索指对文章中的词,即语义单位建立索引,检索时按词检索,并且可以处理同义项等。,17,18,4.2 自然语言的应用方式,
6、2.自动抽词标引方式自动抽词标引自动赋词标引自动赋分类号标引自动聚类标引人机结合抽词标引,19,自动抽词标引,最早出现的自动标引方式;从标题摘要全文中抽词;拼写文字中,从空格识别词;而汉语则存在分词问题;根据非关键词表筛选抽取出的词;抽取出的关键词做倒排索引。,20,自动赋词标引,在自动抽词的基础上,根据自然语言词与规范的检索词之间的对应关系,将自然语言词转换为规范词,并建立倒排索引;是自然语言与检索语言的结合;检索时可以从自然语言词、规范词入手。,21,自动赋分类号,一种自动分类方法;根据自动抽词结果,对照自然语言词与分类号的对照关系以及自动分类规则,将抽取出的自然语言词转换为分类号,并建立
7、倒排文件;两种语言的结合;检索有两个入口:分类号和自然语言词。,22,自动聚类,自动分类的一种方法;这里的类是语义上描述同一类事物的一组词的语词类集;在自动抽词的基础上,进行词频分析和语词共现频率的统计分析,判别出若干最能表达信息单元内容的词;与语词类集进行相似性比较,确定信息单元属于那个类;从而实现相关文献的聚集,23,人机结合抽词标引,采取一定措施,提高自动抽词的质量。人工鉴别抽词结果;对文本添加抽词标识;,24,4.2 自然语言的应用方式,3.人工标引方式自由标引标引人员根据信息单元内容分析结果,按照一定规则自拟标引词;快、准、低成本、质量高自由词补充标引一个信息单元,首先使用规范词标引
8、,然后有自由词补充,多为专指词,25,4.3 汉语自然语言检索的特殊问题汉语分词技术(扩展知识),基于词典和规则的方法切分标记分词法基于大规模语料库的统计方法规则和统计结合的方法基于字的切分法,跳转至46页,26,分词的提出和定义,汉语文本是基于单字的,汉语的书面表达方式也是以汉字作为最小单位的,词与词之间没有显性的界限标志,因此分词是汉语文本分析处理中首先要解决的问题添加合适的显性的词语边界标志使得所形成的词串反映句子的本意,这个过程就是通常所说的分词,27,分词的意义,正确的机器自动分词是正确的中文信息处理的基础文本检索和服|务|于三日后裁制完毕,并呈送将军府中。王府饭店的设施|和|服务|
9、是一流的。如果不分词或者“和服务”分词有误,都会导致荒谬的检索结果。文语转换 他们是来|查|金泰|撞人那件事的。(“查”读音为cha)行侠仗义的|查金泰|远近闻名。(“查”读音为zha),28,交集型切分歧义,汉字串AJB被称作交集型切分歧义,如果满足AJ、JB同时为词(A、J、B分别为汉字串)。此时汉字串J被称作交集串。例“结合成分子”结合|成 分|子|结合|成|分子|结|合成|分子|例“美国会通过对台售武法案”例“乒乓球拍卖完了”,29,组合型切分歧义,汉字串AB被称作组合型切分歧义,如果满足条件:A、B、AB同时为词例组合型切分歧义:“起身”他站|起|身|来。他明天|起身|去北京。,30
10、,下雨天留客天留我不留,下雨天留客,天留,我不留。下雨天留客,天留我不留。下雨天,留客,天留,我不留。下雨天,留客,天留我,不留。下雨天留客,天留我不?留!下雨天,留客天,留我不留?下雨天,留客天,留我?不留!下雨天留客,天!留我不?留!下雨天,留客!天!留我不留?,31,“真歧义”和“伪歧义”,真歧义指存在两种或两种以上的可实现的切分形式,如句子“必须/加强/企业/中/国有/资产/的/管理/”和“中国/有/能力/解决/香港/问题/”中的字段“中国有”是一种真歧义伪歧义一般只有一种正确的切分形式,如“建设/有”、“中国/人民”、“各/地方”、“本/地区”等,32,未登录词,虽然一般的词典都能覆
11、盖大多数的词语,但有相当一部分的词语不可能穷尽地收入系统词典中,这些词语称为未登录词或新词分类:专有名词:中文人名、地名、机构名称、外国译名、时间词 重叠词:“高高兴兴”、“研究研究”派生词:“电脑化”与领域相关的术语:“互联网”缩略词:“日韩”,33,分词规范,词是自然语言的一种客观存在汉语书写过程中并不分词连写,对词组和词、单字语素和单字词的划分因人而异,甚至因时而异汉语信息处理现在需要制订统一的分词标准,否则将严重影响计算机的处理信息处理用现代汉语分词规范及自动分词方法:结合紧密、使用频繁,34,基于词典和规则的方法,最大匹配正向最大匹配、反向最大匹配和双向最大匹配实现简单,而且切分速度
12、快。但无法发现覆盖歧义,对于某些复杂的交叉歧义也会遗漏。全切分利用词典匹配,获得一个句子所有可能的切分结果。时空开销非常大。基于理解的分词算法模拟人的理解过程,在分词过程中加入句法和语义分析来处理歧义问题。难以将各种语言信息组织成机器可直接读取的形式,还处在试验阶段,35,基于词典和规则的方法,基于规则的消歧和未登录词识别规则消歧CONDITION FIND(R,NEXT,X)%X.ccat=wSELECT 1CONDITION FIND(L,NEAR,X)%X.yx=听|相信|同意SELECT 1CONDITION FIND(L,NEAR,X)%X.yx=假如|如果|假设|要是|若SELEC
13、T 2OTHERWISE SELECT 1 用规则识别未登录词 LocationName Person Name LocationNameKeyWordLocationName Location Name LocationNameKeyWordOrganizationName Organization Name OrganizationNameKeyWordOrganizationName Country Name D|DD OrganizationNameKeyWord,36,基于大规模语料库的统计方法,N元语法(N-gram)模型隐马尔可夫模型(HMM)对于一个随机事件,有一个状态序列X1
14、X2,Xn,还有一个观察值序列Y1Y2,Yn。隐马模型可以形式化为一个五元组(S,O,A,B),其中:S=q1,q2,qn:状态值的有限集合O=v1,v2,vm:观察值的有限集合A=aij,aij=p(Xt+1=qj|Xt=qi):转移概率B=bik,bik=p(Ot=vk|Xt=qi):输出概率=,=p(X1=qi):初始状态分布,37,基于大规模语料库的统计方法,互信息(MI,Mutual Information)MI越大,表示两个字之间的结合越紧密。反之,断开的可能性越大。当x 与y 关系强时,MI(x,y)=0;x与y关系弱时,MI(x,y)0;而当MI(x,y)0时,x与y称为“互补
15、分布”。最大熵模型(ME,Max Entropy)在已知条件下选择一个合适的概率分布来预测事件。,38,规则和统计结合的方法,通常利用词典进行初切分,然后用其它的概率统计方法和简单规则消歧和进行未登录词识别。比如:利用词典匹配进行初切分得到一个切分词图,然后利用词频信息求词图N条最短路径的N-最短路径法。最大匹配算法、state-of-the-art分类器和支持向量机的结合。通过词典匹配找出所有交叉歧义,利用Bigram语言模型或其变形来消除歧义。,39,基于字的切分方法,N元切分法(N-gram):对一个字符串序列以N为一个切分单位进行切分。如二元切分法:“ABCDEFG”“ABCDEFG”
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 自然语言 PPT 课件

链接地址:https://www.31ppt.com/p-5573275.html