欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    自然语言理解-语料库.ppt

    • 资源ID:5823175       资源大小:331KB        全文页数:52页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    自然语言理解-语料库.ppt

    语料库,什么是语料库,语料库是语言材料的集合语料库的特点必须是真实语言环境中出现过的语言材料必须是以电子计算机为载体必须经过一定的分析、加工和处理,语料库的类型1,按来源分类口语语料库书面语语料库按语言分类单语语料库双语语料库按加工分类生语料库熟语料库,语料库的类型2,按加工方式分单语原始语料库切分标注语料库句法树库语义标注语料库双语篇章对齐语料库句子对齐语料库词语对齐语料库结构对齐语料库,语料库研究的历史,第一代(197080年代)百万词级以语言研究为导向第二代(198090年代)千万词级词典编纂应用导向第三代(1990年代)超大规模(上亿词级)标准编码体系深度标注/多语种NLP应用第四代(?)互联网作为语料库,第一代语料库1,Brown语料库始建于1960年代初和H.Kucera发起美国Brown大学建立世界上第一个根据系统性原则采集样本的标准语料库主要代表当代美国英语规模100万词次,第一代语料库2,LOB语料库始建于1970年代初由英国Lancaster大学著名语言学家Geoffrey Leech倡议挪威Oslo大学StigJohansson主持完成安装在挪威Bergen大学挪威人文科学计算中心规模于Brown语料库相当主要代表当代英国英语,第一代语料库3,LLC语料库1960年代初,由Randolph Quirk主持收集2000小时的谈话和广播等口语素材并整理成书面材料由瑞典Lund大学J.Svartvik主持全部录入计算机1975年建成,第二代语料库1,COBUILD语料库建于1980年代以词典编撰为应用背景有英国Birminghan大学与Collins出版社合作完成规模达2000万词次基于该语料库出版的Collins Cobuild词典(1987)受到了广泛的好评,第二代语料库2,Longman语料库建于1980年代包括三个语料库LLELC语料库(Longman/Lancaster英语语料库)LSC语料库(Longman口语语料库)LCLE(Longman英语学习语料库)目标是编撰英语学习词典,为外国人学习英语服务词典规模达5000万词次,第三代语料库2,PennTreeBank(宾州大学树库)美国Pennsylvania大学1980年代末开始发起由该校计算机系M.Marcus主持1993年,完成了对近300万英语词的句子语法结构标注2000年完成了中文树库(第一版):10万词次,4185个句子,第三代语料库1,ACL/DCI语料库美国ACL倡议发起收集语料范围广泛华尔街日报Collins英语词典Brown语料库PennTreeBank一些双语或多语文本等既有已标注的语料,也有未标注语料制定了语料库文件的格式标注采用统一的SGML标注语言语料标注依照TEI(Text Encoding Initiative)标准,语料库的收集、整理和应用,语料的选取,Summers,Longman/Lancaster English Corpus:Criteria and Design,Harlow:Longman精品原则有影响力原则随机挑选原则高流通度原则典型性原则易于获得原则具有统计样本意义原则符合语言规范原则平衡性:主观性强,语料库的加工,语料库标注(Annotation)1)词性标记(Part-of-speech tagging)2)句法层次和范畴标记(Grammatical parsing)3)词义标记(Word sense tagging)4)篇章指代标记(Anaphoric annotation)5)韵律标记(Prosodic annotation),语料库加工工具,分类工具名称功能描述A.文件处理工具文本过滤器将不同的文件格式转成为纯文本文件格式文本分类器自动判别文本领域语料库辅助校对工具及一致性检查工具按照语料库加工规范,对语料质量进行管理B.语言处理工具分词与词性标注工具对语料进行词语识别,词性标记处理词义标注工具对词义进行标注浅层分析工具对语块(chunk)进行标注句法分析工具对句子进行完全句法分析双语语料对齐工具对双语语料进行各个层级(段落、句子、小句、词的对齐加工,双语语料库(Bilingual Corpora)加工,段落对齐句子对齐词对齐短语对齐,双语句子对齐,基于长度(length-based)的对齐方法Gale&Church(1993)纯粹基于句子的长度来估计对齐可能性资源要求少,算法效率相对较高基于词(word-based)的对齐方法一般要依赖词典资源,算法效率相对较低,人民日报语料库1,北京大学、富士通公司、人民日报社共同开发含人民日报1998年上半年全部文本(约1千7百万字)完整的词语切分和词性标注信息高准确率,人民日报语料库2,样例历史/n 将/d 铭记/v 这个/r 坐标/n:/w 北纬/b/m 度/q、/w 东经/b/m 度/q;/w 人们/n 将/d 铭记/v 这/r 一/m 时刻/n:/w 年/t 月/t 日/t 时/t 分/t。/w 中国/ns 政府/nnt 顺利/ad 恢复/v 对/p 香港/ns 行使/v 主权/n,/w 并/c 按照/p“/w 一国两制/j”/w、/w“/w 港人治港/l”/w、/w 高度/d 自治/v 的/u 方针/n 保持/v 香港/ns 的/u 繁荣/an 稳定/an。/w,London-Lund英语口语语料库1,what a_bout a cigarette#./*(4 sylls)*/*I wont have one th/anks#*-/arent you.going to sit d/own#-/m#-/have my _coffee in p=eace#-/quite a nice.room to!sit in(actually)#/*isnt*it#/*y/es#*-/转引自Tony McEnery&Andrew Wilson,1996,Corpus Linguistics,p55,London-Lund英语口语语料库2,语料库的编码体系,冯志伟,标准通用置标语言SGML及其在自然语言处理中的应用,载当代语言学1998年第4期。SGML(标准置标语言)XML(可扩展的置标语言)TEI(文档编码计划)/CES(语料库编码标准),语料库检索,通常倒排表实现词语到文本的快速检索演示:语料库检索和集列(concordance),语料库检索(Demo),语料库应用,支持自然语言处理应用系统开发支持语言学研究和语言教学研究,语料库对NLP的支持,基于大规模语料库的语音识别;基于大规模语料库的音字转换技术(中文输入);基于大规模语料库的自动文本校对技术;利用语料库训练HMM模型进行分词,词性标注,词义标注,等等;基于语料库的句法分析;基于语料库的机器翻译;基于机器学习技术,通过语料库获取语言知识,包括搭配特征,句法规则,等等;基于语料库的语言模型训练和语法模型评价;,应用:词频统计与Zipf定律,1998全年人民日报语料中频度最高的28个词(带词性)北京大学计算语言学研究所俞士汶教授提供,齐普夫(Zipf)定律,齐普夫定律是美国学者G.K.齐普夫于本世纪40年代提出的词频分布定律。它可以表述为:如果把一篇较长文章中每个词出现的频次统计起来,按照高频词在前、低频词在后的递减顺序排列,并用自然数给这些词编上等级序号,即频次最高的词等级为1,频次次之的等级为2,频次最小的词等级为。若用f表示频次,r表示等级序号,则有f(r)=cr-,1,c是常数人们称该式为齐普夫定律。,齐普夫(Zipf)定律,词语分布均匀度,1998年人民日报语料库部分词语分布北京大学计算语言学研究所俞士汶教授提供,词语分布均匀度:如何衡量?,熵?北大提出流通度公式:,词语均匀度,Word POS Frequency DC中 f 44418 0.99989的 u 736812 0.99988在 p 154681 0.99985为 p 31394 0.99971等 u 35223 0.99970上 f 40645 0.99968个 q 35769 0.99968了 u 141789 0.99968能 v 19574 0.99966也 d 37295 0.99964从 p 26576 0.99960大 a 27858 0.99952和 c 147835 0.99951并 c 18585 0.99950,Word POS Frequency DC都 d 24309 0.99949人 n 36128 0.99949对 p 54411 0.99946不 d 62676 0.99942把 p 19989 0.99942是 v 138767 0.99942到 v 30611 0.99940记者 n 28324 0.99936地 u 28010 0.99935有 v 60901 0.99935一 m 90038 0.99934结束 v 3255 0.99931通过 p 8174 0.99928那些 r 1871 0.99928,汉语语料库建设规范语料库分词和标注规范,语料库建设规范,选材规范文本描述规范加工规范体系构造规范,主要内容,已有的相关内容语料库的加工规范的总原则结构化词表构造原则切分标注原则,已有的相关研究成果,1信息处理用现代汉语分词规范 中国国家标准GB13715,1992年2信息处理用现代汉语词类标记集规范 教育部语言文字应用研究所 2002年,已有的相关研究成果,3现代汉语语料库文本分词规范 北京语言文化大学语言信息处理研究所 清华大学计算机科学与技术系 1998年4北大语料库加工规范:切分、词性标注、注音 北京大学计算语言学研究所 2003年5資讯处理用中文分词标准 台湾计算语言学学会,1996年,语料库加工规范的总原则,不矛盾性原则:指切分标注时不能出现两可的情况,即可以同时适用两条或两条以上的规则的情况。完备性原则:指规范能够覆盖文本的全部,即不能出现没有适用的规则的情况。,词表原则,切分标注一般都遵循一个原则词表原则把词表中已经收录的词语都作为一个分词单位,不再切分,所以几乎每一个规范的背后都有一个相应的词表。此外切分标注要做的事情主要就是未登录词的处理。未登录词包括词的重叠形式(如“点点头、高高兴兴”)、附加形式构成的词(用前后缀构成的词,如“阿明、花儿、人民性、大众化”)、离合形式的词(词的离合形式,如“睡了一觉、理了个发”)、合成数词(如“三千四百五十六”)、新词。新词主要是人名、地名等专有名词和未收入词表中的一些低频词。,词表的构造原则(已有成果),孙宏林在谈谈汉语分词的标准(语言文字应用,1997.4)中提出确定词表的优先顺序:单用标准扩展标准语义标准音节标准频度标准。孙茂松、张磊在人机并存,“质”“量”合一(语言文字应用,1997.1)中,强调人的理性判断与机器的在“量”上的经验约定。孙宏林在现代汉语语料库分词中的若干问题(陈力为、袁琦:计算语言学进展与应用,1995)中,提出了指导分词的三个原则:词是一个句法语义范畴;词的划分是相对的;应该区分语料中的不同层次。,词表与收词原则,词表分为通用词表、专名词表和领域词表。通用词表又分为原子词表、扩展词表 收词原则 高频原则 叠置原则,叠置原则,叠置原理是指复合成分的意义等于成分意义的组合。“复合”是指句法上的规则,“组合”是语义上的规则,这两者必须保持一一同构对应。凡是符合这个原则的就是复合结构“短语”,否则就是转指义、特指义,只能作为“词”。,收词原则,高频原则指收入词表的词必须首先是个高频词或高通用度的词。叠置原则指符合叠置原理的不收入到原子词表中,不符合叠置原理的才收入到原子词表中。如原子词表收录“白菜、小鞋”而不收录“白纸、大鞋”。,关于词的定义及认定,词是最小的能够独立运用的语言单位。“最小的”是以符不符合叠置原理作为标准即凡是符合叠置原理的语言单位就是可分的,就不是最小的。,词表的确定,在确定通用词表时首先依据高频原则,确定要收录的词然后再依据叠置原则来确定这个词是收入原子词表还是扩展词表符合叠置原理的高频词收入扩展词表不符合叠置原理的高频词收入原子词表对于收入原子词表的高频词,在词表中要标注其词性对于收入扩展词表的高频词,依据系统对分词单位的定义,在词表中标注其处理方式,切分标注原则,对登录词根据词表来进行切分标注具体是:凡属于基本词表中的词,按词表给定的词性进行标注 凡属于扩展词表中的词,按词表提供的处理方式切分标注。对未登录词:见相应的规范,结构化标注方法,结构化标注方法:对扩展词采取先切分后(用方括号)组合的切分标注方法其中包含:最小标注:方括号内的标注,适用于语义分析最大标注:方括号外的标注,适用于句法分析,结构化标注的意义,这种或分或合的标注问题,直接影响到语料库加工的质量以及加工的语料库的应用问题。比如,在信息检索中,有时希望有很高的精确率,这就要求切词标注系统的颗粒度大一些,而有的时候又希望有很高的查全率,这就要求切词标注系统的颗粒度小一些.,结构化分词词表的构成,结构化分词词表结构,例子,例如:玫瑰花 标注成 玫瑰/n花/n 玫瑰花/n 玫瑰/n花/nn,

    注意事项

    本文(自然语言理解-语料库.ppt)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开