自然语言理解-语料库.ppt
《自然语言理解-语料库.ppt》由会员分享,可在线阅读,更多相关《自然语言理解-语料库.ppt(52页珍藏版)》请在三一办公上搜索。
1、语料库,什么是语料库,语料库是语言材料的集合语料库的特点必须是真实语言环境中出现过的语言材料必须是以电子计算机为载体必须经过一定的分析、加工和处理,语料库的类型1,按来源分类口语语料库书面语语料库按语言分类单语语料库双语语料库按加工分类生语料库熟语料库,语料库的类型2,按加工方式分单语原始语料库切分标注语料库句法树库语义标注语料库双语篇章对齐语料库句子对齐语料库词语对齐语料库结构对齐语料库,语料库研究的历史,第一代(197080年代)百万词级以语言研究为导向第二代(198090年代)千万词级词典编纂应用导向第三代(1990年代)超大规模(上亿词级)标准编码体系深度标注/多语种NLP应用第四代(
2、?)互联网作为语料库,第一代语料库1,Brown语料库始建于1960年代初和H.Kucera发起美国Brown大学建立世界上第一个根据系统性原则采集样本的标准语料库主要代表当代美国英语规模100万词次,第一代语料库2,LOB语料库始建于1970年代初由英国Lancaster大学著名语言学家Geoffrey Leech倡议挪威Oslo大学StigJohansson主持完成安装在挪威Bergen大学挪威人文科学计算中心规模于Brown语料库相当主要代表当代英国英语,第一代语料库3,LLC语料库1960年代初,由Randolph Quirk主持收集2000小时的谈话和广播等口语素材并整理成书面材料由
3、瑞典Lund大学J.Svartvik主持全部录入计算机1975年建成,第二代语料库1,COBUILD语料库建于1980年代以词典编撰为应用背景有英国Birminghan大学与Collins出版社合作完成规模达2000万词次基于该语料库出版的Collins Cobuild词典(1987)受到了广泛的好评,第二代语料库2,Longman语料库建于1980年代包括三个语料库LLELC语料库(Longman/Lancaster英语语料库)LSC语料库(Longman口语语料库)LCLE(Longman英语学习语料库)目标是编撰英语学习词典,为外国人学习英语服务词典规模达5000万词次,第三代语料库2,
4、PennTreeBank(宾州大学树库)美国Pennsylvania大学1980年代末开始发起由该校计算机系M.Marcus主持1993年,完成了对近300万英语词的句子语法结构标注2000年完成了中文树库(第一版):10万词次,4185个句子,第三代语料库1,ACL/DCI语料库美国ACL倡议发起收集语料范围广泛华尔街日报Collins英语词典Brown语料库PennTreeBank一些双语或多语文本等既有已标注的语料,也有未标注语料制定了语料库文件的格式标注采用统一的SGML标注语言语料标注依照TEI(Text Encoding Initiative)标准,语料库的收集、整理和应用,语料的
5、选取,Summers,Longman/Lancaster English Corpus:Criteria and Design,Harlow:Longman精品原则有影响力原则随机挑选原则高流通度原则典型性原则易于获得原则具有统计样本意义原则符合语言规范原则平衡性:主观性强,语料库的加工,语料库标注(Annotation)1)词性标记(Part-of-speech tagging)2)句法层次和范畴标记(Grammatical parsing)3)词义标记(Word sense tagging)4)篇章指代标记(Anaphoric annotation)5)韵律标记(Prosodic anno
6、tation),语料库加工工具,分类工具名称功能描述A.文件处理工具文本过滤器将不同的文件格式转成为纯文本文件格式文本分类器自动判别文本领域语料库辅助校对工具及一致性检查工具按照语料库加工规范,对语料质量进行管理B.语言处理工具分词与词性标注工具对语料进行词语识别,词性标记处理词义标注工具对词义进行标注浅层分析工具对语块(chunk)进行标注句法分析工具对句子进行完全句法分析双语语料对齐工具对双语语料进行各个层级(段落、句子、小句、词的对齐加工,双语语料库(Bilingual Corpora)加工,段落对齐句子对齐词对齐短语对齐,双语句子对齐,基于长度(length-based)的对齐方法Ga
7、le&Church(1993)纯粹基于句子的长度来估计对齐可能性资源要求少,算法效率相对较高基于词(word-based)的对齐方法一般要依赖词典资源,算法效率相对较低,人民日报语料库1,北京大学、富士通公司、人民日报社共同开发含人民日报1998年上半年全部文本(约1千7百万字)完整的词语切分和词性标注信息高准确率,人民日报语料库2,样例历史/n 将/d 铭记/v 这个/r 坐标/n:/w 北纬/b/m 度/q、/w 东经/b/m 度/q;/w 人们/n 将/d 铭记/v 这/r 一/m 时刻/n:/w 年/t 月/t 日/t 时/t 分/t。/w 中国/ns 政府/nnt 顺利/ad 恢复/
8、v 对/p 香港/ns 行使/v 主权/n,/w 并/c 按照/p“/w 一国两制/j”/w、/w“/w 港人治港/l”/w、/w 高度/d 自治/v 的/u 方针/n 保持/v 香港/ns 的/u 繁荣/an 稳定/an。/w,London-Lund英语口语语料库1,what a_bout a cigarette#./*(4 sylls)*/*I wont have one th/anks#*-/arent you.going to sit d/own#-/m#-/have my _coffee in p=eace#-/quite a nice.room to!sit in(actually
9、)#/*isnt*it#/*y/es#*-/转引自Tony McEnery&Andrew Wilson,1996,Corpus Linguistics,p55,London-Lund英语口语语料库2,语料库的编码体系,冯志伟,标准通用置标语言SGML及其在自然语言处理中的应用,载当代语言学1998年第4期。SGML(标准置标语言)XML(可扩展的置标语言)TEI(文档编码计划)/CES(语料库编码标准),语料库检索,通常倒排表实现词语到文本的快速检索演示:语料库检索和集列(concordance),语料库检索(Demo),语料库应用,支持自然语言处理应用系统开发支持语言学研究和语言教学研究,语
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 自然语言 理解 语料库

链接地址:https://www.31ppt.com/p-5379473.html