孙斌北京大学计算机系计算语言所iclpkueducn.ppt
《孙斌北京大学计算机系计算语言所iclpkueducn.ppt》由会员分享,可在线阅读,更多相关《孙斌北京大学计算机系计算语言所iclpkueducn.ppt(76页珍藏版)》请在三一办公上搜索。
1、孙 斌北京大学计算机系计算语言所(),文本信息提取技术(概述),内容,(1)信息提取的含义、目标(2)信息提取技术中若干相关基础问题(3)(中文)信息提取系统的流程与设计(4)Web信息提取,1、“信息提取”的含义,举例说明:什么是信息提取,设想有一个用户,他关心人民日报中出现的一类特定的信息,即会议信息。属于“单纯信息”:无相互关联、时序条件、因果等。通常他是一篇一篇地看报,把其中报道会议的所有段落标记出来,然后对每一个会议信息填写如下一个表格(或者称其为“会议信息模板”):,会议信息(填写预定义语义的表格),会议信息一例,会议报道(例1):人民日报1998-03-09,新华社北京月日电(记
2、者李术峰):中国农工民主党第十二届中央常务委员会第一次会议今天在北京召开。会议研究通过了贯彻落实“两会”精神的有关决定,审议通过了中国农工民主党中央年工作要点(草案),并任命了中央副秘书长。农工民主党中央主席蒋正华主持了会议,他说,农工民主党有多名党员作为代表和委员参加了今年的“两会”,各位党员要认真履行代表和委员的职责,开好会,在年的工作中认真贯彻“两会”精神,加强农工民主党的自身建设,推动事业进一步发展,为建设有中国特色社会主义事业作出新的贡献。会前,农工民主党中央邀请参加“两会”的来自全国各省、自治区、直辖市的农工民主党党员进行了联谊活动。,ICL.CS.PKU系统输出结果:会议报道(例
3、1)事件模板实例,今天(19980309)北京蒋正华中国农工民主党第十二届中央常委员会第一次会议,会议报道(例2):人民日报1998-01-07,19980107-06-016-001意大利总理普罗迪日说,欧洲国家将采取行动,共同对付库尔德难民涌入问题。普罗迪日晚召开了由意外长、内政和国防部长参加的紧急会议,商讨应付库尔德难民问题的对策。会前,普罗迪说,“在经过最初的混乱后,欧洲国家的行动已经大大加强”,今后几天内将在此问题上进行系统合作。,会议报道(例2):汉语分词、标注、短语分析,19980107-06-016-001/m 意大利/ns 总理/n 普罗迪/nr 日/t 说/v,/w 欧洲/
4、ns 国家/n 将/d 采取/v 行动/vn,/w 共同/d 对付/v 库尔德/nr 难民/n 涌入/v 问题/n。/nx MP0,0 PersonNP1,3 TimeNP4,4 VP5,5 XP6,6 LocationNP7,7 NP8,8 XP9,9 VP10,10 NP11,11 XP12,12 XP13,13 VP14,14 VP17,17 NP18,18 XP19,19 普罗迪/nr 日/t 晚/Tg 召开/v 了/u 由/p 意/j 外长/n、/w 内政/n 和/c 国防部长/n 参加/v 的/u 紧急/a 会议/n,/w 商讨/v 应付/v 库尔德/nr 难民/n 问题/n 的/
5、u 对策/n。/nx PersonNP0,0 TimeNP1,2 VP3,3 XP4,4 PP5,5 NP6,6 PostNP7,7 XP8,8 NP9,9 XP10,10 PostNP11,11 VP12,12 XP13,13 AP14,14 NP15,15 XP16,16 VP17,17 VP18,18 XP22,22 NP23,23 XP24,24 会前/t,/w 普罗迪/nr 说/v,“/w 在/p 经过/p 最初/b 的/u 混乱/an 后/f,/w 欧洲/ns 国家/n 的/u 行动/vn 已经/d 大大/d 加强/v”,/w 今后/t 几/m 天/q 内/f 将/d 在/p 此/
6、r 问题/n 上/f 进行/v 系统/n 合作/v。/nx TimeNP0,0 XP1,1 PersonNP2,2 VP3,3 XP4,4 PP5,5 PP6,6 AP7,7 XP8,8 NP9,9 XP10,10 XP11,11 LocationNP12,12 NP13,13 XP14,14 NP15,15 XP16,16 XP17,17 VP18,18 XP19,19 TimeNP20,20 MP21,22 XP23,23 XP24,24 PP25,25 RP26,26 NP27,27 XP28,28 VP29,29 NP30,30 VP31,31 XP32,32,会议报道(例2):命名实
7、体与关系,库尔德(occurrence:1/1/15;1/2/19;)普罗迪(occurrence:1/1/3;1/2/0;1/3/2;)post_of(意大利总理,普罗迪),会议报道(例2)事件模板实例,日晚(1998-01)意大利普罗迪由意外长、内政和国防部长参加的紧急会议,例2 会议信息结果,会议信息自动提取?,任务:收集历年人民日报中所有的相关信息以便于自己或他人的某些重要应用需求定义:自然地,有了使用一种能够自动完成这种工作的工具的需求希望将历年人民日报的光盘数据交给这个(计算机软件)工具处理,然后得到一个包括了大量会议信息记录的数据库文件,以非常方便地使用标准的数据库系统来浏览和查
8、询这些信息(必要时再调出原文作更细致的考察)。,“XXX系统”,这个软件工具就是一个典型的信息提取系统,或者更准确地说,“人民日报会议信息自动提取系统”。更多的信息提取任务:访问信息外交事件恐怖活动自然灾害,一种报刊信息加工“高级应用”系统结构,香港日报:1998 1999 2000,湖南日报:1998 1999 2000,人民日报:1998 1999 2000,语料库,信息提取,会议信息访问信息外交事件恐怖活动自然灾害,内容索引库,用户界面,DB Interface,错误匹配,19980410-06-006-004 目前智利全国各地正开展形式多样的宣传活动,迎接第二届美洲首脑会议月日在智利召
9、开。图为首都圣地亚哥市中心商业区过街通道旁竖起展览橱窗,向市民介绍参加首脑会议的美洲国家的历史文化。(新华社记者韩晓华摄),错误匹配,UNKNOWN 智利 UNKNOWN 目前智利全国各地正开展形式多样的宣传活动,迎接第二届美洲首脑会议,(文本)信息提取的定义,按比较正式的说法,信息提取(Information Extraction)是指从一段文本中抽取指定的一类信息(例如事件、事实)、并将其(形成结构化的数据)填入一个数据库中供用户查询使用的过程。例如上面提到的会议信息;或者从一篇关于自然灾害的新闻报道中摘录出灾害的类型、时间、地点、人员伤亡、经济损失、救援情况等;或从产品发布的新闻语料中提
10、取某产品的各种感兴趣的指标,例如计算机网络交换器的协议类型、交换速率、端口数、软件管理方式等。,信息提取涉及到两个方面的因素,(1)用户指定感兴趣的信息特性,以及待分析的文本集(数据源);(2)系统过滤文本集并以一定的格式输出匹配的信息(关系记录)。,与相关信息处理技术存在实质差异:,信息检索(Information Retrieval):只是找出满足一定检索条件(query)的整篇文档或段落,而人们仍然必须阅读所找到的每一个文档或段落才能获得所需要的信息。自动文摘、文本理解:自动文摘和文本理解则没有预先规定目标的特性,需要对多种多样的内容进行分析和处理。,MUC(Message Unders
11、tanding Conferences),美国政府支持的一个专门致力于真实新闻文本理解的例会,至今已举行7届。除像一般的学术会议一样交流论文外,它还负责组织对来自世界各地不同单位的消息理解系统进行系列化的评测活动。其主要的评测项目是从新闻报道中提取特定的信息,填入某种数据库中。评测语料大都出自各大通讯社发布的新闻。对每一条消息,由专业人员人工给出标准答案,然后将参测系统的输出结果与标准答案比较,按一定的评价指标给出所有系统的评测结果,其中最主要的指标是准确率、查全率等。当前,由MUC定义的概念、模型和技术规范在国际上对整个信息提取领域起着主导的作用。,MUC的IE任务定义,5个典型的提取阶段:
12、(MUC-7 IE Task Definition Version 5.1)-NE(Named Entities)-ER(Entity Relations)-Template Scenario(Event Structures)-Coreference(Identity descriptions)-Template Merger具体提取哪些 NE,ER,Events 以及做哪些Coref,Merger 是任务相关的(每次MUC独立定义)。,各个阶段的IE任务,5个典型的提取阶段:-NE(Named Entities):提取文本中相关的命名实体,包括人名、机构/公司名称的识别 国家财政部/Org
13、 部长 项怀诚/Person-ER(Entity Relations):提取命名实体之间的各种关系(事实)Post_of(部长,项怀诚),employee_of(国家财政部,项怀诚)-Template Scenario(Event Structures):事件 召开会议(Time,Spot,Convener,Topic)-Coreference(Identity descriptions):代词、名词共指-Template Merger:相同事件的合并,实体(Entities)识别:90%属性(Attributes)识别:80%(TE任务)事实(Facts)识别:70%(TR任务)事件(Eve
14、nts)识别:60%(ST任务),2、理解IE:目标、问题和对策,如何界定一门新的技术:它想做什么能做什么、它不做什么(e.g.,OOP hype in the earlier 90s=limited to structured types;GP is much better,but limited to source code reuse;),范式转移(paradigm shift),大背景(二十世纪80年代后期):从以Chomsky等为代表的“纯理性范式”转变为日益强调以对真实文本数据的统计分析和经验知识归纳为主要方法的范式。这种趋势还同计算机处理能力不断提高和文本数据积累不断增大密切相关
15、。尊重真实文本语言事实已成为当前各种自然语言信息处理技术(包括信息提取)的一个基本立场和出发点。,IE的背景与动机,作为一门应用性的语言处理技术,信息提取近年来正受到越来越多的重视。“提取指定的信息”:提取而不是查找!良好的动机:在所欲与所能之间找平衡突破信息检索的局限性(由人来阅读、理解、提取)自动查找、理解和提取“有限技术的无穷运用”,Typical Process,Specified Information Understanding,Document Base,Filled Templates,Info:event_frame.,(As a DBMS Interface),A Conc
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 北京大学 计算机系 计算 语言 iclpkueducn

链接地址:https://www.31ppt.com/p-5384948.html