文本信息提取技术(概述)课件.ppt
《文本信息提取技术(概述)课件.ppt》由会员分享,可在线阅读,更多相关《文本信息提取技术(概述)课件.ppt(77页珍藏版)》请在三一办公上搜索。
1、xxx北京大学计算机系计算语言所,文本信息提取技术(概述),1,谢谢观赏,2019-9-21,内容,(1)信息提取的含义、目标(2)信息提取技术中若干相关基础问题(3)(中文)信息提取系统的流程与设计(4)Web信息提取,2,谢谢观赏,2019-9-21,1、“信息提取”的含义,3,谢谢观赏,2019-9-21,举例说明:什么是信息提取,设想有一个用户,他关心人民日报中出现的一类特定的信息,即会议信息。属于“单纯信息”:无相互关联、时序条件、因果等。通常他是一篇一篇地看报,把其中报道会议的所有段落标记出来,然后对每一个会议信息填写如下一个表格(或者称其为“会议信息模板”):,4,谢谢观赏,20
2、19-9-21,会议信息 (填写预定义语义的表格),5,谢谢观赏,2019-9-21,6,谢谢观赏,2019-9-21,会议信息一例,7,谢谢观赏,2019-9-21,会议报道(例1) :人民日报1998-03-09,新华社北京月日电(记者李术峰): 中国农工民主党第十二届中央常务委员会第一次会议今天在北京召开。会议研究通过了贯彻落实“两会”精神的有关决定,审议通过了中国农工民主党中央年工作要点(草案),并任命了中央副秘书长。农工民主党中央主席蒋正华主持了会议,他说,农工民主党有多名党员作为代表和委员参加了今年的“两会”,各位党员要认真履行代表和委员的职责,开好会,在年的工作中认真贯彻“两会”
3、精神,加强农工民主党的自身建设,推动事业进一步发展,为建设有中国特色社会主义事业作出新的贡献。会前,农工民主党中央邀请参加“两会”的来自全国各省、自治区、直辖市的农工民主党党员进行了联谊活动。,8,谢谢观赏,2019-9-21,9,谢谢观赏,2019-9-21,ICL.CS.PKU系统输出结果:会议报道(例1)事件模板实例,今天(19980309)北京蒋正华中国农工民主党第十二届中央常委员会第一次会议,10,谢谢观赏,2019-9-21,会议报道(例2) :人民日报1998-01-07,19980107-06-016-001意大利总理普罗迪日说,欧洲国家将采取行动,共同对付库尔德难民涌入问题。
4、普罗迪日晚召开了由意外长、内政和国防部长参加的紧急会议,商讨应付库尔德难民问题的对策。会前,普罗迪说,“在经过最初的混乱后,欧洲国家的行动已经大大加强”,今后几天内将在此问题上进行系统合作。,11,谢谢观赏,2019-9-21,会议报道(例2):汉语分词、标注、短语分析,19980107-06-016-001/m 意大利/ns 总理/n 普罗迪/nr 日/t 说/v ,/w 欧洲/ns 国家/n 将/d 采取/v 行动/vn ,/w 共同/d 对付/v 库尔德/nr 难民/n 涌入/v 问题/n 。/nx MP0,0 PersonNP1,3 TimeNP4,4 VP5,5 XP6,6 Loca
5、tionNP7,7 NP8,8 XP9,9 VP10,10 NP11,11 XP12,12 XP13,13 VP14,14 VP17,17 NP18,18 XP19,19 普罗迪/nr 日/t 晚/Tg 召开/v 了/u 由/p 意/j 外长/n 、/w 内政/n 和/c 国防部长/n 参加/v 的/u 紧急/a 会议/n ,/w 商讨/v 应付/v 库尔德/nr 难民/n 问题/n 的/u 对策/n 。/nx PersonNP0,0 TimeNP1,2 VP3,3 XP4,4 PP5,5 NP6,6 PostNP7,7 XP8,8 NP9,9 XP10,10 PostNP11,11 VP12
6、,12 XP13,13 AP14,14 NP15,15 XP16,16 VP17,17 VP18,18 XP22,22 NP23,23 XP24,24 会前/t ,/w 普罗迪/nr 说/v ,“/w 在/p 经过/p 最初/b 的/u 混乱/an 后/f ,/w 欧洲/ns 国家/n 的/u 行动/vn 已经/d 大大/d 加强/v ”,/w 今后/t 几/m 天/q 内/f 将/d 在/p 此/r 问题/n 上/f 进行/v 系统/n 合作/v 。/nx TimeNP0,0 XP1,1 PersonNP2,2 VP3,3 XP4,4 PP5,5 PP6,6 AP7,7 XP8,8 NP9,
7、9 XP10,10 XP11,11 LocationNP12,12 NP13,13 XP14,14 NP15,15 XP16,16 XP17,17 VP18,18 XP19,19 TimeNP20,20 MP21,22 XP23,23 XP24,24 PP25,25 RP26,26 NP27,27 XP28,28 VP29,29 NP30,30 VP31,31 XP32,32,12,谢谢观赏,2019-9-21,会议报道(例2):命名实体与关系,库尔德 (occurrence: 1/1/15; 1/2/19;) 普罗迪 (occurrence: 1/1/3; 1/2/0; 1/3/2;) po
8、st_of(意大利总理,普罗迪),13,谢谢观赏,2019-9-21,会议报道(例2)事件模板实例,日晚 (1998-01)意大利普罗迪由意外长、内政和国防部长参加的紧急会议,14,谢谢观赏,2019-9-21,例2 会议信息结果,15,谢谢观赏,2019-9-21,会议信息自动提取?,任务: 收集历年人民日报中所有的相关信息以便于自己或他人的某些重要应用需求定义:自然地,有了使用一种能够自动完成这种工作的工具的需求希望将历年人民日报的光盘数据交给这个(计算机软件)工具处理,然后得到一个包括了大量会议信息记录的数据库文件,以非常方便地使用标准的数据库系统来浏览和查询这些信息(必要时再调出原文作
9、更细致的考察)。,16,谢谢观赏,2019-9-21,“XXX系统”,这个软件工具就是一个典型的信息提取系统,或者更准确地说,“人民日报会议信息自动提取系统”。 更多的信息提取任务:访问信息外交事件恐怖活动自然灾害,17,谢谢观赏,2019-9-21,一种报刊信息加工“高级应用”系统结构,香港日报: 1998 1999 2000 ,湖南日报: 1998 1999 2000 ,人民日报: 1998 1999 2000 ,语料库,信息提取,会议信息访问信息外交事件恐怖活动自然灾害,内容索引库,用户界面,DB Interface,18,谢谢观赏,2019-9-21,错误匹配,19980410-06-
10、006-004 目前智利全国各地正开展形式多样的宣传活动,迎接第二届美洲首脑会议月日在智利召开。图为首都圣地亚哥市中心商业区过街通道旁竖起展览橱窗,向市民介绍参加首脑会议的美洲国家的历史文化。(新华社记者韩晓华摄),19,谢谢观赏,2019-9-21,错误匹配, UNKNOWN 智利 UNKNOWN 目前智利全国各地正开展形式多样的宣传活动,迎接第二届美洲首脑会议 ,20,谢谢观赏,2019-9-21,(文本)信息提取的定义,按比较正式的说法,信息提取(Information Extraction)是指从一段文本中抽取指定的一类信息(例如事件、事实)、并将其(形成结构化的数据)填入一个数据库中
11、供用户查询使用的过程。 例如上面提到的会议信息; 或者从一篇关于自然灾害的新闻报道中摘录出灾害的类型、时间、地点、人员伤亡、经济损失、救援情况等; 或从产品发布的新闻语料中提取某产品的各种感兴趣的指标,例如计算机网络交换器的协议类型、交换速率、端口数、软件管理方式等。,21,谢谢观赏,2019-9-21,信息提取涉及到两个方面的因素,(1)用户指定感兴趣的信息特性,以及待分析的文本集(数据源);(2)系统过滤文本集并以一定的格式输出匹配的信息(关系记录)。,22,谢谢观赏,2019-9-21,与相关信息处理技术存在实质差异:,信息检索(Information Retrieval) :只是找出满
12、足一定检索条件(query)的整篇文档或段落,而人们仍然必须阅读所找到的每一个文档或段落才能获得所需要的信息。 自动文摘、文本理解 :自动文摘和文本理解则没有预先规定目标的特性,需要对多种多样的内容进行分析和处理。,23,谢谢观赏,2019-9-21,MUC (Message Understanding Conferences),美国政府支持的一个专门致力于真实新闻文本理解的例会,至今已举行7届。除像一般的学术会议一样交流论文外,它还负责组织对来自世界各地不同单位的消息理解系统进行系列化的评测活动。其主要的评测项目是从新闻报道中提取特定的信息,填入某种数据库中。评测语料大都出自各大通讯社发布的
13、新闻。对每一条消息,由专业人员人工给出标准答案,然后将参测系统的输出结果与标准答案比较,按一定的评价指标给出所有系统的评测结果,其中最主要的指标是准确率、查全率等。当前,由MUC定义的概念、模型和技术规范在国际上对整个信息提取领域起着主导的作用。,24,谢谢观赏,2019-9-21,MUC的IE任务定义,5个典型的提取阶段:(MUC-7 IE Task Definition Version 5.1) - NE (Named Entities)- ER (Entity Relations)- Template Scenario (Event Structures)- Coreference (I
14、dentity descriptions)- Template Merger具体提取哪些 NE, ER, Events 以及做哪些Coref, Merger 是任务相关的(每次MUC独立定义)。,25,谢谢观赏,2019-9-21,各个阶段的IE任务,5个典型的提取阶段:- NE (Named Entities):提取文本中相关的命名实体,包括人名、机构/公司名称的识别 国家财政部/Org 部长 项怀诚/Person- ER (Entity Relations):提取命名实体之间的各种关系(事实) Post_of(部长,项怀诚), employee_of(国家财政部,项怀诚)- Templat
15、e Scenario (Event Structures):事件 召开会议(Time, Spot, Convener, Topic)- Coreference (Identity descriptions) : 代词、名词共指- Template Merger : 相同事件的合并,26,谢谢观赏,2019-9-21,实体(Entities)识别:90%属性(Attributes)识别:80% (TE任务)事实(Facts)识别:70% (TR任务)事件(Events)识别:60% (ST任务),27,谢谢观赏,2019-9-21,2、理解IE:目标、问题和对策,如何界定一门新的技术:它想做什么
16、能做什么、它不做什么 (e.g., OOP hype in the earlier 90s = limited to structured types; GP is much better, but limited to source code reuse; ),28,谢谢观赏,2019-9-21,范式转移(paradigm shift),大背景(二十世纪80年代后期 ):从以Chomsky等为代表的“纯理性范式”转变为日益强调以对真实文本数据的统计分析和经验知识归纳为主要方法的范式。这种趋势还同计算机处理能力不断提高和文本数据积累不断增大密切相关。尊重真实文本语言事实已成为当前各种自然语言信
17、息处理技术(包括信息提取)的一个基本立场和出发点。,29,谢谢观赏,2019-9-21,IE的背景与动机,作为一门应用性的语言处理技术,信息提取近年来正受到越来越多的重视。“提取指定的信息” : 提取而不是查找!良好的动机:在所欲与所能之间找平衡突破信息检索的局限性(由人来阅读、理解、提取) 自动查找、理解和提取“有限技术的无穷运用”,30,谢谢观赏,2019-9-21,Typical Process,Specified Information Understanding,Document Base,Filled Templates,Info: event_frame . . .,(As a
18、DBMS Interface),31,谢谢观赏,2019-9-21,A Conceived Process,Specified Information Understanding,Document Base,Filled Templates,Info: event_frame . . .,(As a DBMS Interface),“有了数据库之后,就什么都好办了。”,32,谢谢观赏,2019-9-21,并非那么简单的问题/答案,什么是“信息”?尤其是“可提取的文本信息”?到底有多少类别/不同层次的信息?如何定义/形式化表示你想要的“信息”?机器需要预备什么“信息”才能自动进行“提取”?,33
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文本 信息 提取 技术 概述 课件

链接地址:https://www.31ppt.com/p-1625654.html