互联网网页文本对象抽取实现技术本科毕业论文.doc
《互联网网页文本对象抽取实现技术本科毕业论文.doc》由会员分享,可在线阅读,更多相关《互联网网页文本对象抽取实现技术本科毕业论文.doc(44页珍藏版)》请在三一办公上搜索。
1、互联网网页文本对象抽取实现技术摘 要互联网中蕴含着大量的关于现实世界对象的结构化信息。为了能应对信息爆炸带来的严重挑战,抽取、集成网页上各式各样的文本对象信息,进行对象级别的搜索,迫切需要一些自动化的技术帮助人们在海量信息中迅速找到自己真正需要的信息。 网页文本对象抽取实现技术正是解决这个问题的一种方法。本文以传统的信息抽取理论和方法为基础,针对目前热门的博客领域,提出了一种基于HTML特征和机器学习的博客正文抽取算法。在该算法中,研究了博客网页的特征,提出了一种基于HTML标签特征的网页分块算法,使用决策树算法对博客数据集进行统计训练,采用专门的统计工具WEKA对该算法进行了测试和评估,并总
2、结出该算法的优点以及可以改进的地方。最后,展示了基于该博客正文抽取算法的博客搜索引擎Geeseek的系统结构和界面演示。该系统属于新型的垂直搜索引擎,能够对博客和博文进行快速有效的搜索。据了解,Geeseek也是目前国内高校中第一个博客搜索引擎。关键词:互联网,信息爆炸,信息抽取,博客,HTML,机器学习,决策树,搜索引擎,Geeseek Implementation of text object extraction for Internet web pages Author: Zhang Hui Tutor: Lin YapingAbstractNowadays, there is a l
3、arge number of semi-structural information which represents objects in the real world on the Internet. In order to deal with the severe challenge brought by information explosion, extract and integrate all kinds of text object information on web pages, and put up the object-level searching, it cries
4、 for the automated technologies to help people find the very information they really need among such a large number of information. The technology of text object extraction is just one of methods to solve this problem.Based on the traditional theory of Information Extraction and aiming at the blog d
5、omain, this paper puts forward an arithmetic implementing the extraction function for the text objects of blog articles with the HTML features and machine learning. In this arithmetic, it analyses the features of blog pages, introduces an arithmetic for web page partition basing on the HTML tag feat
6、ures, uses decision tree to do statistics and training on the blog data set, tests and evaluates this arithmetic using the expert statistical tool, WEKA, and summarizes the advantages as well as the points needing improving. Finally, it shows the system architecture and interface presentation of the
7、 Geeseek, a blog Search Engine which applies the technology of text object extraction for blog pages. This system blongs to the new-style vertical Search Engine and is able to search for the blog home pages and blog article pages quickly and effectively. So far as we know, Geeseek is the first blog
8、Search Engine in all the colleges in China.Key words: Internet, information explosion, Information Extraction, blog, HTML, machine learning, Search Engine, decision tree , Geeseek毕业设计(论文)原创性声明和使用授权说明原创性声明本人郑重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含
9、我为获得 及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。作 者 签 名: 日 期: 指导教师签名: 日期: 使用授权说明本人完全了解 大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。作者签名: 日 期: 学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所
10、取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名: 日期: 年 月 日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权 大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。涉密论文按学校规定处理。作者签名:日期: 年 月 日导师签名: 日期:
11、年 月 日目 录1. 绪论11.1 课题背景及目的11.2 国内外研究状况31.2.1 国内研究现状31.2.2 国外研究现状41.3 课题研究方法51.4 论文构成及研究内容52. WEB信息抽取及网页文本对象抽取概述72.1 Web信息抽取的概念72.2 Web信息抽取的方法82.3 Web信息抽取的典型流程92.4网页文本对象抽取的理论和方法113. 博客正文信息抽取系统的设计143.1 博客搜索的概况143.2 博客正文抽取的过程153.2.1 分类153.2.2 分块183.2.3 统计训练,获取决策树213.3 算法的测试和评估243.4 博客正文抽取算法的意义和思考254. 基于
12、博客正文抽取的GEESEEK搜索引擎274.1 Geeseek系统介绍274.2博客正文抽取模块284.2.1 博客正文抽取模块简介284.2.2 博客正文抽取模块的主要数据类294.2.3 博客正文抽取模块的实现思路304.3系统展示335. 总结36致 谢37参考文献391. 绪论本章介绍了课题的背景和研究现状,并对全文的内容和结构作了概括。1.1 课题背景及目的为了应对信息爆炸带来的挑战,迫切需要一些自动化的技术帮助人们在海量信息中迅速找到自己真正需要的信息。信息抽取( Information Extraction, IE)正是解决这个问题的一种方法。信息抽取技术是指从一段文本中抽取指定
13、的事件、事实等信息,形成结构化的数据并存入一个数据库,供用户查询和使用的过程。也就是从文本中抽取用户感兴趣的事件、实体和关系,被抽取出来的信息以结构化的形式描述,然后存储在数据库中,为情报分析和检测、比价购物、自动文摘、文本分类等各种应用提供服务。广义上信息抽取技术的抽取对象并不局限于文本,其他形式存在的信息也可以作为信息抽取的对象,而抽取的结果则变为相应的结构化数据。广义上信息抽取的过程如图1.1所示。图1.1 信息抽取示意图1从自然语言文本中获取结构化信息的研究最早开始于20世纪60年代中期,这被看作是信息抽取技术的初始研究,它以两个长期的、研究性的自然语言处理项目为代表。 美国纽约大学开
14、展的Linguistic String项目开始于60年代中期并一直延续到80年代。该项目的主要研究内容是建立一个大规模的英语计算语法,与之相关的应用是从医疗领域的X光报告和医院出院记录中抽取信息格式(Information Formats),这种信息格式实际上就是现在所说的模板(Templates)。 另一个相关的长期项目是由耶鲁大学Roger Schank及其同事在20世纪70年代开展的有关故事理解的研究。由他的学生Gerald De Jong设计实现的FRUMP系统是根据故事脚本理论建立的一个信息抽取系统。该系统从新闻报道中抽取信息,内容涉及地震、工人罢工等很多领域或场景。该系统采用了期望
15、驱动(top-down,脚本)与数据驱动(bottom-up,输入文本)相结合的处理方法。这种方法被后来的许多信息抽取系统采用。 从20世纪80年代末开始,信息抽取研究蓬勃开展起来,这主要得益于消息理解系列会议(MUC,Message Understanding Conference)的召开。正是MUC系列会议使信息抽取发展成为自然语言处理领域一个重要分支,并一直推动这一领域的研究向前发展。2 目前,随着对信息抽取技术的不断发展,各种抽取系统也层出不穷。当前的发展趋势在慢慢减少人工标记的分量,而采用非标记的训练模型来实现Web信息抽取。根据这一趋势,信息抽取系统可以分成四类:人工构造的抽取系统
16、、基于指导的抽取系统、半指导的抽取系统以及非指导的抽取系统。3互联网多年的自由发展使得大量无结构信息的积累成为现实,这些信息为互联网用户带来更多选择的同时极大地增大了人们获得所需信息的复杂度。网络搜索引擎的发明在一定程度上缓解了这种窘境,通过网络搜索引擎服务商对信息的收集和筛选,人们能够方便地获得某些所需信息。这样就出现了一项与信息抽取密切相关的研究信息检索(Information Retrieval, IR)技术。信息检索是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程。信息抽取与信息检索存在差异,主要表现在三个方面: 1、 功能不同。信息检索系统主要是从大量的文
17、档集合中找到与用户需求相关的文档列表;而信息抽取系统则旨在从文本中直接获得用户感兴趣的事实信息。2、 处理技术不同。信息检索系统通常利用统计及关键词匹配等技术,把文本看成词的集合(bags of words),不需要对文本进行深入分析理解;而信息抽取往往要借助自然语言处理技术,通过对文本中的句子以及篇章进行分析处理后才能完成。 3、 适用领域不同。由于采用的技术不同,信息检索系统通常是领域无关的,而信息抽取系统则是领域相关的,只能抽取系统预先设定好的有限种类的事实信息。虽然信息抽取与信息检索有区别,但两种技术是互补的。为了处理海量文本,信息抽取系统通常以信息检索系统(如文本过滤)的输出作为输入
18、;而信息抽取技术又可以用来提高信息检索系统的性能。二者的结合能够更好地服务于用户的信息处理需求。2 信息抽取技术对于搜索引擎的发展有着重大的意义,它推动着通用搜索引擎向新型的垂直搜索引擎发展,从而能够更好地满足用户的需要,让搜索变得更快、更直接、更有效。通用的搜索引擎是基于网页级别的,因此有时候无法直接获得想要的信息,而是需要点开很多个链接,分别在这些网页中去找寻所需要的信息。很多时候,用户得到的信息往往不是事先所期望的,或者信息非常杂乱而零散。通用搜索引擎在这些方面的不足让人们开始了对搜索引擎更深层、更细致的研究。如今,新型的搜索引擎把研究单元定格在了对象级别。互联网快速增长的海量资源使得人
19、们对于搜索引擎的查询结果有了更高的要求,鉴于PageRank的成功,如何基于文本信息抽取的方法,结合HTML网页不同于纯文本的各种特征进行网页信息(包括文本、图片、音频和视频等)的分析和抽取,以改进网络搜索引擎,成为互联网信息检索研究者关注的重要问题。互联网信息抽取技术通过将无结构或半结构的互联网数据结构化,为理解用户查询与网络文档之间以及不同网络文档之间的相关性提供了基础,从而为改进搜索效率和搜索方式提供了良好的理论依据。对象级别的搜索引擎的一个显著优点是可以利用对象的语义信息,采用直接或者聚合的结果来响应复杂查询,将具体的搜索结果清晰明了地呈献给用户。本课题研究的目的旨在传统信息抽取思想的
20、基础上,提出一种互联网网页文本对象的抽取实现方法,为解决当前博客垂直搜索的问题提供一种切实可行的方式。1.2 国内外研究状况关于信息抽取的研究在国内外已经开展了相当一段时间,本节简要介绍了国内外信息抽取技术研究的进展。1.2.1 国内研究现状国内对中文信息提取系统的研究起步较晚,还集中在命名实体识别方面,遵照MUC规范的完整的中文信息提取系统目前还处于探索阶段。Intel中国研究中心在ACL-2000上演示了他们开发的一个抽取中文命名实体以及实体间关系的系统。在MUC-6和MUC-7上,增加了中文系统的评测项目,国立台湾大学(National Taiwan University)和新加坡肯特岗
21、数字实验室参加了MUC-7中文命名实体识别任务的评测,测试了中文命名实体(人名、地名、时间、事件等名词性短语)的识别,取得了与英文命名实体识别系统相近的性能。当然这只是对中文信息提取作了比较初步的工作,并不能真正进行中文信息提取。另外,北京大学计算语言所对中文信息提取也作了比较早的和比较系统的探讨,承担了两个有关中文信息提取项目的工作,即自然科学基金项目“中文信息提取技术研究”和IBM北大创新研究院项目“中文信息提取系统的设计与开发”。其目标是研究中文信息提取中的一些基础性和关键性的问题,为开发实用的信息提取技术提供理论指导,并具体探讨信息提取系统设计的各个环节。4 Intel中国研究中心的Z
22、hang Yimin等人在ACL-2000上演示了他们开发的一个抽取中文命名实体及其关系的信息抽取系统。该系统利用基于记忆学习(Memory-Based Learning,MBL)算法获取规则从而实现信息抽取。这些系统在中文命名实体的自动识别方面取得了一些成绩。车万翔等人使用基于特征向量的有监督的机器学习算法(SVM和Winnow)对实体关系进行抽取。两种算法都选择命名实体左右两个词为特征词,并得出结论:信息抽取系统若需要追求抽取的高性能,则选择SVM算法;若需要追求高的学习效率,则选择Winnow算法。11.2.2 国外研究现状信息抽取的前身是文本理解,最早开始于20世纪60年代中期,主要是
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 互联网 网页 文本 对象 抽取 实现 技术 本科毕业 论文

链接地址:https://www.31ppt.com/p-2881073.html