基于网页的信息系统的一种预处理过程.doc
《基于网页的信息系统的一种预处理过程.doc》由会员分享,可在线阅读,更多相关《基于网页的信息系统的一种预处理过程.doc(60页珍藏版)》请在三一办公上搜索。
1、题目:基于网页的信息系统的一种预处理过程姓 名: 学 号: 院 系:计算机科学技术系专 业:计算机软件与理论研究方向:计算机网络与分布式系统导 师: 教授版权声明任何收存和保管本论文各种版本的单位和个人,未经本论文作者同意,不得将本论文转借他人,亦不得随意复制、抄录、拍照或以任何方式传播。否则,引起有碍作者著作权之问题,将可能承担法律责任。摘要随着Web的迅速发展,Web上的信息越来越丰富。Web使用方便、信息丰富,人们越来越多的使用Web来寻找需要的信息。为了更好的使用Web上的信息,人们也不断的追求能够有效组织和利用网上信息的技术和系统。然而,Web上的信息存在很多问题:网页内的噪音内容多
2、、Web上近似网页量大以及缺乏必要的元数据信息,这些问题严重影响了Web信息系统的服务质量。针对Web信息系统的共性需求,本文提出了一个预处理框架及相应的方法。该预处理框架包括了三个预处理工作:网页净化、近似网页删除和网页元数据提取。通过预处理过程,原始网页集中的近似网页被删除,而保留下来的网页被净化并转化为一个统一的结构化模型(称之为DocView模型)。该模型中提供了各个领域需求较多的元数据和内容数据,它包括网页标识、网页类型、内容类别、标题、关键词、摘要、正文、相关链接等元素。本文提出的预处理方法的一个重要优点是它不需要除原始网页以外的其他信息,而这些额外信息是该领域中其他方法所必须的;
3、另一个优点是将Web信息系统的共性需求放到一个过程中一次性提取出来,可以避免相同中间过程的重复执行,从而提高信息提取效率。 本文中提出的预处理框架和方法已经应用到了“天网”搜索引擎和网页自动分类系统中。通过使用预处理后应用系统质量的提高,验证了该预处理方法的有效性。不难看出,通过这样一个预处理过程,可以在任何一个网页集上(包括World Wide Web)搭建一个组织良好的、净化的、更易使用的信息层。关键词:万维网, 数据预处理,数据净化,近似网页识别,元数据提取AbstractWith the rapid expansion of the Web, the content of the We
4、b become richer and richer. People are increasingly using Web to find their wanted information because of the Webs convenience and its abundance of information. In order to make better use of Web information, technologies that can automatically re-organize and manipulate web pages are pursued such a
5、s Web information retrieval, Web page classification and other Web mining work. However, there are many noises in the Web such as the noise content in the Web page (local noise) and near replica Web pages in the Web (global noise), which decrease the quality of the information on the Web, and conseq
6、uently descrease the quality of the Web information systems seriously. Also, meta data of the Web pages are widely used in Web information systems, but they are not described explicitly. Some of these problems are never met in the traditional work.In this thesis, we propose a new preprocessing frame
7、work and the corresponding approach to meet the common requirements of several typical web information systems. The framework includes three parts: Web page cleaning, replica removal and meta data extraction. After the preprocessing stage, redundant Web pages are deleted, then, reserved Web pages ar
8、e purified and transformed into a general model called DocView. The model consists of eight elements, identifier, type, content classification code, title, keywords, abstract, topic content and relevant hyperlinks. Most of them are meta data, while the latter two are content data. The main advantage
9、 of our approach is no need for other information beyond the raw page, while additional information is usually necessary for previous related work. The preprocessing framework and approach have been applied to our search engine TW and web page classification system. The strong evidence of improvemen
10、t in applications shows the practicability of the framework and verifies the validity of the approach. Its not difficult to realize that after such a preprocessing stage, we can set up a well-formed, purified, easily manipulated information layer on top of any Web page collection (including WWW) for
11、 Web information systems.Keywords: World Wide Web, Data preprocessing, Data cleaning, Near replica detection, Meta data extraction目 录第1章引言11.1研究背景11.2本文研究内容21.3本文贡献31.4本文组织3第2章相关研究42.1搜索引擎42.2网页自动分类72.3信息提取92.4元数据提取10第3章Web信息系统面临的问题及共性需求12第4章预处理方法与技术144.1预处理框架及结果描述144.1.1预处理框架144.1.2预处理结果描述144.2网页表示
12、154.2.1网页标签树表示164.2.2网页量化表示194.3网页净化244.3.1网页类型判断244.3.2主题网页净化254.3.3目录网页净化254.3.4图片网页净化264.3.5网页净化时空效率分析264.4近似网页的发现274.4.1近似网页发现算法274.4.2性能分析294.5网页元数据提取294.5.1网页元数据提取流程描述304.5.2正文提取304.5.3关键词提取304.5.4内容类别判断314.5.5标题提取324.5.6摘要提取324.5.7主题相关超链提取334.6本章小结35第5章应用与评测365.1网页净化在网页自动分类系统中的应用与评测365.1.1应用3
13、65.1.2评测标准375.1.3评测结果与分析375.2近似网页消除在搜索引擎中的应用与评测385.2.1实验设计385.2.2评测标准395.2.3评测结果与分析405.3网页元数据在搜索引擎的索引过程中的应用与评测415.3.1检索效率评测415.3.2检索精度评测425.4本章小结44第6章总结与展望456.1总结456.2展望45参考资料47作者就读期间参加的科研项目和发表的论文51致谢52第1章 引言1.1 研究背景万维网(World Wide Web,简记为Web)是因特网上最成功的应用,起源于1989年欧洲粒子物理研究室CERN。Web的最初计划是由CERN的物理学家Tim B
14、erners-Lee于1989年3月提出的,第一个基于文本原型于18个月后运行。1991年12月在德克萨斯州的San Antonio 91超文本会议上进行了一次演示,次年继续发展,并于1993年2月,随着第一个图形界面Mosaic的发布而达到了其发展的高峰VSW94。1995年4月,Web在网上的流量超过了Internet上其它服务的流量,成为Internet上的第一大应用服务。到1997年12月,网上大约有3亿2000万网页LG98。根据Inktomi搜索引擎在2000年的数据库数据表明,网页数目已经超过了10亿。Google搜索引擎在2002年4月索引网页表明,网页数已经超过20亿Goog
15、le。而在2004年4月,Google搜索引擎索引网页数已经超过42亿。随着Web的迅速扩展,Web上的信息也飞速膨胀。这一方面使得Web成为一个巨大的信息仓库,另一方面也使得其中绝大多数的信息对于绝大多数的用户是没有意义的,而且对于一个用户而言,极小部分的有用信息也淹没在无用信息中很难被找到。为了更好的使用Web上的信息,人们不断的追求能够有效组织和利用网上信息的技术和系统,包括搜索引擎、网页自动分类、信息提取以及主题搜索,等等。我们通常把以网页为处理对象的系统称为基于网页的信息系统,为表达简单,本文中我们称其为Web信息系统。在相关的技术中,一方面涉及到对网页内容的分析,另一方面也涉及到对
16、网页间链接关系的分析。其最终目的是通过对Web上信息的有效组织来方便用户对所需信息的获取。在内容分析的过程中传统信息检索领域的技术自然的会被引用进来。但Web上网页与传统的文档相比有着自己的特点:一、Web上有用信息通常伴随着大量的“噪音”内容,而噪音内容正是Web网页与传统文档的一个主要区别。根据噪音内容的粒度大小,Web上的噪音内容可以被分为两类YLL03:全局噪音:全局噪音是指Web上具有较大粒度的噪音内容,它通常包含镜像网站、重复网页。局部噪音:局部噪音是指Web网页内与网页主题内容无关的噪音内容,比如:广告、导航条以及版权声明等内容。二、Web上网页缺乏必要的元数据信息。而元数据在信
17、息管理过程中有着重要的作用。三、Web上文本信息大多数是以HTML网页的形式存在的,HTML中定义了一套标签来描述网页中内容的布局和显示方式,因而,网页中的标签信息隐含了网页内容的重要性信息以及相关性信息。Web上信息的这些特点使得传统信息检索领域中的技术已经不能满足各种Web信息系统的要求。针对Web网页的不足给各种Web信息系统带来的问题,各个领域都有一套具体的解决方法。但并没有一个较为通用的预处理框架及相应的方法。通过分析可以看到,这些问题都是源自Web上信息本身的不足,因而各种Web信息系统的需求是有共性的。这意味着我们有必要也有可能建立一个较为通用的预处理框架并给出相应的方法,从而方
18、便大多数Web信息系统的需求。本文中的研究工作就是在这样一个背景下展开的。1.2 本文研究内容本文中的研究围绕以下几个方面展开:分析Web上网页的特点以及其不足对Web上应用系统造成的影响,从而发现Web上各种应用系统的共性需求。针对Web上应用系统的共性需求,给出一个较为通用的预处理框架和相应的方法,从而满足大多数Web信息系统的需求。将提出的预处理框架中的方法应用到实际系统中,包括:搜索引擎和网页自动分类系统。通过对应用的效果评测和一系列实验,发现方法中的不足,继续改进方法。1.3 本文贡献基于对Web上网页的特点和Web信息系统共性需求的分析,提出一个较为通用的预处理框架,包括:网页净化
19、、近似网页发现和元数据提取。提出一个新的网页内容净化方法,该方法的一个重要优点是它不需要除原始网页以外的其他信息(例如:网页模板),而这些额外信息是该领域中其他方法所必须的。在参考了Dublin CoreDC和EDA(Encoded Archival Description)EAD后,提出了一个包含元数据和内容数据的网页表示模型(称为DocView)。该模型包含这样几项信息元素:网页标识、网页类型、内容类别、标题、关键词、摘要、正文、相关链接。并给出了该模型中元素的自动提取方法。(http:/162.105.80.65:8080 中提供了自动提取网页DocView模型的服务)将本文中提出的方法
20、应用到实际的系统中:搜索引擎和网页自动分类系统,通过对原有系统质量的提高,验证了方法的有效性和实用性。通过本文中提出的方法,一方面能够自动去除Web上噪音网页以及网页内与网页主题内容无关的噪音内容,另一方面也能自动的从网页中提取相关的元数据,从而使我们看到了在原始Web上搭建一个噪音小、描述清晰、更易于处理和利用的网页信息平台。1.4 本文组织本文后面是这样组织的,第2章是相关领域的研究;第3章讨论Web信息系统遇到的问题及其共性需求;第4章讲述预处理过程的框架和其中的方法;第5章介绍本文中提出方法的应用以及实验和实验结果分析;第6章是对本文的总结和对未来工作的展望。第2章 相关研究2.1 搜
21、索引擎搜索引擎是Web上信息检索的典型系统,它的作用是帮助人们快速准确的在Web上找到所需的信息。根据搜索引擎基于的技术原理,可以分为三个类型:基于机器人(Robot)的搜索引擎这种搜索引擎利用一个称为Robot的程序以某种策略自动的将Web上的网页搜集起来,并由一个索引器为搜集到的网页建立索引。当用户通过服务提交查询请求时,由检索器从索引库中检索出相关的文档返回给用户。该类搜索引擎的优点是提供服务的信息量大、无需人工参与;缺点是返回的信息过多,包括很多与查询无关的信息。目录式搜索引擎(Directory search engine)这种搜索引擎以人工或半自动方式搜集信息。由人工来访问其中的网
22、站,并对该网站撰写一段描述,并根据网站中的信息将网站加入到一个预先定义好的分类体系下。用户访问时,通过该分类体系不断按照自己关心的类别向下找,可以找到自己关心的网站。该搜索引擎的优点是用户找到的结果较为准确;缺点是需要大量人工介入、信息量少。元搜索引擎(Meta search engine)。元搜索引擎是建立在其他独立搜索引擎之上的搜索引擎。当用户提交一个查询,元搜索引擎将查询项做一定处理后,提交给多个独立的搜索引擎,并将所有的查询结果集中起来处理后返回给用户。本节中,我们将重点介绍基于Robot的搜索引擎,并探讨Web信息中的噪音内容对搜索引擎中某些环节的影响。下图是一个搜索引擎通用的结构图
23、。图表 1搜索引擎通用结构图 ACMP基于Robot的搜索引擎通常包含以下四个步骤:网页抓取:发现、搜集Web上的网页信息。网页消重:消除搜集到的网页中重复或近似重复的网页。建立索引:对搜集到的Web信息建立索引库。提供检索服务:根据用户输入的查询项,在索引库中检索出文档。下面详细讨论网页消重和建立索引。网页消重是指将搜集到的网页中重复网页去掉的过程,在消重后的网页集上建索引再提供服务可以保证用户查询时不会出现大量内容重复的网页,同时节省建立索引的时间以及检索的时间。Manber94 SCAM SM99是三种比较常用的重复网页判断方法,其中SM99被Google所使用。这些重复网页发现算法都是
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 网页 信息系统 一种 预处理 过程

链接地址:https://www.31ppt.com/p-2881214.html