基于网页的信息系统的一种预处理过程.doc

上传人：laozhun

文档编号：2881214

上传时间：2023-03-01

格式：DOC

页数：60

大小：1.21MB

《基于网页的信息系统的一种预处理过程.doc》由会员分享，可在线阅读，更多相关《基于网页的信息系统的一种预处理过程.doc（60页珍藏版）》请在三一办公上搜索。

1、题目：基于网页的信息系统的一种预处理过程姓名：学号：院系：计算机科学技术系专业：计算机软件与理论研究方向：计算机网络与分布式系统导师：教授版权声明任何收存和保管本论文各种版本的单位和个人，未经本论文作者同意，不得将本论文转借他人，亦不得随意复制、抄录、拍照或以任何方式传播。否则，引起有碍作者著作权之问题，将可能承担法律责任。摘要随着Web的迅速发展，Web上的信息越来越丰富。Web使用方便、信息丰富，人们越来越多的使用Web来寻找需要的信息。为了更好的使用Web上的信息，人们也不断的追求能够有效组织和利用网上信息的技术和系统。然而，Web上的信息存在很多问题：网页内的噪音内容多

2、、Web上近似网页量大以及缺乏必要的元数据信息，这些问题严重影响了Web信息系统的服务质量。针对Web信息系统的共性需求，本文提出了一个预处理框架及相应的方法。该预处理框架包括了三个预处理工作：网页净化、近似网页删除和网页元数据提取。通过预处理过程，原始网页集中的近似网页被删除，而保留下来的网页被净化并转化为一个统一的结构化模型（称之为DocView模型）。该模型中提供了各个领域需求较多的元数据和内容数据，它包括网页标识、网页类型、内容类别、标题、关键词、摘要、正文、相关链接等元素。本文提出的预处理方法的一个重要优点是它不需要除原始网页以外的其他信息，而这些额外信息是该领域中其他方法所必须的；

3、另一个优点是将Web信息系统的共性需求放到一个过程中一次性提取出来，可以避免相同中间过程的重复执行，从而提高信息提取效率。本文中提出的预处理框架和方法已经应用到了“天网”搜索引擎和网页自动分类系统中。通过使用预处理后应用系统质量的提高，验证了该预处理方法的有效性。不难看出，通过这样一个预处理过程，可以在任何一个网页集上（包括World Wide Web）搭建一个组织良好的、净化的、更易使用的信息层。关键词：万维网, 数据预处理，数据净化，近似网页识别，元数据提取AbstractWith the rapid expansion of the Web, the content of the We

4、b become richer and richer. People are increasingly using Web to find their wanted information because of the Webs convenience and its abundance of information. In order to make better use of Web information, technologies that can automatically re-organize and manipulate web pages are pursued such a

5、s Web information retrieval, Web page classification and other Web mining work. However, there are many noises in the Web such as the noise content in the Web page (local noise) and near replica Web pages in the Web (global noise), which decrease the quality of the information on the Web, and conseq

6、uently descrease the quality of the Web information systems seriously. Also, meta data of the Web pages are widely used in Web information systems, but they are not described explicitly. Some of these problems are never met in the traditional work.In this thesis, we propose a new preprocessing frame

7、work and the corresponding approach to meet the common requirements of several typical web information systems. The framework includes three parts: Web page cleaning, replica removal and meta data extraction. After the preprocessing stage, redundant Web pages are deleted, then, reserved Web pages ar

8、e purified and transformed into a general model called DocView. The model consists of eight elements, identifier, type, content classification code, title, keywords, abstract, topic content and relevant hyperlinks. Most of them are meta data, while the latter two are content data. The main advantage

9、 of our approach is no need for other information beyond the raw page, while additional information is usually necessary for previous related work. The preprocessing framework and approach have been applied to our search engine TW and web page classification system. The strong evidence of improvemen

10、t in applications shows the practicability of the framework and verifies the validity of the approach. Its not difficult to realize that after such a preprocessing stage, we can set up a well-formed, purified, easily manipulated information layer on top of any Web page collection (including WWW) for

11、 Web information systems.Keywords: World Wide Web, Data preprocessing, Data cleaning, Near replica detection, Meta data extraction目录第1章引言11.1研究背景11.2本文研究内容21.3本文贡献31.4本文组织3第2章相关研究42.1搜索引擎42.2网页自动分类72.3信息提取92.4元数据提取10第3章Web信息系统面临的问题及共性需求12第4章预处理方法与技术144.1预处理框架及结果描述144.1.1预处理框架144.1.2预处理结果描述144.2网页表示

12、154.2.1网页标签树表示164.2.2网页量化表示194.3网页净化244.3.1网页类型判断244.3.2主题网页净化254.3.3目录网页净化254.3.4图片网页净化264.3.5网页净化时空效率分析264.4近似网页的发现274.4.1近似网页发现算法274.4.2性能分析294.5网页元数据提取294.5.1网页元数据提取流程描述304.5.2正文提取304.5.3关键词提取304.5.4内容类别判断314.5.5标题提取324.5.6摘要提取324.5.7主题相关超链提取334.6本章小结35第5章应用与评测365.1网页净化在网页自动分类系统中的应用与评测365.1.1应用3

13、65.1.2评测标准375.1.3评测结果与分析375.2近似网页消除在搜索引擎中的应用与评测385.2.1实验设计385.2.2评测标准395.2.3评测结果与分析405.3网页元数据在搜索引擎的索引过程中的应用与评测415.3.1检索效率评测415.3.2检索精度评测425.4本章小结44第6章总结与展望456.1总结456.2展望45参考资料47作者就读期间参加的科研项目和发表的论文51致谢52第1章引言1.1 研究背景万维网（World Wide Web，简记为Web）是因特网上最成功的应用，起源于1989年欧洲粒子物理研究室CERN。Web的最初计划是由CERN的物理学家Tim B

14、erners-Lee于1989年3月提出的，第一个基于文本原型于18个月后运行。1991年12月在德克萨斯州的San Antonio 91超文本会议上进行了一次演示，次年继续发展，并于1993年2月，随着第一个图形界面Mosaic的发布而达到了其发展的高峰VSW94。1995年4月，Web在网上的流量超过了Internet上其它服务的流量，成为Internet上的第一大应用服务。到1997年12月，网上大约有3亿2000万网页LG98。根据Inktomi搜索引擎在2000年的数据库数据表明，网页数目已经超过了10亿。Google搜索引擎在2002年4月索引网页表明，网页数已经超过20亿Goog

15、le。而在2004年4月，Google搜索引擎索引网页数已经超过42亿。随着Web的迅速扩展，Web上的信息也飞速膨胀。这一方面使得Web成为一个巨大的信息仓库，另一方面也使得其中绝大多数的信息对于绝大多数的用户是没有意义的，而且对于一个用户而言，极小部分的有用信息也淹没在无用信息中很难被找到。为了更好的使用Web上的信息，人们不断的追求能够有效组织和利用网上信息的技术和系统，包括搜索引擎、网页自动分类、信息提取以及主题搜索，等等。我们通常把以网页为处理对象的系统称为基于网页的信息系统，为表达简单，本文中我们称其为Web信息系统。在相关的技术中，一方面涉及到对网页内容的分析，另一方面也涉及到对

16、网页间链接关系的分析。其最终目的是通过对Web上信息的有效组织来方便用户对所需信息的获取。在内容分析的过程中传统信息检索领域的技术自然的会被引用进来。但Web上网页与传统的文档相比有着自己的特点：一、Web上有用信息通常伴随着大量的“噪音”内容，而噪音内容正是Web网页与传统文档的一个主要区别。根据噪音内容的粒度大小，Web上的噪音内容可以被分为两类YLL03：全局噪音：全局噪音是指Web上具有较大粒度的噪音内容，它通常包含镜像网站、重复网页。局部噪音：局部噪音是指Web网页内与网页主题内容无关的噪音内容，比如：广告、导航条以及版权声明等内容。二、Web上网页缺乏必要的元数据信息。而元数据在信

17、息管理过程中有着重要的作用。三、Web上文本信息大多数是以HTML网页的形式存在的，HTML中定义了一套标签来描述网页中内容的布局和显示方式，因而，网页中的标签信息隐含了网页内容的重要性信息以及相关性信息。Web上信息的这些特点使得传统信息检索领域中的技术已经不能满足各种Web信息系统的要求。针对Web网页的不足给各种Web信息系统带来的问题，各个领域都有一套具体的解决方法。但并没有一个较为通用的预处理框架及相应的方法。通过分析可以看到，这些问题都是源自Web上信息本身的不足，因而各种Web信息系统的需求是有共性的。这意味着我们有必要也有可能建立一个较为通用的预处理框架并给出相应的方法，从而方

18、便大多数Web信息系统的需求。本文中的研究工作就是在这样一个背景下展开的。1.2 本文研究内容本文中的研究围绕以下几个方面展开：分析Web上网页的特点以及其不足对Web上应用系统造成的影响，从而发现Web上各种应用系统的共性需求。针对Web上应用系统的共性需求，给出一个较为通用的预处理框架和相应的方法，从而满足大多数Web信息系统的需求。将提出的预处理框架中的方法应用到实际系统中，包括：搜索引擎和网页自动分类系统。通过对应用的效果评测和一系列实验，发现方法中的不足，继续改进方法。1.3 本文贡献基于对Web上网页的特点和Web信息系统共性需求的分析，提出一个较为通用的预处理框架，包括：网页净化

19、、近似网页发现和元数据提取。提出一个新的网页内容净化方法，该方法的一个重要优点是它不需要除原始网页以外的其他信息（例如：网页模板），而这些额外信息是该领域中其他方法所必须的。在参考了Dublin CoreDC和EDA（Encoded Archival Description）EAD后，提出了一个包含元数据和内容数据的网页表示模型（称为DocView）。该模型包含这样几项信息元素：网页标识、网页类型、内容类别、标题、关键词、摘要、正文、相关链接。并给出了该模型中元素的自动提取方法。（http:/162.105.80.65:8080 中提供了自动提取网页DocView模型的服务）将本文中提出的方法

20、应用到实际的系统中：搜索引擎和网页自动分类系统，通过对原有系统质量的提高，验证了方法的有效性和实用性。通过本文中提出的方法，一方面能够自动去除Web上噪音网页以及网页内与网页主题内容无关的噪音内容，另一方面也能自动的从网页中提取相关的元数据，从而使我们看到了在原始Web上搭建一个噪音小、描述清晰、更易于处理和利用的网页信息平台。1.4 本文组织本文后面是这样组织的，第2章是相关领域的研究；第3章讨论Web信息系统遇到的问题及其共性需求；第4章讲述预处理过程的框架和其中的方法；第5章介绍本文中提出方法的应用以及实验和实验结果分析；第6章是对本文的总结和对未来工作的展望。第2章相关研究2.1 搜

21、索引擎搜索引擎是Web上信息检索的典型系统，它的作用是帮助人们快速准确的在Web上找到所需的信息。根据搜索引擎基于的技术原理，可以分为三个类型：基于机器人（Robot）的搜索引擎这种搜索引擎利用一个称为Robot的程序以某种策略自动的将Web上的网页搜集起来，并由一个索引器为搜集到的网页建立索引。当用户通过服务提交查询请求时，由检索器从索引库中检索出相关的文档返回给用户。该类搜索引擎的优点是提供服务的信息量大、无需人工参与；缺点是返回的信息过多，包括很多与查询无关的信息。目录式搜索引擎（Directory search engine）这种搜索引擎以人工或半自动方式搜集信息。由人工来访问其中的网

22、站，并对该网站撰写一段描述，并根据网站中的信息将网站加入到一个预先定义好的分类体系下。用户访问时，通过该分类体系不断按照自己关心的类别向下找，可以找到自己关心的网站。该搜索引擎的优点是用户找到的结果较为准确；缺点是需要大量人工介入、信息量少。元搜索引擎（Meta search engine）。元搜索引擎是建立在其他独立搜索引擎之上的搜索引擎。当用户提交一个查询，元搜索引擎将查询项做一定处理后，提交给多个独立的搜索引擎，并将所有的查询结果集中起来处理后返回给用户。本节中，我们将重点介绍基于Robot的搜索引擎，并探讨Web信息中的噪音内容对搜索引擎中某些环节的影响。下图是一个搜索引擎通用的结构图

23、。图表 1搜索引擎通用结构图 ACMP基于Robot的搜索引擎通常包含以下四个步骤：网页抓取：发现、搜集Web上的网页信息。网页消重：消除搜集到的网页中重复或近似重复的网页。建立索引：对搜集到的Web信息建立索引库。提供检索服务：根据用户输入的查询项，在索引库中检索出文档。下面详细讨论网页消重和建立索引。网页消重是指将搜集到的网页中重复网页去掉的过程，在消重后的网页集上建索引再提供服务可以保证用户查询时不会出现大量内容重复的网页，同时节省建立索引的时间以及检索的时间。Manber94 SCAM SM99是三种比较常用的重复网页判断方法，其中SM99被Google所使用。这些重复网页发现算法都是

24、基于相同的想法：为每张网页计算一组指纹（fingerprint），如果两张网页中相同的指纹数量超过一个阈值，这两张网页就被认为是互为重复的网页。然而，大量的重复网页并不是对原始网页的简单拷贝，而是将要转载的主题内容放在不同的模板中形成的。我们把这种近似的重复网页以及完全相同的重复网页统称为近似网页。由于模板中的内容绝大多数是与主题内容无关的，因此模板中的内容就会干扰近似网页识别程序对近似情况的判断，从而导致错误消重。常见的错误消重有以下两种情况：情况1：相同的内容，由于放在了不同的模板中导致应该被消掉但实际上被消重程序判断为非近似网页而保留。情况2：不同的内容，由于放在了相同的模板中导致不

25、应该被消掉但实际上被消重程序判断为近似网页而消掉。对于完全相同的近似网页，消重算法是容易识别的，因而，如何识别主题内容相同但模板不同的情况是消重算法面临的问题。在索引过程中，索引器为搜集到的文档建立了一个（或若干个）索引文件，索引文件是用来在检索时对查询词与文档进行匹配的，从而找到与查询词相关的文档。为了合理的对检索到的文档排序，研究人员提出了HITS HITS and PageRank PR算法，这两个算法通过分析Web上的链接结构来计算网页的重要性。正如PR中附录所讲述的，由于广告等噪音内容通常伴随着超链出现，PageRank算法得到的排序通常偏向于广告网页。另外，如果不去除原始网页中的

26、噪音内容，检索系统必然对噪音内容也建立索引，从而导致仅仅因为查询词在某张网页的噪音内容中出现，而把该网页作为结果返回，而网页的主题内容可能和这个查询词完全无关。可以看出，噪音内容不仅使索引结构的规模变大，而且还导致了检索准确性的下降。针对这个问题，LH02中提出了一个去除网页中噪音内容的方法，该方法首先依据标签构造网页的标签树，从而依据标签将一张网页规划为相互嵌套的内容块；而后，对于使用同一个模板作出的网页集，利用基于信息熵的方法找出在该网页集中多次出现的内容，作为冗余内容，而在该网页集中出现较少的内容块就是有效信息块。实验证明该方法是有效的，但该方法必须局限在基于同一个模板的网页集，而Web

27、上的网页模板不计其数，该方法显然不够通用。YLL03中也提出了一个噪音内容判断方法，该方法必须针对某一个网站，通过对网站建立一棵特殊的标签树的方法，自动发现网站中网页内的噪音内容。但这种方法的局限在于，它只能以网站为单位进行处理。实际上，任意一张网页，人是比较容易区别其中的噪音内容和主题内容的。这说明我们有可能追求自动识别一张网页中的主题内容和噪音内容而不需要依赖于一个网页集合；这样就可以使去除网页噪音内容的方法更加通用和独立。2.2 网页自动分类网页自动分类是指用计算机程序来自动确定网页与预先定义类别之间的隶属关系Fabrizio。从总体上，分类器的整个工作周期可以分成训练过程和分类过程。训

28、练过程是指为预先确定的分类体系中的每个类别人工挑选一定量的样本（我们称这个样本集合为训练集），目的在于通过每个类别内的样本来最大程度地体现每个类的特征并区别不同类之间的特征。在训练过程中，训练集实例经过分词和特征选取处理后被表示成向量形式。在该特征向量集上，统计不同类别内的词的分布，形成类别与词之间的一个加权映射。这个映射关系将是后续分类过程的依据。另外，校验集是训练集的一部分，通过应用相应的阈值策略来预先确定每个类别的截尾阈值。截尾阈值的作用在于，在分类过程中，每个网页都会被赋予一些候选类，以及该网页与每个候选类的类属关系权值，那么候选类中，类属关系权值大于对应类截尾阈值的类别将被保留下来作

29、为该网页的分类结果。在分类过程中，一个待分类的中文网页表示成向量形式后，应用分类算法同训练过程得到的类别模式逐一比较，得到候选类别列表，然后同训练过程中得到的每个类别的阈值相比较，保留大于阈值的类别，并作为该网页的分类结果。在这两个过程中，包含以下几个关键技术：训练集整理：从上述的介绍可以知道，训练集是分类器的一个重要分类依据，训练集的质量直接影响到后续分类的质量。特征项选取：在训练的过程中，对每个类别内文档中包含的词项进行取舍，选取那些能够明确体现一个类别特征并有很强区分能力的词项，而去掉那些区分能力弱，模糊不同类别间特征边界的词项。同时，特征项选取还有降低向量空间维度的作用，从而提高分类系

30、统的效率。人们已经研究了多种特征选取方法，如：文档频率（Document Frequency，DF）、信息增益（Information Gain，IG）、互信息（Mutual Information，MI）、开方拟和检验（2-test，CHI）、术语强度（Term Strength，TS）等。分类算法：通过比较给定网页的特征向量与每个类别内特征项的分布，确定网页与类别的隶属关系。常用的分类算法有以下几种：kNN算法、NB（Nave Bayes）算法、基于SVM的分类算法、决策树（Dtree，Decision Tree）算法、Rocchio算法，等等。图表 2 实现中文网页自动分类的一般过程FS

31、C图表 3 中文网页分类器的工作原理图FSC由于噪音内容与主题内容无关，因此，噪音内容对上述的几个关键技术都造成了不同程度的影响。在训练过程中，训练集中的噪音内容会导致各个类别的特征变得模糊，甚至造成噪音中的关键词成为类别的重要特征项。在分类过程中，待分类网页中的噪音内容则会导致该网页类别不明确，甚至网页的分类结果被大量的噪音内容所误导，因而影响了网页自动分类的效果。LS、YANG95中提出了通过去掉网页中的噪音特征项来提高网页分类质量的方法。这两个方法中，作者着重考虑如何从训练集中选取有代表性的特征项而去掉噪音的特征项，而没有考虑先去掉训练集网页中的噪音内容，而后在网页的主题内容中选取特征项

32、。2.3 信息提取信息提取是从文本中提取用户感预先定义好的某些类型的信息（定义、实体、关系）并以结构化的形式返回提取结果的过程JW Ralph97。它与信息检索的区别在于：信息检索是在一个文档集合中找到与查询词相关的文档子集；而信息提取是在文档内部提取出预先定义的某些类型的信息。信息提取的结果通常自动导入数据库中，在这些数据之上可以作许多应用层次上的分析，例如：趋势分析；也可以直接在Web上提供服务，例如：当前市场上某类商品价格表。信息提取研究的目标是建立具有如下功能的系统：1、从无结构或半结构化的文档中自动发现有用信息，并将其中相关的信息联系起来。2、能够在只做简单修改的情况下方便的应用

33、到不同的领域。3、性能要满足用户的需求。一个信息提取系统通常分为三个自过程：1、从每个文档内提取有用信息。2、如果一个完整的记录内容分布在不同文档中，则需要将不同文档中提取的相关信息连接为一个完整的记录。3、将用户需要的信息按照一定格式输出。针对HTML网页的信息提取，较早的方法是：针对某一类具体网页，人工提取该类网页的内容组织模式。然后，信息提取系统根据该模式从属于该类的网页中提取相应的内容HMC、HCB。但这些方法有一个共同的局限性，那就是需要人工提取内容组织模式，这对于内容组织风格繁多的WWW来说显然是不适用的。因此，在HD98中，作者提出了5条启发式规则，综合利用这5条规则系统

34、可以自动地发现网页中各个主题信息块（chunk）的边界。YH提出了一种基于视觉相似性来自动分析网页语义结构的方法，该方法首先比较HTML网页内容的视觉相似性，然后使用一个模式发现算法来确定这些视觉相似的内容最有可能的组织模式，最后按照该模式将内容重新组合。在网页信息提取过程中，自动识别网页模式以及按照一定模式从网页中提取信息都是很费时的，时间开销主要取决于网页中标签结构的复杂性以及提取出的模式的复杂性。传统的方法必须要从整个网页中提取模式，而不是只针对主题内容提取。由于主题内容的结构是相对简单的，因此直接从主题内容中提取模式或信息可以大大节省时间开销。综上，在净化后的网页上作信息提取不仅可以排

35、除噪音信息对信息提取的干扰，提高信息提取的准确性，而且可以使得网页中的结构简单化，提高信息提取的效率。2.4 元数据提取元数据是指面向应用的、能被计算机所理解和处理的、描述Web文档特征的数据WJC。长期以来，元数据在数据库领域和图书馆领域扮演着重要角色。随着Web上研究与应用的发展，单纯的网页内容已经不能满足需求，网页元数据得到越来越广泛的使用。在Web信息检索领域，单纯依赖关键词匹配的检索手段过于单一。内容类别、摘要等元数据信息的合理使用，不仅使用户可以从不同的角度进行查询，而且也使得查询的准确性得到提高。而主题搜索、个性化信息服务以及数字图书馆也都强烈的依赖资源的元数据信息。因此，准确且

36、高效的提取必要的元数据是Web上各个研究领域面临的重要问题。DC（Dublin Core）是一个得到广泛应用的网络资源元数据标准，它提供了一个描述网络信息资源的元素集合。在元数据提取领域，关键词提取是一个比较活跃的分支。在关键词提取的各种方法中，基于统计的方法被广泛的接受并被证明是有效的。Tf-Idf 公式通常被用来量化一个词项的重要性。但HTML网页中有着丰富的标签信息，如果将这些有用信息与传统的公式结合起来，将会提高关键词提取的准确性。在传统的摘要提取方法中，摘要是通过选取权值较高的句子形成的，而句子的权值则是由它所包含的关键词的权值决定的。除此之外，一些启发式规则也起到了重要的作用，比如

37、出现“综上所述”、“本文论述了”等短语的句子通常有总结全文的功能。但基于启发式规则的方法过于机械。在本文中，我们首先对净化后的网页按照标签结构进行语义分段。在分段的基础上，我们在每段内按照句子的权值选取重要句子。通过这种方法，可以保证自动生成的摘要能够覆盖整篇网页的内容，而不会被几个权值很高的关键词所引导。第3章 Web信息系统面临的问题及共性需求目前，Web信息系统通常面临以下两个问题：一、 Web上有用信息通常伴随着大量的“噪音”内容，而噪音内容正是Web网页与传统文档的一个主要区别。根据噪音内容的粒度大小，Web上的噪音内容可以被分为两类YLL03：全局噪音：全局噪音是指Web上具有较大

38、粒度的噪音内容，它通常包含镜像网站以及近似网页。全局噪音内容不仅影响了Web上信息检索系统（比如搜索引擎）的网页搜集、索引和检索结果排序的质量，也使得Web信息存储系统浪费大量的磁盘空间去保存重复的网页。局部噪音：局部噪音是指Web网页内与网页主题内容无关的噪音内容，比如：广告、导航条以及版权声明等内容。局部噪音使得应用程序很难确切得到网页的主题内容，因此它严重的影响了基于网页内容的应用程序。同时，局部噪音很多情况下是伴随着超链出现的，因此，局部噪音也对基于网页间链接关系的应用程序造成影响。虽然噪音内容在某些应用程序中是有用的，但对于大多数的Web信息系统而言，它们是有害的。二、随着Web上研

39、究与应用的发展，单纯的网页内容已经不能满足需求，网页元数据得到越来越广泛的使用。在Web信息检索领域，单纯依赖关键词匹配的检索手段过于单一，内容类别、摘要等元数据信息的合理使用，不仅使用户可以从不同的角度进行查询，而且也使得查询的准确性得到提高。而主题搜索、个性化以及数字图书馆也都强烈的依赖资源的元数据信息。但网页的元数据信息在网页中并没有被明确的表示出来。因此，准确且高效的提取必要的元数据是Web上各个研究领域面临的重要问题。通过对各个领域工作及研究成果的分析，我们发现不同领域的工作存在两个共性：1、工作结果的共性。虽然各个领域所做的工作都是为了解决网页复杂化给本领域带来的问题，但各个领域的

40、工作结果中有着共同的部分。譬如，各个领域都需要去除原始网页中的噪音内容，然后在净化后的网页上进行后续工作；很多领域都需要获取网页的元数据信息。即净化的网页和元数据是它们都需要的结果。2、工作过程的共性。在获得不同结果的过程中存在着共同的中间环节。譬如：网页分类、摘要的提取以及关键词的选取都需要对文档进行分词操作。而这些中间环节有时是整个工作中效率上的瓶颈。这些共性启示我们有可能通过归纳不同应用需求中的通用元素，并作为一个模型一次性提取出来，从而对多种应用提供一个统一的支持。可以想象，这样做既便于提高所需信息的质量，又最大限度地避免重复工作带来的时间开销，从而在信息量和复杂性这两个相互制约的因素

41、之间找到一个合理的折衷点。第4章预处理方法与技术4.1 预处理框架及结果描述4.1.1 预处理框架本文中提出的预处理框架包括三部分：网页净化（局部噪音清除）、近似网页消除（全局噪音清除）以及网页元数据提取。图表 4 预处理框架示意图由上图可以看到，经过网页净化，所有的原始网页中的噪音内容都得到有效的清除，经过近似网页消除，净化后的网页集得到了精简，在精简的网页集上，经过元数据提取，所有保留的网页被表示为一个统一的结构化数据模型。从而，在原始网页集上搭建了一个无噪音、易操作和使用的信息平台。4.1.2 预处理结果描述为了方便预处理结果的使用，我们用一个统一的结构化的模型表示预处理的结果，这个

42、网页表示模型称为DocView。它包括：网页标识、网页类型、内容类别、标题、关键词、摘要、正文、相关链接等要素。其中正文和相关链接要素属于网页的内容数据，而其他6项则属于网页的元数据。下面将对模型中的各个要素作详细描述。网页标识是对Web上网页的唯一性标识，在DocView模型中使用网页的URL作为网页标识。网页类型是根据网页内容的表现形式进行划分的，在本文中将网页分为三类：有主题网页、目录网页、图片网页。有主题网页：网页中通过文字描述了一件或多件事物，是有一定主题的。一张具体的新闻网页就是典型的有主题网页。目录网页：专门用来提供网页导向的网页，因而是超链聚集的网页。门户网站的首页就是典型的目

43、录网页。图片网页：网页的内容是通过图片的形式体现的，其中文字很少，仅仅是对图片的一个说明。某个机构的人员介绍网页就是典型的图片网页。将网页分为上述三个类型是因为三类网页在用途和处理方法上存在较大的差别。其中目录网页与其它两类网页的区别在于网页在Web上发挥的作用不同，目录网页通常不会具体的讲述一件事物，而是提供关于相关信息的链接集。而图片网页与其它两类网页的区别在于处理的方法不同，由于图片网页的内容是通过图片表达的而不是通过文字，因而，传统信息处理领域的方法对图片网页是不够有效的。三类网页间的区别导致很多应用领域都会对它们作适当的区别。内容类别是对网页的内容进行分类的结果，它是计算机获取网页

44、语义信息的一个直接手段，在Web上的研究领域中有着广泛的应用。它是通过特定的分类器对网页内容分类得到的，依赖于一定的分类体系。Dublin Core中推荐用内容类别作为其中subject元素的值。标题、关键词和摘要是概括描述Web文档内容的重要的元数据，对于Web信息检等领域的工作有非常重要的作用；正文是原始网页中真正描述主题的部分，可以看作是净化后的网页，因此，在某些具体应用中用正文代替原始网页更为合理。相关链接是指在本网页中指向与正文内容相关的网页的链接，而非广告等噪音链接。可以看出，将正文和相关超链重新组合可以得到另外一个净化尺度的净化后的网页。4.2 网页表示网页的表示是网页内容分析的

45、基础，在网页内容分析过程中通常需要两个层次的表示，抽象表示和量化表示。抽象表示是以网页制作规范（HTML规范）为依据和出发点，构造出能体现网页内容结构和内容重要性等信息的表示模型，其目的是充分利用网页制作规范，挖掘出网页中隐含的信息，为后续量化表示提供更多可利用信息。对于HTML网页，最常用的方法是构造网页的标签树。量化表示则是从计算机处理的角度出发，利用信息检索领域的技术和从网页中挖掘的隐含信息，生成计算机可以直接用于计算的表示模型（比如，向量空间模型）。下面对这两个层次的表示方法做详细描述。4.2.1 网页标签树表示今天，Web上大多数的文本信息都是以HTML网页的形式存在的。HTML是一

46、个标识语言（Markup Language），网页中的内容都存在于标签之中。为了更清楚的描述网页内容的组织结构，通常将网页中的标签按照出现顺序，依次整理出来并用适当的结构记录下来。由于标签之间的嵌套关系，标签的整理结果自然是一棵树状结构。我们把整理一篇网页中的标签得到的树状结构称为该网页的标签树。为了获取所需的信息，Web上很多领域需要对网页内容进行分析，而随着研究和应用的深入，以整张网页为单位的分析粒度已经不能满足需要，这要求我们必须深入到网页内部，将分析对象的粒度缩小，以提高分析的准确性。由于网页中的标签结构是对页面布局的描述，因而依据标签树对网页进行细化是合理的。因此，标签树在网页内容

47、分析工作中经常会用到。4.2.1.1 传统的标签树目前，有很多构造标签树的工具，他们各有特点。下面我们主要介绍W3C Document Object Model (DOM DOM)和HTML TidyTIDY。 DOM可以为每篇HTML构造一个树状结构，其中网页内的标签作为树的内部节点，而文字和图像作为树的叶子节点。 HTML Tidy也是一个被广泛使用的标签分析工具，它的特点是有很强的容错能力，可以发现网页中的标签错误（例如：结束标签丢失、结束标签匹配错误等等）并进行较为合理的修正。本文提出的标签树构造方法则是面向内容分析。该方法首先从内容分析的角度将标签分类，并以一种适合内容分析工作的方式组织标签信息。另外，在标签树中包含一定的统计信息，因此通过标签树中的信息，可以对网页有一个大致的了解。适合内容分析的标签树与通用标签树相比有这样几个特点：1、在标签树的框架上，更强调对网页内容组织结构的刻划。换言之，内容分析中强调内容块的概念，而不是任意的标签都构成标签树中的一个结点。2、在标签树中信息的组织上，对内容分析经常用到的几类信息按内容块组织，并且提供可以快速且方便操作的存储方式。3、需要有适当的描述性信息。在做内容分析的时候，除了用标签树来刻划网页的结构，我们通常还希望得到