基于HTML语义分析的网页正文提取.doc
《基于HTML语义分析的网页正文提取.doc》由会员分享,可在线阅读,更多相关《基于HTML语义分析的网页正文提取.doc(8页珍藏版)》请在三一办公上搜索。
1、 基于HTML语义分析的网页正文提取摘要: 随着网络的迅猛发展,web服务已经成为研究的热点之一。本文介绍了一种常用的文件类型网页文件的文本信息预处理技术。该方法能够解析网页文件的组成结构,并从中提取出主体文本以供处理。测试表明该方法能有效地得到大部分HTML网页的主体部分。文中对HTML文件的解析不仅可以用于提取出HTML文件的主体文本,也可以用于得到HTML文件中其他的元素的内容,具有推广应用价值。关键词: HTML; 网页正文; web服务Research on Main Text Extraction for Chinese Web Pages Based on Semantic An
2、alysis of HTMLAbstract: With the increasing of Internet, web Service has been the focus of research. The paper proposes a Chinese web pages preprocessing method. The method can parse web pages, and extract the main part from the web pages. The experiment shows that the method is feasible to parse we
3、b pages. The method proposed in this paper can be used not only to extract main text of web pages but also to get other element of web pages.Key words: HTML; Main Text of Web Pages; Web Service1 引言 随着Internet的迅猛发展, 尤其是WWW的全球普及,带来了现代社会的信息爆炸。在这众多的信息中,以网页形式出现的文本信息占了很大的比重1,2。如何从网页的海洋中找到符合用户要求的有用信息, 成为一个
4、很重要、迫切的问题。通过对网页分析,我们发现网页通常包含两部分的内容:一部分是网页的正文内容,它反映了网页的主题信息;另一部分则是与网页主题信息无关的内容,包括导航条、广告信息、无关超链接等。而这些与网页主题无关的内容会严重影响搜索引擎、信息检索等web服务的效果,使用户不能快速找到有效信息。因此,能准确提取网页的正文内容成为web服务所要解决的首要问题。2 HTML简介HTML是超文本标记语言“Hyper Text Markup Language”的英文缩写,是网页编写的基本语言。想要实现网页的正文提取,必须先要对HTML的语法结构有个清楚的认识。HTML的语法中主要包括4部分内容:实体(E
5、ntity),元素(Element),属性(Attribute)以及注释(Comment)。3 实体是指用作HTML标签的特殊字符(如等)的HTML编码,也叫转义字符,主要用于表示一般无法用键盘输入的字符,或者可能和HTML中有特定含义的字符相互冲突的字符。实体一般以 “&”开始,用“;”结束。常用的有:“ ;”表示空格;“<;”表示。元素用来表示网页的结构和希望的操作,一个-基金项目:高等学校博士学科点专项科研基金资助课题(20030611016)元素包括3个部分:开始标签,元素的内容和结束标签。开始标签可以表示成,其中element-name表示元素的名称,其相应的结束标签可以
6、表示成。如超链接,表示一个超链接元素。HTML允许有些元素没有结束标签,如 等。还有些元素没有内容,如等。属性用来表示元素的特性,它以“属性=值”的形式放在元素的开始标签中,如下例中,元素H1的属性align可以表示为。一个元素的开始标签中可以有多个属性,它们之间用空格隔开。注释包含在“”之间,用来增加HTML文档的可读性,不对网页的结构产生任何影响。如,说明网页的内容是从人民日报网站上转载的,但是网页上不会显示出注释的内容。3 网页正文提取3.1 现有的网页正文提取方法网页文档本身是半结构化或无结构的,其数据结构不规则或不完整,复杂程度远远高于普通的文本文档,其数据结构隐含、模式信息量大、模
7、式变化快。网页文档与典型的具有结构化数据的数据库系统不同,如雇员记录信息。在这里结构化不仅是指数据都符合统一的格式,就像一条记录类型的描述一样,并且一条记录中的字段也须由具有确定意义单一数据类型构成。而如果为一个网页文档定义数据类型,就拿一篇新闻网页来说,为它的正文、数字和图片的组成成分定义的数据类型远没有一条雇员记录的一个字段的类型意义清晰。一个电子邮件就是半结构化数据的例子,它的头域有明确的定义而它的正文体却是半结构化的。因此,要实现网页的正文提取,不能像数据库系统一样,提取某一特定字段就可以实现,而是要分析其HTML语义,从而在HTML文档中找到正文所在的位置并加以提取。当前网页正文提取
8、的方法有很多,文献4的方法是对于使用同一个模板生成的网页集,找出在该网页集中多次出现的内容,作为冗余内容,而在该网页集中共同出现较少的内容块就是有效的网页正文。实验证明该方法是有效的,但该方法必须局限在基于同一个模板的网页集,而Web上的网页模板不计其数,因此该方法显然不够通用。还有一种比较流行的方法是通过对网页划分为多个块,然后根据某种算法进行取舍,找到正文所在的那个块,提取出来。现在存在多种网页划分成块的方式,如基于DOM的分割5,基于位置的分割6,还有Vision-based Page Segmentation7。在文献8中作者使用Site Style Tree(SST)来描述网页的版面
9、和内容,并定义了SST中节点的重要程度,通过节点的删剪来得到网页正文。以上方法都是对HTML语义结构进行分析,找到网页正文所在的位置进行处理,提取出网页的正文。但这些方法对于网页结构出现非常规现象时,效果不好。比如网页的正文极短,而该网页中的广告栏含有的文字量很大,这样会把广告所在的部分当成了正文部分提取出来,造成提取的失败。3.2 HTML元素选择删除法本文基于以上分析,提出了一种HTML元素选择删除法的新算法。该算法主要思想是通过对HTML标签语义进行分析,先删除无用的HTML标签元素,再通过分块的方法提取出网页的正文部分。元素选择删除的分析过程如下:首先是网页正文存放的位置,它是包含在之
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 HTML 语义 分析 网页 正文 提取

链接地址:https://www.31ppt.com/p-2881130.html