毕业设计(论文)面向丝绸领域的垂直搜索引擎关键算法研究.doc
《毕业设计(论文)面向丝绸领域的垂直搜索引擎关键算法研究.doc》由会员分享,可在线阅读,更多相关《毕业设计(论文)面向丝绸领域的垂直搜索引擎关键算法研究.doc(59页珍藏版)》请在三一办公上搜索。
1、摘要垂直搜索引擎是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后以某种形式返回给用户。垂直搜索引擎与传统的网页搜索引擎最大的区别就是将网页中的信息进行结构化的抽取。使得信息在抽取的时候就建立了分类,更好的适应查询需求。近几年来,垂直搜索引擎已经被应用到某些专业的领域(如化学、科技文献)。本文从研究和设计的角度对垂直搜索引擎的相关技术作了详细的分析和讨论,论述了目前搜索引擎的国内外发展现状和趋势。分析了搜索引擎的工作原理及其各部分主要功能,抓住如何评价页面的主题相关性和设计高效的爬行策略这两个关键问题,提出一个基于丝绸信息的定题搜索器,它是垂
2、直搜索引擎的核心。在文章的主体部分,以搜索引擎的设计流程为主线,重点论述垂直搜索引擎设计与实现时一些独特的信息识别方法,包括pagerank和HITS算法。从HTML页面解析的一般概念入手,结合网页之间的超链接分析,按照搜索引擎系统的要求,采用深度优先的搜索策略设计具有垂直搜索引擎功能的丝绸信息网站。并按照软件工程的方法,研究了丝绸信息搜索引擎的总体设计过程和实现过程,设计过程重点论述了需求分析、网站的功能规划和总体结构、数据库设计等内容,并通过编码实现设计阶段的各种算法和具体功能。最后的软件功能测试表明,此搜索引擎算法准确、确定、不会引起本地资源耗尽;它支持按指定站点搜索,按给定URL范围进
3、行搜索的搜索策略。可以完成指定信息的自动搜索和下载。关键词: 垂直搜索引擎 网页信息抽取 抽取规则 索引库作 者:张小莉指导老师:姚建民AbstractThe Vertical Searching Engine is a typical type of searching engine, which can classify information in certain field from those websites, Directional mark of syllable takes out the data needing carrying out treatment and ana
4、lyze those data, then return them to users. The major difference between Vertical Searching Engine and traditional searching engine is thtat the vertical one select information from website in a structural way classify the information while selecting it to be better satisfy the searching requirement
5、s. In this paper it does detailedly some analying and discussing the technology of the Vertical Searching Engine from the studying and designing angle, has discussed home and abroad present situation and trend searching for an engine at present. The operating principle having analysed searching engi
6、ne and their every main part function, grasp the two key problems about how to appraising pages subject correlativity and designing the high-effect crawlling tactics, Suggest a directional question Searching machine based on Silk Information,it is the core of a Vertical Searching Engine. In the arti
7、cle main body part, we regarded the Serching Engines designing flow as the main clue, and focused on discussing the designing and carrying out some typical informations identification method about Vertical Seraching Engine, Including PageRanks and HITS s algorithm.Starting with the HTML page analysi
8、s s average concept,combine the Hypertext analysis among the Webs,According Searching Engine System requirements ,adopt the depth-first searching tactics to design a silk information website which has Vertical Searching Engine function. And according to the software engineering method, we have studi
9、ed the silk information Searching Engines overall designing and realizing process, during this process we discussed with an emphasis on requirement analys 、web functions design and total structure 、database design etc. and realized designing stages all kinds of algorithms and specific function by co
10、de.The results of software function test show that the algorithm of Vertical Searching Engine is accurate and steady without the risk of local information resource exhaustion. It supports the searching strategy of searching on fixed site or in a given URL circle.It can also do automatic searching an
11、d downloading according to the given information.Keywords:Vertical Searching Engine; Web Information Extraction;Extraction rules; Index DatabaseWritten by Shally ZhangSupervised by James Yao目录摘要IAbstractII第1章绪论11.1课题的背景及意义11.2垂直搜索引擎现存的问题11.2.1垂直搜索引擎的产生11.2.2存在的问题21.3国内外垂直搜索引擎的发展31.4垂直搜索引擎的发展前景41.5课题
12、的主要研究内容6第2章搜索引擎实现原理72.1通用搜索引擎的工作流程72.2网页信息采集技术和软件82.2.1网页信息采集软件的工作方式92.2.2网页采集软件的组成模块102.3索引器122.3.1实现原理122.3.2索引数据组织132.3.3索引文件导出过程142.4网页存储器与分析索引器142.5查询器和用户接口的设计152.5.1查询器152.5.2用户接口162.6搜索引擎的性能评价指标162.7小结18第3章垂直搜索引擎的关键技术193.1页面分析技术193.2超链接分析算法203.2.1PageRank算法203.2.2HITS算法223.3网页信息的结构化抽取233.3.1网
13、页信息的结构化抽取方式243.3.2结构化信息抽取系统的结构243.3.3中文网页结构化信息抽取的难点253.4暗藏网页的信息抽取263.5小结27第4章面向丝绸领域垂直搜索引擎的总体设计284.1基本功能需求284.2丝绸产品信息搜索引擎系统的体系结构294.3系统开发环境304.4垂直搜索引擎的主要数据库设计304.5 系统功能特点31第5章面向丝绸领域的垂直搜索引擎的具体实现335.1 丝绸信息网页自动搜索算法的具体实现335.1.1元搜索算法335.1.2自动搜索过程的实现355.1.3 网页爬行的控制模块实现375.1.4 HTML标准化与页面解析385.1.5网页爬行的控制模块的性
14、能测试395.2 页面分析与丝绸产品信息的自动抽取415.3 Lucene倒排文件索引结构445.4 用户查询功能的实现455.4.1网页形式的丝绸产品信息查询与返回465.4.2站内数据库中的丝绸产品信息查询与返回485.5 小结49结论50致谢52参考文献53攻读学位期间公开发表的论文55第1章绪论1.1课题的背景及意义随着网络与通信技术的迅速发展,Web信息爆炸性的增长,互联网已经成为一个巨大的海量信息空间。如何迅速、准确、方便的从如此庞大的信息库获取自己需要的信息,是互联网用户面临的一个重要问题。搜索引擎的出现,整合了众多网站信息,极快的查询起到了信息导航的作用,信息的价值得到众多商家
15、的普遍认可,成为互联网中最有价值的领域。大家熟知的搜索引擎Google、百度、雅虎等都是搜索引擎的杰出代表,为互联网的发展做出了重要的贡献。CNNIC第十四次互联网调查表示,搜索以71.9%的绝对优势成为用户从互联网上获取信息的主要方式1,是互联网上使用程序仅次于电子邮箱的服务。互联网的信息量呈爆炸趋势增长,几年前全球式搜索引擎收录的网页量只有几千万页,而现在已经达到几十亿页,数量增加带来的是搜索服务的品质下降,查询的结果集就是海量的,经常是几十万笔的资料,结果里存在大量的重复信息和垃圾信息,用户越来越难迅速找到符合的信息,现在经常使用搜索引擎可以感觉到很难在短时间内准确的筛选出需要的内容。因
16、此,如何对通用搜索引擎技术进行改进,使查询的结果更加贴近用户的要求,成为搜索引擎行业近期的研究热点。1.2垂直搜索引擎现存的问题1.2.1垂直搜索引擎的产生所谓通用搜索引擎,并不能够囊括所有的网页,据google的人说,也就猜测覆盖了40%不到的网页,也就是说,更多的网页是没有被通用搜索引擎收录的,也就谈不上被搜到了。那些没有机会收录的网页,有些是需要身份验证等之后才可以看到,有些是根本未被通用搜索引擎的蜘蛛爬到。这些信息却往往是宝贵的,更有价值的。 每一个行业都是复杂的,从目前计算机技术来讲,还是遵循冯.诺依曼的体系,也即是说还是依靠图灵未实现的人工智能之下的计算机逻辑来处理信息,在搜索收录
17、的分析过程中,如果不加上行业特点和特性 进行分析,很难说会更准确分析到网页的重要性和分析的准确。这个也是垂直的意义所在2。当然,这里面也需要注意到,并非你垂直了,你的搜索收录和搜索结果就一定比通用搜索更准确3。 垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,而垂直搜索是以结构化数据为最小单位。然后将这些数据存储到数据库,进行进一步的加工处理,如:去重、分类等,最后分词、索引再以搜索的方式满足用户的需求。整个过程中,数据由非结构化数据抽取成
18、结构化数据,经过深度加工处理后以非结构化的方式和结构化的方式返回给用户。垂直搜索引擎的应用方向很多,比如企业库搜索、供求信息搜索引擎、购物搜索、房产搜索、人才搜索、地图搜索、mp3搜索、图片搜索几乎各行各业各类信息都可以进一步细化成各类的垂直搜索引擎。搜索由通用到专业目前来看是一趋势,都分了什么图片搜索、mp3搜索之类,这也好理解,用户输入关键字的时候,可能并不需要其他行业的内容,仅仅一个关键字不结合其他补充信息,是无法准确分析用户的搜索要求的,但是通用搜索引擎只能够一股脑给你信息。从这个角度讲,信息多了会造成一部分搜索结果是垃圾,而这垃圾会影响用户的感受,以及继续试用搜索的兴趣。而垂直搜索引
19、擎应该可以更好的做到理解垂直用户的需求,从而给出更好的结果。举个例子来说明会更容易理解,比如购物搜索引擎,整体流程大致如下:抓取网页后,对网页商品信息进行抽取,抽取出商品名称、价格、简介甚至可以进一步将笔记本简介细分成“品牌、型号、CPU、内存、硬盘、显示屏、”然后对信息进行清洗、去重、分类、分析比较、数据挖掘,最后通过分词索引提供用户搜索、通过分析挖掘提供市场行情报告。 从搜索信息的结果来看,除了上面的垃圾会过多外,还会存在信息不符合要求的情况,有时候用户搜索某类事物,并以此作为关键字,他需要的是关于这个事物的数量、价格等 甚至相关比较信息,而通用搜索引擎只能给你线索,给你网页。通用搜索引擎
20、由于自身巨大,他做不到更深入分析后给出更符合行业、用户需求的结果。一个内容提供商所能担当的,应该是知识导航和知识集成的角色。它所提供的内容,说到底是深加工后的而不是粗放的信息。4-6由此我们可能得出垂直搜索引擎的定义:能够满足某一特定领域,某一特定人群或者说是某一特定需求,提供内容集中而深入的信息与服务的网站。1.2.2存在的问题垂直搜索引擎作为提供专业、集中的内容服务网站,必须首先考虑到为用户提供专业的信息及围绕专业展开的服务。由此看来,要保证一个垂直搜索引擎的生命力,还应为信息工作人员考虑如何确保在尽可能短的时间内的找到最需要的信息内容,进行专业处理、深度加工,及时更新内容。然而经过我们的
21、细致研究,发现现有的多数垂直搜索引擎尚不能达到上述的要求。主要存在以下四个问题:(1)没有为用户和信息人员提供一个合适的专业检索服务、专业搜索引擎,查找所需的信息并不方便。常常是用户找了几千甚至上万条记录出来,根本无法从中再细找。或者找到的内容和要找的内容不是一个专业领域内的,信息无效;(2)信息工作不得不花费大量时间在收集、编辑和发布信息上,工作枯燥且大都属于重复性劳动,还有较高的技术要求,而对信息内容的关注反而少了;(3)信息更新不够及时,或者提供一些过时、不适当的信息;(4)虽然已有足够大的信息量,但由于存储或者管理不适当,难以去检索所需信息,更加无法分析、挖掘数据,从中提炼规则或做判断
22、、预测。这些问题的存在有其技术背景和人为因素的。过去比较落后的技术不能跟上用户的要求,对信息管理人员的要求较高。但随着技术的发展和日益成熟,垂直搜索引擎现存的问题也将得以解决与改善。(1)提供合适的专业搜索引擎,查找专业的信息内容。(2)为信息工作人员提供界面友好、适用的信息管理系统。(3)为信息建立关系型数据库,为今后的进一步发展提供基础。1.3国内外垂直搜索引擎的发展 与以前的通用搜索引擎不同,垂直搜索引擎并不求大求全,而是力求做到一个特定领域内容的全面,这个领域之外的信息并不收集,也不提供这个领域外的服务,这种特定的服务可以有效地把对某一特定领域感兴趣的用户与其他网民区分开来,并能长期久
23、地吸引住这些用户,这就为电子商务的发展提供了一个理想的平台。美国垂直搜索引擎的发展已经充分说明了这种经营模式的正确。M公司通过发布有关疾病和治疗的详细内容,每月赢得高达2500万次的点击,有260万患者和100万医生浏览。Yahoo也从一个单纯的互联网目录发展成为一个垂直搜索引擎总汇,它上面即有保健信息及服务的内容,拍卖、购物、开设网上商店也做得很出色。W的网站其对象只是水和废水处理工程师,这个站点上有聊天室、论坛、就业机会等。内容非常具体丰富。今天,它已发展成为水处理行业的网上交易所,水资源领域的厂商非常愿意在这里投放广告。与此同时,以W起家的这个网站,现在已发展成面向50多个特定领域的垂直
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 毕业设计 论文 面向 丝绸 领域 垂直 搜索引擎 关键 算法 研究
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-3985390.html