移动环境下的搜索引擎软件系统设计与实现终稿.doc
《移动环境下的搜索引擎软件系统设计与实现终稿.doc》由会员分享,可在线阅读,更多相关《移动环境下的搜索引擎软件系统设计与实现终稿.doc(40页珍藏版)》请在三一办公上搜索。
1、. . 移动环境下的搜索引擎软件系统设计与实现摘要在互联网时代,搜索引擎技术是一项重要的技术,作为核心的支撑技术之一,在搜索引擎技术的帮助和推动下,人们对互联网上丰富的信息进行有效而快速的检索,从而在信息库中及时获取自身所需的信息。而目前,随着以手机、平板电脑为代表的移动互联网终端的普及和使用,越来越多的搜索需求开始转变为在移动环境下,对网络信息的搜索和汇集,已经成为今后网络搜索技术发展的新热点。从目前的情况来看,移动互联网方面,特别是移动互联网终端方面的搜索技术发展还有待提高,用户体验和用户需求方面还需要进一步的挖掘,对资源搜索收到限制较多的移动互联网环境,如何在有限的条件包括移动互联网终端
2、较小的显示屏幕,比较差的CPU处理速度以及时效性不高的移动互联网数据下,对移动互联网搜索进行深耕细作,开发出在移动互联网终端上进行快速检索的新型搜索引擎,同时结合用户的体验和移动互联网技术的发展进行不断的更新和优化,成为笔者在对相关领域进行研究时的主要动力之一。一般来说,关键字聚类搜索是目前国内互联网搜索引擎中常用的研究技术,通过关键字的检索,可以帮助移动互联网终端用户能够用更短的时间,搜索到最精准的信息,从而为自身的搜索应用提供良好的用户体验。本文针对目前移动互联网时代的大背景,设计了在移动互联网时代能够运用现代搜索技术,对手机移动端的搜索技术进行改良。建立在对关键字进行聚类分析的搜索引擎,
3、是移动互联网目前发展的主流方向,也是本文也重点研究的领域,对于基于聚类搜索技术的应用,能够给以手机、平板电脑为代表的移动设备提供更好的互联网体验。而从搜索引擎服务提供商的角度来说,易用性强的搜索引擎技术能够给服务运营商带来更好的营销基础。本文在全文中,贯穿设计了一个能够在移动互联网领域运行的搜索引擎软件,即妙搜移动搜索引擎系统。通过改搜索引擎,我们能够在采集数据中,对搜索的结果及其列表进行聚类法搜索,很大程度上对搜索的结果进行分类和快速检索,方便客户快速得到所需信息和相关内容。此外,本文还对搜索内容的原文抓取,中文内容分析,以及对手机移动端的用户体验进行了详细的分析和设计,同时针对手机移动端的
4、特殊情况,对搜索引擎软件进行了优化,解决了长期以来,移动客户端搜索引擎存在的不足和弊端,最大限度的满足目前移动互联网时代对移动端搜索引擎服务的各种需求。关键词: 搜索引擎;数据挖掘;聚类;lucene; Nutch; hadoop; carrot2; LINGO;结构第一章绪论1.1移动搜索的现状1.2目前存在的问题1.3本文的主要内容1.4本文的章节安排第二章搜索引擎关键技术介绍2.1搜索引擎的定义2.2搜索引擎的发展现状2.3搜索引擎系统运行的几个步骤2.4本章小结第三章LINGO聚类算法分析3.1聚类的概念3.2LINGO算法概要3.3LINGO算法基础之后缀数组3.4 LINGO算法基
5、础之隐含语义分析3.5 LINGO算法过程分析3.6 LINGO聚类算法的优缺点3.7本章小结第四章妙搜移动搜索引擎系统的需求分析4.1系统研究背景4.2系统需求4.3系统功能目标4.4系统性能要求4.5本章小结第五章妙搜移动搜索引擎系统的分析与设计5.1系统总体目标5.2软件技术平台的选择5.3妙搜服务系统架构设计5.4内容爬取子系统设计5.5索引子系统设计5.6搜索处理子系统设计5.7中文分词算法设计5.8聚类设计5.9缓存子系统设计5.10通信接口层设计5.11本章小结第六章妙搜移动搜索引擎系统的实现6.1开发及部署环境6.2 Nutch运行环境安装与配置6.3 Nutch中中文分词的实
6、现6.4 Nutch聚类实现6.5搜索处理子系统实现6.6移动客户端实现6.7本章小结第七章结论第一章绪论目前人类社会已经发展到互联网时代,互联网时代的典型特征即是电脑在人们的生活中所占的地位越来越重要。无论是PC端还是移动端,互联网对于人们学习和工作的重要作用有目共睹,通过互联网,极大的丰富了人们的生活内容和视野,也有利于人们通过互联网获得更高的生产力,从而极大的提高人类社会的物质生产水平,进而不断提高人民生活水平;同时,互联网的应用和推广,也给人类的精神世界带来了充足的养分,使得人们能够更加广泛的接触到世界各地的人文风土人情,了解不同文化的差异和世界各民族、国家的智力成果,通过资源共享,实
7、现智力成果的交流和互通。在这样的大背景下,网络技术已经成为能够影响人类生活和生产活动的重要生产力,网络技术已经开始极大的影响和改变着人类文明的发展。随着商业互联网时代的进一步扩展,网络技术中的重要一环搜索引擎技术的作用和地位愈加凸显,成为在互联网相关领域技术中,最重要的内容之一。从世界各国的商业案例来看,互联网公司往往能够赢得比较好的商业预期和现实成果,而互联网公司中,专注于搜索引擎技术,或者以搜索引擎技术为主业的互联网公司,不仅股价上涨较快,而且公司的发展健康且持久,能够带来较高的经济效益,体现出较高的市场价值。但凡是拥有成熟的搜索引擎技术的互联网公司,其商业排名往往居于互联网企业的顶端,其
8、商业价值和在互联网企业中的重要地位,不容小觑。目前,智能手机的普及率越来越高,对智能手机、平板电脑为代表的互联网移动端成为继PC端之后又一重要的互联网技术应用领域,手机为代表的互联网移动端,具有便携、易操作、普及率高,受场地、环境、基础设施建设影响较小的优点,有利于大规模的推广和普及。同时,由于智能手机的发展较为迅速,互联网技术中的搜索引擎技术,在互联网移动端的发展也愈加快速,成为互联网搜索引擎技术发展和创新的重点领域,更是互联网搜索引擎技术发展的新阵地。近年来,互联网搜索引擎技术正逐渐成为互联网时代商业与技术相结合的典型代表,而移动环境下的搜索引擎软件的开发和推广,也正在朝着理想的方向不断进
9、步,本文所讨论和研究的移动环境下的互联网搜做引擎,是指通过移动设备,以其为终端,对互联网信息进行处理,通过为移动互联网用户,提供快速、便捷、准确的信息搜索渠道,不断提高和完善移动互联网层次,用户的搜索体验和搜索时间,在这样的背景下,以关键字搜索结果聚类为基础,为移动用户提供精准快速的搜索服务。关键字聚类是在这样的移动互联网发展的大背景下提出的新概念,它是一种重要的技术,通过关键字聚类的方法,可以在搜索的过程中,通过在搜索引擎客户端提供特征聚合服务,将关键搜索的结果按其相关的语义特征进行聚类。从而达到用数据挖掘的方法准确的将相关的信息聚合在一起并将其归类,进而提高对关键字话题研究和垂直搜索的快速
10、检索。综上所述,在移动环境下对搜索引擎软件系统进行设计和研究,可以给移动互联网客户端的客户提供更为准确的搜索信息服务,让使用者最大程度的减少使用搜索引擎所耗费的时间,最大限度的提高搜索引擎的易用性和体验。同时为软件系统的开发商提供更为准确有效的商业营销和技术保障。所以,对于此类系统的研究,价值意义和实践意义俱佳,值得我们认真的进行分析研究和探讨,不断推动移动环境下搜索引擎软件系统的开发、应用和推广。1.1移动搜索的现状伴随着目前智能手机等移动设备的快速、大量普及,在移动环境下使用搜索引擎软件的前景和市场非常巨大,以全世界范围内的数据来看,截至2012底已经有3.35亿用户使用移动互联网搜索引擎
11、技术这个新兴的技术。而对互联网移动端用户的调查显示,移动环境下,互联网搜索引擎的使用率非常高,3.35亿用户平均每人每天使用的搜索服务的次数为3.54次,这充分说明移动端互联网搜索引擎技术的前景非常看好,也正是这个原因,目前世界范围内几家大的搜索引擎服务提供商,都大力加强对移动端搜索引擎技术的研发和推广,并在下大力气将原有制约移动互联网技术发展的障碍排除。传统的移动互联网搜索引擎只是简单的讲互联网PC端的搜索服务移植到手机上,不能适应手机的具体情况,对不同型号、分辨力和CPU处理器的手机兼容性也不高,以我国最大的移动搜索引擎软件服务商百度为例,百度搜索在互联网方面,可以说是中文搜索的最高水平,
12、但是在移动环境下的互联网搜索方面,百度搜索还存在着很多需要进一步完善的地方,例如,通过相同的关键字进行搜索,互联网网页 baidu. com和手机网wap. baidu. com,可以发现搜索的结果几乎一样,即:线性的呈现方式。因此,这样的手机网页搜索只是提供了传统的搜索服务,仅有区分WAP类型网页的功能;对于聚合搜索,百度搜索是将搜索的结果进行分类,不是根据关键字所在的语义的聚合。市面上大多数所谓的聚合搜索只是将关键字搜索导航到各个不同的分类搜索网站。这样会带来手机用户对于搜索服务感觉无差异化以及用户体验的不好。作为手机、平板电脑等移动互联网设备终端,其位置的移动性和设备的局限性决定了移动环
13、境下互联网搜索引擎必须具有自己的特点,不能与传统的互联网服务一概而论,需要通过细化用户市场,深入分析和总结目前存在哪些问题,从而对移动环境下的搜索引擎软件进行完善和提高,提供更适合于类似手机等移动设备使用人群的服务。1.2目前存在的问题纵观目前世界范围内,移动环境下搜索引擎的开发与应用,大多还处在开发的初级阶段,受PC端的互联网搜索引擎影响较大。目前全球范围内,所占比重比较大的移动端搜索引擎大多也是互联网界的巨头,如谷歌、百度、必应、雅虎等,他们的移动搜索引擎与互联网搜索引擎相差无几,所用的技术也大多是从互联网技术中移植过来的,对手机、平板电脑等移动端的互联网客户体验关注不多,或者说正在逐步的
14、开发升级中。这些现有的移动端搜索引擎工作方式大抵相同,都是根据用户输入的查询返回以线性列表形式呈现的一组文档,但是在搜索排序方面,由于各家搜索引擎技术所有者的发展策略不同,对于同样的关键字搜索,出现的位置和频率略有差别,总的来说是越靠前的文档的相关性越高。所有的搜索引擎都是基于两种算法的,一种叫做排序算法,是利用搜索关键字在搜索结果中出现的不同位置和出现的频率进行排序的;另一种叫做PageRank算法,基于链接的一种搜索引擎技术算法。为了提高搜索的快速性和准确性,现有的搜索引擎技术一般会预先的搜索的结果和内容进行处理,通过诸如裁剪算法等方法,对结果进行筛选。但是还是难以解决用户面对海量的互联网
15、信息,无法快速找到所要信息的问题,这个问题在屏幕容量有限的移动客户端上被更加放大,成为制约移动环境下搜索引擎技术发展的瓶颈之一。举例来说,在百度搜索中搜索搜索引擎会得到117,500,000项结果,而其中很多信息都是冗余信息,对用户不具有任何价值的,但是为了找出其中的有用信息,用户不得不在所有的信息中进行自行搜索,而在移动的环境下,这样的努力变的愈加困难,一方面由于屏幕有限,用户没翻一次页能获得的信息量大大小于电脑;另一方面,移动客户端往往数据传输信号不是特别稳定,一定程度上增加了用户对流量传输的担心和风险。基于以上两点,如果一个移动环境下搜索引擎不能够很快的搜索出用户需要的信息的话,用户往往
16、会由于用户体验下降而放弃使用该搜索引擎。1.3本文的主要内容本文在借鉴现有移动环境下搜索引擎的发展经验和现状的基础上,深入发掘潜在的移动环境下搜索引擎用户需求,针对目前移动环境下搜索引擎发展的现状和特点,有针对性的解决用户最迫切的需求,将聚类这一更好的技术引入移动环境下的搜索引擎开发应用中,简言之,就是对搜索的结果进行聚类分析,将一组结果中类似的对象归入同一类,而不同的对象归入不同的类,这样的处理方式极大的提高了信息处理的效率和准确度,最大限度的减少了信息冗余的发生。使用聚类的方法能够大大提高用户的搜索准确度,提高搜索效率,同时能够根据客户的兴趣和常搜索的类别,对不同的客户进行不同的信息检索,
17、进而能够提高搜索引擎与用户之间的互动和交流。本文的研究主要涉及移动环境下搜索引擎软件的开发和应用,主要的研究方向是针对当前流行的移动互联网搜索引擎的快速发展,探讨如何进一步完善和改进现有移动环境下搜索引擎技术。主要探讨如何将聚类方法合理地应用到搜索引擎的数据挖掘中去。由于聚类方法是一种无监督学习方法,经过聚类后得到的结果是根据对数据的相似性分析后得出的差异性分组结果。对提高搜索引擎结果的类别性划分十分有价值,是对关键字搜索技术的细化和分类,并且能够根据客户的不同情况,有针对性的提供搜索结果,便于客户提高搜索的兴趣和对搜索引擎的易用性。本文研究主要内容如下:介绍现有搜索引擎技术及其发展的经验和存
18、在的问题介绍本文中设计实现的中文分词模块系统介绍文本聚类,并设计实现基于搜索结果LINGO聚类算法对妙搜移动搜索引擎技术进行设计和实现对妙搜移动搜索引擎技术的各个子系统、子模块进行分别介绍测试妙搜移动搜索引擎技术的运行并对结果进行分析评估1.4本文的章节安排根据写作安排,本文对移动环境下搜索引擎的开发、应用和实现分为七个章节分别阐述,各章节内容如下:第1章绪论,主要介绍了移动环境下搜索引擎的发展现状及研究意义。第2章搜索引擎关键技术介绍,是对国内外关于搜索引擎技术方面的研究成果的介绍和阐述,对现有的搜索引擎技术和搜索引擎服务的相关内容、步骤的阐述,对在移动环境下,搜索引擎技术面临的问题和新情况
19、进行描述,对用户在移动环境下如何应用搜索引擎技术提出设想。第3章LINGO聚类算法分析,对本文中重点涉及到的重要理论聚类的思想进行介绍,从概念入手,逐步将聚类的思想和精髓分条阐述,并以本文中重点应用的聚类算法LINGO聚类算法为切入点,详细阐述了聚类算法的实现过程,并对其的应用价值和存在的隐患问题进行了分析,为后续设计提供了理论铺垫。第4章妙搜移动搜索引擎系统的需求分析,从系统研究背景入手,对移动环境下搜索引擎技术的用户需求,潜在用户市场和未来预期的用户领域进行了细致的分析,对新时代互联网搜索引擎在移动终端的应用,以及妙搜系统的预期功能目标进行了介绍,对妙搜系统与移动环境下互联网终端之间的磨合
20、以及应对平板电脑为代表的移动互联网终端新趋势进行了展望。本章还对妙搜系统性能要求进行了介绍,力求全面的分析妙搜系统的用户前景和需求来源,从客户需求的角度,分析妙搜系统的可行性。第5章妙搜移动搜索引擎系统的分析与设计,本章是本文的主要内容和核心,是对移动环境下互联网终端搜索引擎技术的详细介绍,也是本文所设计的妙搜系统的最全面、完整的介绍。本章从系统总体目标开始,介绍了妙搜系统的软件技术平台选择,进而分节介绍了妙搜系统必要环节和各个子系统,分别是:妙搜服务系统架构设计、内容爬取子系统设计、索引子系统设计、搜索处理子系统设计、中文分词算法设计、聚类设计、缓存子系统设计、通信接口层设计。通过以上的设计
21、,对妙搜系统的全部核心技术和需要应用到的原理进行逐一阐述,力求详尽的介绍妙搜系统的功能及其原理,为系统的实现奠定了理论和实践基础。第6章妙搜移动搜索引擎系统的实现。重点介绍了妙搜系统的应用与实现过程,通过对Nutch系统的安装启动进行详细的介绍,对中文分词和聚类模块给出了具体的实现,同时以安卓手机操作系统为基础,开发设计移动环境下搜索引擎客户端应用。最后对整体运行系统并对系统进行了测试运行。第7章 结论,是对全文的总结,也是笔者在对移动环境下搜索引擎技术进行大量的搜集调研的基础上,对现行的妙搜系统进行了设计、试运行和实现之后,提出对于妙搜系统而言,今后进一步开发、优化中所需要注意的重点问题和提
22、出的下一步思考。第二章搜索引擎关键技术介绍 搜索引擎技术是互联网时代发展起来的现代科学技术之一,由于现代社会信息量爆炸,如何在海量的信息海洋中快速、准确的搜寻到自己所要的信息,成为现代互联网时代最重要的课题之一。因此,搜索引擎技术的发展伴随着互联网科学技术的发展而快速壮大。近年来,由于以手机、平板电脑为代表的移动互联网终端的快速发展,已经有很明显的趋势:未来的互联网技术发展,移动互联网技术将在其中占据重要地位,而移动环境下的搜索引擎技术,也成为科学研究的热门领域之一。本章重点将对移动环境下的互联网搜索引擎技术及具体的搜索引擎技术方法进行阐述,为下文中对妙搜系统的介绍和分析进行理论铺垫。2.1搜
23、索引擎的定义根据大英百科全书的相关信息收录,搜索引擎,是现代互联网技术之一,目的是为了帮助互联网用户包括PC电脑用户在互联网上对信息进行查找的一种软件程序。它通过与用户进行网络互动,将所要查找的信息通过关键字、词组、短语的形式,进入互联网信息查找系统,并对互联网信息尽心扫描,以分类或者是其他分析方法的形式呈现在用户面前。现代搜索引擎技术的发展,使得用户可以通过各种互联网终端,对搜索的信息进行再搜索和分析处理,通过各种方法,实现对互联网信息的快速查找和检索,提高互联网应用的效率。目前常见的搜索引擎根据其查找方式的不同,可以分为三大类:第一种称为全文搜索引擎、第二种是目录索引类搜索引擎,最后一种也
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 移动 环境 搜索引擎 软件 系统 设计 实现

链接地址:https://www.31ppt.com/p-1097172.html