《搜索引擎的功能及其局限性分析.doc》由会员分享,可在线阅读,更多相关《搜索引擎的功能及其局限性分析.doc(23页珍藏版)》请在三一办公上搜索。
1、本科毕业论文( 2011 届)题 目 搜索引擎的功能及其局限性分析 学 院 数学与信息工程学院 专 业 计算机科学与技术 班 级 07计算机教育班 学 号 0704210085 学生姓名 蒋正波 指导教师 丁小宝 完成日期 2011年5月 摘 要经过十几年地迅速发展,因特网已经成为一个全球化的巨大的信息空间,已然成为全球传播、交流以及获取各类信息的最重要的途径。如何有效利用数量如此庞大的信息资源,如何在浩瀚无边的信息海洋中查找并发现有利用价值的信息并不是一件容易的事,而搜索引擎是解决这些问题的一种最有效的工具。搜索引擎是当前社会网络信息检索的最主要手段,其主要功能便是有效地、准确地进行信息检索
2、,快速的帮助用户找到所需的信息。随着搜索引擎技术的发展与进步,越来越多新的功能出现在了用户的视野中,另一方面随着用户个性化需求的不断提高,搜索引擎在数据库索引和爬虫策略上都遇到了瓶颈,本文将阐述近几年来搜索引擎的发展并分析其存在的局限性以及搜索引擎未来的发展方向。关键词搜索引擎;信息检索; 搜索引擎功能;搜索引擎局限性AbstractThe rapid development through more than ten years, the Internet has become a global huge information space. It has become a global d
3、issemination and exchange of information and obtaining the most important way. How to effectively use quantity so huge information resources, how in the immense ocean of information search in value of concurrent existing information is not an easy thing, and search engine to solve these problems is
4、one of the most effective tool. Search engine is the current social network information retrieval is the main method, its main function is to effectively and accurately for information retrieval, quick help users find the necessary information. Along with the search engine technologys development an
5、d progress, more and more new function appeared in the users perspective, on the other hand as users personalized needs continuously improve search engine in the database index and reptiles strategies have encountered bottleneck, this paper describes the development of the search engine in recent ye
6、ars and analyzes the existing limitations and future development direction of the search engine.KeywordsSearch engine; Information retrieval; Search engine functions; Search engine limitations目 录1 引言12 搜索引擎概述12.1 搜索引擎工作原理12.2 搜索引擎功能模块22.3 搜索引擎分类32.3.1 全文搜索引擎32.3.2 目录索引32.3.3 元搜索引擎32.3.4 其他非主流搜索引擎形式4
7、3 搜索引擎功能分析43.1 搜索引擎功能简析43.2 Google和百度搜索引擎的比较与分析43.2.1 Google功能概述53.2.2 百度功能概述53.2.3 百度与Google搜索引擎的比较分析63.3 搜索引擎功能展望83.3.1 社区化发展83.3.2 个性化发展93.3.3 垂直化发展94 搜索引擎局限性分析104.1 检索数据库更新困难104.2 搜索引擎标引深度不够104.3 搜索引擎的查准率和查全率不高104.4 中文搜索引擎自然语言检索理解困难114.5 搜索引擎的分工合作局限114.6 搜索引擎信息占有量以及覆盖率局限124.7 搜索引擎对多媒体内容的检索局限124.
8、8 社区化和个性化局限134.9 搜索引擎抓取动态网页的局限135 搜索引擎的发展方向135.1 提高信息检索的精确度和有效性。135.2 智能搜索引擎的发展。145.3 分布式并行处理技术的发展155.4 交叉语言检索的研究和开发155.5 网络爬虫发展方向156 结束语16参考文献17谢辞18搜索引擎的功能及其局限性分析Discussion on the Function and the Limitation of Search Engine数学与信息工程学院 计算机科学与技术专业蒋正波指导老师:丁小宝1 引言近几年,随着互联网的普及与兴起,以及搜索引擎的出现,我们的思维方式和生活习惯正逐
9、渐改变着。不同于10年前,我们写论文查找资料需要频频奔波于图书馆和指导老师之间进行繁琐的查找,现在搜索引擎的出现大大的方便了我们查找和获取信息,“百度一下,你就知道”便充分反应了搜索引擎对我们生活的影响。互联网发展至今,已然成为了海量信息量的汇聚地,其俨然以成为第一信息大户。而在因特网浩瀚如海的信息中搜索引擎就像导航塔一样,帮我们在如海的信息中开辟一条清晰的检索路径,使我们能够找到需要的信息。随着搜索引擎的发展,为了方便用户使用搜索引擎以及丰富搜索引擎的内容,各搜索引擎都相继推出了新的功能。另一方面,搜索引擎技术虽得到了迅速的发展,但是在信息检索以及对自然语言提炼等方面搜索引擎还存在许多局限。
10、本文主要分析搜索引擎的功能、局限性以及阐述了搜索引擎的现状和未来的发展前景。2 搜索引擎概述2.1 搜索引擎工作原理搜索引擎的一般原理可以认为有三步:抓取网页建立索引数据库搜索排序1。(1)执行自动抓取程序(网络爬虫),顺着网页中的超链,连续不断地遍历、抓取网页,定期或不定期收集相关的新网页或新网站信息;(2)由分析器对网页信息进行预处理,利用网页中的信息包括文本、网页链接、提示词等提取相关网页信息,再根据特定的相关度算法进行复杂地计算,得到每一个网页以及其超链中的所有关键词的相关度,最后利用这些相关信息来建立网页信息索引数据库。(3)执行检索操作时,检索程序采用相对较简单的关键词匹配检索级数
11、,根据检索词在每一个网页中出现的频率、概率及位置,对包含这些检索词的网页信息进行排序,最后输出排序以后的结果,并引导用户按照得到的搜索结果进一步搜索下去。搜索引擎工作原理图,如图1.1所示, 图 1.1 工作原理图2.2 搜索引擎功能模块搜索引擎根据其逻辑功能不同,可分为五个子系统(功能模块):(1)搜索器(抓取程序):蜘蛛系统(spider)或称爬虫系统(crawler),其功能主要是遵循规定的协议,在网络中通过网页上的超链遍历整个网络及时发现并收集新的网页信息,然后将其写入搜索引擎数据库中更新其网页信息。(2)分析器:其功能是借助于统计词频、词汇位置认定和一些特定的算法,对爬虫抓取回来的网
12、页信息进行标引,并对其网页中的超链接进行关联,以及理解搜索器所搜索到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。(3)索引器:其作用是分析在分析器中生成的所有关键词,并生成索引项以及索引表,接着按照索引项和索引表建立关系索引倒排文档,最后将信息写入索引数据库2。(4)检索器:其作用是接收用户发送的检索词,在信息数据库中进行检索词与索引词的相对匹配运算,然后将匹配结果根据一定算法得到的相关程度排序输出到用户接口。(5)用户接口子系统:其作用是为搜索用户提供检索接口,接纳用户检索查询、显示检索结果、提供个性化查询项。2.3 搜索引擎分类2.3.1 全文搜索引擎全文搜索引擎是真正意
13、义上的搜索引擎,国外代表有Google,国内则有著名的百度搜索。它们从互联网提炼抓取各个网站的信息,建立数据库,按照一定的排列顺序给用户提供检索服务。全文检索是指搜索引擎索引程序通过扫描网页中的所有文本,对索引词汇建立相应的索引,并指明每一个词汇在文章中出现的频率以及位置,进行检索查询时,检索程序就根据已经建立的索引信息进行检索,并将查寻的结果排序并提供给用户3。这个过程类似于通过新华字典中的检索字表查字的过程。根据检索结果出处不同,全文搜索引擎可将其分为两大类,一类拥有自己的检索程序,爬虫程序或者机器人程序,能够自己采集并建立网页信息数据库,其检索结果能够从自身的索引数据库中直接调用,Goo
14、gle和百度就属这一类;另一类其自身并没有相应的信息数据库,只是建立在别的搜索引擎的数据库基础上按其特定的算法排列搜索结果,如元老级搜索引擎Lycos。2.3.2 目录索引目录索引拥有的搜索功能,从某种意义上来说并不能将其称为真正的搜索引擎,只是将网站链接按照一定的分类生成的列表而已。用户只需要通过浏览网站链接列表便可以进行查询,并不需要利用关键词等手段来进行检索查询。目录索引的代表有Yahoo!,新浪分类目录搜索等。2.3.3 元搜索引擎元搜索引擎于全文搜索引擎的区别在于,用户发送查询指令后,元搜索引擎会利用多个搜索引擎进行搜索,并将结果按照其特定的排序返回给用户。著名的元搜索引擎有Info
15、Space、Dogpile、Vivisimo等搜索引擎,中文元搜索引擎中具有代表性的有搜星搜索引擎4。元搜索引擎在搜索结果的排列方面有两种处理方式,一种是按其引用的搜索引擎自身的排列结果;另一种则按其自定义的排序算法将结果重新进行排列。2.3.4 其他非主流搜索引擎形式集合式搜索引擎:搜索方式与元搜索引擎十分相似,区别在与他调用的是由用户指定的若干个搜索引擎,这样能更好的满足搜索用户的个性化需求,如在2007年底推出的引擎。门户搜索引擎: 其自身没有爬虫程序以及索引数据库,检索结果完全基于其他搜索引擎的数据库,目前门户搜索引擎的代表有AOL Search、MSN Search等。免费链接列表:
16、提供经过简单分类的滚动链接条目,少部分还有简单的分类目录,不过规模要比新浪等目录索引要小很多。3 搜索引擎功能分析3.1 搜索引擎功能简析搜索引擎作为一种网络信息的搜索工具,其开发目的主要是为了方便用户能够快速有效地找到所需要的信息,其通常由信息收集、数据库和信息检索三部分构成5。这三部分的通过互相作用来共同协调完成搜索任务。爬虫软件用来在网上收集信息,他们定期或不定期的在网上爬行, 通过超级链接访问网络中的每一个站点,对网络中的信息资源进行收集,然后再利用索引软件对收集到的信息进行自动标引, 创建一个可供用户按关键词等条件进行查询的详尽的网页索引数据库,最后查询软件通过索引数据库为用户提供查
17、询服务。通过上面的分析可以明白,搜索引擎主要有3个方面的功能:(1)采集信息功能:搜索引擎的爬虫程序具有广泛收集因特网上的页面,并通过遍历页面中的超链接来构建一个巨大的信息空间的作用。(2)信息组织和标引功能:通过某种算法来组织、标引所抓取的网络页面并以此作为信息组织、存储和检索依据,通过标引人员把网页信息与用户联系起来,使用户能够在大量的信息中查到所需的信息。(3)信息检索浏览功能:通过建立索引数据库,接受用户的查询,利用信息检索算法,尽可能将最相关最匹配的页面返还给用户,达到有效检索的目的。随着搜索引擎的发展和成熟以及用户个性化需求的不断改变,各大搜索引擎网站都陆续推出了新的功能。下面列举
18、并分析了百度和Google搜索引擎近几年来推出的新的功能。3.2 Google和百度搜索引擎的比较与分析作为搜索行业的龙头老大,Google和百度在国内占有83%左右的搜索量,前者是目前世界上使用率和搜索精度最高的全文搜索引擎,后者则是全球最大的中文搜索引擎。下面主要比较分析了两大搜索引擎的新功能以及其算法、市场份额等。3.2.1 Google功能概述Google搜索引擎的成功得益于其强大的功能及独到的特点,即提供了最便捷的网上信息查询方法。Google搜索引擎全球副总裁兼大中华区总裁李开复有说过将来的搜索会从今天的以信息为先,变成以人为先,就是以人为中心的发展方向6。近几年来Google搜索
19、引擎的功能也越来越趋于完善。(1)网页快照功能:Google在进行网页遍历的时候,能够给每一个网页制作一份索引快照,并将其存储到Google的服务器数据库中。(2)手气不错功能:手气不错功能会直接提供给用户最需要、最符合检索条件的网站链接。当用户浏览一个特点的网站,只知道和网站有关的一部分信息时,即可通过该局部信息及与该网站相关的其他信息来试试手气不错功能。(3)单词纠错:相对于百度的错别字纠错功能,Google对英文单词拼写错误也有纠错的功能。(4)旅游信息查询功能:如用户想要了解路桥机场的天气和飞机延期情况, 只需输入机场号码的3个字母, 后面紧跟上年airport 这个词。比如输入“sf
20、o airport”, Google 就会显示San Francisco( 旧金山) 国际机场的最新资料。(5)股票报价功能:用Google股票报价功能够查找股票和共有基金的信息,只要输入一个或多个NYSE,NASDAQ,AMEX或共有基金的股票行情自动收录机的代码,或者也可以输入在股市开户的公司名字。(6)查找PDF文件功能:现在Google的搜索结果中包含了PDF文件。尽管PDF文件并没有HTML文件那么多,但它们经常具备其他一些文件不具备的高质量的信息。(7)搜索偏好设置功能:能让用户根据自己的个性和偏好制定自己的个性化搜索选项。(8)新闻组搜索功能:新闻组有非常详尽的主题分类, 某一些
21、主题还有特点的人员进行管理和编辑, 具有非常多的的有价值的信息。(9)Google Earth功能:是Google公司开发的一款虚拟地球仪软件,它把卫星照片、航空照相和GIS布置在一个地球的三维模型之上。Google地球分为免费版与专业版两种。Google的特别搜索功能远不止这些,其大规模的征人启事、商品服务目录、搜索电话号码、二十年来某些有历史价值帖子的链接等绝对让人耳目一新。3.2.2 百度功能概述作为国内最知名的搜索引擎百度不断创新, 开展了其他的中文搜索引擎所不具备的特色服务功能受到了国内用户的青睐。以下简单介绍一些百度搜索引擎的特色功能。功能介绍:(1)百度贴吧:“贴吧”诞生的意义是
22、可以让用户把头脑中的恶知识、想法和经验与大家分享,让网名头脑中的无限信息分享给每个用户。“贴吧”通过任意关键词把相同兴趣的人绑到了一块,让这些志同道合的网友能再一个平台上对相同学科、相同事件进行交流发表自己的看法。(2)百度地区搜索:百度地区搜索中的地区范围包含了大半个中国,包括北京、天津、重庆、浙江、河北等34个省市自治区500多个市县级地区,而且随着地区搜索的完善能够查询的地区范围正逐步扩大。(3)信息快递:百度信息快递服务功能是让用户通过百度提供的搜索平台发布信息。用户可以通过检索查询这些信息。(4)百度百科:百度百科通过搜索引擎收集生活和学习中要用到的概念和名词解释,将其编辑成库,让用
23、户可以通过搜索引擎查询。(5)百度知道:用户可以在百度提供的平台内,根据自己的需要进行提问寻求帮助。拥有解答用户提问的能力的人可以帮助其解决问题,并在解决问题的过程中为自己积累积分。另外在解决问题的过程中,也大大的提高了知识的传递和共享率。其最大的特点便是与搜索引擎完美的结合,让用户所拥有的隐性知识转化为显性知识,通过用户和搜索引擎的相互作用,实现搜索引擎的社区化。(6)百度错别字纠正提示:这个功能主要是为了解决由于汉字输入法的局限性,我们在搜索时经常会输入一些错别字,导致搜索结果不佳。当出现上述情况时百度会给出错别字纠正提示。错别字提示显示在搜索结果上方。(7)百度国学:百度国学搜索是百度与
24、国学公司合作推出的针对中国传统文化方面的专业搜索,提供了大量的丰富的古典名著、历史资料、人名书名等,为传播中华古代文明和国学研究提供使用的便利。2002年3月百度闪电计划开始后推出贴吧、知道、地图、国学、百科、文档、视频、博客等一系列功能,致力于开创一个搜索引擎社区,使得近几年百度在国内市场稳稳的占据了领头羊的位置。3.2.3 百度与Google搜索引擎的比较分析Google搜索引擎的主要技术有:(1)分布式爬行系统:网址服务器将网站链接列表提供给网络爬行器。每个爬行器同时保持大约300个网络连接。在最高速度的时候,通过4个爬行器,该系统可以每秒种获取超过100个网页。(2)Page Rank
25、技术:该技术是Google搜索引擎对检索结果的一种排序算法,其主要通过Title标识和Keywords标识等所有其它因素来调整搜索结果的网站排名顺序。(3)超文本匹配分析技术:对检索词出现在文档的次数、位置、字体、字号以及其所在的网页所链接的内容进行分析并分别给予不同的权重,通过计算得出最新的排列结果。百度搜索引擎主要技术有:(1)智能化的可扩展爬虫技术:百度搜索引擎使用的爬虫程序可自动地在互联网中搜索信息,并可制定高扩展性的调度算法在极短的时间内收集最大数量的信息。(2)超级链接分析技术:超链分析主要通过分析网站外来链接的多少来评价被链接的网站的质量,这使得使用用户越多的内容其排名也越高。超
26、级链接分析技术解决了网页质量的排序与相关性排序结合困难的难题,是百度的核心技术。(3)中文分词技术:百度地分词技术主要基于字和词,但不是单纯的只基于字或词,这样更加符合国内用户的搜索习惯,能更好的理解用户提出的问题。(4)服务器本地化和高效搜索算法:百度运用多线程技术,高效的搜索算法和本地化的服务器,保证了最快的响应速度(一个查询的平均响应时间小于0.18秒)。通过对百度和Google搜索引擎的功能和技术上的对比,我们可以发现Google 和百度都是当今最优秀的全文搜索引擎,两者既有很多相同之处,又有很大不同,前者的用户面向的是全球网民,后者的用户主要面向的是使用中文的网民。在技术方面,百度在
27、检索速度方面略占上风,Google则在检索精度方面占有优势;在功能方面,双方的检索功能都很全面,非常有特色,但Google的功能在技术和专业度上比百度强大,而百度的功能比Google 更符合用户人性化的追求;在检索方式方面,百度充分考虑了中文用户的使用习惯,很多地方都体现出中文用户的检索习惯,而Google更多考虑的是世界各国用户的使用习惯,其检索方式更具有适用性。因此其对搜索引擎市场的占有率也迥然不同,其国内搜索引擎市场份额(2010-2011年和2009-2010年),如图3.1和图3.2所示, 图 3.1 图 3.2 图 3.1 2010-2011市场份额 图 3.2 2009-2010
28、 市场份额根据图3.1和图3.2我们可以看出在国内百度搜索引擎占有绝大部分的搜索引擎市场份额,这与百度和Google的搜索特点有着密切的联系。百度和Google的成功与其功能的人性化和社会化的特色功能有着密不可分的联系,那么接下来我们来分析下未来搜索引擎功能的发展方向。3.3 搜索引擎功能展望3.3.1 社区化发展随着搜索技术的不断发展,搜索引擎的功能也不再只是为了查询你需要的信息。搜索引擎正朝着组建一个大的社区方向发展,这个社区里你可以浏览新闻,查看你的个性图书馆、翻译你想要翻译的外文文献以及搜索你想要浏览的博客。搜索引擎的社区化发展,已经成为国内外众多搜索巨头的共识。近年来百度等公司相继开
29、发的百度百科、百度知道、百度贴吧、百度文库等一系列的社区功能吸引了许多用户,相信在不久的将来,搜索引擎构建的社区会慢慢的融入人们的生活与学习,让搜索引擎的功能得到进一步的实现。下面我简单介绍下百度百科近几年来的发展。百度百科2006年4月20日正式发布,发布第二天,词条数即达到1万,此后其词条数一直以惊人的速度增长,并于发布后不到一个月的2006年5月8日,词条总数突破10万。到2007年5月百度百科的词条总数高达72万,用户平均每天编辑修改的词条数为3327条,平均每天被创建的新增词条为1256条。至今百度百科的词条已经达到300万条,其内容已经远远超过世界上最全的中文百科全书。其与传统百科
30、词条分布(2007)比较,如图3.3所示,图 3.3 百度百科与传统百科词条分布比较图搜索引擎社区化的意义:(1)社区化提高了搜索引擎网站的黏度,大大的增强了搜索用户对搜索引擎网站的忠诚度。这也保证了搜索引擎能聚集更多的人气和口碑,这样搜索引擎企业才能对客户产生更好的吸引力,才能更好的发展新的功能和技术。(2)社区搜索改变了以往缺乏互动的搜索框搜索方式,体现了新时代用户交流互动和社区化的诉求,把搜索引擎社区与用户紧密的联系在了一起。社区化的聚合作用,能使原来处于边缘化的个人信息或者小群体信息,都有可能被关注到或者受到重视,从而凝聚成强大的力量。同时用户可以在社区里结交拥有相同兴趣或技能的人,形
31、成特定的交流群体,以满足沟通和表达等日益增长的社会性需求。(3)搜索引擎构建知识社区,可以让用户将个人的隐形知识以文字的形式表达出来,使之成为能与他人分享的显性知识,从而为搜索用户提供更多的不断成长的知识内容15。3.3.2 个性化发展搜索引擎目前的状况是显示信息内容和排列搜索结果,用户无权选择。缺乏个性化导致在某些时候,搜索引擎成为了拖沓、冗余的信息搜罗工具。问题主要表现在:(1)一次普通的查询,几乎所有的搜索引擎动不动就能返回几十万甚至几百万条结果,且其中有很大一部分并不是用户需要的,这给用户带来了极大的不便。(2)同一搜索引擎不同人搜索相同词汇时,得到的结果是相同的。然而不同地域、兴趣、
32、知识背景的用户对搜索结果的需求有很大的差异,这使得用户的需求无法更好的得到满足。如今各大搜索引擎已经意识到,细化信息类型与网民需求,提高检索效率,满足用户的个性化需求将是搜索引擎市场竞争的关键12。个性化发展也成为了搜索技术的新战场,Yahoo,Google,百度都在加紧开发基于个性化的搜索引擎功能以及技术。从国内搜索引擎的发展我们可以看到,个性化发展主要表现在一下两个方面。第一是指搜索引擎提供给用户的信息符合用户的个性化需求。主要包括通过跟踪分析用为户的搜索行为,再根据得到的资料来为用户提供更为准确的、个性化的结果以及根据用户的需求变化和近期网络活动的动态变化来为用户提供准确信息,另外还包括
33、搜索引擎的专业化(对某一特定专业信息的搜索)、本地化(对某一特定区域特点的搜索)等;二是搜索引擎不断的推出新的特色功能和服务,如新闻订阅,桌面搜索,博客搜索,朋友圈子,简历搜索等功能。3.3.3 垂直化发展搜索引擎的垂直化发展主要针对某一领域,某一特点人群或者某一特定的需求建立搜索引擎。这些垂直型的搜索引擎只收集某一方面的网站或者网页,如体育、音乐、娱乐、视频、游戏、招聘信息、图片等,其中的内容一般都比通常意义的搜索引擎更专业、更好。垂直搜索引擎的特点就是“专、精、深”,这从某种角度符合用户的需求,因此这些年搜索引擎的垂直化发展已成为搜索引擎的又一大发展趋势11。搜索引擎垂直化的意义:(1)由
34、于垂直搜索引擎的信息来源来自于某一特定的领域,因此垂直搜索引擎相比通用搜索引擎具有更好的信息的实时性,其数据库更新可以以秒计算。(2)垂直搜索引擎集中了特定行业海量的信息和数据,基于这些信息和数据进行商务智能分析,将能为该特定行业创造非常有价值的信息增值服务。(3)符合用户的个性化和社会化需求,为用户提供了更加完善、准确的信息服务。4 搜索引擎局限性分析搜索引擎发展至今,始终是网民使用最多、最紧密的因特网服务项目之一,随着网上信息的几何式增长和内容功能花样的不断更新, 这与搜索用户带有目的的个性化需求之间产生了较大的矛盾。搜索引擎越来越不能满足网民们的各种信息需求,另外现有的搜索引擎存在查全率
35、和查准率都不高等问题,概括起来大致有以下几个方面的局限性。4.1 检索数据库更新困难Google搜索引擎的爬虫系统每秒钟最高可以获取超过100个网页、网站,每天可抓取80000多个网页,其抓取速度远远快于其索引数据库的更新速度,这两者之间存在着难以调和的矛盾13。一般搜索引擎都有一个庞大的索引数据库,这使它不能有效地解决其更新问题,另外现在搜索引擎一些整理数据库的工作一般都需要人工的参与,不能完全靠程序、软件来实现。这也间接形成了数据库更新滞后的局限。4.2 搜索引擎标引深度不够现阶段,搜索引擎检索出来的结果往往只是提供一些简单的网址和包括检索关键词的网页信息,而用户需要的是更加详细和准确的信
36、息,这与用户的需求发生了矛盾,尤其是对特定文献数据库的检索搜索引擎很多时候都不能很好的达到用户的搜索目的。计算机不能理解文本,它必须将网页的内容用计算机处理的形式表示出来,这样搜索引擎才能实现对这些页面的遍历,从而对其建立索引12。现有的搜索引擎索引程序大部分都没有考虑页面创建者提供的关键词和描述页面内容结构的注释,把它们与其他页面信息同等对待。这样便存在页面上的图像不能被标引,动态生成的Web 页面, 由于其动态性和结构瞬时性,也不能被索引等问题。4.3 搜索引擎的查准率和查全率不高搜索引擎的查全率(检索出的相关信息量/系统中的相关信息总量)*100%;查准率(检索出的相关信息量/检索出的信
37、息总量)*100%。生活中利用搜索引擎找到的结果往往是一大堆网页地址, 用户只有逐个浏览,才能从中筛选出部分能满足自身需求的信息。这是因为网络中存在着大量没有价值的信息以及重复的信息,而搜索引擎并不能很好的辨别这些信息,这大大降低了搜索引擎的查准率。王汝林老师的新著网络营销实战技巧,他在书中言道,搜索引擎的查全率一般只能达到16%24%,世界上最好的搜索引擎查全率也只有45%,查准率只有36%。如何处理这些“检索噪音”,提高搜索引擎的查准率和查全率,也成了搜索引擎发展的一个局限。4.4 中文搜索引擎自然语言检索理解困难人工智能完全理解人类的语言是个极其困难的课题。有些搜索引擎虽然自称支持自然语
38、言,但实际上是知识对“提问语句”中的关键词用“或”组配或用其他检索式组配然后再发送检索请求给检索系统。这种引擎有的时候并无法真正理解用户检索问题的实质和关键内容。事实上,它只能根据用户输入的关键字在已存在的信息中进行搜索,它不会进行思考,不能根据用户的问题产生合乎逻辑的答案。因此如何有效并准确的进行检索分词也是搜索引擎要解决的一个重大的问题。中文搜索引擎在对自然语言理解存在着较大的困难,因为中文本身存在着很大的歧义性,同样的一句话,不同的断句,表达的意思可能大相径庭,这给搜索引擎对其分析带来了很大的困难。举个例子,这是百度宣传片里的一个断句,原句是:我知道你不知道我知道你不知道我知道你不知道。
39、我们可以断句为(1)我知道,你不知道。我知道,你不知道我知道。你不知道。(2)我知道你,不知道我。知道你不知道我,知道你不知道。(3)我,知道你不知道我知道。你,不知道我知道你不知道。而要让搜索引擎进行分析这断句几乎是不可能的。目前中文搜索引擎分词算法主要有以下三种:1.字符串匹配(正序、逆序、最少切分、最大切分等);2.基于理解(语法、句法的处理方式);3.基于统计。这三类分词算法提供了一定的检索能力,但与用户的需求还有较大的差距。李开复曾经在中科院研究生院的演讲中提到,Google致力于研究人工智能,他希望在50年内看到搜索引擎能够理解人类提出的问题。人类的词汇在不断更新和扩大,通过语气、
40、表情、发音的轻重、不同的词汇组合可以表达出无穷的含义15。 4.5 搜索引擎的分工合作局限目前网络上充斥着各种各样的搜索引擎,从知名的百度、Google到山寨的“百google度”。搜索引擎各行其是,缺少合作。另外各个搜索引擎在搜索引擎领域,明刀暗枪的竞争,这一方面因重复劳动造成了资源浪费,另一方面也给用户的查找带来了不便。往往用户查询信息时需要动用多个搜索引擎来进行搜索,这样才能找到满意的答案。若能加强搜索引擎间的合作,把各个搜索引擎集成化形成多元化地搜索引擎,将对搜索引擎的发展带来长足的发展。多元搜索引擎可理解为调用其它的现有搜索引擎,将搜索结果综合利用。这样虽然能有效地提高搜索效率,但是
41、不能解决被调用搜索引擎本身存在的技术局限。 因此加强搜索引擎间的合作分工是十分需要的。4.6 搜索引擎信息占有量以及覆盖率局限当今社会每时每刻都会有新的词汇诞生,搜索引擎并不能及时有效地收集这些新的词汇,另外一些生活中偏门的或者独有的事物搜索引擎也很难收集,这导致了搜索引擎有时候并不能为用户提供搜索服务。信息占有量的大小是评价搜索引擎性能的重要指标,如何快速有效地收集并索引这些信息是占有更多的信息量保证搜索引擎查全率和实用性的一个指标17。目前,网络上大约有8745000个网站,约25亿个网页,而著名的搜索引擎Google系统和Wisenut系统收集并提供给用户检索查询的网页数量分别是2073
42、418204个和1571413207个,分别占网页总量的82.9%和62.9%。可以说,目前还没有一种搜索引擎能够覆盖整个因特网的信息资源。4.7 搜索引擎对多媒体内容的检索局限几乎所有的搜索引擎提供的检索界面都只支持在检索框输入相对应的多媒体内容的文本信息,无法根据多媒体内容本身进行检索。这说明目前的搜索引擎对动画、声音和图像的处理还不成熟,因此有些时候并不能完美的帮助用户查询多媒体信息。我们可以想象一下:当你看到了一种植物,但是不知道叫什么名字及其相关信息;当你有一张某酒店的照片但是不知道这一酒店的信息;当你看到某张照片上美丽的风光是你很向往的但是却偏偏没有相关的介绍;当你看到一部很好的F
43、lash作品却完全不知道他的信息时。我们能用现有的百度和Google搜索引擎快速的解决这些难题吗?很显然,现有的搜索引擎技术并不能帮助我们解决上面那些问题。而这些需求却是一直都存在的,那么能够帮我们解决这些问题的真正意义上的多媒体搜索引擎的技术究竟该如何实现,也是搜索引擎发展的一大课题。当然目前有些搜索引擎已经可提供部分图像检索,相信在不久后搜索引擎便可改变这一局限。4.8 社区化和个性化局限网站的个性化和社会化已经成为搜索引擎必然的发展趋势,但是现阶段的搜索引擎并没有将其彻底的解决。以百度为例,虽然近几年来构建社区的功能越来越完善,但是相比QQ空间或者人人网站这些专业的社区(QQ超过4.3亿
44、注册用户的庞大受众群体)仍有差距,百度社区只有近5000万的活跃用户,相对于搜索引擎的使用人数,其社区使用人气和黏度都存在巨大的差距。另外在个性化上不同的人用同一搜索引擎使用相同的检索词汇所得到的结果基本是相同的。目前大多数搜索引擎没有考虑人的地域、性别、年龄等方面的差别,这便是搜索引擎个性化的局限。4.9 搜索引擎抓取动态网页的局限动态网页的内容是当用户有点击请求时才从数据库中调出返回给用户一个网页的内容,也就是说,这个动态网页实际上并不是一个存放在服务器上的独立文件,当没有用户请求时这个动态网页实际上是不存在的。这样,网络爬虫在网上漫游索引网页信息时,动态网页自然不容易被收录到了。另一方面
45、动态网页的URL中包含了问号(?)和百分号(%)。还有一些符号诸如“&”,“%”,“+”和“$”等在一个动态网页的URL中也经常能看到18。这样的URL被称作“环境变量”,大多数网络爬虫都无法解读符号“?”后的字符,这样也造成了动态网页无法被搜索引擎抓取。现在,网站越来越多的使用动态网页,这也使得如何抓取动态网页成了接下来搜索引擎发展的重要内容。5 搜索引擎的发展方向目前的搜索引擎存在搜索速度慢、死链接太多、重复信息或不相关信息较多,越来越难以满足人们各种信息需求。针对新情况和各种各样的局限性,搜索引擎针对这些局限将向智能化、精确化、交叉语言检索、多媒体检索、专业化等适应不同用户需求的方向发展
46、16。下面简单介绍搜索引擎的一些发展方向:5.1 提高信息检索的精确度和有效性。要提高搜索引擎的精确度和有效性,首先要明确的是用户需要什么。通过上面分析我们可以发现用户在搜索引擎上检索信息资料时,首先关注的并不是返回的查询结果有多少,其看重的是检索结果是否满足自己的需求。提高搜索引擎精确率和有效率可采用以下几种方法:(1)采用合理的分词技术。以中文搜索引擎为例,网上的中文信息具有分词复杂,具有较多的内码转换等特点,因此对中文信息地搜索,不可避免的会遇到分词问题。现有的分词算法非常多,有基于语法规则的分词法;基于汉语词库的最佳匹配法、逆向最佳匹配法、最大匹配法、高频词汇优先分词法;基于神经网络的
47、分词法;基于频度和统计的分词法和专业系统分词法等17。分词准确性对搜索引擎至关重要,但其准确性却要基于分词的速度不能太慢,不然其准确性再高,对于每秒需要处理数以万计网页信息的搜索引擎来说是不可取的,分词太慢会影响搜索引擎的数据库更新速度。因此,分词的准确性和速度对搜索引擎来说都十分的重要。目前百度的分词技术是所有中文搜索引擎中最好的,而国内现阶段专门研究中文分词技术只有海量科技等少数几个商业公司(2)进行信息的类聚或者网页的类聚,减少重复信息,以减少搜索信息的总量。聚类是指将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能地大,而不同簇间的相似度尽可能地小18。这样,用户只需要考虑那些相关的簇,大大缩小了所需要浏览的结果数量。(3)引用超链中的标记文本来,通过该文本中的概括内容,更为客观、准确的对链接相关度进行排序。近几年Google采用Stanford大学研究的Page Rank算法成功的提升了搜索引擎的效率。5.2 智能搜索引擎的发展。智能化搜索引擎由于具有更多的“智力”,能按照用户的需求参与
链接地址:https://www.31ppt.com/p-2394619.html