欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > DOC文档下载  

    搜索引擎的功能及其局限性分析文献综述.doc

    • 资源ID:2394553       资源大小:45KB        全文页数:8页
    • 资源格式: DOC        下载积分:8金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要8金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    搜索引擎的功能及其局限性分析文献综述.doc

    “搜索引擎的功能及其局限性分析”文献综述学生姓名:蒋正波 指导教师:丁小宝摘要:web经过十几年发展,已经成为一个巨大的全球化信息空间,网上信息以几何级数剧增。有效利用数量如此庞大的信息资源,需得到搜索引擎的帮助。本文将阐述近几年来搜索引擎发展的功能,并分析其存在的局限性。关键词:搜索引擎,功能,局限性,SEO1. 引言正文内容10年前我们要查阅资料,请教问题,更多想到的是请教专家,图书管查阅等传统方式。常常为了一个简单的问题而到处寻师,在图书馆翻着类似我的电脑桌抽屉里的检索卡片,苦苦寻找。近几年,随着互联网的普及与兴起,搜索引擎的出现,我们的生活习惯和思维方式正逐渐改变着。 “百度一下,你就知道。”便充分反应了搜索引擎对我们生活的影响。互联网出现到现今,信息量可以说成密指数的增长,大量信息就像Google的原本含义一样“1的后面跟着100个0”,这个数比宇宙所有的基本粒子的数量总和还要大。在这浩如烟海的信息中怎么才能找到自己需要的信息呢?搜索引擎就像一只神奇的手,从杂乱的信息中抽出一条清晰的检索路径。随着搜索引擎的发展,为了方便和丰富搜索用户使用搜索引擎,各大搜索引擎都相继推出了各种各样的功能。另一方面,虽然搜索引擎技术发展非常迅速,但是在信息覆盖面不足以及对自然语言提炼等方面现在的搜索引擎在还存在局限。本文主要通过分析各大搜索引擎的功能和局限性来阐述搜索引擎的现状和未来的发展前景。2搜索引擎功能分析2.1搜索引擎工作原理及功能模块简介2.1.1 工作原理首先执行自动搜索程序,定期在网上收集相关的新网页或网站信息;然后利用自动标引程序和自动索引程序,通过扫描每一个网页中的每一个词(单元信息),建立起以词为单位的索引库;检索程序执行检索操作时,则采用相对简单的关键词匹配检索级数,根据检索入口词在每一个网页中出现的频率、概率及位置,对包含这些检索词的网页进行排序,最后输出排序的结果,并引导用户按照得到的热链进一步搜索下去。2.1.2功能模块搜索引擎根据其逻辑功能不同,可分为五个子系统(功能模块):1)自动搜索子引擎搜索器也称蜘蛛系统(spider)或爬虫系统(crawler),其功能是遵循一定的协议,在Internet 中及时发现、收集新的网页信息,并更新搜索引擎数据库中的已有网页信息。2)自动标引子系统分析器其功能是借助于词频统计、词语位置认定和一些特殊的算法,对搜索器抓取回来的网页进行标引,并对其中网页的超链接进行关联。3)自动标引子系统索引器其功能是根据分析分析器生成的关键词,建立从关键词到网页URL 的关系索引倒排文档,即建立索引数据库。4)检索查询子系统检索器其功能是根据用户输入的提问词,在索引数据库中进行提问词与索引词的匹配运算,然后将查询结果安照相关程度排序并输出到用户接口子系统。5)用户接口子系统其功能是提供人- 机交互的检索接口,接收输入的用户检索提问并输出检索结果。2.2搜索引擎功能简析 搜索引擎作为一种网络信息搜索工具, 其开发的目的就是为了方便用户快速有效地找到所需的信息, 通常由信息收集、数据库和信息检索三部分组成。这三部分的通过相互作用共同完成搜索任务。搜索软件用来在网上收集信息, 目前大致有Robot、Spider、Worm 等自动代理软件, 定期或不定期的在网上爬行, 通过访问网络中公开区域的每一个站点, 对网络信息资源进行收集, 然后利用索引软件对收集的信息进行自动标引, 创建一个详尽的可供用户按关键词等进行查询的Web 页索引数据库, 查询软件通过索引数据库为用户提供查询服务。通过上面的分析可以明白, 搜索引擎主要有3 个方面的功能:(1) 采集信息功能。搜索引擎具有广泛收集因特网上的Web 页面, 构建一个信息空间的作用。(2)信息组织和标引功能。通过某种形式来组织、标引所收集的Web 页面, 力图抓住页面的内容。(3)信息检索功能。通过建立数据库, 接受用户查询,利用信息检索算法, 尽可能将最相关的页面返还给用户, 达到有效检索的目的。随着搜索引擎的发展和成熟,各个搜索引擎网站都推出了新的功能。下面以百度为例列举了百度搜索引擎的一些新的功能。百度不断创新, 开展了其他的中文搜索引擎所不具备的特色服务功能。1) 百度贴吧:“贴吧”诞生的意义是可以让用户把头脑中的恶知识、想法和经验与大家分享,让网名头脑中的无限信息分享给每个用户。“贴吧”通过任意关键词把相同兴趣的人绑到了一块,让这些志同道合的网友能再一个平台上对相同学科、相同事件进行交流发表自己的看法。2) 百度地区搜索:百度地区搜索中的地区范围包含了大半个中国,包括北京、天津、重庆、浙江、河北等34个省市自治区500多个市县级地区,而且随着地区搜索的完善能够查询的地区范围正逐步扩大。通过地区搜索,用户可以任意组合、限定所要查找地区的网页,大大方便了用户的查找。3) 信息快递:百度信息快递服务功能是让用户通过百度提供的搜索平台发布信息。用户可以通过检索查询这些信息。4) 百度百科:百度百科通过搜索引擎收集生活和学习中要用到的概念和名词解释,将其编辑成库,让用户可以通过搜索引擎查询。2.3搜索引擎功能展望随着搜索技术的不断发展,搜索引擎的功能也不再只是为了查询你需要的信息。搜索引擎正朝着组建一个大的社区方向发展,这个社区里尼可以浏览新闻,查看你的个性图书馆、翻译你想要翻译的外文文献以及搜索你想要浏览的博客等等。搜索引擎的社区化发展,已经成为国内外众多搜索巨头的共识。近年来百度等公司相继开发的百度百科、百度知道、百度贴吧、百度文库等一系列的社区功能吸引了许多用户,相信在不久的将来,搜索引擎构建的社区会慢慢的融入人们的生活与学习,让搜索引擎的功能得到进一步的实现。当然也有有不少公司尝试在搜寻方面改进,务求更符合用户的要求。当中诸如Copernic Agent之类的搜寻代理就是其中之一。 在台湾,威知资讯(WebGenie)是利用文字探勘(Text Mining)技术发展搜寻引擎产品的公司,利用人工智能算法,可达成目前搜寻引擎所缺乏的简易人机互动模式,诸如关联字提示、动态分类字提示等,算是较另类的搜寻引擎产品。展望未来,相信更多搜索引擎的功能会更加的贴近人们的生活,更加便利的为人们提供便利的服务。3搜索引擎局限性分析3.1搜索引擎的局限性正文内容搜索引擎发展至今,始终是网民使用最多的服务项目之一,但随着网上信息的几何式增长和内容形式花样的不断翻新, 这与用户有目的的个性化需求之间产生了较大的矛盾。搜索引擎越来越不能满足网民们的各种信息需求,现有的搜索引擎存在查全率和查准率都不高的问题,概括起来大致有以下几个方面的局限性。(1) 检索数据库更新困难。搜索引擎搜集的网页数量的速度远远快于其数据库的更新速度,这两者之间存在着难以调和的矛盾。由于一般搜索引擎都有一个庞大的索引数据库,这使他不能有效地解决更新问题,另外现在整理数据库的工作一般都需要人工的参与,不能完全靠程序、软件来实现。由此形成了数据库更新滞后的局限。(2) 搜索引擎对信息的标引深度不够。目前, 搜索引擎检索的结果往往只提供一些线性的网址和包括关键词的网页信息, 与人们对它的预期存在较大的距离, 特别是对特定文献数据库的检索显得无能为力。我们知道计算机不能理解文本, 它必须将Web 页面的内容用计算机处理的形式表示出来, 这样搜索引擎才能实现对这些页面的遍历, 从而对其建立索引。现有的搜索引擎大都忽略了“Meta”标签(页面创建者提供的关键词和描述) 和注释(描述页面内容结构) , 把它们与所有页面信息同样对待。存在页面上的图像不能被标引,动态生成的Web 页面, 由于其动态性和结构瞬时性, 也不会被索引等问题。(3) 搜索引擎的查准率不高。利用搜索引擎找到的往往是一大堆网页地址, 用户只有逐个浏览,才能从中筛选出部分能满足自身需求的信息。(4) 搜索引擎自身的技术局限。基于Web 页的信息检索技术其匹配算法不同于传统的信息检索。搜索引擎依据单词、短语出现频度和位置来筛选、标引关键词的做法, 存在自身难以克服的局限性,它总是倾向选择那些用户查询请求术语出现频率高的网页, 或者根据“回顾站点”列表, 提高了那些多次被光顾站点的“相关度”, 而对于那些故意在网页的敏感位置设置多个相同、常用的、与他们的网页内容无关的词汇, 以希望提高网页的点击率或相关度的做法, 大多数搜索引擎往往难以识别。另外, 目前部分搜索引擎还不能对多媒体信息进行检索。(5) 搜索引擎的分工协作有待加强。目前大多数搜索引擎各行其是, 缺少合作。一方面造成因重复劳动而产生的资源浪费; 另一方面也给用户的查找利用造成困难, 而那种指望通过一次查找就能达到目的想法, 在目前WWW检索中还难以实现, 用户在第一搜索引擎中没有找到满意结果时, 还不得不在第二、第三搜索引擎间奔波。若能把不同搜索引擎集成化, 形成多元搜索引擎, 就能较好地解决用户网络信息检索问题。有人预测, 在不久的将来,具有人工智能的计算机将会按照我们的意愿处理信息, 从而提高人类的生活质量和工作效率。(6) 搜索引擎的信息占有量不足。搜索引擎必须占有相当大的信息量才能具有一定的查全率和实用性, 可以说信息占有量的大小是评价搜索引擎性能的重要指标。目前还没有一种能覆盖整个因特网信息资源的搜索引擎。(7) 检索功能单一、缺乏灵活性。与发展完善的计算机检索工具相比,目前许多搜索引擎的查询方法较为单一,一般之提供分类查询方式和关键词查询方式,不能从文献的多个方面对检索提问进行限制,只能就某一关键词或概念进行笼统的检索。另外,搜索引擎只能根据给定的检索词和响应的程序设定在制定单位内进行检索,而不具备人的主动性和灵活性。(8) 搜索引擎对自然语言提问没有完全的理解力。有些搜索引擎虽然对自沉支持自然语言,但实际上是对“提问语句”中的关键词用“或”组配或检索式然后发送检索请求给检索系统。这种引擎无法理解用户检索课题的实质和关键内容。(9) 搜索引擎对多媒体内容的处理尚不成熟。几乎所有的搜索引擎提供的检索界面都只支持在输入框输入文本信息。对动画、声音和图像的处理还不成熟。当然有些搜索引擎可提供部分图像检索。(10) 个性化网站的个性化已经比较成熟,但是搜索引擎的个性化并没有得到解决,不同的人用同一搜索引擎使用相同的检索词得到的结果是相同的。也就是说搜索引擎没有考虑人的地域、性别、年龄等方面的差别。(11) 搜索引擎还不能很好地支持动态网页的检索。 蜘蛛等软件不敢去碰动态网页,怕被变化无穷的动态系统黑洞吸进去出不来。然而,网站却越来越多的使用动态网页生成工具,使用动态网页制作软件制作网页。因此解决动态网页查找的问题已迫在眉睫。3.2搜索引擎的发展趋势正文内容随着万维网信息按指数级增加,目前的搜索引擎存在搜索速度慢、死链接太多、重复信息或不相关信息较多,越来越难以满足人们各种信息需求。针对新情况,搜索引擎将向智能化、精确化、交叉语言检索、多媒体检索、专业化等适应不同用户需求的方向发展。下面简单介绍搜索引擎的一些发展趋势:(1)提高信息查询的精度,提高检索的有效性。(2)发展垂直型搜索引擎。(3)研究基于智能代理的信息过滤和个性化服务。(4)开展搜索引擎的本地化服务。(5)采用分布式并行处理技术提高系统规模和性能。(6)实现交又语言的检索。(7)发展多媒体搜索引擎。(8)发展专业化搜索引擎。(9)提高对用户提问的理解能力即对自然语言的理解能力。4结论本文主要分析了搜索引擎当前的一些功能以及分析了现在搜索引擎存在的局限性并阐述了搜索引擎的发展趋势。相信随着网络信息发展与传播,网民对信息更快、更全、更方便的查询的需求,是搜索引擎技术发展的机遇和动力。人们对网络信息需求从内容、形式、容量等多方面的提升,市场会有更多的资金和技术投人搜索引擎的研发和推广,搜索引擎也将步人又一个高速增长期。.参考文献1 陈晓瑜. Google的特色搜索引擎J.科技情报开发与经济, 2006,16(15): 216-2172 杨松,杨文莲. 基于关键字和链接的搜索引擎优化策略J. 渤海大学学报(自然科学版版), 2006,27 (3):269-2713 刘世涛. 简析搜索引擎中网络爬虫的搜索策略J. 阜阳师范学院学报 (自然科学版), 2006, 23(3):59-624 徐亚先. 搜索引擎功能概述与研究热点J. 情报科学, 2001,19(3):269-2705 曹树金,杨涛. 自动分类在搜索引擎性能优化中的应用J. 情报科学 , 2004, 22(2):213-2196 李世明,赵恒永. 专题搜索引擎研究与实现J. 电子科学技术评论,2005,(4):51-547 黄建莲. 中国搜索引擎服务市场的先赚及发展J. 华北科技学院学报, 2005, 2 (3):113-1158 葛蓉. 利用网络日志分析提高搜索引擎的检准率J. 情报科学, 2004,22(10):1250-12539 张海涛,董洲. 搜索引擎Google的检索功能及PageRank技术分析J.情报科学, 2002,20(8) :813-81510 叶波. 搜索引擎的功能及其局限性分析J.理工科研, 2009(下旬刊):275-27611 张军,陈益君. 搜索引擎的功能及其局限性探讨J. 情报科学, 2001,19(5):529-53112 付合军,曾建航 褚玉晓. 搜索引擎的技术发展趋势J. 创新科技, 2006(10):44-4513 李振龙. 搜索引擎的技术局限及改进策略研究J. 台州学院学报, 2005,27(3):34-3714 张文静. 搜索引擎的分类及发展趋势J. 焦作大学学报, 2006(3):76-7815 李斌,徐蓉艳. 搜索引擎简析J. 扬州教育学院学报, 2006,24(3):75-7816 吴建军.浅谈百度搜索引擎的功能与服务特点J. 科技情报开发与经济, 2007,17(5):215-21617 M.P.S.Bhatia,Divya Gupta. Discussion on Web Crawlers of Search Engine C. Proceedings of 2nd National Conference on Challenges & Opportunities in Information Technology (COIT-2008)RIMT-IET, Mandi Gobindgarh. 2008,227-23018 Jun Hirai, Sriram Raghavan, Hector Garcia-Molina, Andreas Paepcke. WebBase: A repository of Web pagesR. The Ninth International World Wide Web Conference, 2000:227-22919 Chakrabarti, K. Punera, M. Subramanyam, Accelerated focused crawling through online relevanceFeedbackJ, WWW 2002, 2002:148-159.

    注意事项

    本文(搜索引擎的功能及其局限性分析文献综述.doc)为本站会员(laozhun)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开