欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    《元搜索引擎》PPT课件.ppt

    • 资源ID:5628343       资源大小:882.50KB        全文页数:28页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    《元搜索引擎》PPT课件.ppt

    第六章 元搜索引擎,6.1 概念 1、也称为集合式的搜索引擎,将多个搜索引擎集合在一起,提供一个一致的界面,也可分为关键词检索和目录检索。当用户发出检索请求后,该引擎自动利用多种其它的搜索引擎同时进行检索。,开发元搜索引擎,主要的理由是:1)元搜索能够分散处理负载,增加检索的范围。Web 数据量太大,而且增长迅猛,单个引擎的容量,处理能力难以扩展到很大的规模,所以每个引擎只能包含一部分 Web 文档。2)元搜索具有较好的扩展性,可以加入多个成员引擎。它使得各个成员引擎规模变小,性能更好,这样成员引擎的检索响应时间短,还可以使得检索的内容保持最新。3)有些 web 站点的内容不能用数据采集器抓取,只有用该站点提供的 API 访问。4)检索更有效,用户为了找到满意的检索结果可能访问多个搜索引擎,直到找到结果位置,而元搜索引擎可以帮助用户自动完成这个任务。,2 元搜索引擎的结构 元搜索引擎是搜索引擎的集成,类似多数据库的集成和机群系统的体系结构。,问题:在元搜索引擎的环境下,如何快速,有效的把分布在各个成员引擎的匹配用户检索条件文档返回给用户呢?假如用户发出一个检索请求,元搜索引擎首先要做的是选择用哪个或哪些成员搜索引擎,把检索请求发到最有希望找到用户检索结果的搜索引擎,这样可以提高效率和检索精度,减少处理无用或相关程度低的文档的数量。第二个选择是在成员搜索引擎检索返回结果文档集中选择相关度高的文档。,1)检索界面 成员引擎有各自不同检索界面,简单的只采用单个关键词,复杂的可以指定任意的多个关键词之间的布尔条件或词间距。检索项可以是关键词,短语,甚至句子,如 Google对检索句子的效果很好,检索项的大小和引擎的索引结构相关。最常见的是关键词外加分类的检索,如 Yahoo,Sina,Infoseek 等,分类一般按数据的形式分为:图片,软件,音频,视频等,按内容分政治,经济,文化,娱乐,体育等。为了适应各个成员引擎的界面,可以采用交或并的方法,在翻译查询时交的方法需要给成员引擎填缺省值,并的方法针对特定的引擎要做取舍。,2)搜索引擎选择 提供系统中可用的搜索引擎的列表让用户自己来选择。获取各个成员引擎内容的表示和查询匹配,选择最相关的前n个引擎进行查询。这种方法很大程度取决于引擎内容的表示。,3)查询分发:把来自检索界面的查询串翻译成特定的引擎的串。4)结果合并:如果成员引擎的相关函数不同,没有可比性,则逐个取返回结果队列的头部,如果成员引擎的相关函数相同,返回结果的权值具有可比性,可以按查询与引擎的相关系数加权各个返回队列,用多路最优归并算法合并结果形成全局有序队列。结果合并过程中还要除去重复的文档,方法是取每个文档的索引纪录中摘要部分的前 20 字节和时间,如果都相同则认为是重复的,应去掉。,6.2 元搜索引擎的特征,拥有经过选择的搜索引擎。统一的检索提问式(需要进一步的转换才可以提交给不同的搜索引擎)搜索时间用户设定检索方式存在差异(顺序、并行)提供更多的检索方式(词组、自然语言)结果显示(数据算法、界面表现),6.3 元搜索引擎分类,简单元搜索引擎复杂元搜索引擎桌面型元搜索引擎基于Web的元搜索引擎,简单元搜索引擎,提供一个搜索引擎的列表,用户可以选择所用的搜索引擎。例如好东西网址,桌面型元搜索引擎,以程序的方式提供给用户,运行在用户的机器上。如飓风搜索通,整合了近百个各类搜索引擎,包含简体中文,繁体中文,软件,音乐MP3,股票,新闻,购物搜索,购书搜索等的全方位互联网信息检索工具,完全兼容及嵌入IE,符合浏览及搜索习惯,搜索结果可以单个或全部分类保存。,飓风搜索通使用,6.3.3 基于Web的元搜索引擎,基于Web的元搜索引擎以Web的方式为用户提供元搜索服务。元搜索引擎分为并行处理式和串行处理式两大类。并行处理式元搜索引擎将用户的查询请求同时转送给它调用链接的多个独立型搜索引擎进行查询处理。串行处理式元搜索引擎将用户的查询请求依次转送给它调用链接的每一个独立型搜索引擎进行查询处理。,基于搜索引擎的网络信息资源检索,常用的元搜索引擎及其检索方法,1.Ixquick()(1)概述 Ixquick 由一家荷兰公司Surfboard Holding BV于1998年在纽约建立。Ixquick 自称是“世界最强大的搜索转移引擎”。利用Ixquick 进行搜索时,用户实际上是在同时利用多个流行的搜索引擎展开搜索。Ixquick的中文搜索界面如图3-13所示。,基于搜索引擎的网络信息资源检索,图3-13 Ixquick检索页面,基于搜索引擎的网络信息资源检索,常用的元搜索引擎及其检索方法,1.Ixquick()(2)Ixquick的检索功能 搜索。强力搜索。全球搜索。全面精确的检索结果。强力精选。借助Ixquick的删除重复结果功能,可以让随后的搜索只显示新结果,而不显示已经阅读过或拒绝过的结果。,基于搜索引擎的网络信息资源检索,图3-14 Ixquick检索结果页面,基于搜索引擎的网络信息资源检索,2.MetaCrawler()(1)概述 MetaCrawler是1994年由华盛顿大学的Erik Selberg和Oren Etzioni开发的,是最早的一个多元型搜索引擎,曾被评为综合性能最优良的多元搜索引擎。2000年加入InfoSpace Network服务,隶属于InfoSpace公司。MetaCrawler除了支持调用Google、Yahoo!、Ask Jeeves、About、FindWhat、Altavista、Overture等12个独立的搜索引擎外,还可以同时在9个源搜索引擎中进行并行查找,本身还提供涵盖近20个主题的目录检索服务。MetaCrawler提供的资源包括网页(Web)、图像(Images)、音频(Audio)、视频(Video)、黄页(Yellow Pages)、白页(White Pages)等多种类型。,常用的元搜索引擎及其检索方法,基于搜索引擎的网络信息资源检索,3.MetaCrawler(http:/)(2)检索功能 MetaCrawler的主要检索功能包括:允许用户选择检索工具;将用户的检索请求转换成成员搜索引擎的检索指令;对检索结果进行转换、查重和排序等。MetaCrawler的检索界面简洁、直观,操作简便,有基本检索和高级检索2种检索方式。简单检索。高级检索。结果显示。MetaCrawler检索结果包括资源题名链接、摘要、资源所在数据库的URL地址以及源搜索引擎的注释等。,常用的元搜索引擎及其检索方法,基于搜索引擎的网络信息资源检索,基于搜索引擎的网络信息资源检索,元搜索引擎,4.iTools!,收录范围:集中了Yahoo!,AltaVista、GONetwork、NorthenLight等著名搜索引擎以及Ask Jeeves、Excite、Google、G、Hotbot、LookSmart、Lycos、A共12个常用引擎。,基于搜索引擎的网络信息资源检索,基于搜索引擎的网络信息资源检索,5.Dogpile()(1)概述 Dogpile创建于1996年1月,早期的Dogpile只提供晨报新闻检索,后来逐步发展成为网络上最受欢迎的元搜索引擎之一。它是唯一一家与所有主要搜索站点签署搜索服务协议的公司,现在属于InfoSpace公司。Dogpile是目前性能较好的元搜索引擎之一,可以调用Google、Yahoo!、AskJeeves、About、LookSmart、Teoma、Overture等26个主流Web搜索引擎、Usenet搜索引擎和FTP搜索引擎,其中,Web搜索引擎14个。Dogpile采用独特的并行和串行相结合的查询方式:首先并行地调用3个搜索引擎,如果没有得到10个以上的结果,则并行地调用另外3个搜索引擎,如此重复直到获得至少10条结果为止。,常用的元搜索引擎及其检索方法,基于搜索引擎的网络信息资源检索,Dogpile()(2)检索功能 Dogpile的搜索技术十分先进,即使是高级运算符和连接符,它也能将其转换为符合每个搜索引擎的语法。可以使用“*”作为通配符,支持逻辑运算符NOT、AND、OR和括号。Dogpile具有智能化的检索程序和易用界面,支持关键词检索和主题目录浏览检索,关键词检索还提供基本检索和高级检索2种检索方式。简单检索。高级检索。定制偏好(Preferences)。结果显示。,常用的元搜索引擎及其检索方法,基于搜索引擎的网络信息资源检索,6.万纬搜索()(1)概述 万纬搜索是上海万纬信息技术有限公司依托上海交通大学的技术力量自主开发的一个比较优秀的中文元搜索引擎。这是一个含中国自主版权的Web基础应用系统,其架构和功能已达到美国同类产品的水平。万纬搜索不仅集成了目前最权威的6家中文搜索引擎,分别是中文Yahoo!、中文Google、百度、北大天网、新浪GB和搜狐,而且该搜索引擎还收录了目前位于世界技术前沿的2家英文搜索引擎,分别是Google和Yahoo!,用户可以根据需要自由选择其中多个搜索引擎进行同步检索。,常用的元搜索引擎及其检索方法,基于搜索引擎的网络信息资源检索,万纬搜索()(2)检索功能 简单检索。高级搜索。结果显示。在获得初步检索结果的基础上,用户还可以进行进一步的“精确查找”。,常用的元搜索引擎及其检索方法,基于搜索引擎的网络信息资源检索,7.其他多元型搜索引擎网址介绍(1)Mamma,网址是。(2)S,网址是http:/www.。(3)SurfWax,网址是http:/。(4)ByteSearch,网址是http:/。(5)InfoGrid,网址是http:/。(6)Ithaki,网址是http:/。(7)Kartoo,网址是。(8)Webcrawler,网址是http:/。(9)One2Seek,网址是。(10)ArborSearch,网址是http:/。(11)Bbmao,网址是http:/。(12)索天下,网址是http:/。(13)聚合搜索/一网搜,网址是。(14)元搜索,网址是http:/。,常用的元搜索引擎及其检索方法,

    注意事项

    本文(《元搜索引擎》PPT课件.ppt)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开