网络信息资源检索 (2).ppt
《网络信息资源检索 (2).ppt》由会员分享,可在线阅读,更多相关《网络信息资源检索 (2).ppt(74页珍藏版)》请在三一办公上搜索。
1、第四章 网络信息资源检索深圳大学图书馆2011年9月,第一节 搜索引擎的工作原理,第二节 搜索引擎类型和检索功能,第三节 常用中英文搜索引擎,第四节 免费网络学术资源检索,第一节 搜索引擎的工作原理 搜索引擎(Search Engine)是一种接受因特网(Internet)用户查询指令,并向用户提供符合其查询要求的相关网站或网页的信息资源系统。与普通网站不同的是,搜索引擎是一个在Internet中主动搜索WWW信息并能进行自动索引、提供查询服务的网站,它通过网站登录、信息采集器或搜索机器人等方式,将因特网上大量网站的页面收集到本地,经过加工处理而建成数据库,从而能够对用户提出的各种查询指令在短
2、时间内作出响应。科学家很早就梦想能够快速检索所有的科技文献,现在,搜索引擎使得在数秒钟内获取大量的科技信息成为可能。,搜索引擎实际上是一个专用的WWW检索服务器,它收集Internet上成千上万甚至上亿个WWW网页信息,组成庞大的索引数据库。搜索引擎一般由信息采集器(Spider或Crawler)、索引数据库(Index或Catalogdatabase)和用于检索索引数据库的检索软件(SearchEnginesoftware)三部分组成。,信息采集器是一种网络自动搜索软件,通常称为蜘蛛(Spiders)、爬虫(Crawlers)或机器人(Robots)等。它们运行在WWW信息空间,能够沿着网站
3、的链接从一个页面跨越到另一个页面,自动追寻和发掘网上的各种信息资源,采集新出现信息,确认网页之间的链接是否有效,剔除死链的一种软件。索引器的主要工作是建立一个包含关键信息的索引库以备查询,不同的索引器标引网页的内容是不同的,有的对网页进行全文标引,有的只标引网页的地址、题名、以及特定的词或段落等,所以索引器的策略很大程度上影响了搜索引擎的效率与准确性。检索软件通常是一个Web应用程序,其主要工作是接收、解释用户的搜索请求、查询索引库、计算网页与搜索请求的关联度、提供排序后的搜索结果返回。,搜索引擎产生和发展的历史不长,但它的检索功能却非常强大,大多数搜索引擎都提供以下检索功能:布尔逻辑检索、词
4、组检索、截词检索、限制检索、位置检索、字段检索、语句检索等。一些搜索引擎还有以下特殊的检索功能:自然语言检索、多语种检索、区分大小写检索等。对搜索结果及结果显示有影响的一些功能:检索提问的修改与限制、按相关度排列结果、检索与浏览功能、检索结果翻译等。,第二节 搜索引擎类型和检索功能 搜索引擎的类型 按照信息内容的组织方式,可将搜索引擎分为目录搜索引擎和机器人搜索引擎。目录搜索引擎采用人工或机器搜索WWW信息,是依靠专业人员对信息进行甄别和分类而建立的以分类导航或分类摘要查询为主的一类搜索引擎,又称“主题指南”。优点是信息标引质量高,检准率高,适合于族性检索。缺点是信息量较小,维护需要耗费大量的
5、人力物力。比较有代表性的是Yahoo、搜狐等。,机器人搜索引擎,是指由网上搜索软件自动收集网页建库,而检索又以全文检索为主的搜索引擎。它读取一个或多个HTML文件,然后分析置标标记内的字以及所有链接的HTML文件,核查每一个字的删除和简化,存储最终生成的 HTML 文件的字列表。当分析完所有链接的 HTML 文件时,将创建 HTML Applet 搜索页的Applet标记和字数据库。基于机器人的搜索引擎从一组已知的文档出发,通过这些文档的超文本链接确定新的检索点,从而快速定期地收集分布于世界各地网站的信息,及时更新自身索引数据库。比较有代表性的是Google、AltaVista、Excite、
6、HotBot等。,按照检索特性的不同可将搜索引擎划分独立搜索引擎、元搜索引擎。独立搜索引擎就是最常见的Web信息检索系统,它拥有自己的索引数据库,特点是仅在搜索引擎本身的数据库中查询。如Yahoo、Google、AltaVista等都属于独立搜索引擎类型。,元搜索引擎是可以同时查询多个搜索引擎的WWW站点,特点是能从多个独立搜索引擎查询得到的结果中进行不同程度的处理,然后将结果返回给用户。而其本身可以有也可以没有自己的数据库。比较有代表性的元搜索引擎是WebCrawler、Dogpile等。从用户的角度来看,利用多元搜索引擎的优点在于可以同时获得多个独立搜索引擎(源搜索引擎)的结果,但由于元搜
7、索引擎在信息来源和技术方面都存在一定的限制,因此搜索结果实际上并不理想。目前,尽管有数以百计的元搜索引擎,但还没有一个能像Google等独立搜索引擎那样受到用户的广泛认可。,按检索内容的不同可将搜索引擎划分为通用搜索引擎和专用搜索引擎。通用搜索引擎指为用户提供多类型、多主题的综合信息搜索,如Yahoo、Goole、百度等都是这种类型,可向用户提供生活娱乐、科技教育、各类新闻等主题的网络信息。专用搜索引擎指指仅提供某一主题领域的信息搜索的网络搜索工具。如专门搜索法律信息的LawCrawler,专门搜索心理学信息的PsychCrawler等。,4.2.2 搜索引擎的检索功能 搜索引擎产生和发展的历
8、史不长,但它的检索功能却非常强大,大多数搜索引擎都提供以下检索功能:布尔逻辑检索、词组检索、截词检索、限制检索、位置检索、字段检索、语句检索等。一些搜索引擎还有以下特殊的检索功能:自然语言检索、多语种检索、区分大小写检索等。对搜索结果及结果显示有影响的一些功能:检索提问的修改与限制、按相关度排列结果、检索与浏览功能、检索结果翻译等。,第三节 常用中英文搜索引擎 4.3.1 Google 概述 Google是目前最优秀的支持多语种的搜索引擎之一,约搜索50亿张网页。提供网站、图像、新闻组等多种资源的查询,包括中文简体、繁体、英语等35个国家和地区的语言的资源。,Google是由美国斯坦福大学的两
9、位博士生拉里佩吉和谢尔盖布林于1998年创建的其优势在于掌握的信息量以及检索模型和检索速度。它可为世界各地的用户提供适需的搜索结果,而且搜索时间通常不到半秒Google采用全文标引方式,提供每日更新。现在,Google可以查询的网页达40多亿个,每天需要提供 2 亿次查询服务,Google 的查询界面,设置搜索偏好,包括每个网页上默认的搜索结果数量、界面语言,以及查询语言,直接进入最符合搜索条件的网页,Google的其它版本,Google 的技术特点如下:Google收录了因特网上亿张的网页,提供HTML格式外的13种文件类型检索,是目前世界上最大的网页数据库。Google采用新一代的先进技术
10、,根据互联网本身的链接结构对相关网站用自动方法进行分类,依据网络自身结构,清理混沌信息,缜密组织资源。目前有众多网站都采用了Google搜索引擎技术。英文Google搜索提供的关键词查询,查询范围有种常用选择,即Images、Groups News、Froogle、Maps。中文Google搜索也提供的关键词查询,查询范围有种常用选择,即所有网站、图像、网上论坛和网页目录。,Google特点支持多达132种语言提供40多亿个搜索网页,涵盖内容齐全搜索速度快结果命中率高搜索结果摘录查询网页的部分具体内容,而不仅仅是网站简介智能化的“手气不错”功能,提供可能最符合要求的网页“网页快照”功能,能从G
11、oogle服务器里直接取出缓存的网页,Google(中文)网址:http:/检索功能使用时应主意的问题,基本检索:(布尔检索功能)逻辑“与”:检索框中的两个关键词之间用空格隔开则默认为是“AND”(“与”运算)连接逻辑“非”:用“”(减号)表示,同时要求在减号前保留一个空格逻辑“或”:用“OR”表示双引号、连字号、斜线、问号、等号、省略号都可以作为短语的连接符号查找名言或专有名词指定网域:利用site:可以在某个特定的网站或域中进行搜索指定文件类型:filetype:文件类型,可以在一类文件中进行搜索,比如,filetype:pdf,filetype:ppt等,逻辑与功能,逻辑非功能,逻辑或功
12、能,专用语查询功能,“”、“-”、“”、“+”、“=”、“,”“”,指定网域,指定文件类型,Google基本检索其它检索语法搜索的关键词包含在URL链接中:inurl:搜索的关键词包含在网页标题中:intitle:搜索的关键词包含在网页的“锚”中:inanchor:或allinanchor:搜索所有链接到某个URL的网页:link:,高级检索功能可以排除某个特定站点的网页(限定网域)可以对检索结果页面的语言类型进行限制(限定语种)可以限定检索结果的时间范围(更新日期)可以限定关键词出现的位置(字词位置)可以检索链向某一个网页的所有页面(键连功能)可以检索与某一个网页相关的所有网页(相似网页检索
13、),高级检索界面,高级检索示例,输入检索条件,高级检索示例,检索结果,图像检索Google 分析页面上图像附近的文字、图像标题以及许多其它元素来确定图像的内容。Google 还使用复杂的算法来删除重复的内容,并确保在搜索结果中首先显示质量最好的图像目前可以搜索超过10亿张图像可以搜索特定类型的图像图像搜索时可以使用布尔逻辑算符和google的其它检索命令,点击进入,图像搜索,网页快照如果原地址打开很慢,那么可以直接查看Google缓存页面,因为Google服务器速度极快 如果原链接已经死掉或者因为网络的原因暂时链接不通,那么可以通过网页快照看到该页面信息。当然,快照内容不是该页最新页面如果打开
14、的页面信息量巨大,一下子找不到关键词所在位置,那么可以通过网页快照,因为快照中Google用黄色表明关键字位置,集成化的工具条为了方便搜索者,Google提供了工具条,集成于浏览器中,用户无需打开Google主页就可以在工具条内输入关键字进行搜索工具条还提供了许多其它功能,如显示页面PageRank等。最方便的一点在于用户可以快捷的在Google主页、目录服务、新闻组搜索、高级搜索和搜索设定之间切换。安装Google的工具条,可以访问“http:/”,按页面提示可以自动下载并安装,点击下载,使用时应注意的问题Google不区分英文字母的大小写,所有字母均作小写对待。例如:输入“george w
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络信息资源检索 2 网络 信息资源 检索
链接地址:https://www.31ppt.com/p-6334855.html