互联网信息检索原理.ppt

上传人：牧羊曲112

文档编号：6404942

上传时间：2023-10-27

格式：PPT

页数：80

大小：972.50KB

《互联网信息检索原理.ppt》由会员分享，可在线阅读，更多相关《互联网信息检索原理.ppt（80页珍藏版）》请在三一办公上搜索。

1、2023/10/27,zhangpeili,1,信息文化教程,主讲张沛黎电话：2057357(o)手机：,石河子大学图书馆文检教研室,2023/10/27,zhangpeili,2,第五章互联网信息检索原理,5.2 互联网信息概述互联网，或称环球网、因特网、Internet，是指多个网络通过路由器、通信线路等通信设备互联，并基于一个共同的TCP/IP协议实现通信的世界性计算机网络。它是在美国1969创建的军用网络的基础上逐步发展成型的。可以预见，Internet必将迅速覆盖全球，对人类生活产生深远的影响，使“信息时代”真正到来。,2023/10/27,zhangpeili,

2、3,第五章互联网信息检索原理,网上信息资源的构成互联网信息资源是由连接在网上的计算机中的无数信息、网上的各种信息工具以及网络通信渠道三方面构成。网络信息包括计算机中的数据库、电子出版物、主页信息、软件以及各种格式的文件。信息工具包括FTP、Telnet、Email、Gopher、Archie、WAIS、WWW浏览器、搜索引擎等。网络通信渠道是指网络提供的信息交流的渠道。,2023/10/27,zhangpeili,4,第五章互联网信息检索原理,网上信息资源的特点：(1)数量庞大、增长迅速互联网上的信息资源极其丰富。已经成为全球最大的信息资源。包括有哲学、社会科学和自然科学等各学科方面的

3、知识。(2)更新频繁、变化无常互联网上的信息源常常是不稳定，许多网站不断地更换网址，这些给利用带来许多的不便。(3)分布散乱、良莠混杂互联网上的资源，一部分是人类知识的精粹，是人类巨大的财富，还有相当一部分是出于某种目的的信息或者是未经任何审核的数据信息，我们必须要有足够的认识和警觉。,2023/10/27,zhangpeili,5,第五章互联网信息检索原理,3网络信息资源的类型按照出版类型区分网上信息资源有着和印刷型出版物类似的对应关系。如：印刷型的期刊有网络期刊与其对应。印刷型的图书有网络图书与其对应。如此等等。按照是否具有原创性网上信息资源有一次资源和二次资源的区分。一次资源

4、是指首次发表的原创性信息，二次资源是转载已有的信息。,2023/10/27,zhangpeili,6,第五章互联网信息检索原理,按照有否经过审核，网上信息资源可分为正式出版物和非正式出版物两种。正式出版物学术价值相对较高。例如电子期刊、电子图书、电子报告、电子会议录等。网上正式出版物可以免费使用的很少。网上的非正式出版物具有明显的个人行为性质，其学术价值变化较大。例如个人主页、讨论组文章和公告版文章等，它们基本上可以免费利用。,2023/10/27,zhangpeili,7,第五章互联网信息检索原理,按照是否属于搜索引擎检索范围，网络信息资源可分为可见资源和不可见资源两类。可见资源是搜索引

5、擎可搜索到的资源。这种资源要满足两个条件：一是必须含有HTML超链接。二是没有设置口令，因而可见资源仅限于公开的资源。不可见资源，具体的说，是指一切没有联接的资源。,2023/10/27,zhangpeili,8,第五章互联网信息检索原理,网络信息资源利用的几个概念 1HTML和XML超文本标识语言(Hyper Text Markup Language，简称HTML)，是为WWW建立超文本文件的语言。超文本文件是指含有多个指向其它文本、图像、声音或动画文件的指针，使它们连接在一起的文件。超文本标识语言通过链接项链接文件与文件或者文件内部不同部分，由此实现在INTERNET上的漫游。用HTML

6、编写的超文本文档必须用WWW浏览器阅读。可扩展标识语言(XML，Extensible Markup Language)正在成为各种数据，尤其是文档的首选格式，其优点是跨平台、跨网络、跨程序。,2023/10/27,zhangpeili,9,第五章互联网信息检索原理,.2网站和网页网页是用HTML或DHTML、XML等语言写成的文本文件。网站则是有独立的域名，由若干相关网页组成的一个站点。按照微软公司的比喻，如果把WWW当作是Internet上的大型图书馆，则每个web站点就是一本书，每个web页面就是书的一页，主页则是书的封面和目录。用户可以从主页开始，通过web链接访问各类信息资源，在W

7、WW世界中漫游。,2023/10/27,zhangpeili,10,第五章互联网信息检索原理,3WWW和WWW浏览器 WWW是world wide web的缩写，可以称为“全球信息网”。简称3W或Web，有时中文也称为万维网。WWW的这种遍布全球的信息网络是通过超文本和超媒体（Hypermedia）技术来实现的。在Internet中，每个web服务器不仅提供它自身拥有的信息数据，还利用超级链接指向其它的拥有相关信息的web服务器，而那些服务器又指向更多的服务器，通过这种内部的链接机制，使遍布全球的主机形成了一个相互联系、资源共享的有机整体。,2023/10/27,zhangpeili,11,

8、第五章互联网信息检索原理,WWW浏览器是浏览信息的客户程序。通过浏览器，用户可以十分方便地在Internet上获取所需要的信息。浏览器Internet Explorer和Netscape Navigator具有下述基本功能：(1)打开主页浏览器运行时，总是按照某个内置的URL进行访问，并将主页传送到客户机，并以超文本的方式显示。(2)随意浏览通过输入不同的URL，用户可以打开Internet上的任何服务器的HTML文档。浏览器解释HTML所描述的动画、声音、文本、图像以及超级链接等信息，展现在用户面前的是内容无所不包的超文本信息。,2023/10/27,zhangpeili,12,第五章

9、互联网信息检索原理,(3)热表（hotlist）功能浏览器提供一种简便的方法，使得用户可以把感兴趣的URL保存下来，以备日后使用。这种存储机制称为热表（hotlist）功能。(4)文档管理功能浏览器具有对正在查看的文档进行存盘和打印的功能。随着Internet的普及，浏览器的地位也越来越重要，将逐渐成为和DOS、Windows一样必不可少的软件。,2023/10/27,zhangpeili,13,第五章互联网信息检索原理,3URL URL是Uniform Resource Locator（统一资源定位器）的缩写，提供了一种地址寻找方式。为了确定具体信息资源在网络中的位置，Interne

10、t使用URL来描述具体资源和位置。URL的组成结构为：应用协议、主机地址以及文件名。其中主机地址可以是域名，也可是IP地址。如：，。URL的格式为：Protocol:/host.:port/path/filename。也就是说，URL的这个格式由Protocol五部分内容组成：,2023/10/27,zhangpeili,14,第五章互联网信息检索原理,(1)Protocol 是通讯协议或撷取数据的方式。FTP（文件传输协议）：它允许用户把一台计算机上的文件传到另一台计算机上。可以大大节省用户的联机通讯费用。WAIS（文档检索）：这是一种基于关键词的文档检索工具。通过将网络上的文献、数据做成

11、索引，用户只要在WAIS给出的信息资源列表中用光标选取希望查询的信息资源名称并键入关键字，系统就能自动进行远程查询。Telnet（远程登录）：允许用户从一台计算机登录到远程的另一台计算机上并使用其资源。,2023/10/27,zhangpeili,15,第五章互联网信息检索原理,E-mail（电子邮件）：每个网络用户可以申请一个电子邮箱，用于接送电子邮件。用户可以脱机处理邮件。(2)host是主机的地址。Internet中每台计算机的域名结构为：主机名、机构名、网络名、最高层域名。域名是由有规律的英文单词组成的，非常便于记忆，而且还可以根据域名组成的规律，猜测某一个站点的域名。常见的标准域名

12、结构为：主机名、机构名、网络名、最高层域名。在Internet的域名系统中最高层域名有三种：,2023/10/27,zhangpeili,16,第五章互联网信息检索原理,第一类为国别域名，由两个英文字母组成，如：“.CN（中国）”、“.JP（日本）”、“.US（美国）”、“.UK（英国）”、“.CA（加拿大）”。第二类为国际域名，现只有一个“.INT”代表国际组织。第三类为通用域名，目前用到的有13个：.net网络服务机构；.edu教育部门；.webweb服务机构；.arts文化娱乐部门；.info信息部门；.rec娱乐机构；.org非赢利机构；.Store销售部门.Firm公司企业；.go

13、v政府部门；.com.商业机构.mil军事部门；.nom个人。中国的域名注册由国务院信息化工作领导小组办公室授权中国互联网络信息中心（CNNIC）负责办理。例如：石河子大学的网址为：/,2023/10/27,zhangpeili,17,第五章互联网信息检索原理,(3):port即端口，用数字标识，属于可选项。(4)path即路径。(5)filename是文件名，即浏览器访问的目标。4网站网站是有独立的域名，由若干个相关网页组成的一个站点。网站通常是指有着特定的服务对象，相对固定的栏目，可供他人访问的网上信息站点。网站的基本要素有二：一是具有可供他人访问的服务器；二是建立在这个服务器上的、并

14、以网页形式发布的信息内容。,2023/10/27,zhangpeili,18,第五章互联网信息检索原理,按照网站中所处的位置，页面通常有主页、次页等层次之分。主页是指网站的首页。由主页上提供的站内链接点导出的页面称为次页。按照服务性质的不同，网站一般分为门户网站和垂直网站两类。门户网站，是访问互联网的入口，它以丰富的内容吸引访问率。垂直网站是针对某一领域、某一特定人群或某一特定需求，内容集中而深入的网站。,2023/10/27,zhangpeili,19,第五章互联网信息检索原理,按照服务功能的不同，网站又可分为政府机构网站、商业网站、公共媒介网站和学术网站几类。除了上述各类网站之外，以个

15、人名义建立的网站，即个人网站，正以其惊人的数量和包罗万象的信息吸引着众多的访问者,2023/10/27,zhangpeili,20,第五章互联网信息检索原理,5.3.1 搜索引擎概述1定义搜索引擎(Search Engines)是网上信息搜索工具的通称。它是Internet上的一种特殊网站，在这些站点的服务器中保存了一个非常庞大的数据库，其内容包罗万象。查到的结果往往是一批具有相关属性的网站地址。搜索引擎可以是一个独立的门户网站，也可以是附在其他类型网站或主页上的一个搜索工具。当用户输入检索提问时，搜索引擎会告诉用户包含这个检索提问的所有网址，并提供通向该网址的链接点。,2023/10/2

16、7,zhangpeili,21,第五章互联网信息检索原理,搜索引擎的功能：（1）、前端界面简单易用、功能强大；（2）、查询方式容易设定；（3）、检索方式完备，可以按用户所需的方式进行查询（4）、检索结果具有较好的准确性和可读性；（5）、检索的速度较快。搜索引擎的检索系统由以下几部分组成：搜索器、分析器、索引器、检索器和用户接口。,2023/10/27,zhangpeili,22,第五章互联网信息检索原理,搜索器:负责定期地自动到各个网站上，把网页抓下来，并顺着上面的链接，持续不断地抓取网页索引器:把搜索器抓来的网页进行分析，按照关键词句进行索引，并存入服务器的数据库中检索器：面向用户，接收

17、用户提交的查询字串，在索引数据库中查询，并将结果反馈给用户,2023/10/27,zhangpeili,23,用户系统,用户接口,搜索器,索引器,检索器,WWW信息资源,FTP信息资源,Telent信息资源,Ghopher信息资源,WAIS信息资源,用户服务组信息资源,搜索引擎,网络,网络,二、搜索引擎的构成及工作原理,搜索引擎：搜索器、索引器、检索器、用户接口,2023/10/27,zhangpeili,24,第五章互联网信息检索原理,同检索数据库一样，利用搜索工具检索，也需要用户能够将自己的检索需求编制成合适的检索策略，并且需要一定的检索技巧。搜索引擎采用的检索词和信息标识词匹配运算的主

18、要方法有：布尔逻辑检索、截词检索、限制检索、加权检索、词位置检索和全文检索等。,2023/10/27,zhangpeili,25,第五章互联网信息检索原理,2.工作过程各种搜索引擎工作过程一般包括以下三个方面：(1)搜寻集中所有信息(2)将信息进行分类整理，建立搜索引擎数据库(3)通过web服务器端软件，提供信息查询的浏览器界面,2023/10/27,zhangpeili,26,二、搜索引擎的构成及工作原理,用户检索策略,搜索引擎用户接口,搜索引擎本地的摘要信息数据库,各万维网站点资源,访问,详细信息反馈,摘要信息反馈,各记录链接,信息资源搜集,2023/10/27,zhangpeili,

19、27,第五章互联网信息检索原理,3搜索引擎的类型目前互联网上的搜索引擎数以千计，它们可以按照检索语言、工作语种、检索内容、检索方法、检索功能分成若干类型。(1)按检索语言区分，搜索引擎可以分为两大类。一类是按分类建立索引的搜索引擎，另一类是按主题词建立的搜索引擎。分类引擎的数据库常常由人工处理，因而质量较高，但更新周期较慢。主题引擎的数据库往往由ROBOT技术自动完成，因而反映信息快，但相对质量略差。现实中使用的搜索引擎往往是这两种途径的结合。,2023/10/27,zhangpeili,28,第五章互联网信息检索原理,(2)按工作语种区分，搜索引擎大致分为中文搜索引擎和西文搜索引擎。(3

20、)按检索内容区分，有以提供信息服务为主、具有门户网站性质的搜索引擎，和有以专门以检索人名为目的的搜索引擎。(4)按一次使用的搜索引擎的多少区分，搜索引擎可分为单元搜索引擎和多元搜索引擎两种。单元搜索引擎一次只使用一个搜索引擎。检索只在本引擎的数据库内进行，由这个数据库反馈出相应的查询信息，或者是相链接的站点指向。各个独立的搜索引擎都会有自己的查询特色。,2023/10/27,zhangpeili,29,第五章互联网信息检索原理,多元搜索引擎是一次同时使用多个单搜索引擎，以统一界面输入的检索词，并提供多个单元搜索引擎所得结果的搜索引擎。一般地说，单元搜索引擎通常自建数据库，多元搜索引擎没有自建

21、的数据库，它们提供的数据来自所检索的单元搜索引擎。5.2.1.1 按工作方式区分的搜索引擎搜索引擎可以分为主题引擎、目录引擎和多元引擎。,2023/10/27,zhangpeili,30,第五章互联网信息检索原理,1主题引擎主题引擎又称基于Robot的搜索引擎。这种引擎的信息主要为网页，通过程序自动地收集处理和提供信息是主题引擎的特点。主题引擎的优点是信息量大、更新及时、无需人工干预；其缺点是返回信息过多，有很多无关信息，甚至有一定比例的死链接，用户必须从结果中进行筛选。,2023/10/27,zhangpeili,31,第五章互联网信息检索原理,主题引擎的代表是 Google()，L

22、ycos()，Excite(http:/)和)等；国内代表为百度(http:/)和 OpenFind()等。主题搜索引擎也提供分类查找途径，但其分类为自动分类，或是借用其他目录引擎的分类数据(例如Google利用网景公司的Open Directory分类)，因而分类检索效果不如目录指南型搜索引擎。,2023/10/27,zhangpeili,32,第五章互联网信息检索原理,2.目录引擎目录引擎又称目录指南型搜索引擎。目录引擎的信息大多面向网站，是依靠专职编辑或志愿人员人工建立起来的。人工收集和处理信息是目录引擎的主要特点。目录引擎的用户界面基本上都为分级结构。首页提供了最基本的几个大类的

23、入口，用户可以一级一级地向下访问，直至找到自己感兴趣的类别；,2023/10/27,zhangpeili,33,第五章互联网信息检索原理,目录引擎有：国外代表是 Yahoo！(,雅虎中国http:/cn.Y Open Directory(http:/dmoz.org/)、)等；国内代表有新浪网(http:/)和搜狐(http:/)等。归纳上述，主题引擎和目录引擎两者最主要区别在于有无信息的人工处理过程。,2023/10/27,zhangpeili,34,第五章互联网信息检索原理,目录引擎的信息因为有人工处理过程，所以死链接较少、信息准确、导航质量高；缺点是需要人工介入，维护量大，信息量

24、少，信息更新不及时。而主题引擎信息的收集和处理完全由程序软件自动进行，信息的特点正好和分类引擎相反，信息量大，更新速度略快，但死链接比例相对略高。因而主题引擎适用于专指度较高，内容要求比较新的课题。目录引擎适用于学科调研的场合。,2023/10/27,zhangpeili,35,第五章互联网信息检索原理,3多元引擎多元引擎又称元搜索引擎。多元引擎本身没有存放网页信息的数据库。当用户查询一个关键词时，它把查询请求转换成其他数个搜索引擎能够接受的命令格式，并行地或者有选择性地访问这些搜索引擎并查询这个关键词，处理这些搜索引擎返回的结果，然后再返回给用户。多元引擎的服务方式为面向网页的全文检索。

25、国外多元搜索引擎的代表是 Dogpile()和)等，国内的代表是万纬搜索引擎(http:/)等。,2023/10/27,zhangpeili,36,搜索引擎常见的查询方式,1、简单检索（Simple Search）2、词组检索（Phrase Search）3、语句检索（Sentence Search）4、高级检索（Advance Search）5、目录检索（Catalog Search）,直接输入一个关键词，提交搜索引擎查询，这是最基本的查询方式。,输入两个单词以上的词组（短语），当做一个独立运算单元提交搜索引擎查询。也叫短语检索。,输入一个多词的任意语句，提交搜索引擎查询。这种方式也叫任意查

26、询。（字、词、句子）,用布尔逻辑组配方式查询，这种方式也叫定制搜索。（多个关键词）,按照搜索引擎提供的分类目录逐级查询，用户一般不需要输入检索词，而是按照查询系统提供的几种分类项目，选择类别进行查询，这种方式也叫分类检索。,2023/10/27,zhangpeili,37,5.3.2 典型的中文搜索引擎百度搜索引擎简要说明百度是世界上规模最大的中文搜索引擎，拥有全球最大的中文网页库，每天处理来自一百多个国家的超过一亿人次的搜索请求。百度搜索引擎具有高准确性、高查全率、更新快以及服务稳定的特点，百度网址：http:/,第五章互联网信息检索原理,2023/10/27,zhangpeili,38

27、,第五章互联网信息检索原理,检索文本框,2023/10/27,zhangpeili,39,第五章互联网信息检索原理,1输入的检索词输入百度搜索框中的检索词，检索词的内容可以是人名、网站、新闻、小说、软件、工作、论文等等任何内容，形式可以是除开标点符号以外的任何中文、英文、数字或中文英文数字的混合体。例如：您可以搜索windows、案例集锦、SO2气体。输入百度的检索词，可以是一个，也可以是多个，甚至可以输入一句话。例如，您可以搜索电脑、中国银行、蓦然回首，那人却在灯火阑珊处。,2023/10/27,zhangpeili,40,第五章互联网信息检索原理,百度搜索引擎对输入的检索词是精确检

28、索，要求一字不差，也就是说，百度没有模糊检索，也没有截词检索功能。例如：分别输入舒淇和舒琪，搜索结果是不同的。分别输入电脑和计算机，搜索结果也是不同的。输入：computer决不会输出computers、computerise等以computer开头的词。用户找不到资料的两个最常见原因，一是输入的词语中含有错别字，二是使用过于冗长的检索词搜索。因此，如果对搜索结果不满意，应检查输入文字有无错误，并换用不同的检索词搜索。,2023/10/27,zhangpeili,41,第五章互联网信息检索原理,例如输入：铃羊车的各种图案、上海到成都列车时刻表，是找不到相关资料的。使用多个词语搜索

29、才能获得更多更好的资料，搜索时应该输入：铃羊车图案、上海成都列车时刻表。2.使用两个以上检索词的检索逻辑（1）逻辑与；检索词之间留一个空格语法：A B 要查的检索词较为冗长时，应将它拆成几个检索词来搜索，词与词之间用空格隔开。其含义为使空格前后的两个检索词在同一个网页中出现。,2023/10/27,zhangpeili,42,第五章互联网信息检索原理,输入以空格分割的多个检索词搜索，可以获得更丰富的搜索结果。例如搜索：数字图像处理，比“数字图像处理”结果丰富。又如输入：软磁纳米晶合金，比“软磁纳米晶合金”结果丰富,2023/10/27,zhangpeili,43,第五章互联

30、网信息检索原理,（2）逻辑“或”：“|”语法：A|B 逻辑或用于扩展检索范围。百度的逻辑或使用“|”。例如查询：“生物力学方面的院士博士生导师”或着要查：“图片”或“写真”相关资料，无须分两次查询，只要输入:生物力学（院士|博士生导师）;图片|写真搜索即可。百度会提供跟“|”（或）前后任何检索词相关的网站和资料。,2023/10/27,zhangpeili,44,第五章互联网信息检索原理,（3）逻辑非“-”百度的逻辑非使用“-”，但减号之前必须留一空格，语法“A-B”。例如：要搜寻关于武侠小说，但不含古龙的资料，可使用武侠小说-古龙,2023/10/27,zhangpeili,45,第五章

31、互联网信息检索原理,3字段检索（1）在指定网站内搜索语法：检索词 site:网站、主机名或某域名在一个网址前加“site:”，可以限制只搜索某个具体网站、主机名或某域名内的网页。如：1、搜索“电话”则可仅在网站内搜索和“电话”相关的信息；2、搜索“手机 site:”则表示在域名以“”结尾的网站内搜索和“手机”相关的信息。注意：搜索检索词在前，site:及网址在后；检索词与site:之间须留一空格隔开；site后的冒号“:”可以是半角“:”也可以是全角“：”，百度会自动辨认。,2023/10/27,zhangpeili,46,第五章互联网信息检索原理,site:后不能有http:/前缀或

32、/后缀，主机名只局限于主机名.域名方式，不能是域名.主机名方式。如：纳米材料(网站)纳米材料 site:(主机名)纳米材料 site:(域名),2023/10/27,zhangpeili,47,第五章互联网信息检索原理,（2）在标题中搜索 intitle 语法：intitle:检索词或检索策略在一个或几个检索词前加“intitle:”，可以限制只搜索网页标题中含有这些检索词的网页。例如:intitle:案例表示搜索标题中含有检索词“案例”的网页；intitle:百度互联网表示搜索标题中含有检索词“百度”和“互联网”的网页。,2023/10/27,zhangpeili,48,第五章互

33、联网信息检索原理,（3）在网址中搜索（也称限定在URL链接中搜索）语法：inurl:文字在“inurl:”后加url中的文字，可以限制只搜索url中含有这些文字的网页。例如:1、inurl:pdf 表示搜索url中含有“pdf”的网页；2、inurl:article 表示搜索url中含有“article”的网页；3、inurl:china news 表示搜索url中含有“china”和“news”的网页。,2023/10/27,zhangpeili,49,第五章互联网信息检索原理,如：运动生物力学 inurl:edu；纳米材料 inurl:edu 搜索“inurl:mp3”将搜索网页网址中含

34、有“mp3”的网页；搜索“inurl:china news”将搜索网页网址中含有“china”和“news”的网页。例如:找关于photoshop的使用技巧，检索式为：photoshop inurl:jiqiao 上面这个查询串中的“photoshop”，是可以出现在网页的任何位置，而“jiqiao”则必须出现在网页url中。注意：inurl:语法和后面所跟的关键词不要有空格。,2023/10/27,zhangpeili,50,2023/10/27,zhangpeili,51,第五章互联网信息检索原理,百度还可在filetype对搜索对象做格式限制：百度支持的文档类型，使用方法是在“File

35、type:”后跟文件格式。“Filetype:”可以跟以下文件格式：DOC、XLS、PPT、PDF、TXT、RTF、ALL，其中，ALL表示搜索所有这些文件类型。例如：想搜索含有关键词“霍金”、“黑洞”的pdf文档。检索式为：霍金黑洞 filetype:pdf。,2023/10/27,zhangpeili,52,第五章互联网信息检索原理,2023/10/27,zhangpeili,53,第五章互联网信息检索原理,4百度的特色功能（1）百度快照：每个被收录的网页，在百度上都存有一个纯文本的备份，称为“百度快照”。百度速度较快，如果某个搜索结果无法打开，或者打开速度特别慢，用户可以通过“百度

36、快照”快速浏览页面内容。不过，百度只保留文本内容。图片、音乐等非文本信息，快照页面还是直接从原网页调用，所以如果无法连接原网页，那么快照上的图片等非文本内容会无法显示。,2023/10/27,zhangpeili,54,2023/10/27,zhangpeili,55,第五章互联网信息检索原理,相关搜索：搜索结果不佳，有时候是因为选择的检索词不是很妥当。百度使用相关检索词智能推荐技术，即在用户第一次检索后，会在搜索结果页的下方提示相关的检索词，帮助用户查找更相关的结果，统计表明可以促进检索量提升10-20%。例如：输入检索词“杨振宁事迹”，显示的相关搜索如下图：,2023/10/27,zha

37、ngpeili,56,2023/10/27,zhangpeili,57,第五章互联网信息检索原理,（3）专门内容检索百度提供的专门内容检索有新闻搜索、（），可搜索超过五百个新闻源，每天发布80000-100000条新闻。MP3搜索（），可搜索超过六十万个MP3，只需输入检索词，就可以搜到各种版本的相关MP3。图片搜索（），只需输入检索词，就可以搜到各种图片。Flash搜索（），可搜索约五万个Flash，只需输入检索词，就可以搜到各种版本的相关Flash。,2023/10/27,zhangpeili,58,专门内容检索栏,2023/10/27,zhangpeili,59,第五章互联网信息检

38、索原理,7.3.2.2 Google的使用方法（http:/）Google 创建于 1998 年 9 月，他们开发的 Google 搜索引擎屡获殊荣，是一个用来在互联网上搜索信息的简单快捷的工具。Google 是万维网上最大的搜索引擎，使用户能够访问一个包含超过 80 亿个网址的索引。Google的优点是网址数量大，检索语种多，响应速度快，尤其是它所设的“手气不错”功能，可直接进入可能最符合要求的网站，同时它也提供“网页快照”功能。它的界面如图：,2023/10/27,zhangpeili,60,2023/10/27,zhangpeili,61,第五章互联网信息检索原理,Google的使用方

39、法：在检索文本框中可以任意输入中、英文检索词。Google不支持截词符，只能做精确查询，另外google不区分英文字符大小写。如果需要检索词组，需要对词组使用双引号。在需要检索多个检索词时，相互间为逻辑“与”限制关系的应直接使用空格。,2023/10/27,zhangpeili,62,第五章互联网信息检索原理,特点:关键词搜索较好，但不支持通配符手气不错：搜索与关键字最匹配的网页网页快照：直接取出缓存网页支持高级搜索语法格式：filetype、link、Inurl、Intile等Filetype语法规则：含义：定制文件类型搜索格式：关键词 filetype:文件类型举例：Filety

40、pe实例输入:“东北人都是活雷锋 filetype:swf”就得到了所有版本的“东北人都是活雷锋”的flash动画,2023/10/27,zhangpeili,63,2023/10/27,zhangpeili,64,第五章互联网信息检索原理,5323国外代表：Yahoo！：国内代表：雅虎中国：http:/雅虎中国是Yahoo!公司为全球中文读者开发的网站，资料库由人工建立，网页质量相对比较高，但是网页数量不多，提供的网址中存在死链接。,2023/10/27,zhangpeili,65,2023/10/27,zhangpeili,66,第五章互联网信息检索原理,和西文雅虎一样，雅虎中国长于

41、分类途径。雅虎中国的内容由14个主要类目所组成。如果从分类类目中检索，系统首先在检索结果页上列出符合条件的雅虎中国类目，接着是符合条件的相关网站。通过主题途径查找的方法是在检索栏键入想要找的关键词，并按 Search 键。雅虎中国搜寻引擎会根据分类类目及网站信息与关键词的相关程度来排列出相关的雅虎中国类目和网站。影响相关程度的因素有和检索词相同的字的多少。相同愈多，相关程度愈高。影响相关程度的因素还有和关键词符合的字的位置。,2023/10/27,zhangpeili,67,第五章互联网信息检索原理,运用下列几种检索方法，可以获得更精确的检索结果：1）词组检索：在关键词前后加双引号“”。2）

42、题名检索：在关键词前加 t:。3）网址检索：在关键词前加 u:。4）布尔逻辑：利用+来限定关键词一定出现在结果中。利用-来限定关键词一定不出现在结果中。,2023/10/27,zhangpeili,68,第五章互联网信息检索原理,5.3.3.1 中文搜索引擎的检索注意问题1.布尔检索。一般来讲，中文搜索引擎大多不直接支持使用AND/OR/NOT，而使用+，-，|等操作符，其中，+表示必须包括(AND)（与），-必须排除(NOT)，也有使用&表示AND，|表示OR（或），!表示NOT的。2中文搜索引擎大多不使用截词检索(truncation search)或称通配符检索(wildcard se

43、arch),只有番薯藤可以使用*通配符。3.注意搜索引擎检索与光盘检索的区别。搜索引擎通常允许词间使用空格，检索词可以相对较长，甚至可以使用句子，而光盘检索通常不允许使用空格。,2023/10/27,zhangpeili,69,第五章互联网信息检索原理,4注意阅读引擎的帮助信息。许多搜索引擎提供了操作、运算符和使用规则的说明，阅读这些信息有助于有效的检索。5希望尽量查全所需的结果，应多使用几种搜索引擎。6对于没有明确目的的检索要求或开始时要求不太明确的检索课题，建议先使用带有分类检索功能的引擎(例如雅虎中国)等。,2023/10/27,zhangpeili,70,第五章互联网信息检索原理,

44、使用搜索引擎需注意的问题选择合适的搜索引擎和检索词、调整检索策略是使用搜索引擎中需要注意的问题。1、选择合适的搜索引擎 2、选择合适的检索词 3、检索策略的调整 4、消失网页和网站的挽救,2023/10/27,zhangpeili,71,第五章互联网信息检索原理,5.3 虚拟图书馆虚拟图书馆是指根据特定的目标，对互联网上存储的与选定学科领域有关的网站网页进行搜集、鉴定和核实，并对核实后的网址进行合理的组织，使之能够提供检索、浏览和链接的信息集合。虚拟图书馆通常以网站或主页形式出现。虚拟图书馆信息搜集处理方式有人工和 ROBOT两种形式。人工搜集评价的网址相关度较高，但效率较低。ROBOT

45、搜集评价的网址非常全面，但是对软件要求较高。,2023/10/27,zhangpeili,72,第五章互联网信息检索原理,清华大学虚拟图书馆是根据学科情况组织的一个网络信息资源库。搜集了互联网上与各个学科有关的组织机构、电子期刊、著名学者、计算机软件等，有助于了解国际学术动态。,2023/10/27,zhangpeili,73,虚拟图书馆-清华大学虚拟图书馆主页,2023/10/27,zhangpeili,74,虚拟图书馆-清华大学虚拟图书馆主题索引,2023/10/27,zhangpeili,75,国外的虚拟图书馆放置在遍布全球的成千上万的服务器上，链接这些网页的一套目录网页由 http

46、:/vlib.org/站点维护，,2023/10/27,zhangpeili,76,第五章互联网信息检索原理,5.5 网上的免费学术资源5.5.1 网上免费全文学术资源的查找方法从实践中可知，解决获取文献全文这个问题，不能一概而论地说可以通过网络或者通过印刷型文献，不同语种、不同类型、不同时间的文献获取渠道应该不同。,2023/10/27,zhangpeili,77,第五章互联网信息检索原理,1通过搜索引擎获取灰色文献的全文网上文献全文的网址URL（统一资源定位器）中常含有txt、pdf、article、report、paper、text、preprint或者lecture等词。利用这个规

47、律，在凡可以使用URL字段和逻辑“与”检索的搜索引擎，例如Google或Northernlight等，以“检索词 and url:表示文献全文的单词”格式在检索窗口中输入检索提问，就可能获得相关文献的网址及其原文。,2023/10/27,zhangpeili,78,第五章互联网信息检索原理,2通过全文网站获取文献的全文5.5.2 学术机构网站资源学术网站的定义和类型学术网站是以学科领域的专业研究人员为主要对象，以学术研究内容为主要内容，以满足学术信息交流为主要目的的网站。学术网站包括：(1)学科门户网站。集研究机构、研究课题、专著论文、会议消息等内容之大成，主要宗旨为提供信息交流平台。例如

48、，中国经济学教育科研网(http:/),2023/10/27,zhangpeili,79,第五章互联网信息检索原理,(2)学科资源网站。集中学科领域内的历史知识、术语、学会组织、出版刊物、会议消息、数据库等相关内容，方便专业人员日常学习和工作为主要目的。例如：国信中国法律网(http:/)(3)学术机构网站。介绍学术机构的构成、科研成果、教育培训等信息。例如，清华大学的人文社会科学学院网站(http:/),2023/10/27,zhangpeili,80,第五章互联网信息检索原理,(4)行业协会网站。以行业协会的专家为依托，介绍行业内消息、作品、活动、组织等内容，目的以推进行业信息交流为主。例如，中国美术家协会网站(http:/)(5)学科专家网站。以提供其科研成果、论文著作和硕博士生培养情况为主。(6)学科论坛网站。提供 BBS 和博克信息交流工具、组织热点话题、筛选学科新闻、评点学术动态和推荐优秀论著等为主要服务内容，是以网络为工具发表专业见解的重要渠道。,