互联网信息检索原理.ppt
《互联网信息检索原理.ppt》由会员分享,可在线阅读,更多相关《互联网信息检索原理.ppt(80页珍藏版)》请在三一办公上搜索。
1、2023/10/27,zhangpeili,1,信 息 文 化 教 程,主讲 张沛黎 电话:2057357(o)手机:,石河子大学图书馆 文检教研室,2023/10/27,zhangpeili,2,第五章 互联网信息检索原理,5.2 互联网信息概述 互联网,或称环球网、因特网、Internet,是指多个网络通过路由器、通信线路等通信设备互联,并基于一个共同的TCP/IP协议实现通信的世界性计算机网络。它是在美国1969创建的军用网络的基础上逐步发展成型的。可以预见,Internet必将迅速覆盖全球,对人类生活产生深远的影响,使“信息时代”真正到来。,2023/10/27,zhangpeili,
2、3,第五章 互联网信息检索原理,网上信息资源的构成 互联网信息资源是由连接在网上的计算机中的无数信息、网上的各种信息工具以及网络通信渠道三方面构成。网络信息包括计算机中的数据库、电子出版物、主页信息、软件以及各种格式的文件。信息工具包括FTP、Telnet、Email、Gopher、Archie、WAIS、WWW浏览器、搜索引擎等。网络通信渠道是指网络提供的信息交流的渠道。,2023/10/27,zhangpeili,4,第五章 互联网信息检索原理,网上信息资源的特点:(1)数量庞大、增长迅速 互联网上的信息资源极其丰富。已经成为全球最大的信息资源。包括有哲学、社会科学和自然科学等各学科方面的
3、知识。(2)更新频繁、变化无常 互联网上的信息源常常是不稳定,许多网站不断地更换网址,这些给利用带来许多的不便。(3)分布散乱、良莠混杂 互联网上的资源,一部分是人类知识的精粹,是人类巨大的财富,还有相当一部分是出于某种目的的信息或者是未经任何审核的数据信息,我们必须要有足够的认识和警觉。,2023/10/27,zhangpeili,5,第五章 互联网信息检索原理,3网络信息资源的类型 按照出版类型区分 网上信息资源有着和印刷型出版物类似的对应关系。如:印刷型的期刊有网络期刊与其对应。印刷型的图书有网络图书与其对应。如此等等。按照是否具有原创性 网上信息资源有一次资源和二次资源的区分。一次资源
4、是指首次发表的原创性信息,二次资源是转载已有的信息。,2023/10/27,zhangpeili,6,第五章 互联网信息检索原理,按照有否经过审核,网上信息资源可分为正式出版物和非正式出版物两种。正式出版物学术价值相对较高。例如电子期刊、电子图书、电子报告、电子会议录等。网上正式出版物可以免费使用的很少。网上的非正式出版物具有明显的个人行为性质,其学术价值变化较大。例如个人主页、讨论组文章和公告版文章等,它们基本上可以免费利用。,2023/10/27,zhangpeili,7,第五章 互联网信息检索原理,按照是否属于搜索引擎检索范围,网络信息资源可分为可见资源和不可见资源两类。可见资源是搜索引
5、擎可搜索到的资源。这种资源要满足两个条件:一是必须含有HTML超链接。二是没有设置口令,因而可见资源仅限于公开的资源。不可见资源,具体的说,是指一切没有联接的资源。,2023/10/27,zhangpeili,8,第五章 互联网信息检索原理,网络信息资源利用的几个概念 1HTML和XML超文本标识语言(Hyper Text Markup Language,简称HTML),是为WWW建立超文本文件的语言。超文本文件是指含有多个指向其它文本、图像、声音或动画文件的指针,使它们连接在一起的文件。超文本标识语言通过链接项链接文件与文件或者文件内部不同部分,由此实现在INTERNET上的漫游。用HTML
6、编写的超文本文档必须用WWW浏览器阅读。可扩展标识语言(XML,Extensible Markup Language)正在成为各种数据,尤其是文档的首选格式,其优点是跨平台、跨网络、跨程序。,2023/10/27,zhangpeili,9,第五章 互联网信息检索原理,.2网站和网页 网页是用HTML或DHTML、XML等语言写成的文本文件。网站则是有独立的域名,由若干相关网页组成的一个站点。按照微软公司的比喻,如果把WWW当作是Internet上的大型图书馆,则每个web站点就是一本书,每个web页面就是书的一页,主页则是书的封面和目录。用户可以从主页开始,通过web链接访问各类信息资源,在W
7、WW世界中漫游。,2023/10/27,zhangpeili,10,第五章 互联网信息检索原理,3WWW和WWW浏览器 WWW是world wide web的缩写,可以称为“全球信息网”。简称3W或Web,有时中文也称为万维网。WWW的这种遍布全球的信息网络是通过超文本和超媒体(Hypermedia)技术来实现的。在Internet中,每个web服务器不仅提供它自身拥有的信息数据,还利用超级链接指向其它的拥有相关信息的web服务器,而那些服务器又指向更多的服务器,通过这种内部的链接机制,使遍布全球的主机形成了一个相互联系、资源共享的有机整体。,2023/10/27,zhangpeili,11,
8、第五章 互联网信息检索原理,WWW浏览器是浏览信息的客户程序。通过浏览器,用户可以十分方便地在Internet上获取所需要的信息。浏览器Internet Explorer和Netscape Navigator具有下述基本功能:(1)打开主页 浏览器运行时,总是按照某个内置的URL进行访问,并将主页传送到客户机,并以超文本的方式显示。(2)随意浏览 通过输入不同的URL,用户可以打开Internet上的任何服务器的HTML文档。浏览器解释HTML所描述的动画、声音、文本、图像以及超级链接等信息,展现在用户面前的是内容无所不包的超文本信息。,2023/10/27,zhangpeili,12,第五章
9、 互联网信息检索原理,(3)热表(hotlist)功能 浏览器提供一种简便的方法,使得用户可以把感兴趣的URL保存下来,以备日后使用。这种存储机制称为热表(hotlist)功能。(4)文档管理功能 浏览器具有对正在查看的文档进行存盘和打印的功能。随着Internet的普及,浏览器的地位也越来越重要,将逐渐成为和DOS、Windows一样必不可少的软件。,2023/10/27,zhangpeili,13,第五章 互联网信息检索原理,3URL URL是Uniform Resource Locator(统一资源定位器)的缩写,提供了一种地址寻找方式。为了确定具体信息资源在网络中的位置,Interne
10、t使用URL来描述具体资源和位置。URL的组成结构为:应用协议、主机地址以及文件名。其中主机地址可以是域名,也可是IP地址。如:,。URL的格式为:Protocol:/host.:port/path/filename。也就是说,URL的这个格式由Protocol五部分内容组成:,2023/10/27,zhangpeili,14,第五章 互联网信息检索原理,(1)Protocol 是通讯协议或撷取数据的方式。FTP(文件传输协议):它允许用户把一台计算机上的文件传到另一台计算机上。可以大大节省用户的联机通讯费用。WAIS(文档检索):这是一种基于关键词的文档检索工具。通过将网络上的文献、数据做成
11、索引,用户只要在WAIS给出的信息资源列表中用光标选取希望查询的信息资源名称并键入关键字,系统就能自动进行远程查询。Telnet(远程登录):允许用户从一台计算机登录到远程的另一台计算机上并使用其资源。,2023/10/27,zhangpeili,15,第五章 互联网信息检索原理,E-mail(电子邮件):每个网络用户可以申请一个电子邮箱,用于接送电子邮件。用户可以脱机处理邮件。(2)host是主机的地址。Internet中每台计算机的域名结构为:主机名、机构名、网络名、最高层域名。域名是由有规律的英文单词组成的,非常便于记忆,而且还可以根据域名组成的规律,猜测某一个站点的域名。常见的标准域名
12、结构为:主机名、机构名、网络名、最高层域名。在Internet的域名系统中最高层域名有三种:,2023/10/27,zhangpeili,16,第五章 互联网信息检索原理,第一类为国别域名,由两个英文字母组成,如:“.CN(中国)”、“.JP(日本)”、“.US(美国)”、“.UK(英国)”、“.CA(加拿大)”。第二类为国际域名,现只有一个“.INT”代表国际组织。第三类为通用域名,目前用到的有13个:.net网络服务机构;.edu教育部门;.webweb服务机构;.arts文化娱乐部门;.info信息部门;.rec娱乐机构;.org非赢利机构;.Store销售部门.Firm公司企业;.go
13、v政府部门;.com.商业机构.mil军事部门;.nom个人。中国的域名注册由国务院信息化工作领导小组办公室授权中国互联网络信息中心(CNNIC)负责办理。例如:石河子大学的网址为:/,2023/10/27,zhangpeili,17,第五章 互联网信息检索原理,(3):port即端口,用数字标识,属于可选项。(4)path即路径。(5)filename是文件名,即浏览器访问的目标。4网站 网站是有独立的域名,由若干个相关网页组成的一个站点。网站通常是指有着特定的服务对象,相对固定的栏目,可供他人访问的网上信息站点。网站的基本要素有二:一是具有可供他人访问的服务器;二是建立在这个服务器上的、并
14、以网页形式发布的信息内容。,2023/10/27,zhangpeili,18,第五章 互联网信息检索原理,按照网站中所处的位置,页面通常有主页、次页等层次之分。主页是指网站的首页。由主页上提供的站内链接点导出的页面称为次页。按照服务性质的不同,网站一般分为门户网站和垂直网站两类。门户网站,是访问互联网的入口,它以丰富的内容吸引访问率。垂直网站是针对某一领域、某一特定人群或某一特定需求,内容集中而深入的网站。,2023/10/27,zhangpeili,19,第五章 互联网信息检索原理,按照服务功能的不同,网站又可分为政府机构网站、商业网站、公共媒介网站和学术网站几类。除了上述各类网站之外,以个
15、人名义建立的网站,即个人网站,正以其惊人的数量和包罗万象的信息吸引着众多的访问者,2023/10/27,zhangpeili,20,第五章 互联网信息检索原理,5.3.1 搜索引擎概述1定义 搜索引擎(Search Engines)是网上信息搜索工具的通称。它是Internet上的一种特殊网站,在这些站点的服务器中保存了一个非常庞大的数据库,其内容包罗万象。查到的结果往往是一批具有相关属性的网站地址。搜索引擎可以是一个独立的门户网站,也可以是附在其他类型网站或主页上的一个搜索工具。当用户输入检索提问时,搜索引擎会告诉用户包含这个检索提问的所有网址,并提供通向该网址的链接点。,2023/10/2
16、7,zhangpeili,21,第五章 互联网信息检索原理,搜索引擎的功能:(1)、前端界面简单易用、功能强大;(2)、查询方式容易设定;(3)、检索方式完备,可以按用户所需的方式进行查询(4)、检索结果具有较好的准确性和可读性;(5)、检索的速度较快。搜索引擎的检索系统由以下几部分组成:搜索器、分析器、索引器、检索器和用户接口。,2023/10/27,zhangpeili,22,第五章 互联网信息检索原理,搜索器:负责定期地自动到各个网站上,把网页抓下来,并顺着上面的链接,持续不断地抓取网页索引器:把搜索器抓来的网页进行分析,按照关键词句进行索引,并存入服务器的数据库中检索器:面向用户,接收
17、用户提交的查询字串,在索引数据库中查询,并将结果反馈给用户,2023/10/27,zhangpeili,23,用户系统,用户接口,搜索器,索引器,检索器,WWW信息资源,FTP信息资源,Telent信息资源,Ghopher信息资源,WAIS信息资源,用户服务组信息资源,搜索引擎,网络,网络,二、搜索引擎的构成及工作原理,搜索引擎:搜索器、索引器、检索器、用户接口,2023/10/27,zhangpeili,24,第五章 互联网信息检索原理,同检索数据库一样,利用搜索工具检索,也需要用户能够将自己的检索需求编制成合适的检索策略,并且需要一定的检索技巧。搜索引擎采用的检索词和信息标识词匹配运算的主
18、要方法有:布尔逻辑检索、截词检索、限制检索、加权检索、词位置检索和全文检索等。,2023/10/27,zhangpeili,25,第五章 互联网信息检索原理,2.工作过程 各种搜索引擎工作过程一般包括以下三个方面:(1)搜寻集中所有信息(2)将信息进行分类整理,建立搜索引擎数据库(3)通过web服务器端软件,提供信息查询的浏览器界面,2023/10/27,zhangpeili,26,二、搜索引擎的构成及工作原理,用户检索策略,搜索引擎用户接口,搜索引擎本地的摘要信息数据库,各万维网站点资源,访问,详细信息反馈,摘要信息反馈,各记录链接,信息资源搜集,2023/10/27,zhangpeili,
19、27,第五章 互联网信息检索原理,3搜索引擎的类型目前互联网上的搜索引擎数以千计,它们可以按照检索语言、工作语种、检索内容、检索方法、检索功能分成若干类型。(1)按检索语言区分,搜索引擎可以分为两大类。一类是按分类建立索引的搜索引擎,另一类是按主题词建立的搜索引擎。分类引擎的数据库常常由人工处理,因而质量较高,但更新周期较慢。主题引擎的数据库往往由ROBOT技术自动完成,因而反映信息快,但相对质量略差。现实中使用的搜索引擎往往是这两种途径的结合。,2023/10/27,zhangpeili,28,第五章 互联网信息检索原理,(2)按工作语种区分,搜索引擎大致分为中文搜索引擎和西文搜索引擎。(3
20、)按检索内容区分,有以提供信息服务为主、具有门户网站性质的搜索引擎,和有以专门以检索人名为目的的搜索引擎。(4)按一次使用的搜索引擎的多少区分,搜索引擎可分为单元搜索引擎和多元搜索引擎两种。单元搜索引擎一次只使用一个搜索引擎。检索只在本引擎的数据库内进行,由这个数据库反馈出相应的查询信息,或者是相链接的站点指向。各个独立的搜索引擎都会有自己的查询特色。,2023/10/27,zhangpeili,29,第五章 互联网信息检索原理,多元搜索引擎是一次同时使用多个单搜索引擎,以统一界面输入的检索词,并提供多个单元搜索引擎所得结果的搜索引擎。一般地说,单元搜索引擎通常自建数据库,多元搜索引擎没有自建
21、的数据库,它们提供的数据来自所检索的单元搜索引擎。5.2.1.1 按工作方式区分的搜索引擎 搜索引擎可以分为主题引擎、目录引擎和多元引擎。,2023/10/27,zhangpeili,30,第五章 互联网信息检索原理,1主题引擎 主题引擎又称基于Robot的搜索引擎。这种引擎的信息主要为网页,通过程序自动地收集处理和提供信息是主题引擎的特点。主题引擎的优点是信息量大、更新及时、无需人工干预;其缺点是返回信息过多,有很多无关信息,甚至有一定比例的死链接,用户必须从结果中进行筛选。,2023/10/27,zhangpeili,31,第五章 互联网信息检索原理,主题引擎的代表是 Google(),L
22、ycos(),Excite(http:/)和)等;国内代表为 百度(http:/)和 OpenFind()等。主题搜索引擎也提供分类查找途径,但其分类为自动分类,或是借用其他目录引擎的分类数据(例如Google利用网景公司的Open Directory分类),因而分类检索效果不如目录指南型搜索引擎。,2023/10/27,zhangpeili,32,第五章 互联网信息检索原理,2.目录引擎 目录引擎又称目录指南型搜索引擎。目录引擎的信息大多面向网站,是依靠专职编辑或志愿人员人工建立起来的。人工收集和处理信息是目录引擎的主要特点。目录引擎的用户界面基本上都为分级结构。首页提供了最基本的几个大类的
23、入口,用户可以一级一级地向下访问,直至找到自己感兴趣的类别;,2023/10/27,zhangpeili,33,第五章 互联网信息检索原理,目录引擎有:国外代表是 Yahoo!(,雅虎中国http:/cn.Y Open Directory(http:/dmoz.org/)、)等;国内代表有 新浪网(http:/)和 搜狐(http:/)等。归纳上述,主题引擎和目录引擎两者最主要区别在于有无信息的人工处理过程。,2023/10/27,zhangpeili,34,第五章 互联网信息检索原理,目录引擎的信息因为有人工处理过程,所以死链接较少、信息准确、导航质量高;缺点是需要人工介入,维护量大,信息量
24、少,信息更新不及时。而主题引擎信息的收集和处理完全由程序软件自动进行,信息的特点正好和分类引擎相反,信息量大,更新速度略快,但死链接比例相对略高。因而主题引擎适用于专指度较高,内容要求比较新的课题。目录引擎适用于学科调研的场合。,2023/10/27,zhangpeili,35,第五章 互联网信息检索原理,3多元引擎 多元引擎又称元搜索引擎。多元引擎本身没有存放网页信息的数据库。当用户查询一个关键词时,它把查询请求转换成其他数个搜索引擎能够接受的命令格式,并行地或者有选择性地访问这些搜索引擎并查询这个关键词,处理这些搜索引擎返回的结果,然后再返回给用户。多元引擎的服务方式为面向网页的全文检索。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 互联网 信息 检索 原理
链接地址:https://www.31ppt.com/p-6404942.html