第2章计算机信息检索技术课件.ppt
《第2章计算机信息检索技术课件.ppt》由会员分享,可在线阅读,更多相关《第2章计算机信息检索技术课件.ppt(96页珍藏版)》请在三一办公上搜索。
1、1,2022/12/1,第1节 计算机检索概述第2节 计算机信息检索系统组成第3节 计算机信息检索的分类第4节 计算机信息检索技术第5节 信息检索的方法*第6节 信息检索的策略*,2,2022/12/1,1.1 国内外计算机信息检索发展阶段,1975年,从国外引进数据库开展机检服务;1980年,建立国际联机终端开展检索服务;20世纪80年代中后期,自建数据库;90年代初,发展光盘检索;90年代中期,Internet网络化检索阶段。,3,2022/12/1,国外计算机信息检索发展阶段(P5),脱机检索阶段(20世纪50-60年代)联机检索阶段(20世纪60-80年代)光盘检索阶段(20世纪80年
2、代中-90年代)网络信息检索阶段(2019-),4,2022/12/1,1.2 计算机信息检索的定义,计算机信息检索的实质就是由计算机将输入的检索策略与系统中存储的文献特征标识及其逻辑组配关系进行类比、匹配的过程,需要人机协同作用来完成。信息存贮是将文献、数值、事实等按一定的格式输入到计算机中,加工处理成可供检索的数据库。信息检索是将检索提问式按一定的要求输入计算机中,经计算机系统与已存贮在计算机中的数据库进行匹配运算,然后将符合检索提问的数据按要求的格式输出。,1.3 计算机信息检索特点,检索速度快,效益高;检索功能强,数量大;检索途径多,手段灵活;检索范围广;服务方式多。,6,2022/1
3、2/1,1.4 计算机信息检索的原理(P8-11),信息存储,原始信息,信息主题,数据库记录及 信息特征标识,信息检索,信息需求,检索主题,检索提问式及 提问标识,计算机,检索结果,主题,分析,著录,标引,类比,输出,主题,分析,选定,编制,检索语言(主题词表),7,2022/12/1,信息存储过程,信息存储就是按照一定标准,将收集到的原始文献进行主题概念分析,用系统规定的语言(主题词、分类号)进行标引,形成信息的特征标识,进行整理与排序,构成可供检索的数据库,主要包括:信息的采集、著录、标引和整序等过程。,8,2022/12/1,信息的著录,对所收集的原始信息的外表特征(如题名、著者、文献出
4、处等)和内容特征(如分类号、主题词、摘要等)进行描述,形成一条条款目或记录的过程。在数据库中,其外表特征和内容特征通常称之为字段,一条记录由若干个不同字段构成。,9,2022/12/1,信息的标引,标引:根据一定的规则和程序(主题词典或词表),对文献的主题内容进行分析,给予每篇文献主题词、关键词作为存储和检索标识;或者根据文献的学科归属,采用某种文献资料分类法,给予分类号作为检索标识。,10,2022/12/1,信息检索过程,用户对检索课题加以分析,明确检索范围,弄清主题概念,然后用系统检索语言来表示主题概念,形成检索标识及检索策略,输入到计算机进行检索。计算机按照用户的要求将检索策略转换成一
5、系列提问,在专用程序的控制下进行逻辑运算,选出符合要求的信息输出。计算机检索的过程实际上是一个比较、匹配的过程,检索提问只要与数据库中的信息的特征标识及其逻辑组配关系相一致,则属“命中”,即找到了符合要求的信息。,2 计算机信息检索系统组成,2.1 系统设备硬件:运算器、控制器、存储器、输入输出装置等软件:系统操作程序、数据库管理程序、联机控制程序、应用程序等。通讯线路:电话通讯网、数据通讯网、卫星通讯网等。检索终端:信息用户与检索系统主机进行人机对话,实现联机检索的设备。包括上网设备、调制解调器等。数据库:是计算机检索的对象。是由一个或数个文档构成,并能够满足某一特定目的或某一特定数据处理系
6、统需要的一种数据集合。,12,2022/12/1,2.2 数据库的构成,一定专业范围内的信息记录及其索引的集合体,是计算机信息检索系统的重要组成部分,是信息资源,是检索对象。,一定专业范围内的信息记录及其索引的集合体,是计算机信息检索系统的重要组成部分,是信息资源,是检索对象。,构成数据库的三大要素: 文档记录字段,检索时,计算机按输入检索词的字顺先从指定的倒排文档中找到相匹配的索引词,然后根据索引词后的记录顺序号到顺排档中调出相应的记录。,13,2022/12/1,文档(File),数据库中一部分记录的集合,文档由若干记录构成。数据库是由一个顺排文档和若干个倒排文档所构成 顺排文档是数据库的
7、主体,又称主文档,按每条记 录的顺序号大小排列,检索结果都来自于顺排文档。 倒排文档是从顺排档中抽取有检索意义的检索标识,如主题词、著者姓名、化学物质名、刊名等,并按索引词的字顺排列,同时在检索标识后注明入藏顺序号,这就是常见的数据库中的主题词索引、著者索引、刊名索引。,14,2022/12/1,15,2022/12/1,由若干字段组成的文献单元,是数据库中的基本文献单元,每条记录描述了原始信息的外部和内部特征。数据库中的一条记录通常代表一篇文献。例如:在书目型数据库中,一条记录相当于一条题录或文摘;在全文型数据库中,一条记录相当于一篇完整的文献;在其它类型数据库中,一条记录则代表一个信息单元
8、。记录越多,数据库的容量就越大。,记录(Record),16,2022/12/1,17,2022/12/1,字段(Field),字段是构成记录的基本单元,是对文献某一方面的特征(包括外表特征和内容特征)进行描述的结果。 例如:题名、作者、作者地址、出版年、来源(出处)、主题词、文摘等字段是书目数据库中必备字段。为识别每一个字段所表达的文献特征,通常每个字段都有固定的名称和缩写(或称字段标识符),如,题名字段的标识符为TI,作者字段的标识符为AU等。,18,2022/12/1,2.3 数据库的类型*(P3-4),参考(文献书目型)数据库全文数据库事实数据库数值数据库,19,2022/12/1,参
9、考(文献书目型)数据库,是指包含各种数据、信息或知识的原始来源和属性的数据库;是机读的目录、索引和文摘检索工具,检索结果是文献的线索而非原文。存储的是二次文献,包括文献的外部特征、题录、文摘 和主题词等。这类数据库占用很大的比例,其代表性的数据库有 EI Compendex Plus(工程索引)、INSPEC(科学 文摘)和全国报刊索引等。图书馆提供的基于网络的联机公共检索目录(OPAC)系统,20,2022/12/1,事实数据库,存储的是用来描述人物、机构、事物等信息的情况、过程、现象的事实数据。如名人录、机构指南、大事记、百科全书、手册、地图集、企事业名录、计算机程序、音乐等,均可归入事实
10、数据库。例如:中国咨询行、国研网、万方数据(中国企业、公司及产品、中国科技名人、中国科研机构等等),21,2022/12/1,数值数据库,主要包含的是数字数据,如各种统计数据、科学实验数据、科学测量数据等。气像数据、地质资料、化学或物理化合物 特性 的文献数据、人口统计资料、市场调研数据等。,22,2022/12/1,全文数据库,存储的是原始文献的全文,如杂志论文、报纸新闻、法院案例等。全文检索可直接获取原始资料,而不是书目检索时的线索,提高了用户的检索效率。如:中国知网(CNKI)、万方、维普、 Elsevier等全文数据库。,3 计算机信息检索的分类,1 按信息资源的存储形式分2 按信息访
11、问模式分,24,2022/12/1,3.1 按信息资源的存储形式分* (P7-8),(1)全文检索。以全文数据库存储为基础的检索方式,所谓全文数据库是将一个完整的信息源的全部内容转化为计算机可以识别、处理的信息单元而形成的数据集合。全文检索系统对全文数据库进行词(字)、句、段落等深层次的编辑、加工,同时允许用户采用自然语言表达,借助逻辑组配、截词、邻词匹配等检索手段直接查阅文献原文信息。全文检索的应用范围包括:各种科技期刊、专利文献、新闻报纸、年鉴、百科、手册、图书等全文数据库,例如:我国引进的OCLC的first search、IEL、Springer Link、EBSCO等全文数据库以及我
12、国CNKI的中国期刊全文数据库、重庆维普的中文科技期刊数据库、超星数字图书馆、万方资源系统的数字化期刊、学位论文、会议论文等。,25,2022/12/1,(2)二次文献检索*,是针对全文检索而言,也就是分别将文献的内部特征(题名、分类等)和外部特征(作者、出处、年代、ISSN、语言等)作为存储和检索的匹配标识而形成的数据集合,利用检索系统的检索结果是文献信息的题录及文摘。学科领域覆盖面广,信息量大,可以利用文献线索获取到一次文献。例如:COMPENDEX、INSPEC、SCI等国外数据库;万方数据的学位论文、会议论文数据库、全国报刊索引、Calis西文期刊目次数据库等,26,2022/12/1
13、,(3)多媒体检索,就是把文字、声音、图像(形)等多种信息的传播载体通过计算机进行数字化加工、处理而形成的一种综合存储技术。利用多媒体检索系统可分别进行视频检索、声音检索、图像检索。多媒体信息检索系统有着广阔的应用前景,它将广泛用于电子会议、远程教学、远程医疗、电子图书馆、艺术收藏和地球资源管理、天气预报、时装设计、智能群体决策、计算机支持协同工作、金融市场、军事指挥系统、防汛指挥系统等方面。各大网站均可进行多媒体信息的检索,如:GOOGLE、百度等搜索引擎、新华社多媒体数据库是国内最大规模的多媒体、多文种新闻信息综合性数据库。,27,2022/12/1,(4)超文本检索,超文本(Hyper
14、text) 是利用计算机将多介质信息按照一定的逻辑联接关系加工、贮存起来,构成可任意连接的、有层次的网状结构数据库,是一种联想式的综合信息管理系统。其中的某些字、符号或短语、图形和图像起着“热链路”(Hotlink)的作用,在显示出来时其字体或颜色变化或者标有下横线、以区别于一般的正文。当鼠标器的光标移到某个热链路上,并且按了一下鼠标键之后,鼠标器光标便沿着这条链路跳到该文件的另一处或另一个文件。计算机信息检索在经历了传统信息检索、全文文本检索之后,随着多媒体技术的发展和应用,出现目前这种超文本检索方式。可用于检索人物、新闻、文档、文艺小说、旅游景点、绘画、古文物、生物等内容广泛的各种信息。,
15、28,2022/12/1,3.2 按信息访问模式分(P5),根据检索方式分:(1)脱机检索(2)联机检索(3)国际联机检索(4)光盘检索(5)镜像检索(6)网络检索,(1) 脱机信息检索,是六十年代发展起来的批次检索,用户不与检索系统发生直接联系,只需把检索要求送往检索中心,由检索人员在计算机主机进行文献检索的一种方式。优点:价格便宜,无网络通讯费,检索费 用由用户平摊,随机存储。缺点:一次机会检索,检索结果延误,委 托性检索。,(2) 联机信息检索,联机检索是用户利用终端设备,通过通信网络或通信线路与检索系统联机,进行“人机对话”,从检索中心的数据库查找所需要的文献信息过程。特点:检索的速度
16、快,检索结果可以得到 及时修改。缺点:检索费用高。,(3)国际联机检索*,该系统是70年代出现的一门现代化情报检索手段,目前已发展到相当高的水平,计算机联机网络和检索终端已遍及世界所有主要国家和地区。优点:(1)可以实现资源共享;(2)检索速度快;(3)信息资源专业化;(4)查全率和查准率较高。,2022/12/1,32,国际联机检索的缺点,检索费用高;对检索系统及其文档(数据库)的收录、标引、特点等问题较难了解、熟悉;检索技术和技巧不易掌握,世界上最著名的国际联机检索系统,1、DIALOG系统*是世界最大的国际联机检索系统1963年,原属美国洛克希德公司,系统设在加洲Palo Alto市,1
17、988年转让给美国Knight-Ridder公司。2000年又转入DIALOG公司经营。目前,该系统的联机服务网遍布世界70多个国家和地区的200多个城市,共设有联机检索终端25000余台。系统中各类型数据库数量的发展速度相当快, 拥有数据库约900多个,占全世界机存总量的60%,内容涉及自然科学、社会科学、经济、商业等各个领域。,34,2022/12/1,DIALOG系统主页(dialog/),35,2022/12/1,DIALOG WEB系统检索平台,2022/12/1,36,世界上最著名的国际联机检索系统,2、ORBIT系统:是世界是第二大联机检索系统,他建于1965年,总部设在美国费吉
18、尼亚洲的马库林。提供专利、化学、能源、市场、工程和电子等方面的信息,约有100个数据库,占全世界机存文献量的25%。主要提供补充DIALOG系统而不是与其竞争的数据,特别是在专利、商标和科技信息等领域具有独特优势。,2022/12/1,37,世界上最著名的国际联机检索系统,3、BRS系统:内容涉及医学、生物科学、教育、健康、物理和社会科学及其它综合性学科。有154个公用数据库和40多个私人数据库。4、ESA-IRS系统:是欧洲最大的、也是世界第三大联机情报检索系统,1964年成立于法国,1973年迁移至意大利,目前有100多个数据库。提供有原材料价格、宇航及高技术软件、美国化学数据、综合性数据
19、库等。5、STN系统:由美国化学文摘社、德国Karlsruhl专业信息中心、日本科技信息中心联合开发的国际间网络系统,约有200多个数据库:其中包括各具特色的美、德、日三国专利数据库、化学全文数据库、化学物质结构图形数据库及部分医药数据库等。,(4) 光盘数据库检索,光盘:80年代发展起来的激光存储载体,继纸张感光材料、磁性载体之后问世的又一种新型的信息存储介质。能存储数据、文字、图形、图像、声音、动画等各种信息。一张普通的光盘、信息存储量约为650兆。光盘的分类:按存储方式分为 (1)只读型光盘:CD-ROM (2)写读光盘:WORM (3)可擦写型光盘:ERM,光盘检索的定义和特点,定义:
20、是一种用激光技术在特制圆盘上 记录信息的检索方式。特点: (1)投资成本低; (2)价格低; (3)运行速度快; (4)检索效果好; (5)下载方便; (6)安全性能高。,光盘检索的系统组成,单机光盘检索系统组成: (1)数据库:光盘 (2)软件:系统软件和检索软件 (3)硬件:计算机、光盘驱动器、显示屏、打印机等网络光盘检索系统组成: (1)光盘塔 (2)光盘组网软件 (3)光盘塔服务器,41,2022/12/1,(5)镜像数据库检索*,镜像:最原始的含义是在镜子里看到的你自己的像,在IT界中,将“镜像”这个词的含义进行了扩展,指的是完全一样的两个东西。镜像数据库:就是将光盘版、网络版数据库
21、或主网站资源的数据复制到不同的地理位置(某地或本地)的镜像服务器上,成为该服务器的镜像数据库,并为网络用户提供检索服务。目的是分担访问流量;如,CNKI、维普、万方数据、超星等,42,2022/12/1,通过计算机网络系统可以连接世界上各种公用数据库和商用数据库,可以帮助用户获取希望得到的信息。网络化信息检索系统的特点是:一般基于客户机/服务器, 客户与服务器是同等关系,只要遵循共同协议(TCP/IP协议是目前最成功的网络体系结构和协议规范),一个服务器可被多个客户访问,一个客户可访问多个服务器。网络的用户数量不受到限制,它是一个开放系统而不是封闭式系统网络化信息检索将在全球范围内实现信息资源
22、共享,全球网络是信息存贮与检索进一步发展的方向。常见检索有:GOOGLE、百度、多媒体、咨询行及所有的外文数据库,(6)网络数据库检索*,4 计算机信息检索技术*(P11),1.布尔逻辑检索2.截词检索3.位置运算检索4.字段限定检索,4.1 布尔逻辑检索*(P11),布尔逻辑检索 (Boolean logical):是用布尔逻辑算符将检索词、短语或代码进行逻辑组配, 指定文献的命中条件和组配次序, 凡符合逻辑组配所规定条件的为命中文献, 否则为非命中。,布尔逻辑运算符:在检索过程中用于表达词与词之间的逻辑关系的算符。分为三种逻辑关系:逻辑与(AND )(*)、逻辑或(OR )(+)、逻辑非(
23、NOT)()表示。,45,2022/12/1,逻辑与,A AND B:检索词A和检索词B同时出现在一条记录中,例如:汽车和飞机发动机。其作用是缩小检索范围,提高查准率。,A=汽车发动机,B=飞机发动机,汽车与飞机发动机,A,B,A and B逻辑“与”运算,46,2022/12/1,逻辑或(OR),A OR B:记录中出现检索词A或检索词B或两词同时出现在一条记录中。其作用是扩大检索范围,提高查全率,汽车发动机或飞机发动机,A,B,逻辑“或”运算,47,2022/12/1,逻辑非(NOT),A NOT B:记录必须包含检索词A但不能包含检索词B。即在含有A检索词的文献中去除含有B检索词的文献。
24、其作用是缩小检索范围,提高查准率。,A,汽车发动机,汽车、飞机发动机,飞机发动机,B,A not B逻辑“非”运算,48,2022/12/1,布尔逻辑算符的运算次序,用布尔逻辑算符组配检索词构成的检索提问式,逻辑算符AND、OR、NOT的运算次序,在不同的检索系统中有不同的规定。在有括号的情况下,括号内的逻辑运算先执行。在无括号的情况下,有下列几种处理顺序: NOT最先执行,其次执行,最后执行。 最先执行,其次执行,最后执行。 最先执行,其次执行,最后执行。 按自然顺序,、谁在先就先执行谁。检索时,要事先了解检索系统的规定,避免逻辑运算次序处理不当而造成错误的检索结果。因为,对同一个布尔逻辑提
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机信息 检索 技术 课件
链接地址:https://www.31ppt.com/p-1488176.html