数字信息资源及其检索概述.ppt
《数字信息资源及其检索概述.ppt》由会员分享,可在线阅读,更多相关《数字信息资源及其检索概述.ppt(74页珍藏版)》请在三一办公上搜索。
1、数字信息资源及其检索概述,北京大学图书馆 张春红,第一部分数字信息资源的概念与类型,数字信息资源概述:定义,数字信息资源:狭义上也称为电子资源,指一切以数字形式生产和发行的信息资源。所谓数字形式,是以能被计算机识别的、不同序列的“0”和“1”构成的形式。数字资源中的信息,包括文字、图片、声音、动态图像等,都是以数字代码方式存储在磁带、磁盘、光盘等介质上,通过计算机输出设备和网络传送出去,最终显示在用户的计算机终端上。,数字信息资源概述:特点,存储介质和传播形式发生变化以多媒体作为内容特征信息资源类型多种多样多层次的信息服务功能更新速度快、时效率性强具备检索系统,使用方便快捷不受时间、地域限制,
2、可随时随地存取,数字信息资源概述:产生与发展,最早形式:数据库产生标志:1961年美国化学文摘社(CAS)开始发行化学题录(Chemical Title)机读磁带发展:六十年代初,以化学题录和医学索引(美国国家医学图书馆)的出现为标志,至1965年已有大约20个数据库可供使用1975年,已达到近300个数据库七十年代莫到八十年代末,数量已达到3600多个进入九十年代,网络和信息处理技术的发展,使得基于互联网开发的数字资源及其检索系统有了突飞猛进的增长。,数字信息资源概述:产生与发展(续),数据库数量增长情况,数字信息资源概述:产生与发展(续),数据库类型分布,数字信息资源概述:产生与发展(续)
3、,数据库内容分布,数字信息资源概述:产生与发展(续),信息存取与检索数据库:网络数据库比例越来越大,人们为数据库检索支付费用的比例不断增加,数据库检索人次飞速增长电子期刊:出版周期短,可以检索和重复下载全文,图像与文本结合,包含有多媒体及其它类型动态信息,具备超链接功能,可以向用户主动提供期刊目次报道服务 电子图书:可以逐页阅读,并能够快速检索书中的信息 电子报纸:网上阅读其他网络学术资源:飞速发展,数字信息资源概述:产生与发展(续),电子资源现状(以北大图书馆为例)数据库:370余种410多个,其中外文160种187个;覆盖北大所有重点学科电子期刊:中文9000余种20000余份(纸质期刊4
4、000余种)西文14000余种20000余份(纸质期刊3000余种)全世界总量大于24000种除覆盖北大所有重点学科外,更在工程、能源、医学、农业等学科弥补传统资源的不足电子图书:中文18万余册,覆盖所有学科,以教学参考资料为主;另中文电子古籍:近4000部 总量近100万西文电子图书:6000余册 总量约10万电子报纸:中文近300种,外文500余种,数字信息资源概述:类型,按性质和功能:一次文献:全文数据库、电子期刊、电子图书报纸.二次文献:文摘/索引数据库、书目数据库、搜索引擎.三次文献:元搜索引擎按生产途径和发布范围:见数字信息资源结构图按载体:光盘:CA光盘版,SCI光盘版网络数据库
5、:CA网络版SciFinder,WOS按学科:,数字信息资源概述:类型(续),参考数据库全文数据库事实数据库电子图书电子期刊电子报纸搜索引擎/分类指南网络学术资源学科导航FTP资源其他:网站、BBS、新闻组等,数字信息资源概述:类型(续),参考数据库(Reference database)概念:参考数据库是指包含各种数据、信息或知识的原始来源和属性的数据库。它报道文献信息的存在,揭示文献信息的内容。参考数据库信息源:期刊、报告、会议论文、专利文献、学位论文、技术标准、图书、政府出版物、报纸、各种数字资料等。,数字信息资源概述:类型(续),参考数据类型按数据库内容划分书目数据库如图书馆的馆藏机读
6、目录。文摘数据库如INSPEC,Chemical Abstracts,Biological Abstracts等。索引数据库如Science Citation Index,Engineering Index等。,数字信息资源概述:类型(续),参考数据库的结构构成:参考数据库的基本组成单位为记录,而记录是由字段组成。记录(record):作为一个单位来处理的数据集合,在参考数据库中,一条记录通常指一篇特定文献。字段(field):构成记录的单元,用来描述记录的某一属性。如一般记录中包含下列字段:题目、作者、出处、关键词、主题词、文摘、题目、出版社、专利号、报告号、访问号等。,数字信息资源概述:类
7、型(续),参考数据库的特点综合性:数据量大,文献类型齐全,索引系统完备,语种多,出版连续性强。出版物类型:出版历史悠久,大多数数据库具有对应的印刷出版物。数据库结构:结构简单,数据规范性好,记录格式固定。使用:参考数据库的使用一般是开放性的,可以购买、租用,也可联机检索。标引:多数数据库具有规范的主题标引词。文件格式:多采用文本文件格式。,数字信息资源概述:类型(续),参考数据库的用途主要用途是搜集文献线索,快速和全面的获取某个主题、学科、领域的文献信息。用于制定个性化的用户服务,如最新目次报道、定题服务、回溯服务等。用于各类统计和评估,如统计期刊、个人或机构的发文量、文章被转载或被引用情况,
8、评估期刊影响力等。,数字信息资源概述:类型(续),全文数据库英文为full-text database,即收录有原始文献全文的数据库,以期刊论文、会议论文、政府出版物、研究报告、法律条文和案例、商业信息等为主。如美国的LEXIS-NEXIS数据库、学术期刊图书馆(ProQuest Academic Research Library)及中国人民大学书报资料中心复印报刊资料全文数据库等。,数字信息资源概述:类型(续),事实数据库英文为factual database,指包含大量数据、事实,直接提供原始资料的数据库,又分为数值数据库(numeric database)、指南数据库(directory
9、 database)、术语数据库(terminological database)等,相当于印刷型文献中的字典、辞典、手册、年鉴、百科全书、组织机构指南、人名录、公式与数表、图册(集)等。数值数据库,指专门以数值方式表示数据,如统计数据库、化学反应数据库等;指南数据库,如公司名录、产品目录等;术语数据库,即专门存储名词术语信息、词语信息等的数据库,如电子版百科全书、网络词典等。,数字信息资源概述:类型(续),电子期刊英文为electronic journals或简称e-journal,包括:与纸本期刊并行的电子期刊,如著名的科学(Science)、自然(Nature)、Elsevier/Wil
10、ey/Springer/Kluwer等出版商的电子期刊、中国电子期刊杂志社的期刊等;纯电子期刊,如数字图书馆杂志(D-Lib Magazine),数字信息资源概述:类型(续),电子图书英文为electronic books,最初的电子图书主要以百科全书、字典词典等工具书为主,但近年来发展迅速,已涉及到了很多学科领域,文学作品、学术专著所占比例越来越大,电子图书正在逐步发展成为比较主要的数字信息资源 如国外的NetLibrary、Ebrary;国内的超星数字图书馆、书生之家电子图书、方正Apabi数字图书馆等,数字信息资源概述:类型(续),电子报纸英文为electronic newspaper,
11、目前网上已有数千种报纸供用户使用。同电子期刊一样,电子报纸同样也有印刷型报纸的电子版和纯电子报纸两种类型电子报纸全文检索系统如人民日报等;全文数据库中的电子报纸如ABI、lexis、中国资讯行全文数据库等;还有网上免费的电子报纸(印刷型报纸的电子版);纯电子报纸如圣何塞信使报,数字信息资源概述:类型(续),搜索引擎/分类指南英文为search engine,是目前利用互联网开放信息的常用工具,也可以称得上是互联网开放信息的索引目录。搜索引擎主要是使用一种计算机自动搜索软件,在互联网上检索,将检索到的网页编入数据库中,并进行一定程度的自动标引,用户使用时输入检索词,搜索引擎将其与数据库中的信息匹
12、配,然后产生检索结果。例如常用的Yahoo、Hotbot、Alta Vista、Excite、Google、天网、悠游等。分类指南是将搜索到的网页按主题内容组织成等级结构(主题树),用户按照这个目录逐层深入,直到找到所需文献。通常搜索引擎与分类指南是结合在一起的,例如Yahoo、新浪、悠游等,数字信息资源概述:类型(续),网络学术资源学科分类导航将互联网上的开放信息加以甄别、筛选和科学整理,按学科组织起来,构成完整的学科导航系统,为教学、科研、技术人员提供各类学术信息。与搜索引擎/分类指南不同的是,网络学术资源的学科导航库通常是由图书馆单独或联合建设的。例如CSDL的学科信息门户,数字信息资源
13、概述:类型(续),FTP资源FTP含义是File Transfer Protocol,意为文件传送协议,是互联网上最早应用的协议之一,它可以使用户远程登录到远端计算机上,把其中的文件传回到自己的计算机上,或把自己计算机上的文件上传到远端计算机系统上。所谓FTP资源,是指互联网上的开放FTP站点,这些站点允许用户登录上去,从中下载各类数据、资料、软件等。可以利用FTP搜索引擎查找FTP资源,例如北大天网文件引擎,第二部分数字信息资源的检索,数字信息资源检索:检索系统,检索系统检索系统构成检索系统评价联机数据库检索光盘数据库检索网络数据库检索检索语言相关的网络基础知识,数字信息资源检索:检索系统(
14、续),检索系统构成物理构成硬件(hardware):也可以说是硬件环境,是和计算机检索有关的各种硬件设备的总称,如大型计算机主机(服务器)、存储器(硬盘或光盘)、网络(广域网、局域网、存储区域网)、输入输出设备(键盘、打印机、鼠标等)、计算机终端或个人计算机(PC)等。软件(software):与计算机检索相关的数据库系统软件及相关应用软件。包括:信息采集、存储、信息标引加工、建库、词表管理、用户检索界面、提问处理、网络发布、数据库管理等模块。随着网络和计算机技术的发展,软件的开发平台、程序语言的持续升级,用户功能需求的增加,这一部分的具体结构也在不断发生变化。,数字信息资源检索:检索系统(续
15、),检索系统构成物理构成(续)数据库(database):数据库是指按一定方式、以数字形式存储、可通过计算机存取、相互关联的数据集合。数据库的特点是:重复数据少;可以共享数据资源,以最优的方式为一个或多个应用服务;数据具有独立性,其存放独立于应用程序之外。由于数据库中的信息都经过了详细、精心的选择和加工,主题化,有序,能够提供多种检索途径,因此相对互联网上无组织和大量无用的信息来说,检索结果准确,时间少,价值高。从发展的角度看,以网络为中心的分布式数据库系统是今后的发展趋势。,数字信息资源检索:检索系统(续),检索系统构成功能划分信息采集模块(collection):本模块的任务是连续、快速地
16、采集各类信息,为数据库提供充足的数据来源。信息存储模块(repositories):存储介质包括磁带、磁盘、光盘。从根本上讲,存储方式决定了应用方式,存储方案决定了整个系统的的扩展性和灵活性。标引著录模块(description):即对信息的内容和特征进行分析,然后给予一定数量的标识,作为信息组织、存储与检索的基础。例如信息的名称、创作者、主题、分类、出版/生产时间、出版/生产者、关键词等,都可以作为信息的描述性标识。,数字信息资源检索:检索系统(续),检索系统构成功能划分(续)规范模块(authorities):指对信息特征和用户提问的语言形式做出规定,如主题词表、人名规范、地名规范、时代名
17、称规范等,目的在于,一是使用户的检索更具准确性;二是逐步形成一个知识网络,通过相关信息的提供,使用户的检索更为完整。内容发布模块(publish):将数据库内容传递到网络上,让用户以常规手段(如通过浏览器)查询浏览。,数字信息资源检索:检索系统(续),检索系统构成功能划分(续)检索模块(access):也就是狭义理解的检索系统,即将用户的需求进行分析,并和数据库中的信息匹配运算,再反馈给用户所需的检索结果。检索界面:即人-机接口;检索功能:如简单检索、复杂检索、浏览、图象检索等;检索途径:如题名、作者、主题、文摘等检索入口;检索技术:如布尔逻辑、组配检索、截词符、词根检索、位置算符等;检索结果
18、:打印、存盘、结果格式、二次检索;提问处理:也可称匹配运算,即处理和运算用户的检索式。,数字信息资源检索:检索系统(续),检索系统构成功能划分(续)服务模块(services):这是在传统检索系统基础上发展起来的新功能,如最新目次报道服务、文献传递服务,虚拟咨询服务等。管理模块(administration):主要指管理客户端,即对用户和用户行为进行管理和调查分析。主要包括三个部分,一是对用户的管理;二是运用数学和统计学方法,对用户行为的各种相关信息进行累积、加工、分析,生成各种状态报告,提供给数据库生产者、系统开发者和用户,以便对数据库及其系统进行修改、完善,使其不断得到提高;三是监控系统使
19、用情况,如观察用户有无违反版权规定、恶意下载(abuse)现象,并对违法用户进行相应处罚。,数字信息资源检索:检索系统(续),检索系统评价主要评价指标检索功能:指系统提供给用户的各种检索途径和检索入口。检索技术:即系统是否允许用户使用各种检索技巧,以便更准确和快速地找到自己所需信息。检索结果:即用户是否得到了内容全面、下载和使用均比较方便的检索结果,例如显示格式包含的内容是否全面;检索结果数量较多时是否允许在翻页的同时标记记录;是否提供存盘、打印、email发送等多种下载功能;检索结果是否与其它资源之间存在链接,为用户提供查找到其它资源的捷径等。用户服务:主要是指在检索功能之外,系统还为用户提
20、供了哪些服务。,数字信息资源检索:联机检索,联机检索(online retrieval)是指用户利用计算机终端设备,通过通信线路或网络,在联机检索中心的数据库中进行检索并获得信息的过程。,数字信息资源检索:光盘检索,联机光盘检索是指把单用户系统发展成多用户的局域网系统,通过网络(如校园网)连接多个用户终端,用服务器管理多组光盘数据库及其检索系统,数字信息资源检索:网络数据库检索,网络数据库(web-database)检索是指用户在自己的客户端上,通过互联网和浏览器界面对数据库进行检索,是基于互联网的分布式特点开发和应用的,数字信息资源检索:检索语言,检索语言的概念与作用检索语言(informa
21、tion retrieval language),是信息存储与检索过程中用于描述信息特征和表达用户信息提问的一种专门语言。所谓检索的运算匹配就是通过检索语言的匹配来实现的。检索语言是人与检索系统对话的基础。,检索语言作用示例已知3篇文献的篇名,在对信息存储的过程中,对这三篇文献内容分别进行了分析,并使用检索语言对其进行标引,标引结果为:文献1:篇名(title):A model of multimedia information retrieval 主题(subject):information retrieval,multimedia computer applications文献2:篇名(
22、title):The Information retrieval in chemistry WWW server 主题(subject):chemistry,educational materials文献3:篇名(title):ERIC resources 主题(subject):Educational materials标引后这三篇文献分别被存储进数据库。信息检索过程:检索语言及标识匹配。检索语言作用:对文献的外部特征和内容进行多层次描述,提供多种检索途径,以方便用户从不同角度检索。,数字信息资源检索:检索语言(续),检索语言类型人工语言人工语言:人工语言(artificial langua
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数字 信息资源 及其 检索 概述
链接地址:https://www.31ppt.com/p-6165269.html