数字图书馆信息组织.ppt
《数字图书馆信息组织.ppt》由会员分享,可在线阅读,更多相关《数字图书馆信息组织.ppt(45页珍藏版)》请在三一办公上搜索。
1、第6章 数字图书馆信息组织,一、数字图书馆概述1.数字图书馆概念 数字图书馆(Digital Library DL)是采用现代信息技术的、超大规模的、分布的、可以跨库检索的数字信息资源系统。数字图书馆不是数字化的图书馆,“Library”也不是传统的图书馆,而是借用它象征一种新的资源存储、传播中心。,2.数字图书馆及信息资源的特点1)数字图书馆的特征数字化:数字图书馆是一个内容丰富的、组织化的、多媒体形式的数字化系统,它的资源、工作过程和服务提供都是数字化的,它集中了不同载体、不同地理位置的资源,以数字化存储、以网络实现连接和共享,本质上是一个数字化、网络化的信息空间。网络化:数字图书馆是以网
2、络为依托、以资源共享为目标的数字化系统、,设计时重视网络功能的需求与实现。通常在网络环境中具备浏览器的浏览与检索功能、广泛采用Z39.50标准、网上的各种应用协议、通信协议、数据交换标准、数据传输、编码和压缩,使它真正成为各种网络技术和标准的集成系统。分布式系统:采用关系数据库管理系统,结构上采用分布式数据访问和数据库连接;支持开放式应用开发与多语种利用;支持规范控制、规范记录;系统集成化程度高。,2)数字图书馆的信息资源特点数字化的选择性信息资源 所有资源都是按用户需要经过选择的数字化资源,收集的资源包括两大类:一是已经数字化的资源,如网络资源、各种数据库资源、光盘、磁盘上存储的资源等;二是
3、传统的非数字资源压缩处理后形成的数字化信息,如已有的图书、期刊、录音、录像带等。多媒体资源 数字图书馆的资源是多样化的,不同媒体的信息都要收集,包括文本、音频、视频、图形、图像。这些不同的资源库中,要分别建立字符数值库、文本、声音、图象等专门资源库。各媒体用超媒体方式组织(混合),用户可以在链接好的网络结构中进行浏览。,海量资源和分布式资源存储结构 数字图书馆处理的数据是海量的,估计一般的资源量可达到101215字节,它的资源包括持续倍增的网络资源,也包括不断增长的数字化的传统资源。海量资源使数据存储必须以大量的分布式数据库群把资源存放在不同的计算机上,每个计算机负责特定资源的收集、加工、存储
4、、利用和维护工作。按用户需求提供服务(最好是交互式的自动界面)用户通过数字图书馆的交互界面提出服务请求,数字图书馆使用高效的检索系统,为用户提供迅速、准确、个性化的服务。,3)数字图书馆信息组织的特点以用户为中心组织信息资源 数字图书馆为每位用户提供个性化的信息服务,针对每个用户的每个需求从海量资源中查找符合用户需求的资源,而且它提供的资源不是一般的单一资源,而是关于某种问题的知识点,包括各种不同媒体的信息,如关于某个旅游点的文字、图象、旅馆、旅游路线图、气象、车次等。所以资源组织在检索时形成一种临时的知识点。,信息资源加工处理自动化 数字图书馆的信息资源描述、自动分类、自动聚类、元数据自动抽
5、取等对资源进行加工处理应尽可能自动化。要针对用户需求和资源特点开发各种检索系统和内容丰富多样的资源库。智能查询服务 数字图书馆的海量信息资源要求提供高效的智能检索服务,如设计良好的数字图书馆既能满足对图形、图象、视频的关键词、主题词查询,而且能够通过颜色、纹理、形状、关键帧等来查找;同时,查询还要求能够实现无缝跨库连接,使用户能够方便、快速、准确地查到所有存储在数字图书馆的分布式资源。,二、数字图书馆结构,1.基本系统结构(基本功能模块)数字图书馆的基本构件由数字对象、统一资源名称和数据存储系统组成。数字对象 数字对象是组织管理数字信息的方式、构成计算机存储与处理数字信息及功能实现所需要的完整
6、数据结构。数据结构包括唯一标识名称、元数据和数字化内容。数字化信息一般包括不同的部分,如文本信息、程序、数据内容、Web页面等,可以把几个数字对象组成数字对象组,用来描述复杂多样的数字信息结构。DL中的数字化信息可以分成一些类别进管理,每一类别要定义一组规则,来描述数字对象、数字对象的内部对构、相关的元数据、数字对象的命名规则,以便把多个数字对象组成数字对象组。,统一资源名(URN)URN是网络中数字化信息的唯一永久标识。这个标识由资源名或资源位置标识数字资源。在数字图书馆系统中,URN是唯一标识,用来永久地标识数字对象和存储系统,它和网络中的URL不同,URL不可能永久标识标识数字对象和存储
7、系统,因为网络配置、系统和文件位置均可改变。数据存储系统 数据存储系统是基于网络的存储与管理数字对象及相关信息的计算机系统,通过数据存储协议(RAP)对数据存储系统实施管理与操作,一个设计良好的数据存储系统可以向多个DL提供资源。以上三个基本构件可以构建任何DL体系结构。这个系统结构应具有扩展性、分布性与系统互操作性。,DL的基本体系结构图,用户界面,检索系统,名字解析系统,存储系统,图释,用户系统定义面向用户和系统管理员使用的两类界面,用户端通常是互联网浏览器,在浏览器上实现与DL系统的服务交互,执行请求与服务;检索系统是DL系统的核心功能,检索系统在网络环境中采用分布式检索或并行检索系统结
8、构。名字解析系统负责将URN转换为存储数字对象的网络物理地址,并实现URN的注册管理功能,以保证它的唯一性。数据存储系统存储与管理数字对象及其他信息,通过数据存储系统存取协议实现对数字信息的管理,同时实施访问控制和安全管理功能。,2 数字图书馆的技术体系结构,调度子系统,查询子系统,对象数据库,数据加工子系统,用户,元数据库,图释,查询服务子系统向用户提供查询服务。用户连接到此子系统提出查询请求,请求处理后经元数据库和调度子系统查到初步相关信息,用户确认后再通过元数据中所含数据对象的句柄,通过调度系统到对象数据库中取出用户需要的信息;主要功能是实现数字化信息和知识的发布和利用。元数据库和对象数
9、据库存储和管理数据对象的数据体、元数据及其它信息,把数字化信息相对集中。这两个库是数字图书馆的资源库,分布在不同的地点;,数据加工子系统对数据信息进行打集、处理、加工、存储和组织,将描述信息的元数据归入元数据库,将数字对象本身(数据体、内容)送入对象数据库。调度子系统是一个为数字图书馆资源提供分布式目录服务的计算机系统,负责自由地存取分布在不同资源库的信息,实现网络环境下对象数据的识别、统一调节度和无缝跨库检索。,3数字图书馆的应用系统开发,按照数字图书馆的体系结构,DL系统需要开发相应的应用:(1)资源加工系统 数字资源加工系统要对多种形式的资源如文本、图象、音频、视频等的数字化采集、加工、
10、处理,实现一次加工,长期利用,并适应未来扩展的需要,建设DL系统的资源库。(2)异构资源库整合系统 在数字图书馆建立前的各种数据库要整合到DL系统中,主要的困难是多种内容的数据结构形式不同,原来的系统平台和应用软件也不完全相同。所以目前没有成熟的方案。国外可行方案之一是采用XML,封装技术对现有数据库进行统一封装,将它们与DL系统连接起来。(3)数字资源管理与存储系统 数字图书馆的数字资源由元数据和对象数据构成,一般地将元数据相对集中存放,对象数据分布存放。DL需要的大规模资源管理与存储系统在实现对大量数字资源的存储与管理,主要内容是数据对象和元数据的存储格式、存取协议、维护数据对象和元数据的
11、完整性和一致性,以及在网络环境中大规模分布式数字资源的快速有效的存取支持等。,(4)资源调度系统 调度系统首先要有一个建立在统一命名规则基础上的完善的调度码体系,第二是要建立一个有效的调度机制,第三是要建立有效地为资源加工和用户服务提供调度服务的功能。调度系统的目标是通过一个标识确定DL中所有数字资源的规则,建立一个管理所有DL资源的系统;当需要变化时,只要修改唯一标识所指向的对应值就能服务的正常运行。(5)用户查询和服务系统 此系统主要实现用户需要的信息和知识的发布和利用。用户通过应用界面进入系统,检索元数据查获资源标识,再通过调度系统,调动数字资源管理系统获取对象库中的资源。此系统由应用界
12、面系统、元数据搜索系统、数字资源存取系统组成。如图,应用界面系统,调度系统,调度码,搜索系统,元数据,资源存取系统,资源库,此外,DL还有联合编目和馆际互借系统(建立各单位网络元数据共建共享系统和数字资源链接服务系)、安全认证系统、版权保护与电子商务系统(部分服务收费)。,三、数字图书馆信息组织技术与方法,1数字图书馆信息组织的数据结构 与传统图书馆一样,数字图书馆信息组织的信息组织由三部分组成:指针、元数据和数据内容。指针是数据的唯一标识,如同一个排架号或一个网页地址(但不是URL);元数据是一个描述数据特征的数据集,类似目录,数据是一个个的文件内容,类似图书馆的文献。也就是说,DL中的一个
13、文件(文本信息、图片、视频或音频文件等),在DL中先给一个唯一标识代表它在系统中的位置,然后再把其基本特征抽取出来(元数据)。,(1)指针 指针是标识数据的一组唯一指示符。一般分为狭义与广义两种:狭义指针(内部指针)是某个DL系统中用来代表文件或数据的唯一标识符,该标识在这个系统中是唯一的;由某个系统赋予,所以可以按某个系统的总体需要自行设计。设计时要作到:规范性,即发求建立内部指针的生成规则;唯一性,每个指针都是唯一的,不能与其它指针重复;定长性,指针要设计成定长字符串(可节省存储空间)。内部指针由本系统生成,只用于本系统。广义意义上的指针是由统一资源名称赋予的广泛意义上的数字信息唯一标识符
14、,代表数字化信息的主要特征。,数字信息对象只有赋予唯一标识符,才能组织和检索,并在DL系统中成为可以识别的唯一标识。标识数字信息对象目前主要有两种方法:一个是统一赋予信息对象一个唯一名称,即统一资源名称URNs;另一个赋予数字信息一个固定位置,即永久统一资源定位器法(PURL)。URNs方案由美国CNRI的句柄系统(handle system)提供标识网络资源的分布式目录服务。它负责给每一个资源一个永久的、唯一的名称(URN),这个名称独立于它的存储位置,不管它存储在什么地方,名称不会改变,所以总能找到这个资源。,每个句柄由两部分组成:前一部分是命名授权,后一部分是唯一局部名称。所以=/。一般
15、认为,句柄是指向指针的指针,它有全局句柄和局部句柄之分。如 10.1045/january99-bearman这个句柄前一部分是它的命名授权“10.1045”定义,后一部分是它的唯一名称。再如 cnri.dlib/july95-arms也是一个句柄。句柄系统通过赋予数字对象代表其唯一标识的统一资源名称,可以对它进行操作和管理。句柄 管理主要通过全球性的名称规范登记服务,建立全球规范名称数据库,并通过句柄代理服务(Proxy server)提供两个代理服务器,用户可以在万维网上通过句柄获取数字资源。,PURL是OCLC于1996年建立的标识数字信息资源的方法,它的原理是建立一个转换服务器,将数字
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数字图书馆 信息 组织
链接地址:https://www.31ppt.com/p-5984596.html