数字资源整合的机制与方法ppt课件.ppt
数字资源整合的机制与方法,李广建(),主要内容,信息技术对信息服务的影响信息资源整合,信息技术对信息服务的影响,随着计算机技术、多媒体以及网络技术的飞速发展,信息载体的不断电子化、网络化,信息服务机构(如图书馆、情报机构)的信息技术也随之计算机化、网络化,以满足不断变化和发展的文献信息服务的需求。信息技术既对信息服务机构带来了机遇、也带来了挑战。,机遇提供了先进的技术手段过去手工条件做到的,现在提高了效率过去想到了,但因条件的限制做不到,现在能做了过去没想到的,现在也能做了挑战过去的很多认识,现在不灵了(观念问题)运行方式和作业环境发生了翻天覆地的变化(还是图书馆吗?)用户的要求越来越高了(需求总是很难满足),从挑战谈起,现有图书馆工作模式流水线式的工作目录为中心的工作模式以文献为单元的工作模式,现代信息技术环境下图书馆工作面临的转变工作的中心由面向馆藏的转变成面向用户的从基于载体的信息提供转变成是基于内容的信息提供从馆内服务或面对面的服务转变成网络服务或远程服务技术和设备在很大程度上会影响工作效果,再看看机遇,如果我们转变观念从图书馆的用户到用户的图书馆如果我们改变流程从分立的资源服务到集成整合的服务如果我们用新技术从简单的信息检索到个性化的推送,library,user environments,resource environment,the library in the user environment,Not the user in the library environment.,Flexible assembly of services from multiple sources.,从图书馆的用户到用户的图书馆,总之,要围绕着用户的工作流程构建相关的信息服务;使用户不离开其工作环境就可使用信息资源;按照用户的使用习惯组织信息资源和服务;能根据用户的不同为其组织和装配不同的资源和服务彻底解决用户看到的一个个孤立的系统,是一个个的建设成果展示;服务系统自成体系,系统互连性差,不能被相互调用;系统之的连接关系是零散、无序、任意的甚至是混乱的,没有一个清晰的流程;用户不了解、不明白、不易用、不会用、不能用、不爱用.,解决方案信息资源整合,主要内容,信息技术对信息服务的影响信息资源整合,信息资源整合,整合机制整合技术,整合机制,目前数字资源整合系统的实现机制可以概括为四种数据仓库整合机制Mediator/Wrapper整合机制(中介器/封装器整合机制)、Agent整合机制P2P整合机制,整合机制数据仓库整合机制,数据仓库整合机制是一种物理集成方式,它将不同来源的数字资源按特定的方式(通常是按主题或其它多维方式)建模并存储在同一物理位置(称为数据仓库),提供给用户一个新的、统一的目标数据模式(schema),使得用户能够一站式地访问各种数字资源,从而达到整合的目的。,下图概略地示出了数据仓库整合机制的基本原理,从上图中可以看出,数据仓库整合机制的最根本的特点是物理地存放数字资源,对不同来源的数字资源进行集中管理,简化了用户访问信息的复杂度,提高了数字资源的访问速度和整合系统的性能。而且,由于实现了不同来源的数字资源的一致性存储,这种整合机制还有利于实施比信息检索更复杂、更深入的数据挖掘、知识发现等服务。采用数据仓库整合机制进行整合的前提是必须能合法地(例如通过授权)获得来源系统中的数字资源,而且,由于是集中存储要整合的数字资源,因而难以适应网络数字资源类型多样、变化快等特点,同时还会增加本地系统存储与维护的负担。数据仓库整合机制较适用于自建资源。,数据仓库整合机制所涉及的技术主要有:(1)海量数据存储(2)ETL技术(3)信息源的监控与更新,(1)海量数据存储数据仓库的数据来源于多个信息源(即参与整合的系统中的数字资源),因此具有数据量大、类型复杂的特点,属于海量数据。解决海量数据的存储问题,除了需要相应的专门设备如磁盘阵列、光盘库、磁带库等,还需要精心地设计存储结构和存储算法,既要保证数字资源有合理的物理存储结构,又要保证有较快的存取速度。,(2)ETL技术ETL技术是对要加以整合的数字资源进行抽取(Extract)、转换(Transform)、清洗(Cleaning)、装载(Loading)的技术。对不同来源的数字资源进行物理集成,首先需要从参与整合的系统中抽取出相关数字资源,这需要使用信息抽取技术。由于信息源是异构的,因此,还必须利用转换技术将不同结构的数字资源规范化,消除异构数字资源之间的不一致性,为来自不同系统的数字资源之间的比较、整合以及统一存储奠定基础;清洗技术主要是解决信息冗余的去重以及错误和不完整信息的修正、剔除问题;装载技术则是将清洗后的数字资源按一定的规则加载至数据仓库,形成数据仓库的物理存储结构和逻辑存储结构。,(3)信息源的监控与更新如前所述,数据仓库整合机制是一种物理整合方式,数据仓库本身与信息源在物理上是分离的,因此必须要解决数据仓库与信息源的同步问题。也就是说,必须要监控参与整合的信息源的变化,同步更新数据仓库,确保用户在整合系统中查询到的是各个信息源中的最新数字资源。,整合机制M/W整合,mediator/wrapper整合机制是一种虚拟整合方式,在基于这种机制的整合系统中,并不真正存储需要整合的数字资源,而是通过mediator和wrapper来实现整合。mediator和wrapper均为软件组件,位于用户和数据源之间,mediator负责处理用户提问和查询结果的整合,wrapper则负责对信息源的连接和具体查询。,mediator/wrapper整合机制的基本原理如图所示。,在基于这种机制的整合系统中,用户按全局模式(Global Schema)进行查询,mediator接收用户查询并将其转换成中间格式,然后提交给相应的wrapper,wrapper进一步将中间格式的查询转化为信息源模式或本地模式(Source/Local Schema)的查询,并与参加整合的相应信息源进行连接,实现对相应信息源的查询,将查询结果返回给mediator,mediator对结果进行处理,以统一的形式提供给用户。,与数据仓库整合机制相比,mediator/wrapper整合机制能够有效地保持各个异构信息源的自治性,满足局部的应用,并且能够充分发挥mediator的作用,满足全局性应用。同时,使用这种机制的整合系统不需要在本地储存大量的数字资源,因而能够适应网络环境下信息源高度自治、数量多、更新变化快等特点,而且,在mediator中引入Ontology等语义相关技术后,能够有效解决知识整合、个性化服务等问题。因而,mediator/wrapper整合机制是目前实现数字资源整合的主流方式。,mediator/wrapper整合机制涉及的主要技术有:(1)信息源选择技术(2)信息抽取技术(3)查询处理技术(4)结果整合技术(5)语义整合技术,(1)信息源选择技术mediator/wrapper整合机制是一种虚拟整合方式,整合系统本身并不存储被整合的数字资源,当用户进行查询时,如果将用户查询不加区别地发送给参与整合的所有信息源,必然会导致占用较多的带宽并增加系统的负担,这就需要利用信息源选择技术来确定相关度高的信息源,以提高整合系统的效率。信息源选择技术主要包括信息源描述和信息源选择两个方面,前者是按一定的算法建立对各信息源的描述模型,后者是在信息源描述模型的基础上,根据用户查询,按一定算法选出相关度高的信息源作为查询对象。,(2)信息抽取技术信息抽取技术应用于整合系统的目的是将参与整合的半结构化、非结构化信息源中的数字资源转化成结构性更强、语义更清晰的格式,以提高查询速度。目前,信息抽取技术已经成为了生成wrapper的关键技术之一,广泛应用于面向网络数字资源的整合系统中。,(3)查询处理技术查询处理技术是mediator/wrapper整合机制中的最重要的技术之一,是对查询进行检验、重构、优化的技术。用户对整合系统查询时,整合系统需首先对用户查询进行语法分析和检验,确保查询符合系统全局模式的要求,这部分工作主要由查询检验技术完成。此后,整合系统再将经过检验的查询按一定的规则转换为面向不同信息源模式(本地模式)的多个查询,这个过程称为查询重构。整合系统面对的是不同的信息源,由于各个信息源有其自身的特点,例如有不同的传输带宽和传输延时,加之当前运行情况有不确定性,如当前的信息源访问量是大还是小、信息源是否能很快与整合系统建立连接等等,这就要求整合系统根据各信息源的当前运行情况制定最优查询计划和查询调配方案,并据此对各信息源进行查询,这个过程称为查询优化。,(4)结果整合技术整合系统提供对各信息源的一站式访问,因而对信息源访问完毕后需要用mediator对来自不同信息源的结果信息进行整合及合成,以统一的形式呈现给用户。结果整合主要是对不同信息源的结果做并操作,并且重新计算结果的相关度。一般地说,对一个信息源进行查询会形成一个相应的查询子视图,结果整合的目的就是将这些子视图连接起来,形成一个完整的视图,提供给用户。,(5)语义整合技术随着整合研究理论和实践不断深入,Ontology、语言建模、机器学习等语义相关技术逐渐应用于数字资源整合。语义整合技术被用来在系统运行期间获取和处理数字资源的意义及其之间的关联,使整合系统能够建立用户提问与各信息源之间的语义联系,消除各种数字资源的异构性,并能够将分散存储、表现形式不同的信息源中的有用资源进行再组织,真正满足用户的信息需求,从而提高数字资源整合的质量。,整合机制Agent整合机制,Agent是处于一定的环境中或者作为环境的一部分存在的一种软件系统,它利用传感器(Sensor)感应环境,获取相关信息,然后根据这些信息和指定的目标执行相应操作。近年来,研究人员将Agent技术应用于整合系统中,形成了Agent整合机制。Agent整合机制以Agent作为核心模块,以ontology作为核心技术,比较适合于整合分布性较强的数字资源,其原理是:将整合系统框架中的各个(或主要)功能模块封装为Agent,各Agent之间进行通信、交互和合作,从而有效地实现整合。,Agent整合机制的基本原理如图所示,在这种整合机制中,使用了三类基本的Agent:用户Agent、资源Agent和代理方Agent。用户Agent负责维护用户信息,并提供系统接口,以方便用户与整合系统进行交互。资源Agent负责对分布式资源进行处理,将数字资源按照整合系统的表示形式进行描述和转换。代理方Agent负责将从用户Agent发出的查询请求与所要查询的资源Agent进行匹配,Agent整合机制的优点在于能够有效利用Agent的特性来提高系统的整合效率首先,Agent的自主性和移动性使得整合系统能够主动适应网络环境的变化,增强了整合系统的灵活性,整合系统能更加适应数字资源分布性及异构性的特点。其次,Agent能够在非连续运行的网络环境中运行,因此Agent还可处于移动计算环境中,这使得各种移动设备(如PDA等)也能加入使用整合系统的中。Agent机制的这些特点,使其成为了近年来整合研究的热点之一。,在Agent整合机制中,如何使多个Agent协调工作,是采用这种机制的整合系统要解决的关键技术,具体地说,包括:(1)Agent间的通信技术(2)Agent协调技术,(1)Agent间的通信技术为了达到整合的目的,提高整合效率,需要通过Agent通信技术来实现Agent间的“会话”。一般来说,Agent间的通信是通过Agent通信语言(ACL)来实现的Agent通信语言用于描述相应Agent的状态和属性、定义Agent可以交换的语法和语义消息。这种包含语义信息的通信语言不仅有利于协助Agent之间进行互操作,还有利于进行语义层次的整合。,(2)Agent协调技术在Agent整合机制中,多个Agent作为一个整体而存在,虽然每个Agent的任务有所区别,但它们作为一个整体,具有共同的目标,那就是实现整合。因此,在任务执行的过程中,需要应用Agent协调技术来管理一个或多个Agent行为之间的从属关系,避免执行时发生冲突,所要解决的问题包括组织结构、任务分解、资源分配、群组决策、冲突发现与解决等,整合机制P2P整合机制,P2P(Peer-to-peer)是近年来兴起的一种新的计算模式,它能够使PC和其它非服务器计算实体以对等的方式联网,彼此共享对方的资源。其主要特点是支持互连主机的动态变化。,P2P整合机制的基本原理如图所示,在这种整合机制中,存在有多个分布式的对等点(peer),每一个对等点都拥有一套自己的数据模式(对等点模式),在整合过程中,通过对等点模式与本地资源模式的映射,实现对本地资源的访问,同时依靠P2P映射来完成对等点之间的模式转换,实现对等点间的通信。通过这种方式,在任何一个对等点中执行的查询也均可以在其他相连的对等点中执行,从而达到有效访问各分布信息源的目的。,P2P整合机制不仅能够实现大规模数字资源的集成,而且可以实现Web资源的动态整合,使整合系统具有强大的扩展性,是一种比较有生命力的整合机制。但由于学术界对P2P整合机制的研究处于起步阶段,目前理论研究较多,实际应用系统数量还不太多 P2P整合机制的关键技术是P2P映射以及对等点的发现与搜索,具体地说包括:(1)P2P映射建立技术(2)P2P对等点的发现与搜索技术,(1)P2P映射建立技术在P2P整合机制中,由于每个对等点的模式不同,需要在对等点模式之间建立映射 P2P映射的建立一般包括两个步骤第一步是模式匹配,即在需匹配的模式间,寻找能够标识出模式中的相同或相似元素的对应关系,这种对应关系一般是指对元素相似性的描述,基本上不包含语义信息;在第二步中,通过对应关系,利用一系列自动化技术,在人工干预下,建立精确的P2P映射。,(2)P2P对等点的发现与搜索技术在整合处理过程中,由于P2P网络中存在多个对等点,每个对等点存储有不同的数字资源,因此需要针对具体的用户需求,利用发现策略、搜索算法等相关技术,对P2P资源进行搜索,找出合适的对等点,并通过多个对等点的协作来集成资源。目前,在P2P对等点的发现与搜索中应用较多的是分布式哈希列表(DHT)技术,这种技术使用分布式哈希算法来解决结构化的分布式存储问题,DHT中存储有每个对等点的相关信息,通过DHT可针对具体需求获取所需对等点的信息,从而解决了对等点的发现问题,然后,再根据基于DHT的路由算法完成对等点的搜索。,信息资源整合,整合机制整合技术,整合技术,整合的技术体系整合的技术标准总体上划分为物理层、基础层与整合三类。根据整合内部的层次关系,自下而上将整合层细划为3层,物理层物理层指系统运行的硬件、软件环境,解决如何为应用系统提供统一的支撑环境,支持应用系统的运作。物理层协议涉及各种网络和通信技术,包括网络的一些基础协议,如HTTP、TCP/IP等,以及其他相关的以太网、骨干网、广域网互联的技术标准与规范等。对于不提供更高层技术协议的数字资源,也可以在这个层次上进行整合,例如,可基于HTTP用仿真的方法来整合数字资源。,基础层基础层是位于物理互连的网络协议之上,用于标准化、规范化描述数据,为更上层的数据交换提供基础性支持的标准、规范。基础性协议标准又可以从性质划分为数据描述层面和数据访问两个层面。前者主要包括元数据、XML、RSS,后者主要包括开放数据库互连标准(ODBC)等。在数据描述层面内部,RSS具有提供内容聚合的功能,是为实现内容聚合而制定的一种信息描述、组织的规范,但它也具有资源发现、发布的功能,更是一种新形式的描述规则。因此,将RSS归入基础的描述层面的标准。准确的说,RSS本身也是基于XML格式的,其实是XML成功应用的一个典型。从这一层总体来看,这些基础的标准、规范(除了RSS之外),大多数都不是专门为解决资源整合的问题而制定的,主要是从信息组织、跨异构数据库的互连、互访用途出发的。但是,它们却为更好地实现资源整合提供了有力的支持。因此,对于特定的应用,也可以在这个层次进行整合,数据整合层数据层整合旨在屏蔽各数据源异构性,使得各数据源之间能够进行数据的交换与交互,令用户可透明地访问多个数据源,感觉上却像是在操作一个单一的数据源。要实现数据整合,必须对数据进行跨数据源的收集、组织、处理与集成。根据整合系统与数据源之间交互的特点,又可以分为三种形式基于联邦的整合(如Z39.5、Dienst)基于采集的整合(OAI)基于链接的整合(如OpenURL)数据层整合协议的重点是解决系统之间的数据交换和数据交互,功能层功能层整合主要重组和扩充数字资源系统的已有功能,或者建立新的功能。总体来看,这一层所采用的标准规范旨在解决系统与系统之间功能的互操作。分布式对象技术是目前解决功能互操作的主流技术,分布式对象技术的作用就是将存在于网络任何地方、能被远程应用以方法调用的形式访问的实体有机组合在一起,形成一个相对较大的组件,通过这个组件为更上层的应用提供系列的服务。分布式对象技术涉及的协议标准主要有CORBA、Java RMI、DCOM,以及Web Service协议族。,界面层界面层是最接近用户的高级层次,主要实现表示层面的整合,使得服务用户能够通过统一的界面,同时享受到不同服务提供者提供的服务。门户技术是界面整合的重要手段,其中涉及门户组件(portlet)技术以及相应的的接口规范JSR168(the Java Standardization Request 168),以及WSRP(Web Services for Remote Portlet),谢 谢,