《数据仓库与数据挖掘》演示稿第4章.ppt
《《数据仓库与数据挖掘》演示稿第4章.ppt》由会员分享,可在线阅读,更多相关《《数据仓库与数据挖掘》演示稿第4章.ppt(60页珍藏版)》请在三一办公上搜索。
1、1,复旦大学 软件学院2004.04,数据仓库与数据挖掘(第4章),2,第4章 数据仓库系统的体系结构与设计方法,数据仓库系统的体系结构分布式对象技术监控器的设计转换器的设计集成器的设计元数据管理器的设计,3,数据仓库系统的结构,最终用户,可视化工具,数据挖掘工具,多维分析工具,多维数据,数据仓库工具层,数据仓库层,4,数据仓库系统的体系结构,5,数据仓库系统的体系结构,源数据:数据仓库中的数据来源于多个数据源,它不仅可以是企业内部的关系型数据库,还包括非传统数据,如文件、HTML文档等。数据仓库管理系统:元数据库及元数据管理部件:元数据库用来存储由定义部件生成的关于源数据、目标数据、提取规则
2、、转换规则以及源数据与数据仓库之间的映射信息等。数据转换部件:该部件把数据从源数据中提取出来,依定义部件的规则将不同数据格式的源数据转换成数据仓库的数据格式并装载进数据仓库。数据集成部件:该部件根据定义部件的规则、统一各源数据的编码规则,并净化数据,根据元数据中定义的数据组织形式对数据进行汇总、聚合计算。数据仓库管理部件:它主要用于维护数据仓库中的数据,备份、恢复数据以及管理数据的安全权限问题。,6,数据仓库系统的体系结构,数据仓库前端工具集查询/报表工具:以图形化方式和报表方式显示数据,帮助了解数据的结构、关系以及动态性。OLAP工具:通过对信息的多种可能的观察形式进行快速、一致和交互性的存
3、取,便于用户对数据进行深入的分析和观察。数据挖掘工具:从大量数据中挖掘出具有规律性的知识,以及数据之间的内在联系。前端开发工具:提供用户编程接口,便于在现有系统的基础上进行二次开发,增强系统的伸缩性。数据仓库:在数据仓库系统中,数据仓库是一个数据存储集合,它的存储形式通常有多维数据库,关系型数据库及其他存储方式。,7,分布式对象技术,随着Internet的广泛应用,将应用扩展到局域网、广域网甚至Internet上已成为用户的普遍需求,分布式计算成了新的热点。分布式计算系统又称为中间件。从层次上看,它处于系统的中间层;从功能上看,向下它可以传递和处理上层用户的各种请求,向上它可以屏蔽下层的实现细
4、节,提供各种服务。因此,分布式计算系统起到了承上启下的作用,为用户构造分布式应用系统提供强有力的支持。,8,分布式对象概述,程序设计方法经历了多次变革:从最初的功能分解法,到结构化程序设计方法,再到至今仍在广泛使用的面向对象程序设计方法。在80年代中期,国际标准化组织ISO推出了RPC(Remote Process Call,远程过程调用)标准,极大地推动了分布式处理技术的规范化的标准化。到1992年,开放软件基金会OSF颁布了DCE(Distributed Computing Environment,分布计算环境)标准。在这个标准中,它不仅吸收了RPC作为其远程调用的方式,而且对分布处理进行
5、了抽象定义,是分布式计算技术发展过程中的一个里程碑。随着应用系统对可扩展性和可重用性的要求不断提高,面向对象的分析、设计和编程技术得到了广泛的应用。将面向对象的思想应用到分布式环境中,提出了分布式对象的概念。,9,分布式对象的代表性观点,组件对象是软件的基本量子。它具有一定的功能,可插用,同时又是要维护的。分布式对象则是分布式环境中的组件对象,它封装了设计决策,并作为一个独立的单元处于分布式环境中。分布式对象是具有特定功能的,能够跨越进程的边界、实现网络、语言、应用程序、开发工具和操作系统的”即插即用”的独立对象。分布式对象是指任何可被分离出来,具有标准化的,可重用的公开接口的软件。分布式对象
6、通过接口对外提供服务。对象与对象之间,对象与客户之间同时通过接口进行交互。因此分布式对象一旦发布,它只能通过预定义的接口来提供合理的、一致的服务。这种接口定义的稳定性使客户应用开发人员能够构造出稳定的应用。一个分布式对象可以实现多个接口,同时一个特定的接口也可以被多个分布式对象来实现。除此之外,分布式对象还提供了对象位置的透明性,也就是说一台机器上的应用可以透明地访问其他机器上的分布式对象。,10,分布式对象的工业标准,分布式对象的两种工业标准:COM/DCOM/COM+:Microsoft制定的以Windows为中心的开发环境。CORBA(Common Object Request Brok
7、er Architecture):由700多个厂商共同提倡的,公共对象请求代理体系结构,是平台中立的分布式技术,CORBA能够执行于Windows,UNIX以及Linux等操作系统之中,但是目前成熟产品很少,并且支持的厂商不是十分普及。根据这两种分布式技术演进而产生的分布式对象技术:例如EJB(Enterprise JavaBean)等。,11,基于分布式对象的程序设计方法,基于分布式对象的程序设计方法继承并发展了面向对象程序设计方法。它将对象技术应用于系统设计,对向对象程序设计的实现过程作了进一步抽象。分布式对象设计方法强调真正的软件重用和高度的可操作性。它侧重于分布式对象的产生和装配,这两
8、方面构成了分布式对象程序设计的核心。分布式对象的装配使得软件产品有可能用类似于“搭积木”的方法快速地建立起来,不仅可以缩短软件产品的开发周期,同时也提高了系统的稳定性和可靠性。可重用的分布式对象库不同于对象库,分布式对象库保存的是一些经过测试的分布式对象。这些分布式对象遵从标准或规范,并且分布式对象库也包括这些分布式对象的细节功能说明文档。,12,基于可重用的分布式对象库的软件开发模式的过程,13,基于可重用的分布式对象库的软件开发模式的过程,标识过程:标识一个可重用的分布式对象。验证过程:判定可重用分布式对象所声明的功能特性和性能特性。分类过程:对已有分布式对象的功能、使用方法、适用范围、接
9、口等进行说明性的描述,以便日后可以高效准确地检索。检索过程:利用标准的方法根据指定的属性找到所需的分布式对象。定制过程:通过对检索到的分布式对象进行修改、裁剪和配置使其满足用户的需求。组合过程:将已定制好的分布式对象集成在一起形成应用系统。,14,COM/DCOM/COM+COM,COM:即组件对象模型,是一种以组件为发布单元的对象模型,这种模型使各软件可以用一种统一的方式进行交互。COM既提供了组件之间进行交互的规范,也提供了实现交互的环境。因为组件对象之间交互的规范不依赖于任何特定的语言,所以COM也是不同语言协作开发的一种标准。COM的实质是这样一种协议,它负责将一个软件模块同另一个连接
10、起来,而不再参与其余的事务。连接建立后,两个模块可以通过一种称之为“接口”的结构进行通信。接口是一组逻辑上相关的函数集合,其函数也被称为接口成员函数。在同一个接口中的函数应该提供类似或相关的服务。,15,COM应用的组成部分,COM接口:通过接口的一个对象暴露它能提供给COM客户的服务。每个COM对象为一组相关的属性和方法提供了一个接口。在COM中,每一个接口都由一个128位的全局唯一标识符(GUID,Global Unique Identifier)来标识。客户通过GUID获得接口的指针,再通过接口指针,客户就可以调用其相应的成员函数。接口是COM对象提供服务的基本单元,因此一个COM对象可
11、以同时提供数个不同的接口,并且在不同的接口中提供不同的函数。COM服务器:它是一个模块,可以是EXE、DLL或是OCX,它们包含COM对象的实现代码。一个COM服务器由一个或多个COM对象组成,对象在服务器内部实现。一个COM服务器可以为多个客户提供服务,客户也可以连接到不同的服务器。一个COM服务器就是一个向客户应用或库提供服务的应用或库(如DLL)。COM客户:通过接口向服务器申请需要的服务。客户知道需要从服务器获得什么,但是客户不知道服务器内部的细节。,16,COM的特性,面向对象的特性和客户/服务器的特性。语言无关性:COM不依赖于特定的语言,只要能够生成符合COM规范的可执行代码即可
12、,该特性性为跨语言合作开发提供了统一标准。进程透明性:在客户/服务器的软件结构中,运行在客户端的代码和运行在服务器端的代码既可以在同一个进程中,也可以在不同的进程中。COM所提供的服务组件对象在实现时有两种进程模型:进程内对象和进程外对象。根据进程模型,COM服务器程序可以分为:进程内服务程序、本地服务程序和远程服务程序。进程内服务程序被加载到客户的进程空间,在Windows环境下通常以动态链接库(DLL)的形式实现;本地服务程序是一个独立的应用程序,它与客户程序运行在同一台机器上,通常它是一个EXE文件;远程服务程序运行在与客户不同的机器上,它既可以是一个DLL,也可以是一个EXE文件。虽然
13、COM对象有不同的进程模型,但对于客户程序来说是透明的。可重用性:由于COM标准是建立在二进制代码级的,因此COM对象的可重用性与一般的面向对象语言的重用过程不同。COM的重用性可建立在组件对象的行为方式上,而不是具体的实现上,因此它的可重用性不是源代码级的重用,而是二进制级的重用。,17,DCOM,DCOM(Distribute Component Object Model,分布式组件对象模型):是COM的扩展,它可以支持不同计算机上组件对象与客户程序之间或者组件对象之间的通信,这些计算机可以在局域网内,也可以在广域网上,甚至通过Internet进行连接。对于客户程序而言,组件程序所处的位置
14、是透明的,不必编写任何处理远程调用的代码。DCOM在COM基础上增加的主要特征创建远程对象的能力:客户只需调用OLE32.dll提供的库函数CoCreateInstance透明地创建组件,而不关心组件的位置。跨网络的数据传送能力:由于远程对象和客户处于不同的地址空间,它们之间的数据传送不但可能要跨网络进行,还要处理数据格式等一系列调整。当客户和远程对象进行数据传送时,在客户端需对参数进行列集,位于客户端的代理对象完成这一任务,进行跨网络的数据传送。安全性和访问控制能力。,18,COM+,COM+:并不是COM的新版本,而是COM的新发展,它是COM更高层次上的应用。COM+的底层结构仍然以CO
15、M为基础,它几乎包括了COM的所有内容。COM+倡导了一种新概念,把组件软件模型建立在应用层上,把所有组件的底层细节留给操作系统。COM+不再局限于COM的组件技术,它更加注重于基于分布式网络应用的设计与实现。COM+继承了COM几乎全部的优势,同时又避免了COM实现方面的一些不足。从COM的发展角度来看,COM最初作为桌面操作系统平台上的组件技术,主要为OLE服务。但是随着Windows NT与DCOM的发布,COM通过底层的远程支持组件技术延伸到了分布式应用领域,充分体现了COM的扩展能力以及结构模型的优势。MTS为COM增添了许多新的内容,弥补了COM和DCOM的一些不足,它注重于服务器
16、一端的组件管理和配置环境。COM+进一步把COM、DCOM和MTS统一起来,形成真正适合于企业应用的技术。,19,COM+,COM+继承了COM、DCOM和MTS的许多特性,同时也新增了一些服务:内存数据库负载平衡事件模型队列服务,20,分布式组件对象的特性,伸缩性:随着用户数目的增加、数据量的不断增多,分布式应用系统的适应能力反映了系统的优劣。使用COM/DCOM/COM+建立起来的应用系统能很好地适应这种规模的变化,当用户数比较少、数据量不大时,系统显得小巧而快速;当应用规模增大时,系统也能够正常运行并且在保证性能的情况下不影响可靠性。DCOM的位置透明性保证了这种变化可以不必修改组件源程
17、序。可配置性:安装和管理是分布式软件系统的两个重要环节。使用COM/DCOM/COM+建立的分布式软件系统可以很方便地对系统进行重新配置,包括服务器的变化、客户程序的自动安装等特性。微软为DCOM提供了一个图形界面的配置工具程序(DCOMCNFG.EXE),可使客户程序和组件程序在不改变代码的情况下适应不同的网络环境。安全性:DCOM使用了Windows NT提供的可扩展安全性框架,在非NT平台上实现的DCOM也包括了一个与NT兼容的安全提供器。DCOM实现的安全性分为访问安全性和激发安全性。访问安全性指定哪些用户可以调用分布式组件对象,激发安全性指定哪些用户可以在一个新进程中创建新的对象。,
18、21,分布式组件对象的特性,协议无关性:在基于COM/DCOM/COM+的分布式应用系统中,并不要求专门的网络协议,所以这种分布式应用系统对网络有很强的适应能力。在Windows平台上,可以使用以下一些协议:TCP/IP、UDP、IPX/SPX以及NetBIOS。平台独立性:COM/DCOM/COM+把平台二进制标准和平台无关的标准隔离开来,并且,由于DCOM建立在DCE RPC的基础上,所以DCOM能很好地适应不同的系统平台,目前已经实现了DCOM的操作系统有:Windows、Apple Macintosh以及Unix的一些版本。,22,使用COM技术实现数据仓库的组件,数据仓库是针对支持整
19、个企业范围的主要业务来建立的。主要特点是,包含大量面向整个企业的综合信息及导出信息,所以系统本身处在一个分布式环境中,且必须具有极好的扩展性和灵活性。COM/DCOM/COM+技术能适应数据仓库应用的需要,能最大限度地提高灵活性和可扩展能力。数据仓库的系统设计与开发是一个动态的反馈和循环的过程。一方面数据仓库的数据内容、结构、粒度、分割以及其他物理设计根据用户所返回的信息不断地调整和完善,以提高系统的效率和性能;另一方面,通过不断地理解用户的分析需求,向用户提供更准确、更有用的决策信息。将数据仓库系统从功能上分为若干个独立的对象,并使用COM技术实现,可以最大限度地重用这些对象。当用户的需求增
20、加或发生变化时,只需要增加相应的COM对象或更新变化的COM对象。,23,使用COM技术实现数据仓库的组件,通过将用户业务逻辑以DCOM对象的形式集中到中间层,系统就获得了对业务逻辑的独立性。当用户需求改变时,开发人员可以迅速地在应用服务器上更新业务逻辑,而无需将更新后的应用递交到成千上万的桌面系统上去,从而使开发人员从维护众多客户端的繁重工作中解脱出来。仓库是一个大规模的工程项目,它开发周期长,而数据仓库的需求又是动态的,不确定的。如果数据仓库的开发周期过长,可能当系统完成后,用户的需求已经发生了变化,从而造成开发资源的浪费;而且在当今激烈的市场竞争中,谁越早进行决策,谁就在竞争中占得先机,
21、所以数据仓库的开发周期越短,给企业带来的效益就越大。通过COM技术将数据仓库系统划分为不同的功能对象,可以使开发团队进行并行开发。开发人员只需要定义各个COM对象明确的接口,彼此之间不需要了解各自的工作。,24,使用COM技术实现数据仓库的组件,数据仓库的数据是从企业内部的各个操作型环境中提取出来的,所以数据仓库系统本身就处在一个分布式环境中。由于在数据仓库中数据的访问量非常大,所以提高系统性能的首要目标是尽量减少网络上的数据传递。可以将数据处理的各个组件以DCOM对象的形式存放在应用服务器上,所以,尽管可能存在着与应用服务器的多个甚至数百个的连接,但应用服务器与数据库服务器之间的连接却只有少
22、数几个,从而达到减少网络上的数据传送量。数据分析应用中的计算、操作和数据过滤通常是很复杂的。如果在客户机上完成这些处理工作,不仅要求客户机必须具有足够强大的配置,而且对网络负载能力也是一个考验。通过COM技术可以将执行此类处理工作的对象放在多个应用服务器上,利用COM+提供的负载平衡服务来提高数据仓库系统的可用性。由于数据分析时,每次查询涉及到的数据量巨大,所以往往会需要较长的响应时间,特别在数据分布时响应时间有时会让人难以忍受。COM+通过消息队列组件提供了异步通信功能,使得客户不必等待。,25,数据仓库体系结构的设计与实现,设计思想:客户端通过提交描述要调用的方法和要传递的参数的XML文档
23、进行调用。在应用服务器端实现所需服务的接口,当通信组件接收到XML文档后,创建XMLService组件并由XMLService组件根据XML文档调度服务,并将返回结果或错误信息封装成XML文档传递给客户端。将数据仓库系统划分为若干个独立的分布式对象,每个对象都可以独立地完成一项工作如数据转换、数据集成等。这些对象须使用开放的标准组件,它们具有可重用性高的特性。对象与对象之间通过XML文档进行通信。由于采用开放的XML文档集成数据,所以大大提高了系统集成异构数据源、半结构化数据及非结构化数据的能力。对象与对象之间既可以互相协作共同完成创建数据仓库的任务,又可以独立地完成某个特定功能。这些分布式对
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库与数据挖掘 数据仓库 数据 挖掘 演示
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-6380122.html