《数据仓库与数据挖掘》演示稿第5章.ppt
1,复旦大学 软件学院2004.04,数据仓库与数据挖掘(第5章),2,第5章数据仓库系统的实施,主要内容SQL Server 2000数据仓库设计与使用其他一些公司的数据仓库实施战略数据仓库的投资回报分析,3,SQL Server 2000 的基本服务,SQL Server 2000 关系数据库引擎:是一个流行的、具有高度可伸缩性和高度可靠性的数据存储引擎。该数据库引擎将数据存储在表中。每个表上都列出组织感兴趣的一些对象,每个表上的列表示由表建模的对象的属性,而表上的行则代表由表建模的这种对象的事例。应用程序可以将结构化查询语言(SQL)的语句提交给数据库引擎,后者将表格格式的结果集返回给应用程序。SQL Server 支持的特定 SQL 语言称为 Transact-SQL。应用程序还可以提交 SQL 语句或 XPath 查询,并请求数据库引擎以 XML文档形式返回结果。关系数据库引擎具有高度的可伸缩性。SQL Server 2000 企业版可以支持多组数据库服务器相互协作,构成可供上千用户同时访问的 TB 大小的数据库。该引擎能够处理世界上任何 Web 站点的流量。该数据库引擎还能自我调节,自动在连接到数据库的用户增多时获取资源,并在用户注销后释放资源。,4,SQL Server 2000 的基本服务,关系数据库引擎具有高可靠性。在数据库引擎的早期版本中要求停止和启动的管理操作现在可以在引擎运行当中执行,从而增加了可用性。数据库引擎与 Windows 2000 和 Windows NT 故障转移群集的集成可定义虚拟服务器,即使节点中的一台物理服务器出现故障,这些虚拟服务器仍然保持运行。在适当的地方,日志传送可以用于维护热备用服务器。在故障发生的数分钟内,热备用服务器可以代替生产服务器运行。关系数据库引擎具有高度的安全性。登录身份验证可以与 Windows 身份验证集成在一起,这样,密码将不会存储在 SQL Server 中,也不会通过网络发送而被网络嗅探器读取。网站可以设置 C2 级审核,对所有访问数据库的用户进行审核,还可以使用安全套接字层(SSL)加密的办法,对所有在应用程序和数据库间传送的数据进行加密。,5,SQL Server 2000 的基本服务,数据库引擎的分布式查询功能。可以访问所有可通过 OLE DB 访问的数据源中的数据。在 Transact-SQL 语句中,可以像引用实际驻留在 SQL Server 数据库中的表一样引用远程 OLE DB 数据源表。此外,全文检索功能可以对 SQL Server 数据库或 Windows 文件中存储的文本数据进行复杂的模式匹配。关系数据库引擎能够存储由顶层联机事务处理(OLTP)系统生成的所有事务的详细记录。该数据库引擎还可以支持最大的联机分析(OLAP)数据仓库中的事实数据表和维度表的严格处理要求。Microsoft SQL Server 2000 Analysis Services 提供分析数据仓库和数据集市中存储的数据的工具。Analysis Services 以多维数据集的形式显示事实数据表和维度表中的数据,从多维数据集中可以分析趋势和其它对于规划今后工作非常重要的信息。在 Analysis Services 多维数据集上处理 OLAP 查询比试图在 OLTP 数据库中记录的详细数据上进行同样的查询要快得多。,6,SQL Server 2000的特性,Internet 集成:SQL Server 2000 数据库引擎提供完整的 XML 支持。它还具有构成最大的 Web 站点的数据存储组件所需的可伸缩性、可用性和安全功能。其程序设计模型与 Windows DNA 构架集成,用以开发 Web 应用程序,并且 还 支持 English Query 和 Microsoft 搜索服务等功能,在 Web 应用程序中包含了用户友好的查询和强大的搜索功能。可伸缩性和可用性:同一个数据库引擎可以在不同的平台上使用。SQL Server 2000 企业版支持联合服务器、索引视图和大型内存支持等功能,使其得以升级到最大 Web 站点所需的性能级别。企业级数据库功能:SQL Server 2000 关系数据库引擎能充分保护数据完整性,同时将管理上千个并发修改数据库的用户的开销减到最小。其分布式查询得以引用来自不同数据源的数据,就好象这些数据是 SQL Server 2000 数据库的一部分,同时分布式事务支持充分保护任何分布式数据更新的完整性。复制功能可维护多个数据复本,同时确保单独的数据复本保持同步。,7,SQL Server 2000的特性,易于安装、部署和使用:SQL Server 2000 中包括一系列管理和开发工具,这些工具可改进在多个站点上安装、部署、管理和使用 SQL Server 的过程。SQL Server 2000 还支持基于标准的、与 Windows DNA 集成的程序设计模型,使 SQL Server 数据库和数据仓库的使用成为生成强大的可伸缩系统的无缝部分。这些功能可以快速交付 SQL Server 应用程序,使客户只需最少的安装和管理开销即可实现这些应用程序。数据仓库:SQL Server 2000 中包括析取和分析汇总数据以进行联机分析处理(OLAP)的工具。SQL Server 中还包括一些工具,可用来直观地设计数据库并通过 English Query 来分析数据。,8,SQL Server 2000 组件关系图,9,SQL Server 2000数据仓库工具,10,关系型数据库,关系型数据库是设计、构造、维护数据仓库的基础技术。Microsoft SQL Server 2000是一个关系型数据库管理系统,它提供了强大的数据库引擎和许多工具,这些工具不仅可以用于数据库的管理,而且可以用于数据仓库的管理,是数据仓库的技术基础。,11,数据转换服务(DTS),提供数据转换功能,例如数据引入、引出以及在SQL Server和任何OLE DB、ODBC或者文本各是文件之间转换数据。利用DTS,通过交互式地或按照规划自动地从多处异构数据源输入数据,这样便有可能在SQL Server上建立数据仓库和数据市场。数据的来源特性允许用户输入查询数据的输入时间、地点及其计算方法。数据的引入引出是通过以相同的格式读写数据,在应用程序之间交换数据的过程。一次转换是指在源数据被存储到目的地之前,对其进行的一系列操作。转换特性使得载引入引出中完成复杂数据的验证、清除等功能变得非常简单。定制转换对象可以被创建并集成进第三方产品中。DTS支持多步封装,其中大量文件能被单独处理,最终被集成为一个单一的文件。在目的地,该文件的记录能被系统分为多个记录,或相反,多个记录被集成为一个单一的记录。DTS也与微软的中心库集成在一起,微软数据中心库存储元数据、数据传送包和数据源特性,许多独立的软件经销商支持和共享这个元数据模型。数据转换服务可以在SQL Server间移动数据结构、数据、触发器、规则、默认、约束和用户定义的数据类型,只有数据结构和数据可以在不同的异构数据源中间传递。,12,数据复制,数据复制:是一种实现数据分布的方法,就是指把一个系统中的数据通过网络分布到另外一个或者多个地理位置不同的系统中,以适应可伸缩组织的需要,减轻主服务器的工作负荷和提高数据的使用效率。数据复制的过程类似于报纸杂志的出版过程,即把信息从信息源迅速传送到信息接受处。出版服务器包含了将要复制的数据所在的数据库,该服务器负责制作将要出版的数据,然后将这些出版的数据的所有变化发送到分布服务器中。订阅服务器是数据复制的目标地,负责接收复制过来的数据,并且负责接收从出版服务器上传送过来的全部变化。分布服务器在出版服务器和订阅服务器之间起中介作用。分布服务器负责从出版服务器中接受复制过来的数据,然后在该服务器上的分布数据库中存储这些变化,最后按照指定的时间间隔推向响应的订阅服务器。在复制过程中,把将要复制的数据称为出版物和文章。文章是复制的基本单元,是组成出版物的最小单位。文章与数据库中的表对应。文章既可以对应一个表中的全部数据,也可以指包括表中的一部分数据。出版物是一个完整的将要复制的内容,它包括一篇或多篇文章,是订阅服务器订阅的对象。,13,OLE DB,OLE DB式微软开发的数据访问编程界面。微软已经定位OLE DB是ODBC继承者,ODBC主要用于处理关系型数据。ODBC是基于SQL的,它可以很好的用于关系型数据库访问,但是它不能用于非关系型数据源。象ODBC一样,OLE DB也提供对关系型数据的访问,但是OLE DB扩展了由ODBC提供的功能。OLE DB的设计目的是用于所有数据类型的标准界面。除了关系型数据库的访问,OLE DB提供对各种各样数据源的访问,包括Excel电子表格的数据,dBase的ISAM文件、电子邮件、新的NT的Active Directory和IBM的DB2数据。使用OLE DB,用一个界面就可以访问许多不同的数据源。OLE DB是微软的数据访问策略,称为万能数据访问的基础。万能数据访问指的是一组通用界面,它用来表示来自任何数据源的数据。OLE DB是使万能访问成为现实的技术。万能数据访问和OLE DB的另一方面是所有的对象都应该在数据库中维护,不是企图把商业要求的不同的数据移动到一个面向对象的数据库中。OLE DB创建和理解企业数据并且在各种数据源中维护。,14,Analysis Services,在数据仓库或者数据市场中的信息可OLAP处理,OLAP可以有效的以维度和度量组成的立方体方式察看数据。维度是一种描述性分类,例如,维度可能是地理位置,也可能是产品类型。度量是一种定量数值,例如销售额、库存量或者总费用。来自于原始数据源的合计存储在每一个立方体单元中,这种组织数据的方法可以轻易得过滤数据、有效的加快数据的查询。然而,存在着这种问题:虽然OLAP合计是在数据仓库中可以达到的查询性能的关键因素,但是存储这些合计数据的成本是磁盘存储量。事实上,合计数据量可以轻易的超过原有的数据量。另外,当维度和合计量提高时,所要求的OLAP数据存储量也大大的提高。这种对存储量的极大要求一般称为数据爆炸。OLAP描述的是一种多维数据服务,这种服务的设计目的是保证分析员、经理和决策者针对特定的问题,通过快速、一致、交互式的实时数据访问和分析。,15,Analysis Services,MOLAP:多维型OLAP在一个用于压缩索引的永久数据存储中存储维度数据和实时数据。合计存储用来加快数据访问。MOLAP查询引擎是专有的,而且优化成由MOLAP数据存储使用的存储格式。MOLAP提供了比ROLAP更快的查询处理速度,并且要求更少的存储空间。然而,它不能较好的伸缩,并且要求使用单独的数据库来存储。ROLAP:关系型OLAP在关系型数据表中存储合计。ROLAP针对关系型数据库的应用允许其利用已有的数据库资源,并且允许ROLAP应用程序很好的伸缩。然而,ROLAP使用表存储合计则要求比MOLAP更多的磁盘空间,速度相对比较慢。HOLAP:正如其名称所示,混合型OLAP介于MOLAP和ROLAP之间。象ROLAP一样,HOLAP将主数据存储在源数据库中。象MOLAP一样,HOLAP把合计存储在一个永久性数据存储的地方,它与主关系数据库分开。这种混合形式使HOLAP可以具备MOLAP和ROLAP两者的优点。,16,English Query,微软的英语查询环境允许设计者将他们的关系数据库转移到英语查询上来,这给最终用户提供了使用英语提出问题而不是用SQL语言进行查询的能力。English Query服务是利用英语查询域编辑器创建的,提供了数据库的有关信息,从而使English Query可用于处理关于特殊表、域和数据的英语问题。,17,Meta Data Services,在Microsoft SQL Server 2000中,许多工具把元数据存储在位于msdb系统数据库中的集中式中心仓库中。这里提到的元数据是指数据的数据,Meta Data Services提供浏览这些元数据的功能。数据中心库提供了一个通用的位置:可以用来存放对象和对象之间的关系。通过使用一些软件工具,可以描述面向对象的信息:软件工具使用各类对象组成的信息。对象接口界面,界面由属性、方法和集合组成,集合包含了对其他界面的关系,以及关联对象。,18,PivotTable服务,PivotTable服务和Analysis Services一起为用户提供客户端对OLAP数据的存取。PivotTable服务运行于客户端工作站上,它使得可以利用VisualBasic或其他语言来开发用户程序,这些程序可以利用OLE DB技术,并使用Analysis Services中的OLAP数据或直接取自关系数据库的数据。当它和OLAP服务一起使用时,PivotTable服务可以自动将进程或缓冲内存分配到最合适的位置,并且允许多个客户动态存取同一个立方体。PivotTable服务业能在本地客户机上存储数据,从而使用户可以在不连接Analysis Services的情况下对数据进行分析。这种移动式的解决方案允许分析者将数据带回家或在途中进行分析。为最终用户提供的OLAP数据分析和描述工具可以利用PivotTable服务进行开发。PivotTable服务也提供了开放的界面,独立的软件销售商可以利用它来开发第三方应用的产品。,19,数据仓库的实现步骤,明确用户需求设计和建立数据仓库使用数据仓库维护和优化数据仓库,20,数据仓库生命周期管理,数据仓库系统框架影响数据仓库项目成功的因素数据仓库的技术数据仓库项目所需的角色,21,数据仓库系统框架,基本特点拥有为项目作出技术决策的观察点拥有确定项目是否能够完成的计量参照点拥有以灵活方式运用现有知识的能力分部分、分阶段依靠多个工作小组协调完成四个阶段设想阶段规划阶段开发阶段稳定阶段,22,影响数据仓库项目成功的因素,数据仓库创建前的影响因素管理层的信任从管理项目开始:面向主题交流实现目标任命一个面向用户的项目经理数据仓库创建时的影响因素采用成熟的技术注重查询而不是注重事务只加载所需数据定义合适的数据源:元数据映射明确定义主题数据仓库创建后的影响因素面向决策的使用者的信任,23,数据仓库的技术,管理大量的数据管理多介质索引和监视数据多种技术的接口对数据存放位置的控制数据的并行存储和管理元数据管理技术语言接口数据的高效装入高效索引的利用技术数据压缩技术复合键码技术变长数据锁管理切换技术快速恢复技术其他技术:事务集成性、高速缓存、行/页级锁定、引用完整性、数据视图等,24,数据仓库项目所需的角色,管理角色项目主管项目经理技术角色数据提供专家体系结构设计者数据库管理员数据迁移专家数据转换专家数据集市开发的领导人质量保证/测试专家维护角色内行的用户培训教师技术文档编写人员工具专家销售商联系人,25,创建数据仓库向导,26,创建数据仓库向导,27,创建数据仓库向导,28,创建数据仓库向导,29,完成创建数据仓库,30,创建事实维度表,31,创建事实维度表,32,属性选项卡,33,属性选项卡,34,创建数据库关系图向导,35,关系图,36,多维数据集向导,37,多维数据集,38,多维数据集,39,数据仓库软件市场,19931998平均年增23.9%,达22亿美元。数据值入工具:从数据库中提取数据,转换为数据仓库格式并送入数据仓库中。数据过滤工具:对数据仓库中的数据进行存放和管理。数据存取工具:让用户存取数据仓库中的数据。数据仓库市场划分,软件总市场6949312416612。3%,数据存取663-125813.7%,第三代语言/公用程序3061-601914.5%,CASE1751-308512.5%,DBMS5801-11680%15.0%,其它市场58163-10212411.9%,数据存取663-125813.7%,数据提取/转换31-23249.3%,数据管理59-70864.3%,数据仓库753-219823.9%,数据复制14-31987.1%,注:*-*%指1993年-1998年 销售额(M$)年递增率,40,(1)动态可伸缩的数据库系统(DSA)存放大量数据:几个GB到几个TBPDQ(并行数据查询)技术:实现数据查询、索引扫描。索引建立、数据修改、备份 恢复等数据库操作的并发处理支持所有开放系统硬件环境:单CPUSMP(对称多处理器)Cluster(松耦合群体系统)MPP(大规模并行系统),批处理操作数据,事务处理操作数据,外部数据,数据仓库管理软件,开放系统平台,元数据,目标数据库,数据存取工具,INFORMIX-ONLINE 动态服务器,INFORMIX的数据仓库战略,41,Sybase Warehouse Works 体系结构(1)C/S 环境下的数据仓库框架,联机事务处理,子系统,部门数据,部门数据,局部仓库,局部仓库,中央仓库,个人使用,个人使用,决策支持,数据分布的灵活性要求,(2)Sybase支持数据分布的方法Enterprise CONNECT 互操作体系结构:并发方法、异构数据分布、信息打包Replication Server 的基于事件的事件捕捉功能基于时间调度方式的批时间拷贝方案(3)高速的时间访问Navigation Server(导航服务器)SQL Server中增加interaction Query(IQ)Accelerator 进行随机高速查询Sybase Omni SQL Server 提供时间访问透明性推荐125种无缝存取数据的工具,42,ORACLE的数据仓库实施战略,决策支持应用系统Oracle Applications Data Warehouse外部数据源析取、转换、装载工具数据仓库管理工具数据分析工具数据集成工具数据挖掘并将数据切换到用户自定义的视图中数据挖掘数据切换多维视图,43,ORACLE的数据仓库实施战略,针对多维数据的扩展Oracle 7扩展Oracle 7 Spatial Data Option管理多维数据或时空数据多维数据的编码:HHCODE标准多达32维的数据综合无索引通过数据分割优化VLDB多种查询方式:行方式、近似方式、自定义多角度方式数据过滤器数据转换工具集数据管理工具集,44,数据仓库投资回报分析,DW技术投资的收益加拿大IDC公司对62家公司调查收益巨大DW的特点(Bill Inmon):数据按主题组织,有利于宏观分析、决策分析数据是集成的,无需再转换数据是稳定的,便于查询信息是面向时间的,是一定期限时间的快照,45,DW投资回报巨大的原因,DW中的协同数据能够使管理者了解完整的商业过程、制定决策维护费用比DSS低软件、硬件、存储费用低减少白领工人为决策者提供崭新视角,发现规律,从正确的决策中获取效益同时进行宏观、微观管理,减少手工劳动、避免错误,46,DW投资回报的定量分析,投资回报的度量标准投资回报率(ROI)回报周期(PP)净现值(NPV)内部回报率(IRR)DW的投资回报率(ROI)与回报周期(PP)收益现值ROI=成本现值结果:62个企业中45个企业ROI为31838,三年平均ROI为401 DW平均投资2200万美元,平均回报周期为2.3年 8个为负值 9个为185716000,47,DW投资回报的规律,DW维护人员提高效益、规范小型化、即席查(占20)信息收集、传输自动化(占30)最终用户制定基于分析的决策以DW为唯一信息源(占50)高技术制造业、制造业高于其他行业200GB以上的数据仓库具有较低的ROI以业务/工程为主要用户的企业具有较高的ROI欧洲企业平均ROI为340,北美为440,48,数据仓库投资回报的定性分析,从总体上管理企业与客户之间的关系让客户获得更多的好处建立企业内部的合作关系对机遇作出快速反应可管理宏观和微观数据改善管理能力,