第五章 数据仓库和商业智能ppt课件.ppt
《第五章 数据仓库和商业智能ppt课件.ppt》由会员分享,可在线阅读,更多相关《第五章 数据仓库和商业智能ppt课件.ppt(102页珍藏版)》请在三一办公上搜索。
1、第五章 数据仓库+OLAP,课程导入:,DSS的数据大多来自于事务处理系统。随着信息系统处理能力的增强,所产生的数据越来越多,如何解决数据的整合性和提高分析的有效性,成为DSS发展的难题。问题:MIS中的数据库难道还不满足数据整合分析的要求吗?为什么?瓶颈在哪里?,数据仓库出现的背景:1.DSS的数据来源:不同的事务处理部门,每个部门都有独立的数据库,因此,数据库的结构有所不同,一般有以下三种结构:,5.1 数据仓库,整合型,分离型,析取型,DSS的数据库和事务处理系统的数据库是统一的,决策者可以直接运用事务处理系统中的数据进行决策分析。,DSS的数据库是独立于事务处理系统的,其数据可能从各种
2、数据源获取,部分可能来自事务处理系统。,DSS的数据库和事务处理系统的数据库虽然是分离的,但DSS中的数据是从事务处理系统的数据库中析取得来的。,80年代前,90年代后,用例子说话:某企业的销售数据查询,C表,D表,B表,A表,尽管各表上的数据都不一样,但实际上都是对该企业的销售额数据从不同的视角进行观察的结果。 因此,用 二维表来表示数据的效率是很差的。 如果将这些表存储在不同的数据文件或应用程序中,就可能产生大量的冗余,同时会产生数据不一致的情况。假设,用户甲发现表A中的数据记录有误,于是对表A的数据进行修正,但表A与其他表没有关系,其他表的数据都没有得到修正。在年底计算合计时,将会产生数
3、据的不一致。 因此,将每个特定的需求看做是对这个整体的特定维度上的某种操作所得到的结果将来自不同数据源的数据整合起,就可以避免出现以上问题。 整合工具数据仓库。,数据仓库(Date Warehouse,DW)是一种数据资源架构。是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,它用于支持企业或组织的决策分析处理。,5.1.2 数据仓库的定义,数据存储中心,过滤、筛选、整理、分类,数据仓库,作业性数据,决策者,数据仓库的基本工作方式,数据仓库之父Bill Inmon的定义:,在1991年出版的“Building the Data Warehouse”一书中所提出的定义被广泛接受数据
4、仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。,定义解读:,面向主题:操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的(例如顾客、政策类型、保险公司索赔等)。 面向主题使用户可以不仅能够确定他们的企业运转如何,而且知道为什么。,集成的:,数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经
5、过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。 不同地点保存的数据也许编码类型不同,例如性别数据在一个地方以“0”和“1”进行编码,而在另一个地方以“F”和“M”表示。这样的数据要进入到数据仓库中,要先被清洗成同一种格式,使数据具有标准化和一致性的特点。另外,数据和时间格式在世界各地也不同。,相对稳定的:数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。因此,数据仓库需
6、要大量的自由空间为数据量增长做准备。,定义解读:,反映历史变化:,数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。 数据仓库的数据通常保存510年甚至更长时间用于趋势分析、预测和比较。时间维是所有数据仓库必须支持的一个重要维度。,不同角度解读“数据仓库”,设计者视角:数据仓库的关键成功因素在于如何设计其中的数据存储中心的结构以及它的一套数据转换和操作机制,使得作业性数据能够以恰当的形式进入数据仓库并得到妥善的管理,在需要的时候能有效的被决策者所利用。数据使用者视角:
7、数据仓库应当根据不同的管理活动的需要,对作业性数据从多角度进行加工处理。,数据仓库支持第一美国银行的企业战略,第一美国银行(First American)改变企业战略从传统的公司经营方法转向成为创新金融服务的领袖,如果没有一个被称为“VISION”的数据仓库,这一战略的成功实施是不可能的。这个数据仓库中保存顾客行为数据,例如顾客使用过的产品、购买偏好和顾客价值层次。VISION系统提供了: 识别前20%的盈利顾客; 识别40%-50%的非盈利顾客; 顾客保留策略; 低成本的分销渠道; 扩展顾客关系的战略; 信息流的再设计。通过数据仓库获取信息能够促进渐进的和革命性的变革。第一美国银行获得的革命
8、性的变革,是它成功成为“Sweet 16”的金融服务公司。,西尔斯公司的数据仓库,到2002年4月,西尔斯罗巴克公司部署了95TB的新的数据存储。这一容量是原来的3倍。西尔斯公司将两个关键的数据仓库统一起来并建立一个存储的网络,能够用库存和销售数据仓库处理顾客信息。依靠这一系统,西尔斯能够执行有效的目标直邮促销。大约5000名西尔斯员工出于分析目的使用数据仓库。他们能够得到促销信息,分析单个顾客的购买情况并和历史购买记录联系起来。,数据仓库的主要供应商,Carleton、IBM、Informix、Microsoft、NCR、Oracle、Red Brick和Sybase,数据集市(Data M
9、art)是部门级的数据仓库,或是为某种专门的用途开发的数据存储系统。,5.1.2 数据集市,数据集市,从属Dependent Data Mart数据从企业的数据仓库获得,可看做数据仓库的一个子集。,独立Independent Data Mart直接从各个应用系统取得数据。部门级的数据仓库。,优点:具有较好的数据整合性,因为其数据是从数据仓库中得来的,具有继承性。缺点:若所需数据不在集市内,需先修改数据仓库的结构,让该数据先进入数据仓库,才能再进入集市。,优点:成本低、灵活性好,需要新的数据时不需修改企业级的数据仓库。可用其来提供个别部门所需的数据。缺点:整合性差。虽然在数据量和服务对象上有所不
10、同,但和企业级的数据仓库的逻辑结构是一样的。,数据仓库的高成本使其主要应用于大公司中,作为替代方案,许多企业使用低成本、小规模的数据集市。,数据集市的优点: 其成本和企业数据仓库相比较低(通常在10万100万美元左右) 实施的时间短,通常少于90天 数据集市可以在局部进行控制而不需要在企业范围集中控制,用户有更多的权力 数据集市比数据仓库包含更少的信息,更容易被浏览 允许业务单元建立自己的决策支持系统而不需要依靠公司的信息系统部门 独立的数据集市可以用于验证开发全面的企业数据仓库所需资源,这能够快速实现收益,投资回报更快,5.2 数据仓库的体系结构,数据仓库系统通常由数据仓库、管理部分和分析工
11、具三个部分组成,这三个部分之间的关系下图所示。,数据仓库的数据来自多个数据源,包括企业内部数据和市场查与分析的外部数据。,在确定数据仓库信息需求以后,需要进行数据建模,确定从数据源到数据仓库的数据抽取、清理和转换过程,分析、划分维数以及确定数据仓库的物理存储结构。,元数据是数据仓库的核心,用于存储数据模型,定义数据结构、转换规则,数据仓库结构和控制信息等等,管理部分的主要功能,强调:,在客户与服务器之间是多维联机数据分析(OLAP)服务器。该服务器的作用:可将数据仓库服务器所做的OLAP操作工作转移到其上,降低系统中的数据传输量,提高工作效率。客户端的作用:与用户进行交互对话,将用户的需求转换
12、为服务器可以理解的方式送到服务器,取回查询的结果进行显示和提供报表等。,5.2.2 ETCL功能,数据整理中常用的一些技术和手段1.数据抽取(Extract)从数据源中抽取相应的数据到DSS中。常见的数据源包括一些著名的数据库厂商和ERP厂商;互联网。数据的抽取要根据DSS的要求,只选取数据源中对于特定的决策问题有用的数据。,某些数据需要经过审查和净化等才能加载到系统的数据库中。数据源中可能含有噪音数据,即错误数据,要通过过滤机制将它们除去。譬如,顾客性别字段为空值,或者填写了不存在的邮政编码等这样的情况需要根据业务规则进行修正。,2.数据清洗(Clean),原始数据中,不同的数据源的数据格式
13、是不同的,有些数据需要进行拆分或合并后才能形成我们需要的格式,有些可能还需要进行计算。例如,中西方习惯不一样,姓名、日期等的表示有所不同,这些都需要转换为统一的格式,方便下一步处理。重要的数据转换类型:数据聚合,即将零散的数据按照某种维度进行汇总合计,成为抽象度较高的数据。,3.数据转换(Transform),对转换后的数据可以指定相应的目标数据库,对大量数据可以由系统根据相应的设定条件自动进行加载。,4.数据加载(Load),有一些专业的软件公司专门生产通用的ETL工具,如Informatica,Sagent,Ascential公司等。另外,一些以ERP和数据库产品为主的软件公司也提供自己专
14、用的ETL工具,如SAP的BI,IBM的Warehouse Manager,5.2.3 数据的存储层次,数据仓库的特点之一丰富的存储机制数据仓库中的数据存储是一个层次化的逻辑结果,见P111图5-6。先从作业性的数据源获得数据仓库的输入,根据决策者所需要的主题进行存储。这一层所存储的是详细数据,称为当前基本数据层。在此基础上可以对详细数据进行不同程度的汇总和抽象,形成概略数据层,可分为轻度概略和高度概略。随着时间的推移,也为了对数据进行有效的归纳和管理,详细数据通常只保存一定的时间,超过期限就应当转为历史详细数据,以便数据仓库长期保管。,5.2.2 数据的存储层次,高度概略数据层,轻度概略数据
15、层,当前基本数据层,历史详细数据层,见课本112页商店中的销售活动所产生的数据的处理。,案例2:详细数据,案例1:,公安监控网:高速球进行实时监控,传回的数据全是图像数据,要求实时存储,保存期限15天、一个月,甚至三个月。一个高速球监控状态: 每小时监控到的图像数据平均约有225兆250兆,24小时连续运转。数据仓库的要求:TB级存储容量。,数据仓库开发的困难,1.没有理解数据的价值2.未能理解数据仓库的概念3.尚未清楚了解用户将如何使用数据仓库之前,便贸然开发数据仓库4.对数据仓库的规模的估计模糊5.忽视了数据仓库体系结构和数据仓库开发方法,为了建立有用的数据仓库,在结构、过程、专家知识以及
16、其他方面,开发者必须拥有非常丰富的资源。但是光有这些资源,还不能保证建立一个成功的数据仓库环境。数据仓库的投资必须有一个严密的评估过程,来评价领先数据仓库提供商提供的数据仓库的优缺点。,数据仓库厂商面临的挑战:,目前没有一个数据仓库厂家能够提供端对端(end-to-end)的数据仓库解决方案,但SAS,IBM,Software,AG,Information Builders和Platinum已经开始朝这个方向努力,但热度远远不够。以下的例子中,主要的数据仓库提供商IBM就面临了一种这样的挑战。,IBM的挑战,主要数据仓库提供商IBM面临这样的挑战: IBM起初的产品是Visual Wareho
17、use(可视化数据仓库),如果在OS/2系统下运行,可以很好的整合,但是在其他的操作系统平台上,例如Windows NT和Novell等,它的灵活性就很差。而且Visual Warehouse还不能管理局域网之外的数据库。 由此可见,即使是数据仓库供应商,也在协调各部分工作中遇到了很多麻烦。,补充: 数据仓库未来发展方向,1.数据仓库技术和应用 数据仓库成为一个组织决策支持基础设施的成熟部分是一个必然趋势。数据仓库技术的发展包括数据抽取、数据管理、数据表现和方法论等方面。数据仓库的发展趋势主要表现在几个方面: (1)对非结构化数据的处理 (2)实现共享数据 (3)对信息进行打包 (4)信息互联
18、(万维网) (5)规则的约束,规则的约束,从大量的不相关的数据中分析提取信息的能力,使得必须产生一些保护某些数据不被其他对象访问的要求。随着数据的访问更加容易,这种防止隐私泄露的要求也不断提高,这就需要建立一些规则,在进行大量有用分析的同时,保护个人隐私。,万维网(WWW),随着目前越来越多的信息相互关联,WWW无疑对数据仓库的建立有着重要的影响。网络使得访问和转换大量的相关数据更为容易和经济。这使得Internet和Web成为把外部数据库和数据仓库整合起来的理想工具。这样,数据的一致性、精确性和数据质量问题就需要注意和解决了;这样就可能会出现第三类企业,它们的主要目标就是评估外部数据源的一致
19、性和质量。这种质量评估可以决定外部数据源载入数据仓库时的价值。同样,这种质量评估可以决定访问这些数据需要的价格,数据质量越高,价格也越高。,存储非结构化的数据,通常,一般的数据仓库只局限于存储结构化的数据,形式一般为记录、域以及数据库。非结构化的数据,例如多媒体文件、图形、图像、声音、视频文件,在组织中已越来越重要。对这些文件的存储、整合和访问要求有扩展的数据仓库结构和接口。在未来数据仓库环境中,用户可能会寻找不同产品之间的联系,数据仓库不仅要存储结构化的数据,而且还需要能够扫描和分析图像、视频和音频文件来促进这种关系的建立。要实现这个层次上的使用和功能,数据仓库应用和工具厂商面临大量的技术上
20、的和实现上的挑战。,2.国内数据仓库的需求与应用特点国内数据仓库的需求主要表现在如下方面:(1)由于银行商业化的步伐正在加大,各大、中型银行开始重新考虑自身的业务,特别是加强对自身的信贷风险的管理,因而对有关信贷风险管理和风险规避的决策支持系统的需求逐渐多了起来。(2)由于电子商务的迅速发展,不少网站开始考虑如何提高对顾客的忠诚度,为客户提供更进一步的“贴身”服务。(3)各大型企业如移动通信公司等开始考虑着手进行决策支持以及数据仓库规则。,虽然国内的数据仓库市场经过了多年的发展,但是比起国外大企业所建的巨型企业级数据仓库来讲,还只能算是刚刚起步,还存在很多的不足之处,主要表现为以下几点:,(1
21、)计算机应用水平较低,无法提出决策支持需求,所以很多企业无法马上实施数据仓库。(2)缺乏数据仓库方面的人才。(3)缺乏以国内环境为背景的范例和成功应用。(4)数据仓库概念过大,很多用户感觉可望不可及。,数据仓库中“数据的数据”(data about data)。可对数据仓库中的各种数据进行详细的描述与说明,说明每个数据的上下文关系,使每个数据具有符合现实的真实含义,使最终用户了解这些数据之间的关系。即描述数据及其环境的数据。元素据通常是根据不同的系统、不同的应用需求来设计的,一个数据仓库中的元素据对于另一个数据仓库可能是完全没有意义的。,5.2.4 元数据,常用的元数据类型,描述数据的来源、源
22、数据的结构、索引信息等,数据源描述,数据模型,转换映射,数据模型:组织数据所依据的逻辑结构记录数据的实体、关系、有效值和存取规则,记录数据源中的数据经过哪些处理后才能进入到数据仓库。例如转换规则、属性的转换等,应用性,记录有关数据仓库的应用历史,用户类型、使用频率等,生活中的元数据,一个数据存储在共享卷里时,我们可以直接看到它是一个文档、或图片、或视频、或数据库文件,这些都是数据本身。然而在存储该数据时,文件系统还会产生很多无法直接看到的,与该数据有关的数据,如文件系统中文件检索表,路径信息、地址信息等,而这些数据就称之为文档、图片、视频等在共享卷中的元数据。 我们可以在很多地方看到元数据的存
23、储,网上DOWN下来的电影本身只是一个视频文件数据,而点击右键查看到的视频文件属性,如存储路径、码率、文件大小及导演、演员、制作单位等就是视频文件的元数据。,例子(元数据应用):假定在同一时刻我们查询组织的数据仓库时,找到以下三种数据集:,1.615397 8350621 885214 005210232.一个小组9/11/96的报告指出,机械工具在亚洲的市场1995年增长了33%。3.领先的体育用品营销公司:IMG45%,SportStars33%,Legends Inc 16%我们能从这些数据中得到什么信息呢?,第一个数据,答案是“没有”。这些数字可以是部门或地区的销售数据,可能是某些城市
24、的人口,可能是一组样本的细胞数目,还可能是代表一系列计算机的机器码有两个方法可以确定这些数据的意义: 通过上下文或者通过元数据通过上下文,这些数据是我们已知意义的给定表的查询结果。根据元数据,我们查询描述这些数据的元数据,元数据可以告诉我们表的名称或者更多的信息。,第二个例子看起来易懂一些。这是一句话,自己对自己进行了描述。但是有一点:日期的显示出现了歧义。 9/11/96究竟是指1996年9月11日(美式),还是指1996年11月9日(英式)呢?我们可以通过元数据指出所显示的数据格式为“月/日/年”而消除歧义。,第三个例子包含了一些元数据:我们知道数据代表着领先的体育用品营销公司。但我们不知
25、道 百分比代表什么,数据是哪个时期的,是如何收集起来的,甚至不知道信息的来源。没有足够的元数据,本例中的数据就毫无用处。可以把元数据看做一种“夹子”,利用它来处理原始数据。没有元数据,数据就失去了意义,我们不知道它们在哪里,占有多大的容量,有关数据仓库的讨论题:,1.数据仓库的支持者说,数据仓库的概念能够运用到任何行业或者知识领域。考虑几个利用数据仓库完善信息管理的例子,你能够想出一些不能运用数据仓库的行业吗?2.元数据无处不在,找到一个与学校、工作或者家里的信息相关的数据库,尽可能地找出所有的元数据。,课程导入:,数据仓库希望解决的主要问题是企业数据的整合,如何将数据进行有效的分析需要使用新
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第五章 数据仓库和商业智能ppt课件 第五 数据仓库 商业 智能 ppt 课件
链接地址:https://www.31ppt.com/p-1901306.html