数据仓库概述课件.ppt
《数据仓库概述课件.ppt》由会员分享,可在线阅读,更多相关《数据仓库概述课件.ppt(68页珍藏版)》请在三一办公上搜索。
1、2023/3/13,数据仓库概述1,数据仓库概述,数据仓库概述1,课程简介:,1.为什么出现数据仓库与数据挖掘?啤酒与尿布7-112.研究内容从海量数据中找到规律与联系,为决策提供支持3.数据仓库与数据库的不同,数据仓库概述1,数据库与数据仓库,数据仓库概述1,主要学习内容:,第一篇 数据仓库与OLAP数据仓库联机分析处理技术(OLAP)数据预处理技术数据清洗数据集成和变换数据约简第二篇 数据挖掘数据挖掘技术关联规则挖掘、分类、聚类分析数据挖掘在各领域的应用等。,数据仓库概述1,主要参考书:,1数据仓库 Inmon W.H 著 机械工业出版社 2数据挖掘 概念与技术 Jiawei Han&Mi
2、cheline Kamber 著 机械工业出版社 3数据挖掘 朱明 著 中国科学技术大学出版社 4数据仓库与联机分析处理 王珊等 著 科学出版社,数据仓库概述1,考核方法:,考核采取笔试结合实验的方法:实验成绩 30%笔试成绩 70%,数据仓库概述1,第一章 数据仓库概述,本章介绍了数据仓库技术产生的背景、数据仓库的含义与特征、数据仓库与操作型数据库系统的区别和数据仓库的基本体系结构。,数据仓库概述1,1.1 数据仓库的产生 1.2 数据仓库的含义 1.3 数据仓库的特征 1.4 数据库系统与数据仓库 1.5 数据仓库的基本结构 1.6 数据仓库的基本概念 1.7 数据仓库的数据组织,数据仓库
3、概述1,11 数据仓库的产生,1.数据处理分为两类:事物处理分析处理 2.传统数据库较难满足分析处理的要求:历史数据需求量大不同系统的数据难以集成(蜘蛛网问题)对大量数据的访问性能不足事务处理和分析处理数据环境的分离,数据仓库概述1,1.2 数据仓库的含义,对于什么是数据仓库,还有许多不同的定义,如:“数据仓库是融合方法、技术和工具以在完整的平台上将数据提交给终端用户的一种手段”。“数据仓库是对分布在企业内部各处的业务数据的整合、加工和分析的过程”。“数据仓库是一种具有集成性、稳定性和提供决策支持的处理”。“为查询和分析(不是事务处理)而设计的关系数据库”20世纪80年代中期,“数据仓库”这个
4、名词首次出现在号称“数据仓库之父”W.H.Inmon的Building Data Warehouse一书中,在该书中,W.H.Inmon把数据仓库定义为“一个面向主题的、集成的、稳定的、随时间变化的数据的集合,以用于支持管理决策过程。”(“A data warehouse is a subject-oriented,integrated,non-volatile,time-variant collection of data in support of management decisions.”),数据仓库概述1,William H.Inmon:数据仓库是一个面向主题的、集成的、非易失的且随
5、时间变化的数据集合,用于支持管理人员的决策。,数据仓库之父-Bill Inmon,William H.Inmon:William H.Inmon是世界公认的“数据仓库之父”,是数据仓库及其相关技术网站的合作伙伴,是“企业信息工厂”的创造者之一。他一直致力于数据库和数据仓库技术方面的研究,在数据管理和数据仓库技术方面以及数据处理的管理方面撰写了40多本著作,发表过600多篇学术论文,并且经常应邀在技术和学术会议上演讲。,数据仓库概述1,1.3 数据仓库的特征,数据仓库的数据是面向主题的 数据仓库的数据是集成的 数据仓库的数据是非易失的 数据仓库的数据是随时间不断变化的,数据仓库概述1,面向主题,
6、主题(Subject):特定的数据分析领域与目标。面向主题:为特定的数据分析领域提供数据支持。数据仓库是面向分析、决策人员的主观要求的,不同的用户有不同的要求,同一个用户的要求也会随时间而经常变化,因此,数据仓库中的主题有时会因用户主观要求的变化而变化的。,数据仓库概述1,面向主题,为特定数据分析领域提供的数据与传统数据库中的数据是有不同的。传统数据库中的数据是原始的、基础的数据,而特定分析领域数据则是需要对它们作必要的抽取、加工与总结而形成。,数据仓库概述1,面向主题示例,例:一个面向事务处理的“商场”数据库系统,其数据模式如下采购子系统:订单(订单号,供应商号,总金额,日期)订单细则(订单
7、号,商品号,类别,单价,数量)供应商(供应商号,供应商名,地址,电话)销售子系统:顾客(顾客号,姓名,性别,年龄,文化程度,地址,电话)销售(员工号,顾客号,商品号,数量,单价,日期),数据仓库概述1,面向主题示例,库存管理子系统:领料单(领料单号,领料人,商品号,数量,日期)进料单(进料单号,订单号,进料人,收料人,日期)库存(商品号,库房号,库存量,日期)库房(库房号,仓库管理员,地点,库存商品描述)人事管理子系统:员工(员工号,姓名,性别,年龄,文化程度,部门号)部门(部门号,部门名称,部门主管,电话),数据仓库概述1,面向主题示例,如果按照面向主题的方式进行数据组织,首先应该抽取主题,
8、即按照管理人员的分析要求来确定主题,而与每个主题相关的数据又与有关的事务处理所需的数据不尽相同。在每个主题中,都包含了有关该主题的所有信息,同时又抛弃了与分析处理无关或不需要的数据,从而将原本分散在各个子系统中的有关信息集中在一个主题中,形成有关该主题的一个完整一致的描述。面向主题的数据组织方式所强调的就是要形成一个这样一致的信息集合,数据仓库概述1,主题一:商品,商品固有信息:商品号,商品名,类别,颜色等商品采购信息:商品号,供应商号,供应价,供应日期,供应量等商品销售信息:商品号,顾客号,售价,销售日期,销售量等商品库存信息:商品号,库房号,库存量,日期等,数据仓库概述1,主题二:供应商,
9、供应商固有信息:供应商号,供应商名,地址,电话等供应商品信息:供应商号,商品号,供应价,供应日期,供应量等,数据仓库概述1,主题三:顾客,顾客固有信息:顾客号,顾客名,性别,年龄,文化程度,住址,电话等顾客购物信息:顾客号,商品号,售价,购买日期,购买量等,数据仓库概述1,),数据仓库概述1,示例了一个电信企业的情况。计费数据库:计费数据库记录了客户的消费情况 财务数据库:财务数据库记录了客户的缴费情况 客户服务数据库:客户的咨询和投诉情况如果直接基于传统数据库系统进行“客户”和“收益”信息的分析,则需要访问多个数据库才能获得客户或收益各个侧面的信息(收益主题需从计费数据库和财务数据库中了解公
10、司各项业务的收入情况;客户主题则要从计费数据库、财务数据库、客户服务数据库中获得客户消费、交费、咨询等全方位的信息。),这样将极大的影响系统处理的时间和效率,并且数据之间的不一致性和不同步等问题将影响决策的可靠性。而以“客户”和“收益”主题组织的数据仓库,将某个主题的全部相关数据集中于一个地方,这样决策者可以非常方便地在数据仓库中的一个位置检索包含某个主题的所有数据。,数据仓库概述1,面向主题,每个主题所需数据的物理存储:多维数据库(MDDBMulti-Dimensional DataBase)用多维数组形式存储数据。关系数据库。用一组关系来组织数据的存储,同一主题的一组关系都有一个公共的关键
11、字,存放的也不是细节性的业务数据,而是经过一定程度的综合形成的综合性数据。,数据仓库概述1,集成的,数据是分散的;由于事务处理应用分散、蜘蛛网问题、数据不一致问题、外部数据和非结构化数据。数据仓库中的数据是为分析服务的,而分析需要多种广泛的不同数据源以便进行比较、鉴别,因此数据仓库中的数据必须从多个数据源中获取,这些数据源包括多种类型数据库、文件系统以及Internet网上数据等,它们通过数据集成而形成数据仓库中的数据。,数据仓库概述1,数据仓库中存储的数据一般从企业原来已建立的数据库系统中提取出来,但并不是原有数据的简单拷贝,而是经过了抽取、筛选、清理、综合等工作。这是因为:1)原有数据库系
12、统记录的是每一项业务处理的流水帐,这些数据不适合于分析处理。在进入数据仓库之前必须经过综合、计算,同时抛弃一些分析处理不需要的数据项,必要时还要增加一些可能涉及的外部数据。2)数据仓库每一个主题所对应的源数据在源分散数据库中有许多重复或不一致之处,必须将这些数据转换成全局统一的定义,消除不一致和错误之处,以保证数据的质量;显然,对不准确,甚至不正确的数据分析得出的结果将不能用于指导企业做出科学的决策。3)源数据加载到数据仓库后,还要根据决策分析的需要对这些数据进行概括、聚集处理。事实上,决策支持系统需要集成的数据。全面而正确的数据是有效地分析和决策的首要前提,相关数据收集得越完整,得到的结果就
13、越可靠。因此,对源数据的集成是数据仓库建设中最关键,也是最复杂的一步。,集成的,数据仓库概述1,集成的,集成的方法:统一:消除不一致的现象综合:对原有数据进行综合和计算需要考虑的问题:数据格式计量单位数据代码含义混乱数据名称混乱,数据仓库概述1,非易失的,数据仓库中的数据是经过抽取而形成的分析型数据,不具有原始性,主要供企业决策分析之用,执行的主要是查询操作,一般情况下不执行更新操作。同时,一个稳定的数据环境也有利于数据分析操作和决策的制订。但这也不等于数据仓库中的数据不需要更新操作。在需要进行新的分析决策时,可能需要进行新的数据抽取和更新操作数据仓库中的一些过时的数据,也可以通过删除操作丢弃
14、掉。因此数据仓库的存储管理相对于DBMS来说要简单得多。,数据仓库概述1,数据仓库概述1,随时间不断变化,数据仓库中的数据必须以一定时间段为单位进行统一更新。不断增加新的数据内容不断删去旧的数据内容更新与时间有关的综合数据,数据仓库概述1,1.4 数据仓库与传统数据库的比较,1.两个系统的主要区别 2.两个系统的查询支持不同3.两个系统数据组织模式不同,数据仓库概述1,1 两个系统的主要区别,传统数据库系统的主要任务是执行联机事务和查询处理。这种系统称为联机事务处理(OLTP)系统。它们涵盖了一个组织的大部分日常操作,如购买、库存、制造、银行、工资、注册、记帐等。另一方面,数据仓库系统在数据分
15、析和决策支持方面提供服务。这种系统称为联机分析处理(OLAP)系统。两个系统的主要区别概括如下:数据内容:数据库系统管理当前数据。通常,这种数据太琐碎,难以用于决策。数据仓库系统管理大量历史的、存档的、归纳的、计算的数据,提供汇总和聚集机制,并在不同的粒度级别上存储和管理信息。这种特点使得系统容易用于“见多识广”的决策。,数据仓库概述1,数据目标:数据库系统是面向业务操作,用于办事员、客户和信息技术专业人员的事务和查询处理。数据仓库是面向主题的,用于知识工人(包括经理、主管和分析人员)的决策分析。数据特性:数据库系统存储的是当前数据,数据是动态变化的,按字段进行更新操作。数据仓库中数据是批量载
16、入的、静态的,系统定期执行提取过程为数据仓库增加数据,这些数据一旦加入,一般不再从系统中删除。数据结构:数据库系统采用面向应用的数据库设计,以高度结构化和复杂的形式组织数据,以适应复杂的事务操作计算的需求。数据仓库通常采用面向主题的星型或雪花数据组织模式,以适应分析决策,数据结构简单。,数据仓库概述1,。,数据仓库概述1,2 两个系统的查询支持不同 OLTP系统是为了快速回答简单查询,而不是为了存储分析趋势的历史数据而创建的。一般的,OLTP提供了大量的原始数据,这些数据不易被分析。数据仓库需要回答更复杂的查询,而不仅仅是一些像“英国主要城市的商品平均销售价格是多少”之类的简单聚集数据查询。数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 概述 课件

链接地址:https://www.31ppt.com/p-3486976.html