《数据仓库概述》PPT课件.ppt
《《数据仓库概述》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《数据仓库概述》PPT课件.ppt(43页珍藏版)》请在三一办公上搜索。
1、,数学科学学院周书锋,1,第1章 数据仓库概述,数学科学学院周书锋,2,nnn,数据仓库基础.段云峰等译.电子工业出版社.2004年4月(Data Warehousing Fundamentals.Paulraj Ponniah)数据仓库原理与实践.林宇.人民邮电出版社.2003年1月数据仓库与数据挖掘.陈文伟.人民邮电出版社.2004年1月,&教材,数学科学学院周书锋,3,引言:,n,主要介绍从数据库到数据仓库的演变过程,着重说明“蜘蛛网”问题产生原因以及随之而来的种种问题。为此,必须将操作型环境和分析型环境分离,使企业由以数据库为中心的生产环境过渡到以数据仓库为中心的生产环境。最后简要介绍
2、数据仓库技术的应用前景。,数学科学学院周书锋,4,内容1.1、数据库到数据仓库的演变1.2、操作型系统和分析型系统的分离1.3、数据仓库定义1.4、数据仓库解决的问题1.5、数据仓库体系结构1.6、数据仓库的运行结构1.7、一个现实的问题1.8、数据仓库应用前景,数学科学学院周书锋,5,1.1数据库到数据仓库的演变,n,1、蜘蛛网问题,n 2、蜘蛛网现象n 3、蜘蛛网问题特征,数学科学学院周书锋,6,1、蜘蛛网问题,n,随着数据库技术的广泛应用,企业的运营环境逐渐转化为以数据库为中心。企业对数据的需求是多方面的(企业级、部门级、个人级),这样随着数据逐层提取就会形成一种“蜘蛛网”结构,使数据的
3、访问相当复杂。,数学科学学院周书锋,7,2、蜘蛛网现象,部门,个人,个人,部门,部门,部门,企业级,数据库,部门,个人,部门,个人,企业级,数据库,个人,个人,个人,个人,个人,个人,个人,数学科学学院周书锋,8,3、蜘蛛网问题特征,n,数据分析的结果缺乏可靠性,n,电信公司“市场部”和“计划部”对同一业务得出截然相反的结果。,n,数据处理的效率很低,n,错综复杂的体系结构中,不同级别的数据库可能使用不同类型的数据库系统。大型:Oracle、DB2;中型:MicrosoftSQLServer;小型:Foxpro、MySQL。,n,难于将数据转化为信息,n,综合数据处理复杂,分析程序1,不同部门
4、分析过程的差异,企业级数据,计划部,外部市场信息A,外部市场信息B外部市场信息C,外部信息,分析程序2数学科学学院周书锋,分析结果2:,业务A没有场前景9,抽取数据的内容不同,分析程序和分析内容不同分析结果1:业务A市场前景很好,抽取数据的时间不同2001/03/05市场部,2001/03/25,数学科学学院周书锋,10,1.2操作型和分析型系统分离,n,背景:,nnnn,目前,随着技术的发展和应用需求的不断提高,以及当前的市场形势促使企业必须保持旺盛活力。关键:适时掌握准确信息,利用这些信息作出正确决策。获取和利用信息的方式就是建立覆盖企业所有部门的企业综合信息系统。采用不同技术使得信息必须
5、一致、准确,数学科学学院周书锋,11,操作型处理和分析型处理,n,数据处理:,nn,操作型:以传统的数据库为中心进行企业的日常业务处理。如:电信计费系统,银行系统。分析型(信息型):以数据仓库为中心分析数据背后的关联和规律,为企业的决策提供可靠有效的依据。如:对超市近期数据分析发现畅销商品;对连锁店各个营业点不同时期营业情况的分析。,n,处理目标:,nn,操作型:操作员使用,实现企业的业务运营分析型:企业的中高层管理者或从事数据分析的工程师,为企业的决策者提供支持信息。,数学科学学院周书锋,12,客户数据库,计费数据库,财务数据库,操作,型系,统,面向操作人员,解决业务运营问题,某个数据库只包
6、含企业中的部分信息,数据仓库,系统,面向管理人员,解决决策支持问题,数据仓库中包含企业中整体的宏观信息分析型,数学科学学院周书锋,13,两种处理的区别,分析型数据表示业务处理的静态情况(综合提炼)处理过去历史数据不可更新,只读型用户是综合的提炼的结论性数据操作需求事先并不知道,不知道下一步用户要做什么少数查询访问大量数据对性能要求宽松面向分析,支持管理需求用户需理解数据库得出结论,操作型数据表示业务处理的动态情况(细节)存取瞬时数据可更新,由企业录入员录入处理业务细节问题操作需求事先可知,可按预计的工作量进行优化有许多事务,影响局部数据对性能要求高面向应用,支持日常操作用户只输入数据,数学科学
7、学院周书锋,以数据库为中心,数据库,应用B应用C,生产环境应用A,数据库,以数据仓库为中心应用A,应用B,应用C,数据库,分析应用A,分析应用B,分析应用C14,生产环境,数学科学学院周书锋,15,1.3数据仓库定义,n,数据仓库定义:(数据仓库之父W.H.Inmon),nn,DataWarehouse:是一个面向主题的、集成的、非易失的(稳定的)且随时间变化的数据集合,用来支持管理人员的决策。面向主题:指围绕企业的基本实体设计的;如:城市数据仓库,可考虑人口总数、人均工资水平等。但是,企业业务系统是以优化事务处理的方式来构造数据结构的,对于某个主题的数据常常分布在不同的业务数据库中。,16,
8、收益数据,客户数据,市场数据,客户服务数据库,财务数据库面向主题的数据仓库数学科学学院周书锋,市场信息数据库,计费数据库现,有业务,系统,数学科学学院周书锋,17,nnn,数据集成:决策支持系统需要集成的数据。全面而正确的数据是有效分析和决策的首要前提,相关数据收集得越完整,得到的结果就越可靠。通过设计实现命名协议、关键字、关系、编码的一致等手段使数据库中的分散数据经过汇总、提炼而集成在一起;决策支持系统需要的不是静态的集成,而是动态的集成。数据仓库必须能够使集成数据以一定的周期进行刷新。,数学科学学院周书锋,18,nnn,非易失:数据不进行实时更新,数据经过复杂的提取过程后定期转入数据仓库。
9、随时间按不同时段组织数据。数据仓库中的数据只能增加不能随意删除;可看成是一个“虚拟的只读型”数据库系统;数据仓库为了能在尽量短的时间内将数据呈现给使用人员,使用所谓的“空间换时间”技术,增加了数据的冗余度,从而减小系统的响应时间。,数据仓库系统数据稳定性,时间:3月24日客户号:1001费用(元):22019,数据仓库中又增加一条记录数学科学学院周书锋,业务运营系统,客户号:1001费用(元):20023日数据提取记录号:XXX时间:3月23日客户号:1001费用(元):200,客户号:1001费用(元):22024日数据提取记录号:XXX时间:3月23日客户号:1001费用(元):200记录
10、号:XXX,数学科学学院周书锋,20,0102532,45,52,t1,t2,t3,t4,t5,t6,数据仓库的快照集合,业务系统的运营数据仓库数据随时间变化的特点,数学科学学院周书锋,21,数据仓库定义(续),n,数据仓库的开拓者SeanKelly认为数据是:,nnnnnnn,彼此分离可利用的综合的包含时间标记的面向主题的非易失的能访问的,数学科学学院周书锋,22,1.4数据仓库解决的问题,n,数据仓库技术可以解决事务处理相关的决策问题,具有动态集成和综合处理能力,nnn,解决“业绩下降10%”与“业绩上升15%”的问题解决企业环境中多数据源及数据不一致性问题充分而高效地利用企业积累的大量历
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库概述 数据仓库 概述 PPT 课件
链接地址:https://www.31ppt.com/p-5519425.html