企业竞争的利器-数据仓库和数据挖掘.ppt
《企业竞争的利器-数据仓库和数据挖掘.ppt》由会员分享,可在线阅读,更多相关《企业竞争的利器-数据仓库和数据挖掘.ppt(59页珍藏版)》请在三一办公上搜索。
1、阮闯 博士多媒体通信事业部广东省邮电科学技术研究院,电信企业参与竞争的利器-数据仓库和数据挖掘,2,提要,市场竞争-竞争技术数据仓库的基本认识数据仓库设计数据挖掘数据融合动力系统研究我们的实践,3,市场竞争-竞争技术,随着电信市场的开放,竞争将越来越激烈利润的降低使得必须从粗放的经营转变到集约的经营经营决策需要尽可能多的定量的依据经营决策需要尽可能快的速度所有这些需要技术上的支持-数据仓库和数据挖掘,4,数据仓库的基本认识,5,统一认识:什么是数据仓库技术(Data Warehousing)?,是一个处理过程,而不仅仅代表一组产品是一个从大量的企业数据中发现有价信息的过程是充分利用现有资源,而
2、不是摒弃重构是提供系统及数据的多种访问形式,6,统一认识:什么是数据仓库(Data Warehouse)?,数据仓库是在企业管理和决策中面向主题的,集成的,与时间相关的和不可修改的数据集合,Bill Inmon,7,统一认识:数据仓库体系结构图,8,统一认识:数据仓库应用体系结构,数据集成,数据转换,数据发布,Warehouse Process Management,数据存取,Metadata,数据集成:集成不同业务系统中的数据数据转换:全部数据被转换成统一的数据格式数据发布:数据被存储在靠近用户的地方数据存取:满足数据分析等应用需求Metadata:元数据.即数据仓库的数据字典.Wareho
3、use Process Management 保证数据仓库的正确实施,9,统一认识:建设数据仓库的十二步,1.定义项目范围,制定项目开发计划2.确定在企业决策中至关重要的数据3.用数据语言描述企业需求4.建立并修正企业的逻辑数据模型5.建立数据仓库数据模型6.定义数据集市数据模型7.定义可操作的数据源(OLTP数据)8.详细设计9.设计数据仓库的物理数据库10.准备高层次的应用结构设计11.定义各种技术规范12.准备项目实施计划,10,统一认识:数据仓库建设取得成功的关键因素,从项目建设的角度出发:有一个坚实的数据仓库数据模型 有一个专职的数据仓库分析小组 有一个经过深思熟虑的执行计划 各方紧
4、密配合 资金保证 好的自动化工具,支持设计过程和元数据管理 最终用户好用 各种工具齐全,易得 正确的期望值 有专家支持从用户的角度出发:数据准确 数据易于管理 数据可以随时刷新 数据容易访问 数据表现通俗易懂 有利于正确的企业决策,11,数据量估算,一般情况下,数据空间=数据量估算*2索引空间=数据空间*0.5估算数据量时要考虑:现有数据日,月,季和年的增长率.数据仓库中保留多长时间的历史数据:数据仓库中一般保留几年数据.操作型系统中一般只保留当前数据注意:数据仓库系统和OLTP系统不同,它需要更大的临时空间,用于排序操作和数据求和汇总数据仓库系统也需要较大的缓存空间,用于驻留经常被访问的数据
5、.,12,模型选择:Inmon 的数据分布式体系结构,数据源系统,ODS:操作型数据存储,集中式数据仓库,数据集市,OLTP系统时实数据,实时/准时实数据数据以批方式修改数据日期:1秒-2 天,历史数据数据以批方式修改数据日期:1天-5 年,历史和汇总数据数据以批方式修改数据日期:1天-10 年,数据源系统也可以直接给数据仓库和数据集市提供数据,13,模型选择:集中式数据仓库模型,OLTP数据源系统,集中式数据仓库,最终用户,数据被不断地从数据源系统累积到数据仓库中数据格式和数据的取舍规则与OLTP系统独立数据仓库中存放的是企业的数据,可以跨业务领域OLTP 系统 与数据仓库系统彼此独立,OL
6、TP的性能不受影响,14,模型选择:集中分布式数据仓库模型,OLTP数据源系统,集中式数据仓库,按地域发布的数据集市,地域性最终用户,数据更靠近最终用户,15,模型选择:分布式累积型数据仓库模型,按地域发布的数据集市,各地区的OLTP数据源系统,集中式数据仓库,集中定义数据的集成与转换规则 数据传递从下往上 此模型适用于敺植际綌企业,16,硬件与软件选择:硬件选择,数据库服务器的选择取决于数据库的大小和查询的复杂度,17,硬件与软件选择:硬件选择(续),网络服务器:Single CPU Pentium-based serversUp to 10 GB DatabasesSingle proce
7、ssor UNIX platforms10 to 40 GB Databases适用于高度汇总(Highly Summaried)型数据仓库适用于做网关(Gateway)SMP 数据库服务器:2 to 64 CPUs(通常 4 to 8)共享内存/硬盘大容量内存适用于中型和大型数据库SMP 供应商:Digital,HP,Pyramid,Sequent,Sun,Cray,IBM,18,设计阶段:数据仓库数据的多级模型,Olderatomicdata,Currentatomicdata,Lightlysummarized,Highlysummarized,METADATA,85-90%of ana
8、lysis,10%of analysis,19,设计阶段:数据仓库数据建模的一般方法,1.获取最终用户的业务需求2.定义业务规则3.建立主题(SA)数据视图4.建立企业逻辑数据模型5.定义操作型的数据源6.建立数据仓库数据模型7.必要的话,把数据仓库模型分割成几个子模型,分别建设,以满足不同用户和不同工具的需要.,注意:数据仓库建设的每一步都要严格质量检查,每一步的实施可能要经过多次反复.,20,设计阶段:数据建模的基本概念,模型-对主题的抽象表示.数据模型-对一定范围的数据的定义,特征和关系的表示.主题视图-高层主题及其关系的表示.逻辑数据模型-从最终用户的角度出发,对企业中的信息的数学描述
9、.这里并不考虑数据的功能和物理属性.数据仓库数据模型-是反映在决策支持分析活动中对数据的使用的数据模型 实体(Entity)-代表 人,物,地点和事件.实体在数据模型中是唯一的.关系(Relationship)-两个实体之间的企业规则.元素(Element)-表现实体的低级属性.也称为属性(Attribute)键(Key)-唯一识别一个实体的元素.属性(Attribute)-实体中的非键元素.递归(Recursion)-与自身相关的实体关系.,21,设计阶段:主题视图模型,逻辑数据模型与数据仓库数据模型之间的关系,主题视图,逻辑数据模型,操作型数据模型,数据仓库数据模型,物理模型,数据集市数据
10、模型,22,设计阶段:什么是主题?,主题代表企业中数据的自然归类范畴.主题也称为高层实体.主题视图包含:数据被归类成为广义的,功能上独立的,没有重叠的主题.表现数据之间的主要关系.表现模型之间的数据共性.主题视图中的主题数目一般不超过 12 个 可以先构造局部主题视图,然后合并成全局主题视图.,23,设计阶段:局部主题视图,Customer,Order,Product,Order,Part,Product,Customer,Order,Employees,Part,Supplier,User View 1,User View 2,User View 3,User View 4,24,设计阶段:
11、全局主题视图,Customer,Order,Employees,Part,Product,Supplier,25,设计阶段:建立逻辑数据模型的基本方法,基于主题视图,把主题视图中的数据定义转入到逻辑数据模型中.删除重复数据项识别某些数据共性,比如:数据类型,.识别主题间的关系分解多对多的关系用范式理论检验逻辑数据模型由用户审核逻辑数据模型命名规则审核,26,设计阶段:主题视图与逻辑数据模型,Product,Order,High-level,主题视图,Mid-level,逻辑数据模型,Customer IDCustomer NameCredit Rating,Customer IDCustome
12、r Address TypeAddress Line 1Address CityAddress StateAddress Zip-code,Order,Customer IDSIC CodeNo.Employees,Commercial,Customer IDNo.KidsIncome Level,Residential,Customer,Customer,SelectedSubject Area,27,设计阶段:逻辑数据模型与数据仓库数据模型的区别,逻辑数据模型 数据仓库数据模型范式化 非范式化详细数据详细和汇总数据企业运作角度 企业决策和战略角度可能含有时间键 必须含有时间属性没有派生数据
13、 含有派生的战略数据无数据数组 有数据数组以企业规则为中心 以数据的使用和稳定性为中心,28,设计阶段:数据粒度分析,数据粒度(Data Granularity)-代表数据的细节化程度.粒度越大,数据的汇总程度越高.事务级数据的粒度最小,它是汇总型数据的数据源.数据仓库中数据的粒度取决于数据仓库的类型.数据仓库中数据的粒度可以和操作型系统的数据粒度一样,也可以不一样.当粒度发生改变时,数据仓库数据模型要反映出这种变化.如果仅仅存储汇总型数据,那么数据的细节型分析就无法做到,29,设计阶段:数据粒度分析,在数据仓库中,多层(Multi-tier)体系结构表达的是数据的汇总程度.,每一层并不一定彼
14、此独立并非每个数据仓库项目都含有多层汇总.,30,设计阶段:数据汇总模型,简单累加:如,求和每天各种商品的销售额 滚动型累计:如,求和每周各种商品的销售额 清单型汇总:类似于做台账 连续汇总:形如多级汇总 纵向汇总:按特定的问题进行汇总,以获取最佳的性能.,31,设计阶段:数据稳定性分析,数据仓库中数据的最好组织原则是:变化慢的数据存放在一张表中.变化快的数据存放在另一张表中.关键是要根据数据的稳定性,对数据元数进行分离,下列数据应该按其稳定性来组织:数据的修改时间完全不同.最终用户习惯于频繁地修改数据.下列数据可以不按其稳定性来组织:系统性能不好.大部分时间总是被一起使用.,32,数据集市数
15、据模型设计,数据集市是数据仓库中数据的一个子集,用于解决某个业务部门特定的应用需求.,33,数据集市数据模型设计,数据集市:从数据仓库中派生出来可以和数据仓库存放在同一平台上,也可以分开.应该把它作为数据仓库的一部分 来建设,Archiveddetail,Enterprise-wide,Individual,METADATA,Data Mart,Individual,Data Mart,34,多维模型,多维模型是人们观察数据的形象表示 可以是 2,3,4或更多维 可以对多维模型进分析-即:选择哪维作为查询条件.,传统的数据模型比较复杂,最终用户难于理解多表联结(Join)查询(尤其是大表),既
16、费时,又占用大量资源,35,多维模型:基本概念,维:是人们观察数据的特定角度维成员:维的取值.维层次:代表维的细节程度.比如:时间维的层次可以是年,季,月,周,日,等等.类:维成员互不相交的一个子集.多维分析:指对以维形式组织的数据采取切片,切块和旋转等动作,以求全面深刻地分析数据.切片(Slice):按照某一维取值做查询.切块(Dice):按照一维或多维取值做查询.旋转:改变一个报告或页面显示的维方向.维表:存放维数据.事实表:由事实数据元素和维数据元素组成.事实表是多维多维模型的核心.事实数据是决策分析的数据基础.,36,多维模型:怎样建立维表和事实表,建立维表和事实表要考虑:建立中央事实
17、表,它存储大量数据.事实表周围,维表的数目要少,并且维表中的数据量要小.关键是要控制维数,它直接影响数据粒度.注意1:多维模型是非范式化的,大量的事实数据可能是重复的.2:多维模型通常不适合企业级的模型分析,因为在企业级,数据量太大并且太复杂.,37,多维模型:多维数据模型的四种模式,星型模式(Star Schema)雪花模式(Snowflake Schema)星座模式(Constellation Schema)雪暴模式(Snowstorm Schema),38,多维模型:星型模式,Grocery Transaction,Store Number,Transaction Date,Custom
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 企业 竞争 利器 数据仓库 数据 挖掘
链接地址:https://www.31ppt.com/p-4998794.html