数据挖掘复习.docx
第一讲商业智能概述1. 商务智能的含义:商务智能是企业利用现代信息技术收集、管理和分析结构化 和非结构化的商务数据和信息,创造和累计商务知识和见解,改善商务决策水平, 采取有效的商务行动,完善各种商务流程,提升各方面商务绩效,增强综合竞争 力的智慧和能力。数据分析层面:是一系列算法、工具或模型。首先获取与所关心主题有关的高质 量的数据或信息,然后自动或人工参与使用具有分析功能的算法、工具或模型, 帮助人们分析信息、得出结论、形成假设、验证假设。信息系统层面:称为商业智能系统(BI System)的物理基础。表现为具有强大 决策分析功能的单独的软件工具和面向特定应用领域的信息系统平台,如SCM、 CRM、ERP。与事务型的MIS不同,商业智能系统能提供分析、趋势预测等决策分 析功能。知识发现层面:与数据分析层面一样,是一系列算法、工具或模型。将数据转变 成信息,而后通过发现,将信息转变成知识;或者直接将信息转变成知识。战略层面:将信息或知识应用在提高决策能力和运营能力上、企业建模等。商业 智能的战略层面是利用多个数据源的信息以及应用经验和假设来提高企业决策 能力的一组概念、方法和过程的集合。它通过对数据的获取、管理和分析,为贯 穿企业组织的各种人员提供信息,以提高企业战略决策和战术决策能力。2. 商业智能四大关键技术:数据挖掘技术、数据仓库技术、联机分析技术、可视化技术 数据挖掘:数据挖掘是按照预定的规则对数据库和数据仓库中已有的数据进行信息开 采、挖掘和分析,从中识别和抽取隐含的模式和有趣知识,为决策者提供决策依 据。数据挖掘的任务是从数据中发现模式。模式有很多种,按功能可分为两大类: 预测型(Predictive)模式和描述型(Descriptive)模式。根据模式的实际作用,可细分为分类模式、回归模式、时间序列模式、聚类 模式、关联模式和序列模式6种。其中包含的具体算法有货篮分析(Market Analysis) > 聚类检测(Clustering Detection) > 神经网络(Neural Networks) > 决策树方法(Decision Trees)、遗传算法(Genetic Analysis)、连接分析(Link Analysis) > 基于范例的推理(Case Based Reasoning)和粗集(RoughSet)以及各 种统计模型。数据仓库: 实施BI首先要从企业内部和企业外部不同的数据源,如CRM、SCM、ERP以及其他 应用系统等搜集有用的数据,进行转换和合并,因此需要数据仓库和数据集市技术的支持。 数据仓库是指从多个数据源收集的信息,以一种一致的存储方式保存所得到的数据集 合。数据仓库的数据模型有星型模式、雪花模式。 数据仓库创始人之一W.H.Inmon的定义为:“数据仓库是一个面向主题的、集成的、稳 定的、包含历史数据的数据集合,它用于支持管理中的决策制定过程'。数据挖掘与数据仓库:-数据挖掘是数据仓库发展的必然结果。-数据仓库为数据挖掘提供应用基础:大多数数据挖掘工具要在集成的、一致的、经过清理的数据上进行挖掘;数据仓库构造过程中已组建了数据处理和数据分析的基础设施,数据挖掘可借此进行,不必重新组建基础设施;数据仓库中的O LAP完全可为数据挖掘提供有关的数据操作支持;在数据挖掘中,如果将数据挖掘与数据仓库进行有效地联结,将增加数据 挖掘的联机挖掘功能。3. 企业信息化如何利用商务智能?(1)销售分析:具体地,采用商业智能系统进行销售分析可以帮助企业解 决的问题有:-某段时间内的产品销售情况分析;-同一种产品如何根据不同情况制定不同的价格策略;-产品退货情况分析;-产品销售收入及获利情况分析;-哪种产品被哪个客户订购多少,什么时间,出自哪个业务员?-销售员销售绩效分析,销售员收回款分析;-多角度分析销售成绩。(2)库存分析:基于商业智能系统构建的库存分析,既能让一般用户了解 库存物品的数量、库存成本和资金占用等情况,从级别、类别、货位、批次、单 件、分类等不同角度进行查询,又能辅助决策解决企业深层次的相关问题。库存 分析的基础数据取自于采购、销售、生产、财务等业务模块。商业智能的库存分析帮助企业实现的功能包括:-在给定的时间段、给定的库位发现呆滞物品,提供处理建议;-查询某物料在各货位的储量情况分析及储量;-某物料在某时间的收入、发生和结存情况分析;-物品占用库存资金分析;-哪种物品处于短缺或超储;-物品周转率分析;-查询历史各阶段的库存物品和成本情况;-多角度,多条件组合查询库存情况。(3)采购分析:基于数据仓库技术的商业智能系统可实现供应商信用评价、 业务员业绩考核等决策分析,帮助企业为顺利生产打下坚实的基础,为最终产品 在质量和成本上的定位提供科学的依据。具体包括:-供应信用等级分析,从交付日期、质量、数据和价格等方面评估供应商的 表现;-采购价格变动分析;-物品拖期交货情况及原因分析;-某种物料的供应商情况分析;-某供应商供应物料情况分析;-采购员业绩分析;-某供应商采购量和采购金额分析;-供应商的物料检验后被拒收分析;-到货物料存储仓库及货位查询;-供应商报价查询;-多角度查询物品的请购、订购及收货入库的情况;(4)财务分析:商业智能基于数据仓库技术的财务分析满足企业领导对各 业务部门费用支出情况进行查询的要求,并实现了对应收款、应付款的决策分析。企业决策层通过使用这一功能,进一步提高从现金流量、资产负债、资金回收率 等角度决策企业运营的科学化水平。具体功能包括:-帐务分析各部门费用支出情况分析,辅助决策进一步的预算;多角度、多层次、多条件立体帐务查询;跨科目、级别的明细帐务查询;财务历史数据查询。-应收帐分析客户欠款时间及细节查询;欠款的时间段分析;客户购货金额及付款情况查询;客户现金折扣分析;多条件、多角度查询收款及欠款情况;客户信用等级分析。-应付款分析企业对供应商欠款时间及细节查询;企业对供应商欠款的时间段分析;从各供应商采购情况分析;多条件、多角度查询付款及欠款情况。(5)人力资源分析:基于数据仓库技术的商业智能系统提供的劳动规划应用, 应在企业详实的人力资源数据基础之上,完成决策者多视角的人力资源统计分 析,并通过对现有的人力资源的使用状况,预测劳动满员和紧缺,分析超时和工 作量,鉴别无效的工作和优秀的的雇员,计算出某段时间内劳动的收益率等,使 劳动资源得到最大的利用。商业智能的人力规划分析也可以实现不同角度的员工工资查询和分析,结合完成 的工作量,提高员工利益分配的科学性。具体功能包括:-按部门、职称、专业、学历、性别等的职工统计和查询;-从职称、学历、工作量等方面进行人才能力综合评介;-多角度职工工资查询,按不同视角进行职工工资统计分析;-实际完成工作量和工时对比分析;-人力工作量负荷分析;-分析各类员工所获奖励、惩罚等个人特性与共性之间的关系。第二讲数据仓库概述1. 数据仓库定义:数据仓库(Data Warehouse)是一种为信息分析提供了良好的基 础并支持管理决策活动的分析环境,是面向主题的、集成的、稳定的、不可更新 的,随时间变化的、分层次的多维的集成数据集合。数据仓库的特点:(1)面向主题:主题是高中层管理人员关心的,它在逻辑上对应的是企业中某一宏观分析领域 所涉及的分析对象。面向主题是相对于传统数据库的面向应用而言的。面向应用是指系统实现过程 中要围绕着一些应用或功能,面向主题是考虑一个个的问题域,对问题域涉及的 数据和分析数据所采用的功能给予同样的重视。数据仓库是面向在数据模型中已 定义业务的主要主题域的。在较高层次上对分析对象的数据进行一个完整、一致的描述,能完整、统一管 理各个分析对象所涉及的企业各项数据以及数据之间的联系。(高层次:很高的 数据抽象级别)一个主题领域的表来源于多个操作型应用(如:客户主题,来源于:订单的处理; 应收帐目;应付帐目;)面向主题强调形成关于主题的完整一致的信息集合,舍弃不必要的信息,以便 于分析。主题之间的重叠是逻辑上的重叠,而不是同一数据内容的重复物理存储,仅是 细节上的重叠,并非主题内容的重叠。一个主题可以划分成多个表。面向主题的数据组织方式是根据分析要求将数据组织成一个完备的分析领域, 即主题域。(独立性和完备性)实现主题时,如果数据项多了,可采用化大为小的方法。适用于分析型应用,建设企业全局数据库。(2)集成性数据仓库的每一个主题所对应的元数据在原有的各分散数据库中有许多重复各 不一致的地方,且来源于不同联机系统的数据和其应用逻辑捆绑在一起。数据仓库中的综合数据不能从原有的数据库系统直接得到。统一元数据中所有矛盾之处进行数据综合和计算(3)不可更新性涉及的操作:查询数据相当长时间的历史数据基于不同时间的数据库快照进行统计、综合和重组而导出的数据,不是联机数 据。(4)时态性随时间的变化而不断增加新的数据内容数据有存储期限操作型:6090天DSS数据:510年大量综合数据与时间有关认识两点不应该说数据库到数据仓库是技术的进步。数据仓库是因为用户需求增加而对 某一类数据库应用范围的界定,仅从数据存储容器的角度而言,数据仓库和数据 库并没有本质的区别,而且很多时候,数据仓库是作为一个数据库应用系统来看待的。-数据仓库并不是对数据库的彻底抛弃。数据仓库是在传统数据库的基础上发展 起来的,是建立在异构的业务数据库基础上的。说明:数据仓库是一种数据资源构架。它具有不同的数据源,来自数据源的数据 经过系统的整理和分类后,存储到统一的数据存储中心,根据决策者的要求提供 检索和显示服务。误区:对数据仓库最大的误解是把它当做了一个现成的可直接买来使用的产品。 实际上,数据仓库和数据库不同,它不是现成的软件或硬件产品。数据仓库是一 种解决方案,是对原始的操作数据进行各种处理并转换成有用信息的处理过程, 用户通过分析这些信息可作出策略性的决策。2. 数据库与数据仓库的比较:数据库数据仓库内容与业务相关的数据与决策相关的信息数据模型关系、层次结构关系、多维结构访问经常是随地读、写操作经常是只读操作负载事务处理量大,但每个事务涉及的记录 数少查询最小,但每次需要查询 大量的记录事务输出一般很少可能非常大停机可能意味着灾难性错误可能意味着延迟决策3. 建立数据仓库的好处-有形的好处改善产品库存降低产品推广费更加高效地制定决策能提供一个关于整个企业的整体构架-无形的好处通过把所有的数据放在一个地方,方便存取,提高生产效率减少重复数据处理和分析数据仓库提高用户对数据的应用4. 商业数据到商业信息化的发展中经历的每个阶段和解决的商业问题及支持技 术?进化阶段商业问题支持技术数据搜集(60 年代)“过去五年中我的总收入是多少? ”计算机、磁带和磁盘数据访问(80 年代)“在新英格兰的分部去年三月的销 售额是多少? ”关系数据库(RDBMS),结 构化查询语言(SQL),ODBC数据仓库;决 策支持(90年代)“在新英格兰的分部去年三月的销 售额是多少?波士顿据此可得出什 么结论?"联机分析处理(OLAP)、多 维数据库、数据仓库数据挖掘(正 在流行)“下个月波士顿的销售会怎么样? 为什么?"高级算法、多处理器计算机、 海量数据库5. 数据集市的定义:又叫数据市场,是部门级的数据仓库,或者是为某种专门的用 途开发的数据存储系统。数据集市与数据仓库的区别与联系?数据集市:规模较小,成本较低,针对性更强。数据仓库:数据来源于各个部门的不同应用系统,可保证数据的整合性。数据仓库是企业级的,能为整个企业各个部门的运行提供决策支持手段,而 数据集市是部门级的,一般只能为某个局部范围内的管理人员服务,故有时又称 为部门级数据仓库。数据集市的两种基本形式:从属的数据集市(自上而下构建数据集市):数据是从企业的数据仓库获得,可看 作是数据仓库的一个子集。因此具有较好的数据整合性。若需要的数据在数据集 市中没有,则要先修改数据仓库的结构,使这种数据先进入数据仓库,再进入数 据集市。这种数据集市适合用于对数据仓库的访问量比较大的关键业务部门。独立的数据集市(自下而上构建数据集市):没有数据仓库作为它的数据来源,而 是直接从各个应用系统取得数据,因此,成本低,灵活性好,需要一种新的数据 时不必修改企业级的数据仓库。可提供个别部门所需要的数据,整合性较差。第三讲数据仓库分析1. 数据仓库需求分析模型功能需求、非功能需求未来潜在需求、现在潜在需求平衡记分卡(BSC)是 一种组织绩效管理方法。它从四个角度审视自身业绩:学习 与成长、业务流程、顾客、财务。我们能否继续提高和创造价值的优势?数据仓库的平衡记分卡(DWBSC)是将平衡计分卡的原理扩展到数据仓库的需求分 析中。其四个角度为用户的视角、决策支持的视角、商务贡献和满足未来需求的 视角。2. 怎样成功建立数据仓库?数据存储时的组织方式,决定了数据的可获取性与有用性,进而决定了数据的 价值。数据仓库的数据库结构有以下要求:-反映静态数据-存储历史数据-在时间上是可见的、明确的-数据的粒度是详细的和可导出的汇总-定期的、计划的更新-支持的任务是不可预期的-对数据库的灵活性要求高成功建立数据仓库应遵循的原则-一把手原则-目标明确、可行-以查询目标进行分析而不是事务设计-采用成熟的方法,从容易实现的主题开始-对使用数据仓库的人进行指导-除此,还考虑数据挖掘工具的成熟度,参加数据仓库的建设人才应该是复合型 人才,以及数据的积累程度影响数据仓库成功的因素;3. 数据仓库的生命周期-与传统的SDLC几乎相反,用其逆序的写法CLDS表示-属于数据驱动的开发生命周期%g,SlDLC,收集需求W教据仓寐:'3;仓【4 SDLC"现甑KtrK,集姗据,调试'隼H实现,检粉16号 tt对数据邮设计DSS?渣,孙柝站果理解需求数据仓库准备与计划数据仓库设计组件设计与开发数据仓库推广应用数据仓库需求与目标可行性分析一A计划一 调整主题与数据源主题及细化兀数据与数据 抽取原则的分析数据仓库的设计数据仓库生命周期除最小型的信息系统项目,其他任何信息系统项目都应在一系列事先计划好的基 础上进行,且每一阶段最后均经过管理层对该阶段结果进行审查。-用户需求分析-可行性研究 -用户的认可 -建设数据仓库的协调与阻力分析-开发项目计划制定-创建数据仓库所使用的关键资源 用户需求分析-需求的产生:非正式讨论演化-工作制品:管理者、用户的正式报告管理层的批准和项目评审的会议报告潜在应用列表(优先级、功能)-用户需求分析的内容用户如何处理其事务如何衡量用户的工作表现用户需要什么属性(在信息方面)应用于这些属性的业务层次结构是什么用户现在使用什么数据,以及需要什么数据用户需要什么水平的细节或汇总数据可行性研究-三种类型的可行性技术可行性操作可行性经济可行性-可行性研究报告的关键是考虑项目进度的实施。-项目在活动、资源和时间方面的预测是可行性研究报告的重要内容。用户的认可-获得用户认可的重要性由以下因素引起效益经常是无形的,甚至推测出来的数据仓库不能完全改变决策方式,只能改变决策信息的获取方法多数MIS部门传统上注重功能性应用软件和数据库,数据仓库必须经常集成其中 一些应用软件的数据用户支持与上层管理者的支持是不同的 建设数据仓库协调与阻力分析高级经理员态度矩阵察觉到改变的需要对业务熟悉程度愿望吸引力无差异感到作为次司关键散据"掌 门人”的地位受到威胁的址 工生产践或员工管理者知识工作者害怕其操作披其他人看到或 了解的中层管理者克服阻力的途径没有 一条是完美的,所有 这些都要求因人而异 地采取灵活的方法, 同时最后结果也是博 弈平衡的结果。开发项目计划制定-数据仓库项目计划描述三件事要做什么(全部计划包含的任务)什么时候做为开发项目需要什么资源创建数据仓库所使用的关键资源-关键资源人才信息系统服务人员最终用户支持者顼目领导系统测试系统设计(整 体设计与详细 设计)系统分析数据仓库的系统分析-分析用于支持正在制定的决策或数据仓库设计。-尽量提供过多的数据来描述一个活动。-原型法注意:不能与其所有可操作数据源相连,数据仍然需要做数据净化、传送等工 作。-开发DW方法数据驱动法应用驱动法开发方法数据驱动法应用驱动法数据源连续的数据源来自几个操作系统的数据次序自顶向下自顶向下优点每一阶段在技术上很简单在第一阶段就提供有用的信息缺点数据资源不能利落地映射到商业查询中达到第一阶段花费时间长开发队伍在讨论数据仓库可用性时提供一个应用驱动界面给用户,但在内部开发 时使用数据驱动法。数据仓库的系统设计-重点:设计数据仓库的元素,即数据库和数据分析。如何选择数据库体系结构按照哪种体系结构设计如何安排数据库定义数据如何使用所有的数据源都被映射传送到数据仓库描述数据仓库何时及如何更新并回答程序员遇到的无数多个“我该怎么办”数据仓库的系统测试-适用于顺序测试确保对源文件提取记录及字段的正确性证明传送和净化工作正常,对比元数据,检查数据仓库内容以确保整个加载过 程有效,可能要测试有关已知谁的回答的分析。-增强维护、增强用户支持创建数据仓库:要面向三条路线顼目管理4. 数据仓库的体系结构数据仓库是面向主题、面向分析和知识发现的一种数据处理技术,对数据仓库 的使用没有固定的模式,因此数据仓库与操作型事务处理系统的结构有很大的不 同。对于用户,数据仓库就是由数据源、数据仓库的数据存储、数据仓库的应用工 具和可视化用户界面组成的。两层体系结构-数据仓库将企业各个业务系统中与分析有关的数据集成在一起,且它是面向分 析型的操作,因此形成了DB-DW两层的数据仓库体系结构。数据一元数据 数据仓库存储取换洗抽转清DB-DW两层体系结构业务处理系统外部数据三层体系结构-企业的业务处理中,存在介于操作型和分析型之间的需求,需要对短期的历史 数据进行分析,同时要求较快的响应速度。因此,提出了操作型数据存储(ODS)。ODS.取换洗 抽转清数据暂存区据市 据市 据市 数集数集数集-ODS数据可概括为面向主题的、集成的、可变的和当前的或接近当前的数据。-面向主题和集成的特点使得ODS数据在静态上很接近数据仓库的数据,但它们 之间存在重要的差别。数据仓库仓库ODS数据的内容数据仓库中的历史数据是指长期保存并可重 复查询的数据,既保存细节数据,又保存综 合数据一般只保存细节数据,且可以 更新的(变化的),保存的历史 数据也是近期的数据量大小面向的应用用于长期的趋势分析或决策支持支持全局的OLTP和即时的决策 分析应用-ODS的作用可概括为三个方面:为数据仓库提供数据,减少数据仓库数据抽取的复杂性即时的OLAP分析全局的OLTP操作图2. 8教据仓库体系结构5. 数据分级(data staging)-提取,净化,转化,加载-数据仓库不直接存储事务数据,提取(extract)时必须将事务数据进行转换 (transform)成数据仓库的数据结构和内部格式,为了保证数据的品质,还要对 数据进行净化(clear),将净化后的数据加载到(load)数据仓库中。-数据提取(extract )包括两部分内容:数据源确认和数据提取技术应用-数据源确认是对数据源的简单确认,包括检查和确定数据源是否可以提供数据 仓库需要的值。-数据提取技术可以分为立即型数据提取和延缓的数据提取立即型数据提取是实时的,当交易发生的时候就会在源数据库和文件中发生(通过交易日志捕获、从数据库触发器中捕获和从源应用程序中捕获)延缓的数据提取技术不会实时地提取变化(基于日期和时间标记的捕获和通过文件的比较来捕获)-数据转换(transform)有两个目的对不同源数据中提取的数据进行标准化使提取出来用于数据仓库的属性对决策分析用户来说可用,并且容易理解-数据转换的内容数据类型与数据格式的转换属性及属性值编码的一致性转换度量单位的统一性转换日期/时间表示方法的转换数据的完整性转换 数据汇总键的重新构造 主键重用-与数据转换密切相关的另一问题:数据净化(clear)在长期的操作型应用中,一些对于数据仓库分析结果产生扭曲的数据信息,由于不对源操作系统产生实质的影响而被长期留存于源操作系统中;此外,数据值的冲突、虚假、缺失、错误、重复等也是操作型系统中常见的现象,这些数据装 载进数据仓库后会对分析造成完全的错误。-装载(load)的技术覆盖、追加、破坏性合并、建设性合并键数据123 AAA234 BBB键数据123 AAA234 BBB345 CCC键数据123 AAA234 BBB345 CCC键数据111 PPP123 AAA234 BBBX345 CCC-X键数据123 AAA234 BBB345 CCC y1U 5ETffia Dl您据准笏键数据123 AAA234 BBB345 CCC梭据仓卒键数据555 PPP666 QQQ777 HHH键数据123 PPPDatad Data Mining键数据123 AAA234 BBB键数据123 PPP键数据123 PPP*123 AAA234 BBB-装载(load)的技术数据准备的其他方法:数据的离散色和规芭化处理覆盖、追加、破坏性合并、建设性合并-数据仓库数据的装载初始装载、增量装载、完全刷新-数据仓库装载数据后的维护方法更新、刷新数据仓库中的粒度-粒度的确定是数据仓库开发中面临的设计问题。粒度的合理与否将影响存放在 数据仓库中数据量的大小,影响数据仓库所能回答的查询类型,以及其他方面的 设计。-粒度指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级别越低。越是详细的数据,粒度级别越小;越是概括的数据,粒度级别越大。双重粒度指轻度综合数据级和真实细节数据级(最低粒度级)。-在进行数据仓库设计的时候,必须在数据仓库数据量的大小与所能做的查询的 详细程度之间进行权衡。-确定粒度大小一般考虑的原则:若数据仓库的空间很有限,为节省存储空间,宜采用大粒度级表示数据;若追求数据仓库能够回答的问题类型的能力,要求能够回答非常具体的问题, 则使用较小的数据粒度级别;若想要减轻处理器的负担,提高查询性能,则采用较大的数据粒度级别;若没有存储空间的限制,则可在一个数据仓库中采用多重粒度级别,既存储低 粒度级别的数据,也存储高粒度级别的数据,以同时获得高的查询效率和查询能 力。实际上,当一个企业或组织拥有大量数据时,宜采用多重粒度级别,在系统中存 放多个粒度级别的数据已成为必然。鉴于费用、效率、访问便利与能够回答任何可以回答的查询的能力,数据双重粒 度级是大多数机构建设数据仓库时的最好选择。只有当一个机构的数据仓库环境 中只有相对较少的数据时,才考虑采用单一的数据粒度级别。第四讲数据仓库设计与实施1.数据仓库的基本数据模式一星型模式星型模式(Star Schema)-星型模式是一种由一点向外辐射的数据模式范例。-星型模式是用来描述一组数据表的关系,包括事实表和一系列维表。其中心的 对象为“事实表”,与之相连接的对象为“维表”。-星型模式的主要思想在于将我们关心的数据和用于描述数据的属性分隔开来。事实表(fact table):是用户最关心的基本实体和 查询活动的中心,为数据仓库的查询活动提供定量 数据,它包括事实的名称和值以及与各相关维表相 连接的关键字。事实数据是实际数据发生的状况。它构成了典型数 据仓库的绝大部分内容。事实数据倾向于在整个时 间段上保持稳定。订货单订单号定货日期占整个数据库的一小部分 变代价不大。事实表所以对维数据位置的改星型模型举例日期表地区名称 省别销售员销售员号 销售员姓名 城市客户表 客户号 客户名称 客户地址产品号 日期标识 地区名称订货单一销售员号产品表 产品号 产品名称 产品目录 单价日期标诅维表(dimension table):维表是用来进一步描述 该维的一些性质,作用是限制和过滤用户的查询结 果,缩小访问范围,它含与事实表相关联的关键字。 维数据是随分析数据所得的,维数据的容量通常只事实数据/ n. wzf. t»» 维数据百万亿行十至几万行多个外码一个主码数据确定的文字描述的不改变经常改变-星型模式是一种由一点向外辐射的数据模式范例。-星型模式是用来描述一组数据表的关系,包括事实表和一系列维表。其中心的 对象为“事实表”,与之相连接的对象为“维表”。-星型模式的主要思想在于将我们关心的数据和用于描述数据的属性分隔开来。星型模式虽然是一个关系模型,但它不一定是一 个规范化的关系模型。使用星型模式的优点:一是在一定程度上提高查 询效率;二是便于用户理解。实际应用中,随着事实表和维表的增加和变化,星型模式产生出多种衍生模式。2. 数据仓库模型设计数据仓库模型设计:逻辑模型是概念模型到物理模型的一个过渡:概念模型是现实世界在主观世界中的反应;物理模型是系统在机器世界中的实现。概念模型设计:确定数据仓库的主要主题及其相互关系。主要包括界定系统边 界、确定主要的主题域及其内容。-概念模型设计概念模型设计主要是确定数据仓库中应该包含的数据类及其相互关系。它是在 较高的抽象层次上的设计,建立概念模型时不必考虑具体技术条件的限制。进行概念模型设计需要完成的工作:(1) 确定系统包含的主题域;描述内容分析问题时所关心的事实;分析问题时的各种观察角度;描述事实及观察角度的属性.(2) 确定数据仓库中各主题的要素及其描述属性。借助一星基本的方向性需求需要做哪些类型的决策?决策者感兴趣的是什么问题?这些问题需要什么样的信息?要得到这些信息需要包含哪些数据?传统操作型数据库的概念模型设计普遍采用什么模型来建模?实体-关系(E-R) 模型 数据仓库的概念模型设计一般采用什么模型来建模?多维数据模型多维模型是一种能够清楚表达分析领域的数据模型,它包含两个建模要素:观 察事物的角度(维度)商业数据维度化分析和观察得到的事实数据(事实)。一个分析领域或主题表达为多个维度和一组事实数据。逻辑模型设计:是按照企业的业务规则和流程将各种数据有机地集成在一个完 整的逻辑数据模型中。-逻辑模型设计逻辑模型用来指导数据仓库的物理实施。由于目前数据仓库大多采用关系模型, 数据仓库的逻辑模型的描述也采用关系模型,具体是用一系列的关系模式来表达 数据仓库概念模型中的事实和维度。建立数据仓库逻辑模型,必须考虑数据的粒度问题,粒度往往体现在维度的层 次上。逻辑模型主要包括:-粒度层次划分-数据分割策略的确定-关系模式的定义-数据源及数据抽取模型的确定物理模型设计:主要解决数据的存储结构、索引策略、存储策略、存储优化等 问题。-物理模型设计物理模型是根据逻辑模型创建的,主要工作:-确定数据的存储结构-确定索引策略-确定存储分配-确定数据存放的位置设计物理模型必须考虑的重要因素是数据仓库的性能特性。确定操作性能特性 的第一步是决定数据的粒度和分割,除此,为改善性能,还应考虑这些因素: -合理冗余-进一步分离数据-预格式化,预分配-建立人工关系-预连接表这些因素的中心在于提高DW中数据访问时I/O的效率进行数据仓库的物理设计是要物理地组织好数据,以便以尽可能少的数据块返 回最大数量的有效记录(用户需要的记录)。数据仓库中的数据一般不更新,设计者可更自由地采用物理设计的各种技术。有反复的逐步设计过程收集、分析和确认概念模型设计,关键任务:分析和理解DW中的主 题,确定主题的要素及描述属性将多维模型转为关系模型逻辑模型设计关键任务:粒度的划分、数据分 割策略的确定、关系模式的定义、 数据源及数据抽取模型等问题由美系模型转为存储模型物理模型设计关键任务:物理数据库表及其存 储结构设计数据仓库模型设计示意图与数据库概念模型的区别?雪花型模式(Snow Schema)-雪花型模式是对星型模式的进一步层次化和规范化,从而消除冗余的数据。-通过最大限度地减少数据存储量以及把分解后更小的规范化表联合在一起以改 善查询性能。星系模式(Galaxy Schema)-星系模式是星型模式与雪花型模式的结合,也可看作是星型模式集。它打破星 型模式只有一个事实表的限制,且这些事实表共享全部或部分维表。第五讲联机分析处理技术1. OLAP的含义:联机分析处理技术OLAP概述-OLAP的由来、基本思想、定义、目标、基本概念、基本分析操作OLAP的数据模型-数据存储-MOLAP和ROLA P的特征-混合OLAP、桌面OLAP、客户OLAP典型OLAP模型的数据组织与应用OLAP的新发展一OLAM-OLAM应该具有的功能特征-OLAM的主要发展方向-基于Web的O LAM须解决的问题OLAP的基本思想-联机分析处理在数据仓库系统中是重要的数据分析工具。-OLAP的基本思想是从多方面和多角度以多维的形式来观察企业的状态和了解 企业的变化。-OLAP是独立于数据仓库的一种技术概念-当OLAP与数据仓库结合时,OLAP的数据源为数据仓库,数据仓库的大量数据是 根据多维方式组织的。OLAP的定义-联机分析处理是共享多维信息的快速分析。体现了四个特征:快速性:用户对O LAP的快速反应能力有很高的要求。可分析性:OLAP系统应能处理任何逻辑分析和统计分析。多维性:系统必须提供对数据分析的多维视图和分析。信息性:OLAP系统应能及时获得信息,并且管理大容量的信息。OLAP的目标-是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个 概念,因此OLAP也可以说是多维数据分析工具的集合。OLAP的基本概念:变量:数据库中数据所描述的实体。在多维数据中,是用户所关心的客观事物或 事件。变量是数值型的,且是一个可度量的量。维:是变量的某种性质,是决策者用来观察变量的依据。维的层次:根据问题的需要将各个维分解成不同抽象程度。在某个维上取得的值、 称为维成员,在一个维上,不同层次的维成员构成它们的一个组合。多维数据集:一个多维数据库的数据集合。在多维数据集中,各个维和变量的数 组形式称为多维数组。多维数组的值称为一个数据单元。OLAP系统一般以数据仓库作为基础,从数据仓库中抽取详细数据的一个子集, 经过必要的聚集存储到OLAP存储器中供前端分析工具读取。为了保证信息处理所需的数据以合适的粒度、合理的抽象程度和标准化程度存 储,按照其数据存储格式可以分为关系OLAP(ROLAP)、多维OLAP(MOLAP)、混合 OLAP(HOLAP)、桌面OLAP(DOLAP)和客户OLAP(COLAP)。多维联机分析处理(MOLAP)-直接采用多维数据库进行联机 分析处理关系联机分析处理(ROLAP)昧用关系数据库来存放多维数 据进行联机分析处理MOLAP和ROLAP的特征OLAPROLAP查询能力查询响应速度较快且较为稳定查询响应速度不够稳定,有时 快,有时比较慢空间占用当所有维成员组合都存在度量值时,比 较节省存储空间,否则形成稀疏矩阵存储空间的使用效率较高分析查询能力维层次的设置受存储空间的约束而无法 设置较多的层次,从而分析查询能力比 ROLAP差可设置很多的维层次,从而可 实现诸多复杂的钻取操作一般情况,MOLAP和ROLAP的选择主要看应用的规模。若要建立功能复杂、规模 较大的企业级数据仓库,则一般选择ROLAP方式;若是建立功能单一、小型的数 据集市则更适合采用MOLAP方式。混合0 LAP(HOLAP)-HOLAP(Hybrid OLAP),即混和型OLAP介于MOLAP和ROLAP之间。在HOLAP中,对最常用的维度和维层次,使用多维数据表来存储,对于用户不常用的维度和数 据,采用ROLAP星型结构来存储。-HOLAP得宜于ROLAP的可伸缩性,和MOLAP的快速计算。(如MS SQL SERVER)-在HOLAP的多维数据表中的数据维度少于MOLAP中的维度表,数据存储容量也 少于MOLAP方式。-HOLAP在数据存取速度上又低于MOLAP。MOLAP与ROLAP的比较第六讲数据挖掘概述数据挖掘概述:数据挖掘与数据仓库的关系:第七讲数据挖掘过程数据挖掘的过程:数据挖掘的功能: 数据挖掘的分类: 数据挖掘的关联: 聚类: 应用领域: 5A模型: SEMMA模型: CRISP-DM 模型:CRISP-DM模型各阶段内容: 数据挖掘实现过程:第八讲分类算法分类算法:信息熵:信息争议:ID3算法:第九讲关联算法关联规则*支持度:置信度:计算?Aprior 1算法应用?第十章聚类分析聚类分析:欧氏距离曼哈坦距离间隔(