数据挖掘复习.docx
《数据挖掘复习.docx》由会员分享,可在线阅读,更多相关《数据挖掘复习.docx(24页珍藏版)》请在三一办公上搜索。
1、第一讲商业智能概述1. 商务智能的含义:商务智能是企业利用现代信息技术收集、管理和分析结构化 和非结构化的商务数据和信息,创造和累计商务知识和见解,改善商务决策水平, 采取有效的商务行动,完善各种商务流程,提升各方面商务绩效,增强综合竞争 力的智慧和能力。数据分析层面:是一系列算法、工具或模型。首先获取与所关心主题有关的高质 量的数据或信息,然后自动或人工参与使用具有分析功能的算法、工具或模型, 帮助人们分析信息、得出结论、形成假设、验证假设。信息系统层面:称为商业智能系统(BI System)的物理基础。表现为具有强大 决策分析功能的单独的软件工具和面向特定应用领域的信息系统平台,如SCM、
2、 CRM、ERP。与事务型的MIS不同,商业智能系统能提供分析、趋势预测等决策分 析功能。知识发现层面:与数据分析层面一样,是一系列算法、工具或模型。将数据转变 成信息,而后通过发现,将信息转变成知识;或者直接将信息转变成知识。战略层面:将信息或知识应用在提高决策能力和运营能力上、企业建模等。商业 智能的战略层面是利用多个数据源的信息以及应用经验和假设来提高企业决策 能力的一组概念、方法和过程的集合。它通过对数据的获取、管理和分析,为贯 穿企业组织的各种人员提供信息,以提高企业战略决策和战术决策能力。2. 商业智能四大关键技术:数据挖掘技术、数据仓库技术、联机分析技术、可视化技术 数据挖掘:数
3、据挖掘是按照预定的规则对数据库和数据仓库中已有的数据进行信息开 采、挖掘和分析,从中识别和抽取隐含的模式和有趣知识,为决策者提供决策依 据。数据挖掘的任务是从数据中发现模式。模式有很多种,按功能可分为两大类: 预测型(Predictive)模式和描述型(Descriptive)模式。根据模式的实际作用,可细分为分类模式、回归模式、时间序列模式、聚类 模式、关联模式和序列模式6种。其中包含的具体算法有货篮分析(Market Analysis) 聚类检测(Clustering Detection) 神经网络(Neural Networks) 决策树方法(Decision Trees)、遗传算法(G
4、enetic Analysis)、连接分析(Link Analysis) 基于范例的推理(Case Based Reasoning)和粗集(RoughSet)以及各 种统计模型。数据仓库: 实施BI首先要从企业内部和企业外部不同的数据源,如CRM、SCM、ERP以及其他 应用系统等搜集有用的数据,进行转换和合并,因此需要数据仓库和数据集市技术的支持。 数据仓库是指从多个数据源收集的信息,以一种一致的存储方式保存所得到的数据集 合。数据仓库的数据模型有星型模式、雪花模式。 数据仓库创始人之一W.H.Inmon的定义为:“数据仓库是一个面向主题的、集成的、稳 定的、包含历史数据的数据集合,它用于支
5、持管理中的决策制定过程。数据挖掘与数据仓库:-数据挖掘是数据仓库发展的必然结果。-数据仓库为数据挖掘提供应用基础:大多数数据挖掘工具要在集成的、一致的、经过清理的数据上进行挖掘;数据仓库构造过程中已组建了数据处理和数据分析的基础设施,数据挖掘可借此进行,不必重新组建基础设施;数据仓库中的O LAP完全可为数据挖掘提供有关的数据操作支持;在数据挖掘中,如果将数据挖掘与数据仓库进行有效地联结,将增加数据 挖掘的联机挖掘功能。3. 企业信息化如何利用商务智能?(1)销售分析:具体地,采用商业智能系统进行销售分析可以帮助企业解 决的问题有:-某段时间内的产品销售情况分析;-同一种产品如何根据不同情况制
6、定不同的价格策略;-产品退货情况分析;-产品销售收入及获利情况分析;-哪种产品被哪个客户订购多少,什么时间,出自哪个业务员?-销售员销售绩效分析,销售员收回款分析;-多角度分析销售成绩。(2)库存分析:基于商业智能系统构建的库存分析,既能让一般用户了解 库存物品的数量、库存成本和资金占用等情况,从级别、类别、货位、批次、单 件、分类等不同角度进行查询,又能辅助决策解决企业深层次的相关问题。库存 分析的基础数据取自于采购、销售、生产、财务等业务模块。商业智能的库存分析帮助企业实现的功能包括:-在给定的时间段、给定的库位发现呆滞物品,提供处理建议;-查询某物料在各货位的储量情况分析及储量;-某物料
7、在某时间的收入、发生和结存情况分析;-物品占用库存资金分析;-哪种物品处于短缺或超储;-物品周转率分析;-查询历史各阶段的库存物品和成本情况;-多角度,多条件组合查询库存情况。(3)采购分析:基于数据仓库技术的商业智能系统可实现供应商信用评价、 业务员业绩考核等决策分析,帮助企业为顺利生产打下坚实的基础,为最终产品 在质量和成本上的定位提供科学的依据。具体包括:-供应信用等级分析,从交付日期、质量、数据和价格等方面评估供应商的 表现;-采购价格变动分析;-物品拖期交货情况及原因分析;-某种物料的供应商情况分析;-某供应商供应物料情况分析;-采购员业绩分析;-某供应商采购量和采购金额分析;-供应
8、商的物料检验后被拒收分析;-到货物料存储仓库及货位查询;-供应商报价查询;-多角度查询物品的请购、订购及收货入库的情况;(4)财务分析:商业智能基于数据仓库技术的财务分析满足企业领导对各 业务部门费用支出情况进行查询的要求,并实现了对应收款、应付款的决策分析。企业决策层通过使用这一功能,进一步提高从现金流量、资产负债、资金回收率 等角度决策企业运营的科学化水平。具体功能包括:-帐务分析各部门费用支出情况分析,辅助决策进一步的预算;多角度、多层次、多条件立体帐务查询;跨科目、级别的明细帐务查询;财务历史数据查询。-应收帐分析客户欠款时间及细节查询;欠款的时间段分析;客户购货金额及付款情况查询;客
9、户现金折扣分析;多条件、多角度查询收款及欠款情况;客户信用等级分析。-应付款分析企业对供应商欠款时间及细节查询;企业对供应商欠款的时间段分析;从各供应商采购情况分析;多条件、多角度查询付款及欠款情况。(5)人力资源分析:基于数据仓库技术的商业智能系统提供的劳动规划应用, 应在企业详实的人力资源数据基础之上,完成决策者多视角的人力资源统计分 析,并通过对现有的人力资源的使用状况,预测劳动满员和紧缺,分析超时和工 作量,鉴别无效的工作和优秀的的雇员,计算出某段时间内劳动的收益率等,使 劳动资源得到最大的利用。商业智能的人力规划分析也可以实现不同角度的员工工资查询和分析,结合完成 的工作量,提高员工
10、利益分配的科学性。具体功能包括:-按部门、职称、专业、学历、性别等的职工统计和查询;-从职称、学历、工作量等方面进行人才能力综合评介;-多角度职工工资查询,按不同视角进行职工工资统计分析;-实际完成工作量和工时对比分析;-人力工作量负荷分析;-分析各类员工所获奖励、惩罚等个人特性与共性之间的关系。第二讲数据仓库概述1. 数据仓库定义:数据仓库(Data Warehouse)是一种为信息分析提供了良好的基 础并支持管理决策活动的分析环境,是面向主题的、集成的、稳定的、不可更新 的,随时间变化的、分层次的多维的集成数据集合。数据仓库的特点:(1)面向主题:主题是高中层管理人员关心的,它在逻辑上对应
11、的是企业中某一宏观分析领域 所涉及的分析对象。面向主题是相对于传统数据库的面向应用而言的。面向应用是指系统实现过程 中要围绕着一些应用或功能,面向主题是考虑一个个的问题域,对问题域涉及的 数据和分析数据所采用的功能给予同样的重视。数据仓库是面向在数据模型中已 定义业务的主要主题域的。在较高层次上对分析对象的数据进行一个完整、一致的描述,能完整、统一管 理各个分析对象所涉及的企业各项数据以及数据之间的联系。(高层次:很高的 数据抽象级别)一个主题领域的表来源于多个操作型应用(如:客户主题,来源于:订单的处理; 应收帐目;应付帐目;)面向主题强调形成关于主题的完整一致的信息集合,舍弃不必要的信息,
12、以便 于分析。主题之间的重叠是逻辑上的重叠,而不是同一数据内容的重复物理存储,仅是 细节上的重叠,并非主题内容的重叠。一个主题可以划分成多个表。面向主题的数据组织方式是根据分析要求将数据组织成一个完备的分析领域, 即主题域。(独立性和完备性)实现主题时,如果数据项多了,可采用化大为小的方法。适用于分析型应用,建设企业全局数据库。(2)集成性数据仓库的每一个主题所对应的元数据在原有的各分散数据库中有许多重复各 不一致的地方,且来源于不同联机系统的数据和其应用逻辑捆绑在一起。数据仓库中的综合数据不能从原有的数据库系统直接得到。统一元数据中所有矛盾之处进行数据综合和计算(3)不可更新性涉及的操作:查
13、询数据相当长时间的历史数据基于不同时间的数据库快照进行统计、综合和重组而导出的数据,不是联机数 据。(4)时态性随时间的变化而不断增加新的数据内容数据有存储期限操作型:6090天DSS数据:510年大量综合数据与时间有关认识两点不应该说数据库到数据仓库是技术的进步。数据仓库是因为用户需求增加而对 某一类数据库应用范围的界定,仅从数据存储容器的角度而言,数据仓库和数据 库并没有本质的区别,而且很多时候,数据仓库是作为一个数据库应用系统来看待的。-数据仓库并不是对数据库的彻底抛弃。数据仓库是在传统数据库的基础上发展 起来的,是建立在异构的业务数据库基础上的。说明:数据仓库是一种数据资源构架。它具有
14、不同的数据源,来自数据源的数据 经过系统的整理和分类后,存储到统一的数据存储中心,根据决策者的要求提供 检索和显示服务。误区:对数据仓库最大的误解是把它当做了一个现成的可直接买来使用的产品。 实际上,数据仓库和数据库不同,它不是现成的软件或硬件产品。数据仓库是一 种解决方案,是对原始的操作数据进行各种处理并转换成有用信息的处理过程, 用户通过分析这些信息可作出策略性的决策。2. 数据库与数据仓库的比较:数据库数据仓库内容与业务相关的数据与决策相关的信息数据模型关系、层次结构关系、多维结构访问经常是随地读、写操作经常是只读操作负载事务处理量大,但每个事务涉及的记录 数少查询最小,但每次需要查询
15、大量的记录事务输出一般很少可能非常大停机可能意味着灾难性错误可能意味着延迟决策3. 建立数据仓库的好处-有形的好处改善产品库存降低产品推广费更加高效地制定决策能提供一个关于整个企业的整体构架-无形的好处通过把所有的数据放在一个地方,方便存取,提高生产效率减少重复数据处理和分析数据仓库提高用户对数据的应用4. 商业数据到商业信息化的发展中经历的每个阶段和解决的商业问题及支持技 术?进化阶段商业问题支持技术数据搜集(60 年代)“过去五年中我的总收入是多少? ”计算机、磁带和磁盘数据访问(80 年代)“在新英格兰的分部去年三月的销 售额是多少? ”关系数据库(RDBMS),结 构化查询语言(SQL
16、),ODBC数据仓库;决 策支持(90年代)“在新英格兰的分部去年三月的销 售额是多少?波士顿据此可得出什 么结论?联机分析处理(OLAP)、多 维数据库、数据仓库数据挖掘(正 在流行)“下个月波士顿的销售会怎么样? 为什么?高级算法、多处理器计算机、 海量数据库5. 数据集市的定义:又叫数据市场,是部门级的数据仓库,或者是为某种专门的用 途开发的数据存储系统。数据集市与数据仓库的区别与联系?数据集市:规模较小,成本较低,针对性更强。数据仓库:数据来源于各个部门的不同应用系统,可保证数据的整合性。数据仓库是企业级的,能为整个企业各个部门的运行提供决策支持手段,而 数据集市是部门级的,一般只能为
17、某个局部范围内的管理人员服务,故有时又称 为部门级数据仓库。数据集市的两种基本形式:从属的数据集市(自上而下构建数据集市):数据是从企业的数据仓库获得,可看 作是数据仓库的一个子集。因此具有较好的数据整合性。若需要的数据在数据集 市中没有,则要先修改数据仓库的结构,使这种数据先进入数据仓库,再进入数 据集市。这种数据集市适合用于对数据仓库的访问量比较大的关键业务部门。独立的数据集市(自下而上构建数据集市):没有数据仓库作为它的数据来源,而 是直接从各个应用系统取得数据,因此,成本低,灵活性好,需要一种新的数据 时不必修改企业级的数据仓库。可提供个别部门所需要的数据,整合性较差。第三讲数据仓库分
18、析1. 数据仓库需求分析模型功能需求、非功能需求未来潜在需求、现在潜在需求平衡记分卡(BSC)是 一种组织绩效管理方法。它从四个角度审视自身业绩:学习 与成长、业务流程、顾客、财务。我们能否继续提高和创造价值的优势?数据仓库的平衡记分卡(DWBSC)是将平衡计分卡的原理扩展到数据仓库的需求分 析中。其四个角度为用户的视角、决策支持的视角、商务贡献和满足未来需求的 视角。2. 怎样成功建立数据仓库?数据存储时的组织方式,决定了数据的可获取性与有用性,进而决定了数据的 价值。数据仓库的数据库结构有以下要求:-反映静态数据-存储历史数据-在时间上是可见的、明确的-数据的粒度是详细的和可导出的汇总-定
19、期的、计划的更新-支持的任务是不可预期的-对数据库的灵活性要求高成功建立数据仓库应遵循的原则-一把手原则-目标明确、可行-以查询目标进行分析而不是事务设计-采用成熟的方法,从容易实现的主题开始-对使用数据仓库的人进行指导-除此,还考虑数据挖掘工具的成熟度,参加数据仓库的建设人才应该是复合型 人才,以及数据的积累程度影响数据仓库成功的因素;3. 数据仓库的生命周期-与传统的SDLC几乎相反,用其逆序的写法CLDS表示-属于数据驱动的开发生命周期%g,SlDLC,收集需求W教据仓寐:3;仓【4 SDLC现甑KtrK,集姗据,调试隼H实现,检粉16号 tt对数据邮设计DSS?渣,孙柝站果理解需求数据
20、仓库准备与计划数据仓库设计组件设计与开发数据仓库推广应用数据仓库需求与目标可行性分析一A计划一 调整主题与数据源主题及细化兀数据与数据 抽取原则的分析数据仓库的设计数据仓库生命周期除最小型的信息系统项目,其他任何信息系统项目都应在一系列事先计划好的基 础上进行,且每一阶段最后均经过管理层对该阶段结果进行审查。-用户需求分析-可行性研究 -用户的认可 -建设数据仓库的协调与阻力分析-开发项目计划制定-创建数据仓库所使用的关键资源 用户需求分析-需求的产生:非正式讨论演化-工作制品:管理者、用户的正式报告管理层的批准和项目评审的会议报告潜在应用列表(优先级、功能)-用户需求分析的内容用户如何处理其
21、事务如何衡量用户的工作表现用户需要什么属性(在信息方面)应用于这些属性的业务层次结构是什么用户现在使用什么数据,以及需要什么数据用户需要什么水平的细节或汇总数据可行性研究-三种类型的可行性技术可行性操作可行性经济可行性-可行性研究报告的关键是考虑项目进度的实施。-项目在活动、资源和时间方面的预测是可行性研究报告的重要内容。用户的认可-获得用户认可的重要性由以下因素引起效益经常是无形的,甚至推测出来的数据仓库不能完全改变决策方式,只能改变决策信息的获取方法多数MIS部门传统上注重功能性应用软件和数据库,数据仓库必须经常集成其中 一些应用软件的数据用户支持与上层管理者的支持是不同的 建设数据仓库协
22、调与阻力分析高级经理员态度矩阵察觉到改变的需要对业务熟悉程度愿望吸引力无差异感到作为次司关键散据掌 门人”的地位受到威胁的址 工生产践或员工管理者知识工作者害怕其操作披其他人看到或 了解的中层管理者克服阻力的途径没有 一条是完美的,所有 这些都要求因人而异 地采取灵活的方法, 同时最后结果也是博 弈平衡的结果。开发项目计划制定-数据仓库项目计划描述三件事要做什么(全部计划包含的任务)什么时候做为开发项目需要什么资源创建数据仓库所使用的关键资源-关键资源人才信息系统服务人员最终用户支持者顼目领导系统测试系统设计(整 体设计与详细 设计)系统分析数据仓库的系统分析-分析用于支持正在制定的决策或数据
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 复习
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-5306506.html