《数据仓库与数据挖掘》演示稿第6章.ppt
《《数据仓库与数据挖掘》演示稿第6章.ppt》由会员分享,可在线阅读,更多相关《《数据仓库与数据挖掘》演示稿第6章.ppt(62页珍藏版)》请在三一办公上搜索。
1、1,复旦大学 软件学院2004.04,数据仓库与数据挖掘(第6章),2,第6章数据挖掘的基本概念与常用方法,主要内容从OLTP到数据挖掘联机分析处理(OLAP)数据挖掘的基本概念数据挖掘过程数据挖掘的常用方法数据挖掘的类型,3,从OLTP到数据挖掘,数据库应用的规模和深度点 线 面 互联网 在线分析处理(OLAP)在线事务处理 决策支持(DS)(OLTP)数据挖掘(Data Mining),4,事务型处理与分析型处理,事务型处理:即操作型处理,是指对数据库的联机操作处理。事务型处理是用来协助企业对响应事件或事务的日常商务活动进行处理。它是事件驱动、面向应用的,通常是对一个或一组纪录的增、删、改
2、以及简单查询等。事务型处理的应用程序和数据是紧紧围绕着所管理的事件来构造的。在事务型处理环境中,数据库要求能支持日常事务中的大量事务,用户对数据的存取操作频率高而每次操作处理的时间短。,5,分析型处理,分析型处理:用于管理人员的决策分析,例如DSS、EIS、和多维分析等。它帮助决策者分析数据以察看趋向、判断问题。分析型处理经常要访问大量的历史数据,支持复杂的查询。在分析型处理中,并不是对从事务型处理环境 中得到的细节数据进行分析。细节数据量太大,会严重影响分析的效率,而且太多的细节数据不利于分析人员将注意力集中于有用的信息。分析型处理过程中经常用到外部数据,这部分数据不是由事务型处理系统产生的
3、,而是来自于其他外部数据源。,6,事务型处理数据和分析型处理数据的区别,事务型处理数据 分析型处理数据细节的 综合的,或提炼的在存取瞬间是准确的 代表过去的数据可更新 不可更新,只读的操作需求事先可知道 操作需求事先不知生命周期符合SDLC完全不同的生命周期对性能要求高 对性能要求宽松一个时刻操作一个单元一个时刻操作一个事务驱动分析驱动面向应用面向分析一次操作数据量小一次操作数据量大支持日常操作支持管理需求,7,数据库系统的局限性,E-R模型适于描述高度结构化的日常事务细节数据,而决策型数据多为历史性、汇总性或计算性数据,多表现为静态数据,不需直接更新,但可周期性刷新。决策分析型数据是多维性,
4、分析内容复杂。在事务处理环境中,决策者可能并不关心具体的细节信息,在决策分析环境中,如果这些细节数据量太大一方面会严重影响分析效率,另一方面这些细节数据会分散决策者的注意力。,8,数据库系统的局限性,当事务型处理环境和分析型处理环境在同一个数据库系统中,事务型处理对数据的存取操作频率高,操作处理的时间短,而分析型处理可能需要连续运行几个小时,从而消耗大量的系统资源。决策型分析数据的数据量大,这些数据有来自企业内部的,也有来自企业外部的。来自企业外部的数据又可能来自不同的数据库系统,在分析时如果直接对这些数据操作会造成分析的混乱。对于外部数据中的一些非结构化数据,数据库系统常常是无能为力的。,9
5、,多库系统的限制,可用性:源站点或通信网络故障将导致系统瘫痪,源站点不能通过网络在线联入多库系统;响应速度:全局查询多级转换和通信传输,延迟和低层效率影响响应速度;系统性能:总体性能取决于源站点中性能最低的系统,影响系统性能的发挥;系统开销:每次查询要启动多个局部系统,通信和运行开销大,10,数据仓库系统的结构,最终用户,可视化工具,数据挖掘工具,多维分析工具,多维数据,数据仓库工具层,数据仓库层,11,数据仓库工具查询型工具:对分析结果(发展趋势或模式总结)的查询 简单的多维查询+查询报告工具+RBDMS验证型工具:用户提出假设,利用各种工具,通过反复,递归 的检索查询以验证或否定自己的假设
6、,从数据仓 库中发现事实多维分析工具(OLAP):可为查询,报告,图形以及基本的多维操作提提供接口挖掘型工具:从大量数据中发现数据模式,预测趋势和行为 的数据挖掘工具,12,联机分析处理(On-Line Analytical Processing,OLAP),OLAP的概念:是一类软件技术,它针对特定问题的联机数据访问和分析,可使决策者通过对信息的多种观察角度进行快速、一致和交互的存取,以获得对信息的深入理解。,通过对信息的 多种观察形式进行交互存取。OLAP的特点:在线:快速响应、交互操作(可由C/S结构实现)多维:信息已变换,以在不同维观察数据,13,联机分析处理,绝对模型:静态数据分析,
7、比较历史数据或行为描述过去的事实,一般查询表格工具。解释模型:静态数据分析,利用系统已有的多层次的综合路径,(需临时建立多维视图)找出事实发生的原因,工具渐多。思考模型:动态数据分析,说明在一维或多维上引入变量或参数,将会发生什么变化,支持工具较少。动态模型:高级动态数据分析,用以表示在多维上需要引用哪些变量或参数,以及引入后产生的结果,支持工具较少。,14,联机分析处理的基本概念概念,变量:数值度量指标维:观察数据的角度维的层次:一个维内部数据的概括程度维成员:维的一个取值(多层)多维数组:(维1,维2,维n,变量)数据单元:多维数组的取值(维成员1,维成员2,维成员n,变量值),15,多维
8、分析的基本操作,切片(Slice):选定多维数据集的一个维的成员。如:(地区,时间,产品)(地区,时间,服装)切块(Dice):选定多维数据集的两个或两个以上维的成员。如:(地区,时间,产品)(上海,时间,服装)旋转(Rotate):改变多维数据集显示的维方向其他操作:钻过(Drill-across)、钻透(Drill-through)以及统计类计算,16,OLAP的准则(E.F.Codd 1993),准则1:OLAP模型必须提供多维概念视图准则2:透明性准则分析工具位置对用户透明准则3:存取能力准则开放、高效、异构准则4:稳定的报表功能报表能力和响应速度不应有明显降低准则5:客户/服务器体系
9、结构两层或三层C/S结构,智能化服务准则6:维的等同性准则每一维在结构和操作功能上等同,17,OLAP的准则(E.F.Codd 1993),准则7:动态的稀疏矩阵处理准则OLAP服务器的物理结构适用于特定的发现模式,能提供优化的稀疏矩阵处理(有效存储数据)准则8:多用户支持能力准则并发访问、数据完整性、安全性准则9:非受限的跨维操作所有维的生成、处理平等,能处理维间相关计算准则10:直观的数据操纵数据操作直观易懂准则11:灵活的报表生成操作、分析、综合、查看数据按需要依次排列准则12:不受限维与聚集层次通用分析模型至少15个维,任意定义聚集和聚集层次,18,基于多维数据库(MDDB)的OLAP
10、MOLAPOLAP服务器:存储OLAP服务软件和多维数据库MDDB存储:采用“超立方体”形式MDDB存取:多维操作,DB,DW,多维视图,基础数据 计算结果,多维数据库引擎,客户,多维存取,19,基于多维数据库(MDDB)的OLAPMOLAP的功能,对查询的快速响应与多维数据库交互挖掘各维数据间的联系计算引擎和比较分析交叉维计算综合统计和财务计算计时功能(年、月、日、时分、财务日历等)查询数据仓库底层细节数据导航功能,20,基于关系数据库的OLAPROLAP用关系表达式描述多维概念大量的关系表用星型模型、雪花模型 构造维模型,DB,DW,基础数据元数据计算结果,多维综合引擎,多维视图,SQL,
11、存取,多维存取,RDBMS服务器,关系型OLAP 服务器 客户,ROLAP结构简图,21,MOLAP与 ROLAP比较,22,数据挖掘,数据挖掘(ata Mining):又称为数据库中的知识发现,是基于、机器学习、统计学等技术,高度自动化地分析原有的数据,进行归纳性推理,从数据仓库或数据库中提取可信的、新颖的、有效的、人们感兴趣的、能别人理解的知识的高级处理过程。这些知识是隐含的、事先未知的有用信息,提取的知识表现为概念、规则、模式、规律等形式,以帮助管理者作出正确的决策。模式:它给出了数据特性或数据之间的关系,是对数据所包含的信息更抽象的描述。模式按功能可以分为预测型模式和描述型模式。在实际
12、应用中,可以细分为关联模式、分类模式、聚类模式和序列模式等。,23,数据挖掘的发展,“从数据中发现有用模式”历来有很多称法,如:数据挖掘(data mining)知识提取(knowledge extraction)信息发现(information discovery)信息收获(information harvesting)数据考古(data archaeology)数据模式处理(data pattern processing)“数据挖掘”的称法大部分是由统计学家,数据分析学家和MIS团体使用的,在数据库领域也得到了广泛接受。,24,数据挖掘的发展,7080年代:知识发现与数据挖掘结合1989年
13、6月:在美国底特律举行了第一届“从数据库中知识发现”的国际学术会议,在这次会议中第一次使用了KDD 这个词来强调“知识”是数据驱动(data-driven)发现的最终结果。1995:加拿大召开第一届知识发现与数据挖掘国际学术会议,25,历届有关KDD的学术会议,26,数据挖掘的发展,数据挖掘技术的应用开发在国外已经迅速发展,许多大公司(如Informix,Oracle,IBM等)都投入了巨资对其进行研究,并开发出了一些产品和原型,如DBMiner、Quest、EXPLORA等。第一本关于数据挖掘的国际学术杂志Data Mining and Knowledge Discovery于1997年3月
14、创刊。国内在这方面的研究起步比较晚,早期研究的方向多集中于关联规则的挖掘,近来关于时序模式、分类、聚类、WEB数据挖掘等的研究也日益受到重视,并取得了不少可喜的成果,一些原型系统或数据挖掘工具已经研制成功并在不断完善中。,27,DM系统的体系结构(1)DW 的步骤:数据准备:数据集成数据选择预分析挖掘表述评价(2)DW 系统的结构:,用户界面,结果输出,数据挖掘核心,知识库,数据仓库,数据库,文件系统,其他数据源,ODBC或其他专用数据库接口,28,数据准备阶段:经过处理过的数据一般存储在数据仓库中。数据准备是否做得充分将影响到数据挖掘的效率和准确度以及最终模式的有效性。包括:数据的选择:选择
15、相关的数据数据的净化:消除噪音、冗余数据数据的推测:推算缺失数据数据的转化:离散值数据与连续值数据之间的相互转换、数据值的分组分类、数据项之间的计算组合等数据的缩减:减少数据量,数据挖掘的过程,29,数据挖掘的过程,挖掘阶段:该阶段是数据挖掘的核心步骤,也是技术难点所在。根据数据挖掘的目标,采用人工智能、集合论、统计学等方法,应用相应的数据挖掘算法,分析数据并通过可视化工具表述所获得的模式或规则。,30,数据挖掘的过程,评价阶段:在数据挖掘中得到的模式可能是没有实际意义或没有使用价值的,也有可能不能准确反映数据的真实意义,甚至在某些情况下是与事实相反的,因此需要评估,确定哪些是有效的、有用的模
16、式。评估可以根据用户多年的经验,有些模式也可以直接用数据来检验其准确性。,31,数据挖掘的过程,巩固和运用阶段:用户理解的、并被认为是符合实际和有价值的模式形成了知识。同时还要对知识进行一致性检查,解决与以前得到的知识互相冲突、矛盾的地方,使知识得到巩固。运用知识有两种方法:一种是只需看知识本身所描述的关系或结果,就可以对决策提供支持;另一种是要求运用知识对新的数据进行分析,由此可能产生新的问题,而需要对知识作进一步的优化。,32,数据挖掘系统的结构,数据挖掘系统可以采用三层的C/S结构:第一层:为图形用户界面,位于系统的客户端;第二层:为数据挖掘引擎,它是数据挖掘系统的核心,位于系统的应用服
17、务器端;第三层:为数据库与数据仓库,位于数据服务器端。,33,数据挖掘系统的结构图形用户界面,该模块实现用户与数据挖掘系统之间的通信,允许用户与系统交互。用户可以通过图形化界面指定数据挖掘任务、输入有关信息,根据系统以可视化形式输出的数据挖掘的中间结果进行探索式的数据挖掘。此外,该模块还提供用户浏览数据库和数据仓库模式或数据结构、评价数据挖掘的模式等功能。,34,数据挖掘系统的结构 数据挖掘引擎,数据挖掘引擎是数据挖掘系统最基本、最重要的部分,是数据挖掘系统的核心。该部分由一系列功能模块组成,分别用于关联规则挖掘、分类规则挖掘、聚类规则挖掘、时序与序列数据挖掘和WEB数据挖掘等。,35,数据挖
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库与数据挖掘 数据仓库 数据 挖掘 演示
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-6359389.html