数据仓库与数据挖掘在生产决策中的应用.ppt
《数据仓库与数据挖掘在生产决策中的应用.ppt》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘在生产决策中的应用.ppt(52页珍藏版)》请在三一办公上搜索。
1、,数据仓库与数据挖掘(DATA WAREHOUSING AND DATA MINING),参考书,1、数据仓库与数据挖掘,作者:陈志泊主编,清华大学出版社2、数据挖掘概念与技术,JiaweiHan Micheline Kamber 著 范明 等译,机械工业出版社,数据仓库与数据挖掘在生产决策中的应用,数据仓库与数据挖掘在生产决策中的应用,数据爆炸问题 随着信息技术的不断推广和应用,许多企业都已经在使用管理信息系统处理管理事务和日常业务。这些管理信息系统为企业积累了大量的信息。从数据中获得知识 企业管理者开始考虑如何利用这些信息海洋对企业的管理决策提供支持。因此,产生了与传统数据库有很大差异的数
2、据环境要求和从这些海洋数据中获取特殊知识的工具需要。解决方法:数据仓库技术和数据挖掘技术数据仓库(Data Warehouse)和在线分析处理(OLAP)数据挖掘:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束),数据处理技术的发展,1960s和以前:文件系统1970s:层次数据库和网状数据库1980s早期:关系数据模型,关系数据库管理系统(RDBMS)。1980s晚期:各种高级数据库系统(面向应用的数据库系统、空间数据库 时序数据库、多媒体数据库等等)。1990s:数据挖掘,数据仓库。2000s:基于各种应用的数据挖掘XML数据库和整合的信息系统,数据库与数据库技术,1、数据库系统
3、数据库是按一定组织方式存储在计算机中的相互关联的数据集合,数据库的建立独立于程序。数据库管理系统是一个管理数据库的软件系统,它为用户提供了描述数据库、操纵数据库和维护数据库的方法和命令,并且能自动控制数据库的安全以及数据完整。2、数据库系统的特点1.数据的结构化2.数据的共享性3.数据的独立性4.数据统一由DBMS管理和控制(1)数据的安全性(2)数据的完整性(3)并发控制(4)数据库恢复,数据仓库的发展,从传统数据库到数据仓库 随着市场竞争的加剧,信息系统的用户已经不满足于仅仅用计算机去处理每天所发生的事务数据,而是需要信息能够支持决策的信息,去帮助管理决策。这就需要一种能够将日常业务处理中
4、所收集到的各种数据转变为具有商业价值信息的技术,传统数据库系统无法承担这一责任。因为传统数据库的处理方式和决策分析中的数据需求不相称。这些不相称性主要表现在决策处理中的系统响应问题、决策数据需求的问题和决策数据操作的问题。数据库处理的两大应用1、联机事务处理(OLTP)2、决策支持系统(DSS),联机事务处理(OLTP)操作型处理,为企业的特定应用服务是对数据库的联机的日常操作,通常是对一个或一组记录的查询和修改人们关心的是响应时间、数据的安全性和完整性处理的是当前的数据。,数据仓库的发展,决策支持系统(DSS)分析型处理,用于管理人员的决策分析经常需要访问大量的历史数据数据操作的特点:只查询
5、,不更新。数据仓库+联机分析处理+数据挖掘(DW+OLAP+DM)DSS,数据仓库的发展,传统数据库在联机事物处理中取得了较大的成功,但在基于事物处理的数据库帮助决策分析时却产生了很大的困难。主要原因是传统数据库的处理方式和决策分析中的数据需求不相称,导致传统数据库无法支持决策分析活动。这些不相称主要体现在如下几个方面:(1)决策处理的系统响应问题(2)决策数据需求的问题(3)决策数据操作的问题,数据仓库的发展,数据仓库的发展,联机分析处理技术(OLAP),联机分析处理OLAP(On-Line Analytical Processing)应用是不同于与联机事务处理(OLTP)的一类应用。它专门
6、设计用于支持复杂的分析操作,侧重对分析人员和高层管理人员的决策支持,可以应分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观易懂的形式将查询结果提供给决策制定人,以便他们准确掌握企业(公司)的经营状况,了解市场需求,制定正确方案,增加效益。,数据挖掘技术,数据挖掘(Data Mining,简记为DM)是从关系数据库、数据仓库、WEB数据库以及其他文件系统中发现重要的数据模式、规律的过程,因此又称为数据库中的知识发现(Knowledge Discovery in Database,简记为KDD),它是OLAP的高级阶段。自20世纪80年代起,开始了数据挖掘技术的研究。1989年
7、在美国召开的国际学术会议上包含了“从数据库中知识发现”的主题;1995年在加拿大召开了第一届知识发现与数据挖掘国际学术会议。,从数据库到数据仓库,在线分析处理(OLAP)在线事务处理 决策支持(DSS)(OLTP)数据挖掘(Data Mining),数据仓库的定义,数据仓库用来保存从多个数据库或其它信息源选取的数据,并为上层应用提供统一的用户接口,完成数据查询和分析。数据仓库是作为DSS服务基础的分析型DB,用来存放大容量的只读数据,为制定决策提供所需要的信息。数据仓库是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的、面向主题及不可更新的数据集合。,数据仓库的定义 数据仓库就是一
8、个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,它用以支持企业或组织的决策分析处理。,数据仓库的定义,数据仓库中数据的特点 面向主题 集成性 不可更新的随时间不断变化,数据仓库的定义,1、面向主题:主题是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类。在逻辑上,它对应于企业中某一宏观分析领域所涉及的分析对象。主题是在较高层次上对数据抽象面向主题的数据组织分为两步骤抽取主题确定每个主题所包含的数据内容每个主题在数据仓库中都是由一组关系表实现的,数据仓库的定义,数据仓库的特点 面向主题,2、集成的 数据仓库中的数据是从原有分散的源数据库中提取出来的,其每一个主题所对应的
9、源数据在原有的数据库中有许多冗余和不一致,且与不同的应用逻辑相关。为了创建一个有效的主题域,必须将这些来自不同数据源的数据集成起来,使之遵循统一的编码规则。因此,数据仓库在提取数据时必须经过数据集成,消除源数据中的矛盾,并进行数据综合和计算。经过数据集成后,数据仓库所提供的信息比数据库提供的信息更概括、更本质。数据集成过程:数据提取:数据仓库的数据是从原有的分散数据库数据中抽取来的净化、转换:消除数据表述的不一致性(数据的清洗)装载数据的综合,数据仓库的定义,数据仓库的特点 集成,3、不可更改的 数据仓库中的数据反映的是一段时间内历史数据的内容。主要供企业高层决策分析之用,所涉及的数据操作主要
10、是查询,一般情况下并不进行修改操作,即数据仓库中的数据是不可实时更新的,仅当超过规定的存储期限,才将其从数据仓库中删除,提取新的数据经集成后输入数据仓库。数据仓库的主要数据操作是查询、分析不进行一般意义上的数据更新(过期数据可能被删除)数据仓库强化查询、淡化并发控制和完整性保护等技术,数据仓库的定义,数据仓库的特点数据不可更改,4、随时间变化的 时变性:许多商业分析要求对发展趋势做出预测,对发展趋势的分析需要访问历史数据。因此数据仓库必须不断捕捉OLTP数据库中变化的数据。不断增加新的数据内容不断删除旧的数据内容定时综合数据仓库中数据表的键码都包含时间项,以标明数据的历史时期,数据仓库的定义,
11、数据仓库的特点 随时间变化,数据仓库的技术要求,大量数据的组织和管理:包含了大量的历史数据,它是从数据库中提取得来的,不必关心数据的完整性。复杂分析的高性能体现:涉及大量数据的聚集、综合等,在进行复杂查询时经常会使用多表的联接、累计、分类、排序等操作。对提取出来的数据进行集成:数据仓库中的数据是从多个应用领域中提取出来的,在不同的应用领域和不同的数据库系统中都有不同的结构和形式,所以如何对数据进行集成也是构建数据仓库的一个重要方面。对进行高层决策的最终用户的界面支持:提供各种分析应用工具。,数据仓库的体系结构,数据仓库的概念结构 从数据仓库的概念结构看,应该包含:数据源、数据准备区、数据仓库数
12、据库、数据集市/知识挖掘库以及各种管理工具和应用工具。,数据挖掘的定义,数据挖掘(Data Mining,简记为DM):从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知、有潜在应用价值的模式或知识的处理过程。模式:即知识,它给出了数据特性或数据之间的关系,是对数据所包含的信息更抽象的描述。按功能可以分为预测型模式和描述型模式。在实际应用中,可以细分为关联模式、分类模式、聚类模式和序列模式等。数据挖掘是一门交叉性学科,它涉及到机器学习、模式识别、统计学、智能数据库、知识获取、数据可视化、高性能计算、专家系统等多个领域。可广泛地应用于信息管理、过程控制、科学研究、决策支持等许多方面。,
13、数据挖掘的过程,数据挖掘知识挖掘的核心,数据挖掘的步骤,数据清理:(这个可能要占全过程60的工作量)数据集成数据选择数据变换数据挖掘(选择适当的算法来找到感兴趣的模式)模式评估知识表示,数据挖掘的类型,数据挖掘的任务是从大量的数据中发现模式。根据数据挖掘的任务可分为多种类型,其中比较典型的有:概念描述预测模型关联分析分类分析聚类分析序列分析偏差检测模式相似性挖掘Web数据挖掘,概念描述:为数据的特征化和比较产生描述特征化:提供给定数据集的简洁汇总。例:对公司的“大客户”(月消费额在5000以上)的特征化描述:4050岁,有固定职业,信誉良好,等等,数据挖掘的类型,预测模型 所谓预测即从数据库或
14、数据仓库中已知的数据推测未知的数据或对象集中某些属性的值分布。建立预测模型的常用方法:回归分析线性模型关联规则决策树预测遗传算法神经网络,数据挖掘的类型,关联分析 从事务数据库,关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。广泛的用于购物篮或事务数据分析。(1)关联发现算法:得到关联规则、找出关联组合,在关联组合中,如果出现某一项,则另一项也会出现。(2)序列模式发现算法:发现在时间序列上,一个项目集之后的项目集是什么,即找到时间上连续的事件。(3)类似的时序发现算法:先找到一个事件顺序,再推测出其他类似的事件顺序。,数据挖掘的类型,分类分析 根据训练
15、数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据(分类),用来预测类型标志未知的对象类(预测)。分类分析已经成功地用于顾客分类、疾病分类、商业建模和信用卡分析等。可以用来预报某些未知的或丢失的数字值,数据挖掘的类型,聚类分析 将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。最大化类内的相似性和最小化类间的相似性 采用聚类分析,系统可以根据部分数据发现规律,找出对全体数据的描述。例:对WEB日志的数据进行聚类,以发现相同的用户访问模式,数据挖掘的类型,序列分析 序列分析主要用于分析数据仓库中的某类与时间相关的数据,搜索类似的序列或子序列,并挖掘时序模式、周期性、趋势和偏
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 数据 挖掘 生产 决策 中的 应用
链接地址:https://www.31ppt.com/p-6166748.html