数据仓库与数据挖掘在生产决策中的应用.ppt
,数据仓库与数据挖掘(DATA WAREHOUSING AND DATA MINING),参考书,1、数据仓库与数据挖掘,作者:陈志泊主编,清华大学出版社2、数据挖掘概念与技术,JiaweiHan Micheline Kamber 著 范明 等译,机械工业出版社,数据仓库与数据挖掘在生产决策中的应用,数据仓库与数据挖掘在生产决策中的应用,数据爆炸问题 随着信息技术的不断推广和应用,许多企业都已经在使用管理信息系统处理管理事务和日常业务。这些管理信息系统为企业积累了大量的信息。从数据中获得知识 企业管理者开始考虑如何利用这些信息海洋对企业的管理决策提供支持。因此,产生了与传统数据库有很大差异的数据环境要求和从这些海洋数据中获取特殊知识的工具需要。解决方法:数据仓库技术和数据挖掘技术数据仓库(Data Warehouse)和在线分析处理(OLAP)数据挖掘:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束),数据处理技术的发展,1960s和以前:文件系统1970s:层次数据库和网状数据库1980s早期:关系数据模型,关系数据库管理系统(RDBMS)。1980s晚期:各种高级数据库系统(面向应用的数据库系统、空间数据库 时序数据库、多媒体数据库等等)。1990s:数据挖掘,数据仓库。2000s:基于各种应用的数据挖掘XML数据库和整合的信息系统,数据库与数据库技术,1、数据库系统 数据库是按一定组织方式存储在计算机中的相互关联的数据集合,数据库的建立独立于程序。数据库管理系统是一个管理数据库的软件系统,它为用户提供了描述数据库、操纵数据库和维护数据库的方法和命令,并且能自动控制数据库的安全以及数据完整。2、数据库系统的特点1.数据的结构化2.数据的共享性3.数据的独立性4.数据统一由DBMS管理和控制(1)数据的安全性(2)数据的完整性(3)并发控制(4)数据库恢复,数据仓库的发展,从传统数据库到数据仓库 随着市场竞争的加剧,信息系统的用户已经不满足于仅仅用计算机去处理每天所发生的事务数据,而是需要信息能够支持决策的信息,去帮助管理决策。这就需要一种能够将日常业务处理中所收集到的各种数据转变为具有商业价值信息的技术,传统数据库系统无法承担这一责任。因为传统数据库的处理方式和决策分析中的数据需求不相称。这些不相称性主要表现在决策处理中的系统响应问题、决策数据需求的问题和决策数据操作的问题。数据库处理的两大应用1、联机事务处理(OLTP)2、决策支持系统(DSS),联机事务处理(OLTP)操作型处理,为企业的特定应用服务是对数据库的联机的日常操作,通常是对一个或一组记录的查询和修改人们关心的是响应时间、数据的安全性和完整性处理的是当前的数据。,数据仓库的发展,决策支持系统(DSS)分析型处理,用于管理人员的决策分析经常需要访问大量的历史数据数据操作的特点:只查询,不更新。数据仓库+联机分析处理+数据挖掘(DW+OLAP+DM)DSS,数据仓库的发展,传统数据库在联机事物处理中取得了较大的成功,但在基于事物处理的数据库帮助决策分析时却产生了很大的困难。主要原因是传统数据库的处理方式和决策分析中的数据需求不相称,导致传统数据库无法支持决策分析活动。这些不相称主要体现在如下几个方面:(1)决策处理的系统响应问题(2)决策数据需求的问题(3)决策数据操作的问题,数据仓库的发展,数据仓库的发展,联机分析处理技术(OLAP),联机分析处理OLAP(On-Line Analytical Processing)应用是不同于与联机事务处理(OLTP)的一类应用。它专门设计用于支持复杂的分析操作,侧重对分析人员和高层管理人员的决策支持,可以应分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观易懂的形式将查询结果提供给决策制定人,以便他们准确掌握企业(公司)的经营状况,了解市场需求,制定正确方案,增加效益。,数据挖掘技术,数据挖掘(Data Mining,简记为DM)是从关系数据库、数据仓库、WEB数据库以及其他文件系统中发现重要的数据模式、规律的过程,因此又称为数据库中的知识发现(Knowledge Discovery in Database,简记为KDD),它是OLAP的高级阶段。自20世纪80年代起,开始了数据挖掘技术的研究。1989年在美国召开的国际学术会议上包含了“从数据库中知识发现”的主题;1995年在加拿大召开了第一届知识发现与数据挖掘国际学术会议。,从数据库到数据仓库,在线分析处理(OLAP)在线事务处理 决策支持(DSS)(OLTP)数据挖掘(Data Mining),数据仓库的定义,数据仓库用来保存从多个数据库或其它信息源选取的数据,并为上层应用提供统一的用户接口,完成数据查询和分析。数据仓库是作为DSS服务基础的分析型DB,用来存放大容量的只读数据,为制定决策提供所需要的信息。数据仓库是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的、面向主题及不可更新的数据集合。,数据仓库的定义 数据仓库就是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,它用以支持企业或组织的决策分析处理。,数据仓库的定义,数据仓库中数据的特点 面向主题 集成性 不可更新的随时间不断变化,数据仓库的定义,1、面向主题:主题是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类。在逻辑上,它对应于企业中某一宏观分析领域所涉及的分析对象。主题是在较高层次上对数据抽象面向主题的数据组织分为两步骤抽取主题确定每个主题所包含的数据内容每个主题在数据仓库中都是由一组关系表实现的,数据仓库的定义,数据仓库的特点 面向主题,2、集成的 数据仓库中的数据是从原有分散的源数据库中提取出来的,其每一个主题所对应的源数据在原有的数据库中有许多冗余和不一致,且与不同的应用逻辑相关。为了创建一个有效的主题域,必须将这些来自不同数据源的数据集成起来,使之遵循统一的编码规则。因此,数据仓库在提取数据时必须经过数据集成,消除源数据中的矛盾,并进行数据综合和计算。经过数据集成后,数据仓库所提供的信息比数据库提供的信息更概括、更本质。数据集成过程:数据提取:数据仓库的数据是从原有的分散数据库数据中抽取来的净化、转换:消除数据表述的不一致性(数据的清洗)装载数据的综合,数据仓库的定义,数据仓库的特点 集成,3、不可更改的 数据仓库中的数据反映的是一段时间内历史数据的内容。主要供企业高层决策分析之用,所涉及的数据操作主要是查询,一般情况下并不进行修改操作,即数据仓库中的数据是不可实时更新的,仅当超过规定的存储期限,才将其从数据仓库中删除,提取新的数据经集成后输入数据仓库。数据仓库的主要数据操作是查询、分析不进行一般意义上的数据更新(过期数据可能被删除)数据仓库强化查询、淡化并发控制和完整性保护等技术,数据仓库的定义,数据仓库的特点数据不可更改,4、随时间变化的 时变性:许多商业分析要求对发展趋势做出预测,对发展趋势的分析需要访问历史数据。因此数据仓库必须不断捕捉OLTP数据库中变化的数据。不断增加新的数据内容不断删除旧的数据内容定时综合数据仓库中数据表的键码都包含时间项,以标明数据的历史时期,数据仓库的定义,数据仓库的特点 随时间变化,数据仓库的技术要求,大量数据的组织和管理:包含了大量的历史数据,它是从数据库中提取得来的,不必关心数据的完整性。复杂分析的高性能体现:涉及大量数据的聚集、综合等,在进行复杂查询时经常会使用多表的联接、累计、分类、排序等操作。对提取出来的数据进行集成:数据仓库中的数据是从多个应用领域中提取出来的,在不同的应用领域和不同的数据库系统中都有不同的结构和形式,所以如何对数据进行集成也是构建数据仓库的一个重要方面。对进行高层决策的最终用户的界面支持:提供各种分析应用工具。,数据仓库的体系结构,数据仓库的概念结构 从数据仓库的概念结构看,应该包含:数据源、数据准备区、数据仓库数据库、数据集市/知识挖掘库以及各种管理工具和应用工具。,数据挖掘的定义,数据挖掘(Data Mining,简记为DM):从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知、有潜在应用价值的模式或知识的处理过程。模式:即知识,它给出了数据特性或数据之间的关系,是对数据所包含的信息更抽象的描述。按功能可以分为预测型模式和描述型模式。在实际应用中,可以细分为关联模式、分类模式、聚类模式和序列模式等。数据挖掘是一门交叉性学科,它涉及到机器学习、模式识别、统计学、智能数据库、知识获取、数据可视化、高性能计算、专家系统等多个领域。可广泛地应用于信息管理、过程控制、科学研究、决策支持等许多方面。,数据挖掘的过程,数据挖掘知识挖掘的核心,数据挖掘的步骤,数据清理:(这个可能要占全过程60的工作量)数据集成数据选择数据变换数据挖掘(选择适当的算法来找到感兴趣的模式)模式评估知识表示,数据挖掘的类型,数据挖掘的任务是从大量的数据中发现模式。根据数据挖掘的任务可分为多种类型,其中比较典型的有:概念描述预测模型关联分析分类分析聚类分析序列分析偏差检测模式相似性挖掘Web数据挖掘,概念描述:为数据的特征化和比较产生描述特征化:提供给定数据集的简洁汇总。例:对公司的“大客户”(月消费额在5000以上)的特征化描述:4050岁,有固定职业,信誉良好,等等,数据挖掘的类型,预测模型 所谓预测即从数据库或数据仓库中已知的数据推测未知的数据或对象集中某些属性的值分布。建立预测模型的常用方法:回归分析线性模型关联规则决策树预测遗传算法神经网络,数据挖掘的类型,关联分析 从事务数据库,关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。广泛的用于购物篮或事务数据分析。(1)关联发现算法:得到关联规则、找出关联组合,在关联组合中,如果出现某一项,则另一项也会出现。(2)序列模式发现算法:发现在时间序列上,一个项目集之后的项目集是什么,即找到时间上连续的事件。(3)类似的时序发现算法:先找到一个事件顺序,再推测出其他类似的事件顺序。,数据挖掘的类型,分类分析 根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据(分类),用来预测类型标志未知的对象类(预测)。分类分析已经成功地用于顾客分类、疾病分类、商业建模和信用卡分析等。可以用来预报某些未知的或丢失的数字值,数据挖掘的类型,聚类分析 将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。最大化类内的相似性和最小化类间的相似性 采用聚类分析,系统可以根据部分数据发现规律,找出对全体数据的描述。例:对WEB日志的数据进行聚类,以发现相同的用户访问模式,数据挖掘的类型,序列分析 序列分析主要用于分析数据仓库中的某类与时间相关的数据,搜索类似的序列或子序列,并挖掘时序模式、周期性、趋势和偏离等。例如,它可以导出类似“若AT&T股票连续上涨两天且DEC股票不下跌,则第三天IBM股票上涨的可能性为75%”的数据关系。序列模式可以看成是一种特定的关联模型,它在关联模型中增加了时间属性。,数据挖掘的类型,孤立点分析孤立点:一些与数据的一般行为或模型不一致的孤立数据通常孤立点被作为“噪音”或异常被丢弃,但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论。应用信用卡欺诈检测移动电话欺诈检测客户划分医疗分析(异常),数据挖掘的类型,Web数据挖掘Web使用模式挖掘:在Web环境中,文档和对象一般都是通过链接来便于用户访问。捕捉用户的存取模式或发现一个Web网站最频繁的访问路径称为Web使用模式挖掘或Web路径挖掘。Web结构挖掘:是挖掘Web的链接结构,并找出关于某一主题的权威网站。Web内容挖掘:是指在大量训练样本的基础上,得到数据对象之间的内在特征,并以此为依据进行有目的的信息筛选,从而获得指定内容的信息。基于Web的研究:搜索引擎的设计、文件自动分类技术、关键词的自动提取、半结构化信息的提取及Web上新型应用的研究等。,数据挖掘的类型,数据挖掘应用,金融业 1、对账户进行信用等级的评估。利用数据挖掘工具进行信用评估可以从已有的数据中分析得到信用评估的规则或标准,即得到“满足什么样条件的账户属于哪一类信用等级”,将得到的规则或评估标准应用到对新的账户的信用评估。2、分析信用卡的使用模式。通过数据挖掘分析信用卡的使用模式,可以得到这样的规则:“什么样的人使用信用卡属于什么样的模式”,一般一个人在相当长的一段时间内,其使用信用卡的习惯往往是较为固定的。因此,通过判别信用卡的使用模式,可以监测到信用卡的恶性透支行为,还可以根据信用卡的使用模式,识别“合法”用户。3、进行股票分析。可以使用数据挖掘技术从股票交易的历史数据中得到股票交易的规则或规律。4、探测金融政策与行情间的关系。使用数据挖掘技术可以从大量的历史记录中发现或挖掘出金融政策与金融业行情的相互影响的更深层次的关联关系。,保险业(1)保险金的确定。对受险人员的分类有助于确定适当的保险金额度。通过数据挖掘可以有助于确定对不同行业、不同年龄段、处于不同社会层次的人的险金额度。(2)险种关联分析。使用数据挖掘技术,通过险种关联分析,可以预测购买了某种保险的人是否会同时购买另一种保险。(3)其他预测。通过使用数据挖掘技术可以预测哪些行业、哪个年龄段、哪种社会层次的人会买哪种保险,或者预测哪类人容易买新的险种等。,数据挖掘应用,零售业(1)分析顾客的购买行为和习惯。分析顾客的购买行为和习惯在零售业得到大量应用。如“美国男性顾客在购买尿布的同时购买啤酒”、“顾客一般购买了睡袋和背包后,过了一定的时间就会购买野营帐篷”、“顾客的品牌爱好”等看似很小、很微不足道的信息,却会非常有用。(2)分析商场的销售商品的构成。将商品分成“畅销且单位赢利高”、“畅销但单位赢利低”、“畅销但无赢利”、“不畅销但单位赢利高”、“不畅销且单位赢利低”、“滞销”等多个类别,然后看看属于同一类别的商品都有什么共同的特征,即“满足什么条件的商品属于哪一类情况”,这就是规则。这些规则将有助于商场的市场定位、商品定价等决策问题。而且在确定“要不要采购某一新商品”这样的决策问题时,这些规则将显得非常有意义。(3)其他应用。数据挖掘工具在零售业还可以用于进行商品销售预测、商品价格分析、零售点的选择等。,数据挖掘应用,科学研究(1)自然科学。数据挖掘技术对高科技的研究是必不可少的,主要的功能是对大批量数据的处理。高科技研究的特点就是探索人类未知的秘密,而这正是数据挖掘的特长所在。不借助于数据挖掘技术要从大量的、漫无头绪而且真伪难辨的科学数据和资料中提炼出对人类有用的信息,是非常困难的。(2)社会科学。数据挖掘在社会科学的研究领域的应用前景也越来越被人们所认识。社会科学的特点是从历史看未来,如从社会发展的历史进程中得出社会发展的规律,预测社会发展的趋势;或从人类发展的进程和人类的社会行为的变化中寻求对人类行为规律的答案,从而应用于对各种各样的社会问题的求解。数据挖掘在从历史数据中进行规律的发现方面,也有其独到的作用。对于生物科学等其他科学研究领域应用数据挖掘技术的范畴也越来越多。,数据挖掘应用,5其他领域(1)医疗。数据挖掘可用于病例、病人行为特征的分析,用于药方管理等,以安排治疗方案、判断药方的有效性等。(2)司法。数据挖掘可用于案件调查、案例分析、犯罪监控等,还可用于犯罪行为特征的分析。(3)工业部门。数据挖掘技术对于工业部门的应用可用于进行故障诊断、生产过程优化等。如制造业在质量控制、制造过程中找出影响产品品质的最大因素及提高作业流,数据挖掘应用,数据挖掘研究方向(1)专门用于知识发现的形式化和标准化的数据挖掘语言;(2)数据挖掘过程中的便于用户理解的及人机交互的可视化方法;(3)网络环境下的数据挖掘技术;(4)加强对各种非结构化数据的挖掘。,数据挖掘应用实例,典型案例,1竞技运动中的数据挖掘美国著名的国家篮球队NBA的教练,利用IBM公司提供的数据挖掘工具临场决定替换队员。大约20个NBA球队使用了IBM公司开发的数据挖掘应用软件来优化他们的战术组合。例如魔术队就因为研究了队员不同的布阵安排,在与迈阿密热队的比赛中找到了获胜的机会。系统分析显示,魔术队先发阵容中的两个后卫安佛尼哈德卫和伯兰绍在前两场中被评为-17分,即他俩在场上时本队输掉的分数比得到的分数多17分。而当哈德卫与替补后卫达利尔阿姆斯创组合时,魔术队得分为+14分。在下一场中,魔术队增加了阿姆斯创的上场时间。结果阿姆斯创得了21分,哈德卫得了42分,魔术队以88比79获胜。利用IBM的这个数据分析工具,教练可以用便携式电脑在家里或在路上挖掘存储在NBA中心的服务器上的数据。每一场比赛的事件都被按得分、助攻、失误等统计分类。时间标记让教练非常容易地通过搜索NBA比赛的录像来理解统计发现的含义。,2超市中的数据挖掘,Safeway是英国的第三大连锁超市,年销售额超过100亿美元,提供的服务种类达34种。首先根据客户的相关资料,将客户分为150类,再用关联相关技术来比较这些资料集合(包括交易资料以及产品资料),然后列出产品相关度的清单(例如,“在购买烤肉炭的客户中,75的人也会购买打火机燃料”)。然后,再对商品的利润进行细分。例如,发现某一种乳酪产品虽然销售额排名较靠后,在第209位,可是消费额最高的客户中有25都常常买这种乳酪,这些客户是S商家最不想得罪的客户,因此,这种产品是相当重要的。同时发现,在28种品牌的橘子汁中,有8种特别受消费者欢迎,因此该公司重新安排货架的摆放,使橘子汁的销量能够大幅增加。通过采用数据挖掘技术,Safeway知道客户每次采购时会买哪些产品以后,就可以找出长期的经常性购买行为;再将这些资料与主数据库的人口统计资料结合在一起,营销部门就可以根据每个家庭在哪个季节倾向于购买哪些产品的特性发出邮件。根据这些信息该超市在一年内曾发了1200万封有针对性的邮件,对超市销售量的增长起了很重要的作用。,3通过数据挖掘进行个性化服务,某服装公司开发一个网站来补充它的商品目录。在第一次将网站投放市场时,并没有什么个性化的内容,网站只是商品目录美观有效的在线翻版,但是却没有利用Web现存的销售机会。利用数据挖掘技术迅速提高了公司的网络销售。首先,使用聚类的方法来发现哪些商品自然地分在同一组中。有时一些聚类是十分明显的,如衬衫和短裤;一些聚类可能是令人惊奇的,如关于沙漠探险的书和医疗工具包。这些聚类用来当顾客购买其中的一种商品时向顾客提出购买另一种商品的建议。然后,又进行客户分析来识别那些会对经常添加在商品目录中的新商品感兴趣的客户。指引客户购买那些挑选出来的产品不仅仅带来销售的增加,而且巩固了客户关系。为了扩大影响,公司还利用一个应用程序向客户发送E-mail,通过E-mail向客户提供由数据挖掘模型预测的客户感兴趣的新产品信息。,4“体育精品”体育用品公司,“体育精品”公司,在7个国家设有分店。为了增加销售,负责销售的副总裁决定通过奖励来促销,奖励销售额最高的地区和产品销售最多的单位。因此,这位副总裁要求首席信息官写出2份报告。但销售数据存储在不同地区的不同类型的数据库中,数据的格式不同,不同地区营业额用所在国的货币单位。首席信息官先用数据仓库工具将这些数据集中,并进行处理,完成了副总裁要求的2份报告:按地区的销售额和按产品的销售额。首席信息官向副总裁建议,可以进一步挖掘其他信息。如购买山地车的顾客最可能再购买其他哪些产品,购买气瓶的顾客1年内回来充气多少次?得到的答案如下。(1)购买山地车的顾客再购买头盔的可能性为92;再购买手套的可能性为62;再购买新款铃铛的可能性为23;再购买速度计的可能性为13。通过上述数据决定对购买山地车的顾客引导他们再购买上述产品。还可以对他们宣传骑车安全问题,可以提高购买反光罩、车灯和反视镜等产品的销售;也可以向顾客进行饮料瓶、个人音响等其他产品的捆绑销售。(2)购买气瓶的顾客一年内回来充气1次的有12;回来充气2次的有8;回来充气2次以上的只有7。针对上述数据,有两种决策:放弃充气业务或进行更大力度的促销策略。决定采取第二种决策,具体促销策略是:给回来2次充气的顾客优惠25折扣,或给新的刺激销售方法,即在春季给购买气瓶的顾客邮寄信函提醒他们回来充气,在停车场建立更多的便利充气站以及顾客每一次充气都发折扣优惠券等。一个月后,季度的营业额上升34,收入上涨32。每辆山地车交易的平均销售收入增加了29,山地车与头盔一起购买成了时尚,手套的销售额上升了15,山地车附件的销售额上升了5l。捆绑销售得到普及,气瓶充气的销售开始上升。,数据挖掘应用的热点,1网站的数据挖掘 随着Web技术的发展,电子商务、电子政务等网站风起云涌。如何吸引客户、建立客户的忠诚度是开展电子商务和电子政务必须面对的问题。而网站的数据量非常大,并且与传统数据格式不同,大部分数据来源于单击数据流,因此网站的数据挖掘的重点是数据准备。目前,有很多厂商正在致力于开发专门用于网站数据挖掘的软件。2生物信息或基因的数据挖掘 基因的组合千变万化,患某种病的人的基因和正常人的基因到底差别多大?能否找七其中不同的地方,进而对其不同之处加以改变,使之成为正常基因?这些都需要数据挖屈技术的支持。对于生物信息或基因的数据挖掘和通常的数据挖掘相比,在数据的复杂程度、数据量、还有分析和建立模型的算法都要复杂得多。从分析算法上讲,更需要一些新的和好的算法。现在很多厂商正在致力于这方面的研究。3文本的数据挖掘 无论是在数据结构还是在分析处理方法方面,文本数据挖掘和前面谈到的数据挖掘相差很大。文本数据挖掘并不是一件容易的事情,尤其是在分析方法方面,还有很多需要研究的专题。但文本数据挖掘可以大大扩大数据挖掘的应用领域,因为许多非格式化的数据都比较容易转换成文本数据。如现在许多大公司都设立客户服务中心,如果把同客户的谈话转化为文本数据,再对这些数据进行挖掘,进而了解客户对服务的满意程度和客户的需求以及客户之间的相互关系等信息,将对公司的业务发展起到推动作用。,思考题,1.为什么不能依靠传统的业务处理系统进行决策分析?2.在将数据源中的数据加载到数据仓库之前需要完成那些工作?为什么要进行这些工作?3.如果创建一个数据仓库,主要是分析关于客户的人口统计(收入、家庭人口、家庭位置、爱好等)。数据仓库的目的在于将特定的产品推销给合适的潜在客户群。这个数据仓库应该从哪些地方获取数据源,数据仓库的体系结构应该包含哪些部分。,4.从数据挖掘与数据库、统计学、机器学习的关系来讨论什么是数据挖掘?5.在数据挖掘过程中需要涉及到哪些过程?6.在现实中有哪些人需要使用数据挖掘技术来帮助他的工作?,