数据仓库与数据挖掘概述.ppt
数据仓库与数据挖掘是一个多学科领域,从多个学科汲取营养。这些学科包括数据库技术、人工智能、机器学习、神经网络、统计学、模式识别、知识库系统、知识获取、信息检索、高信能计算和数据可视化。本课程以数据仓库与数据挖掘的基本概念和基本方法为主要内容,以方法的应用为主线,系统叙述数据仓库和数据挖掘的有关概念和基础知识,使学生尽快掌握数据仓库和数据挖掘的基本概念,基本方法和应用背景。,课程介绍,教学目的,本课程的目的主要是要求学生能对数据仓库和数据挖掘的基本方法和基本概念有整体的了解,掌握建立数据仓库的原理和方法,从理论上掌握数据仓库、OLAP联机分析的基本概念、原理、主要算法及应用,对数据挖掘的关联规则,分类方法,聚类方法有深入的了解,并能够在Clementine软件使用过程中熟练掌握这些方法。,Clementine 介绍,1999年SPSS公司收购了ISL公司,对Clementine产品进行重新整合和开发,现在Clementine已经成为SPSS公司的又一亮点。作为一个数据挖掘平台,Clementine结合商业技术可以快速建立预测性模型,进而应用到商业活动中,帮助人们改进决策过程。强大的数据挖掘功能和显著的投资回报率使得Clementine在业界久负盛誉。同那些仅仅着重于模型的外在表现而忽略了数据挖掘在整个业务流程中的应用价值的其它数据挖掘工具相比,Clementine其功能强大的数据挖掘算法,使数据挖掘贯穿业务流程的始终,在缩短投资回报周期的同时极大提高了投资回报率。,数据挖掘工具Clementine连蝉六年桂冠,CRoss Industry Standard Process-for Data Mining,6个步骤业务理解 数据理解 数据准备 建模 模型评估 模型部署,Ease of Use:The user interface,数据抽取、转换、加载,第1章 数据仓库与数据挖掘概述,数据仓库(DW)是利用数据资源提供决策支持。在数据仓库中利用多维数据分析来发现问题,并找出产生的原因。能从大量历史数据中预测未来。数据挖掘(DM)是从数据中挖掘出信息和知识。,数据仓库、数据挖掘和联机分析处理(OLAP)结合起来,完成支持决策的系统,称为决策支持系统(DSS)。数据仓库、数据挖掘、联机分析处理等结合起来的技术称为商业智能(BI)。商业智能是一种新的智能技术。,1.1 数据仓库的兴起1.2 数据挖掘的兴起1.3 数据仓库和数据挖掘的结合,1.1 数据仓库的兴起,1.1.1 从数据库到数据仓库1.1.2 从OLTP到OLAP1.1.3 数据仓库的定义与特点,1.1.1 从数据库到数据仓库,(1)“数据太多,信息不足”的现状(2)异构环境的数据的转换和共享(3)利用数据进行数据处理转换为利用数据支持决策,1.数据库用于事务处理,数据库作为数据资源用于管理业务中的事务处理。它已经成为了成熟的信息基础设施。数据库中存放的数据基本上是保存当前数据,随着业务的变化随时在更新数据库中的数据。不同的管理业务需要建立不同的数据库。例如,银行中储蓄业务、信用卡业务分别要建立储蓄数据库和信用卡数据库。,数据仓库(Data Warehouse,DW),面向主题的、集成的、稳定的、随时间不断变化的数据库系统ETL数据抽取(Extraction)数据转换(Transformation)数据加载(Loading),2.数据仓库用于决策分析,数据库用于事务处理,数据仓库用于决策分析数据库保持事务处理的当前状态,数据仓库既保存过去的数据又保存当前的数据数据仓库的数据是大量数据库的集成对数据库的操作比较明确,操作数据量少。对数据仓库操作不明确,操作数据量大,(1)在建立数据仓库一书中,对数据仓库的定义为:数据仓库是面向主题的、集成的、稳定的,不同时间的数据集合,用于支持经营管理中决策制定过程。,1.数据仓库定义,(2)SAS软件研究所观点:数据仓库是一种管理技术,旨在通过通畅、合理、全面的信息管理,达到有效的决策支持。,2.数据仓库特点,(1)数据仓库是面向主题的 主题是数据归类的标准,每一个主题基本对应一个宏观的分析领域。例如,银行的数据仓库的主题:客户 DW的客户数据来源:从银行储蓄DB、信用卡DB、贷款DB等三个DB中抽取同一客户的数据整理而成。在DW中能全面地分析客户数据,再决定是否继续给予贷款。,(2)数据仓库是集成的 数据进入数据仓库之前,必须经过加工与集成。对不同的数据来源进行统一数据结构和编码。统一原始数据中的所有矛盾之处,如字段的同名异义,异名同义,单位不统一,字长不一致等。将原始数据结构做一个从面向应用到面向主题的大转变。,(3)数据仓库是稳定的 数据仓库中包括了大量的历史数据。数据经集成进入数据仓库后是极少或根本不更新的。(4)数据仓库是随时间变化的 数据仓库内的数据时限在510年,故数据的键码包含时间项,标明数据的历史时期,这适合DSS进行时间趋势分析。而数据库只包含当前数据,即存取某一时间的正确的有效的数据。,(5)数据仓库的数据量很大 大型DW的数据是一个TB(1000GB)级数据量(一般为10GB级DW,相当于一般数据库100MB的100倍)(6)数据仓库软、硬件要求较高 需要一个巨大的硬件平台 需要一个并行的数据库系统,3.数据库与数据仓库对比,从OLTP到OLAP,1.联机事物处理(OLTP)2.联机分析处理(OLAP)3.OLTP与OLAP的对比,1.联机事物处理(OLTP),联机事物处理(On Line Transaction Processing,OLTP)是在网络环境下的事务处理工作,以快速的响应和频繁的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。OLTP是用户的数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。也称为实时系统(Real time System)。,OLTP主要用于包括银行业、航空、邮购订单、超级市场和制造业等的输入数据和取回交易数据。如银行为分布在各地的自动取款机(ATM)完成即时取款交易;机票预定系统能每秒处理的定票事务峰值可以达到20000个。OLTP是事务处理从单机到网络环境地发展新阶段。,OLTP的特点在于事务处理量大,应用要求多个并行处理,事务处理内容比较简单且重复率高。大量的数据操作主要涉及的是一些增加、删除、修改、查询等操作。每次操作的数据量不大且多为当前的数据。,OLTP处理的数据是高度结构化的,数据访问路径是已知的,至少是固定的。OLTP面对的是事务处理操作人员和低层管理人员。但是,为高层领导者提供决策分析时,OLTP则显得力不从心。,2.联机分析处理(OLAP),认为决策分析需要对多个关系数据库共同进行大量的综合计算才能得到结果。在1993年提出了多维数据库和多维分析的概念,即联机分析处理(On Line Analytical Processing,OLAP)概念。关系数据库是二维数据(平面),多维数据库是空间立体数据。,OLAP(On-Line Analytical Processing)商务智能的直接数据来源?OLTP?数据仓库?多维数据集?什么是多维数据集?,“多维数据集是一种结构,包含了一个或多个度量。这些度量用于所有维度的成员的每个唯一组合。”,OLAP专门用于支持复杂的决策分析操作,侧重对分析人员和高层管理人员的决策支持,OLAP可以应分析人员的要求快速、灵活地进行大数据量的复杂处理,并且以一种直观易懂地形式将查询结果提供给决策制定人,OLAP软件,以它先进地分析功能和以多维形式提供数据的能力,正作为一种支持企业关键商业决策的解决方案而迅速崛起。OLAP的基本思想是决策者从多方面和多角度以多维的形式来观察企业的状态和了解企业的变化。,3.OLTP与OLAP的对比,1.2数据挖掘的兴起,1.2.1 从机器学习到数据挖掘1.2.2 数据挖掘含义1.2.3 数据挖掘与OLAP的比较1.2.4 数据挖掘与统计学,1.2.1 从机器学习到数据挖掘,学习是人类具有的智能行为,主要在于获取知识。机器学习是研究使计算机模拟或实现人类的学习行为,即让计算机通过算法自动获取知识。机器学习是人工智能领域中的重要研究方向。20世纪60年代开始了机器学习的研究。,(1)1980年在美国召开了第一届国际机器学习研讨会;明确了机器学习是人工智能的重要研究方向(2)1989年8月于美国底特律市召开的第一届知识发现(KDD)国 际学术会议;首次提出知识发现概念(3)1995年在加拿大召开了第一届知识发现和数据挖掘(DM)国际学术会议;首次提出数据挖掘概念(4)我国于1987年召开了第一届全国机器学习研讨会。,数据挖掘含义,知识发现(KDD):从数据中发现有用知识的整个过程。数据挖掘(DM):KDD过程中的一个特定步骤,它用专门算 法从数据中抽取知识。如在人类数据库中挖掘知识为:(头发=黑色)(眼睛=黑色)亚洲人 该知识覆盖了所有亚州人的记录。,数据挖掘做什么?,预测未来发生的事情(分类与回归)将人或事物按照属性聚类关联可能一起发生的事件(购物篮)确定事件发生的序列(股票涨落)异常检测,数据挖掘,啤酒与尿布的故事:在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售,但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。原来,美国的妇女们经常会嘱咐她们的丈夫下班以后要为孩子买尿布。而丈夫在买完尿布之后又要顺手买回自己爱喝的啤酒,因此啤酒和尿布在一起购买的机会还是很多的。,数据挖掘与OLAP的比较,1.OLAP的多维分析 OLAP的典型应用,通过商业活动变化的查询发现的问题,经过追踪查询找出问题出现的原因,达到辅助决策的作用。2.数据挖掘 数据挖掘任务在于聚类(如神经网络聚类)、分类(如决策树分类)、预测等。,1.2.4 数据挖掘与统计学,统计学与国家政治有紧密的关系。支配着社会现象的法则和方法是概率论。通过对全部对象(总体)进行调查,为制定计划和决策提供依据。,统计学与数据挖掘的比较,统计学主要是对数量数据(数值)或连续值数据(如年龄、工资等),进行数值计算(如初等运算)的定量分析,得到数量信息。数据挖掘主要对离散数据(如职称、病症等)进行定性分析(覆盖、归纳等),得到规则知识。统计学与数据挖掘是有区别的。但是,它们之间是相互补充的。,1.3 数据仓库和数据挖掘的结合,1.3.1 数据仓库和数据挖掘的区别与联系1.3.2 基于数据仓库的决策支持系统数据仓库与商业智能,1.3.1 数据仓库和数据挖掘的区别与联系,1.数据仓库与数据挖掘的区别2.数据仓库与数据挖掘的关系3.数据仓库中数据存储特点4.数据仓库中数据挖掘特点,1.数据仓库与数据挖掘的区别,数据仓库是一种存储技术,它能适应于不同用户对不同决策需要提供所需的数据和信息。数据挖掘研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。,2.数据仓库与数据挖掘的关系,数据仓库与数据挖掘都是决策支持新技术。但它们有着完全不同的辅助决策方式。在数据仓库系统的前端的分析工具中,数据挖掘是其中重要工具之一。它可以帮助决策用户挖掘数据仓库的数据中隐含的规律性。,数据挖掘用于数据仓库实现决策支持:(1)预测客户购买倾向;(2)客户利润贡献度分析;(3)分析欺诈行为;(4)销售渠道优化分析等。数据仓库和数据挖掘的结合对支持决策会起更大的作用。,3.数据仓库中数据挖掘特点,(1)数据挖掘从数据仓库中挖掘更深层次的信息(2)数据仓库为数据挖掘提出了新要求 数据挖掘需要可扩展性 数据挖掘方法需要能挖掘多维知识,数据仓库中有大量的综合数据,为决策者提供了综合信息。数据仓库保存有大量历史数据,通过预测模型计算可以得到预测信息。联机分析处理(OLAP)对数据仓库中的数据进行多维数据分析,即多维数据的切片、切块、旋转、钻取等,得到更深层中的信息和知识。数据挖掘(DM)技术能获取关联知识、时序知识、聚类知识、分类知识等。数据仓库(DW)、联机分析处理(OLAP)、数据挖掘(DM)等结合,形成决策支持系统。,数据仓库与商业智能,1.商业智能的概念2.商业智能辅助制定更好更快的决策,1.商业智能的概念,商业智能以数据仓库为基础,通过联机分析处理和数据挖掘技术帮助企业领导者针对市场变化的环境,做出快速、准确的决策。商业智能与决策支持系统从组成和目标来看是一致的。但是,商业智能是一种技术,决策支持系统是解决实际决策问题的一个系统。可以理解为:决策支持系统是利用商业智能技术来解决实际决策问题的系统。,2.商业智能辅助制定更好更快的决策,(1)信息共享(2)实时反馈分析(3)鼓励用户找出问题的根本原因(4)使用主动智能(5)实时智能,BI 系统架构-1,添加、修改、删除;查询、统计、归档;存储、集群、备份、迁移,数据仓库,ETL,BI的三个层次,用户数增加,报表分析,OLAP,DM,复杂度增加,我知道它现在是怎样的,我知道它为什么是这样,我知道它以后会是怎样,主流商务智能产品介绍-1,主流商务智能产品介绍-2,商务智能应用-1,商务智能行业应用,商务智能应用-2,各行业电子商务网站,算法层,商业逻辑层,行业应用层,商业应用,商业模型,挖掘算法,相关行业,商务应用需求的推动,神经网络、决策树、回归分析、粗集、遗传算法,结 束,