数据仓库与数据挖掘概述.ppt
《数据仓库与数据挖掘概述.ppt》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘概述.ppt(58页珍藏版)》请在三一办公上搜索。
1、数据仓库与数据挖掘是一个多学科领域,从多个学科汲取营养。这些学科包括数据库技术、人工智能、机器学习、神经网络、统计学、模式识别、知识库系统、知识获取、信息检索、高信能计算和数据可视化。本课程以数据仓库与数据挖掘的基本概念和基本方法为主要内容,以方法的应用为主线,系统叙述数据仓库和数据挖掘的有关概念和基础知识,使学生尽快掌握数据仓库和数据挖掘的基本概念,基本方法和应用背景。,课程介绍,教学目的,本课程的目的主要是要求学生能对数据仓库和数据挖掘的基本方法和基本概念有整体的了解,掌握建立数据仓库的原理和方法,从理论上掌握数据仓库、OLAP联机分析的基本概念、原理、主要算法及应用,对数据挖掘的关联规则
2、,分类方法,聚类方法有深入的了解,并能够在Clementine软件使用过程中熟练掌握这些方法。,Clementine 介绍,1999年SPSS公司收购了ISL公司,对Clementine产品进行重新整合和开发,现在Clementine已经成为SPSS公司的又一亮点。作为一个数据挖掘平台,Clementine结合商业技术可以快速建立预测性模型,进而应用到商业活动中,帮助人们改进决策过程。强大的数据挖掘功能和显著的投资回报率使得Clementine在业界久负盛誉。同那些仅仅着重于模型的外在表现而忽略了数据挖掘在整个业务流程中的应用价值的其它数据挖掘工具相比,Clementine其功能强大的数据挖掘
3、算法,使数据挖掘贯穿业务流程的始终,在缩短投资回报周期的同时极大提高了投资回报率。,数据挖掘工具Clementine连蝉六年桂冠,CRoss Industry Standard Process-for Data Mining,6个步骤业务理解 数据理解 数据准备 建模 模型评估 模型部署,Ease of Use:The user interface,数据抽取、转换、加载,第1章 数据仓库与数据挖掘概述,数据仓库(DW)是利用数据资源提供决策支持。在数据仓库中利用多维数据分析来发现问题,并找出产生的原因。能从大量历史数据中预测未来。数据挖掘(DM)是从数据中挖掘出信息和知识。,数据仓库、数据挖掘
4、和联机分析处理(OLAP)结合起来,完成支持决策的系统,称为决策支持系统(DSS)。数据仓库、数据挖掘、联机分析处理等结合起来的技术称为商业智能(BI)。商业智能是一种新的智能技术。,1.1 数据仓库的兴起1.2 数据挖掘的兴起1.3 数据仓库和数据挖掘的结合,1.1 数据仓库的兴起,1.1.1 从数据库到数据仓库1.1.2 从OLTP到OLAP1.1.3 数据仓库的定义与特点,1.1.1 从数据库到数据仓库,(1)“数据太多,信息不足”的现状(2)异构环境的数据的转换和共享(3)利用数据进行数据处理转换为利用数据支持决策,1.数据库用于事务处理,数据库作为数据资源用于管理业务中的事务处理。它
5、已经成为了成熟的信息基础设施。数据库中存放的数据基本上是保存当前数据,随着业务的变化随时在更新数据库中的数据。不同的管理业务需要建立不同的数据库。例如,银行中储蓄业务、信用卡业务分别要建立储蓄数据库和信用卡数据库。,数据仓库(Data Warehouse,DW),面向主题的、集成的、稳定的、随时间不断变化的数据库系统ETL数据抽取(Extraction)数据转换(Transformation)数据加载(Loading),2.数据仓库用于决策分析,数据库用于事务处理,数据仓库用于决策分析数据库保持事务处理的当前状态,数据仓库既保存过去的数据又保存当前的数据数据仓库的数据是大量数据库的集成对数据库
6、的操作比较明确,操作数据量少。对数据仓库操作不明确,操作数据量大,(1)在建立数据仓库一书中,对数据仓库的定义为:数据仓库是面向主题的、集成的、稳定的,不同时间的数据集合,用于支持经营管理中决策制定过程。,1.数据仓库定义,(2)SAS软件研究所观点:数据仓库是一种管理技术,旨在通过通畅、合理、全面的信息管理,达到有效的决策支持。,2.数据仓库特点,(1)数据仓库是面向主题的 主题是数据归类的标准,每一个主题基本对应一个宏观的分析领域。例如,银行的数据仓库的主题:客户 DW的客户数据来源:从银行储蓄DB、信用卡DB、贷款DB等三个DB中抽取同一客户的数据整理而成。在DW中能全面地分析客户数据,
7、再决定是否继续给予贷款。,(2)数据仓库是集成的 数据进入数据仓库之前,必须经过加工与集成。对不同的数据来源进行统一数据结构和编码。统一原始数据中的所有矛盾之处,如字段的同名异义,异名同义,单位不统一,字长不一致等。将原始数据结构做一个从面向应用到面向主题的大转变。,(3)数据仓库是稳定的 数据仓库中包括了大量的历史数据。数据经集成进入数据仓库后是极少或根本不更新的。(4)数据仓库是随时间变化的 数据仓库内的数据时限在510年,故数据的键码包含时间项,标明数据的历史时期,这适合DSS进行时间趋势分析。而数据库只包含当前数据,即存取某一时间的正确的有效的数据。,(5)数据仓库的数据量很大 大型D
8、W的数据是一个TB(1000GB)级数据量(一般为10GB级DW,相当于一般数据库100MB的100倍)(6)数据仓库软、硬件要求较高 需要一个巨大的硬件平台 需要一个并行的数据库系统,3.数据库与数据仓库对比,从OLTP到OLAP,1.联机事物处理(OLTP)2.联机分析处理(OLAP)3.OLTP与OLAP的对比,1.联机事物处理(OLTP),联机事物处理(On Line Transaction Processing,OLTP)是在网络环境下的事务处理工作,以快速的响应和频繁的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。OLTP是用户的数据可以立即传送到计算中心进行处理,并在
9、很短的时间内给出处理结果。也称为实时系统(Real time System)。,OLTP主要用于包括银行业、航空、邮购订单、超级市场和制造业等的输入数据和取回交易数据。如银行为分布在各地的自动取款机(ATM)完成即时取款交易;机票预定系统能每秒处理的定票事务峰值可以达到20000个。OLTP是事务处理从单机到网络环境地发展新阶段。,OLTP的特点在于事务处理量大,应用要求多个并行处理,事务处理内容比较简单且重复率高。大量的数据操作主要涉及的是一些增加、删除、修改、查询等操作。每次操作的数据量不大且多为当前的数据。,OLTP处理的数据是高度结构化的,数据访问路径是已知的,至少是固定的。OLTP面
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 数据 挖掘 概述
链接地址:https://www.31ppt.com/p-5270301.html