数据挖掘章引言.ppt
《数据挖掘章引言.ppt》由会员分享,可在线阅读,更多相关《数据挖掘章引言.ppt(62页珍藏版)》请在三一办公上搜索。
1、1,2008年3月,数据挖掘概念与技术,2,第1章 引言,本章要点数据仓库的发展数据挖掘数据挖掘的类型数据挖掘常用技术数据挖掘解决的典型商业问题,3,数据仓库的发展,自从NCR公司为Wal Mart建立了第一个数据仓库。1996年,加拿大的IDC公司调查了62家实现了数据仓库的欧美企业,结果表明:数据仓库为企业提供了巨大的收益。早期的数据仓库:大都 客户/服务器结构。近年来:数据仓库体系结构从功能上划分为若干个分布式对象,可以直接用于建立数据仓库,还可以在应用程序中向用户提供调用的接口。IBM的实验室在数据仓库方面已经进行了10多年的研究,并将研究成果发展成为商用产品。其他数据库厂商在数据仓库
2、领域也纷纷提出了各自的解决方案。,4,数据仓库的发展,IBM:在其DB2UDB发布一年后的1998年9月发布5.2版,并于1998年12月推向中国市场,除了用于OLAP(联机分析处理)的后台服务器DB2 OLAP Server外,IBM还提供了一系列相关的产品,包括前端工具,形成一整套解决方案。Informix公司:在其动态服务器IDS(Informix Dynamic Server)中提供一系列相关选件,如高级决策支持选件(Advanced Decision Support Option)、OLAP选件(MetaCube ROLAP Option)、扩展并行选件(Extended Paral
3、lel Option)等,这种体系结构严谨、管理方便、索引机制完善,并行处理的效率更高,其中数据仓库和数据库查询的SQL语句的一致性使得用户开发更加简便。,5,数据仓库的发展,微软公司:在其SQL Server7.0以及SQL Server2000中集成了代号为Plato的OLAP服务器。Sybase:提供了专门的OLAP服务器Sybase IQ,并将其与数据仓库相关工具打包成Warehouse Studio。PLATINUM:提出了由InfoPump(数据仓库建模与数据加载工具)和Forest&Trees(前端报表工具)构成的一套较有特色的整体方案。;Oracle公司:则推出从数据仓库构建、
4、OLAP到数据集市管理等一系列产品包(如Oracle Warehouse Builder、Oracle Express、DataMart Suit等)。,6,数据仓库的我国的发展,现状:数据仓库的概念已经被国内用户接受多年,但在应用方面的收效不理想原因:现有的数据库系统不健全,数据积累还不够,无法提出决策支持需求;缺乏能够担负规划、设计、构建和维护数据仓库的重任的复合型人才;没很好使用数据仓库前端工具(如OLAP工具、数据挖掘工具等)。,7,数据仓库的我国的发展,前景:随着计算机技术的发展,尤其是分布式技术的发展,数据仓库在我国有着广阔的发展空间和良好的发展前景。例如:由于银行商业化的步伐正在
5、加大,各大中型银行在入世的机遇和挑战下,开始重新考虑自身的业务,特别是信贷风险管理方面特别注意,因而有关信贷风险管理和风险规章的基于数据仓库的决策支持系统的需求逐渐增多;由于电子商务的迅速发展,越来越多的电子商务网站,开始考虑如何将数据仓库应用于商品销售分析、顾客的诚信度分析等,为客户提供更进一步的个性化服务;如移动通信等各大型企业也开始考虑着手进行决策支持以及数据仓库规划。,8,数据仓库(Data Warehouse)的定义,数据仓库用来保存从多个数据库或其它信息源选取的数据,并为上层应用提供统一 用户接口,完成数据查询和分析。数据仓库是作为DSS服务基础的分析型DB,用来存放大容量的只读数
6、据,为制定决策提供所需要的信息。数据仓库是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的、面向主题及不可更新的数据集合。W.H.Inmon对数据仓库所下的定义:数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持管理决策的过程。,9,数据仓库的适用范围,信息源中的数据变化稳定或可预测应用不需要最新的数据或允许有延迟 应用要求有较高的查询性能 而降低精度要求,10,支持管理决策,数据仓库支持OLAP(联机分析处理)、数据挖掘和决策分析。OLAP从数据仓库中的综合数据出发,提供面向分析的多维模型,并使用多维分析的方法从多个角度、多个层次对多维数据进行分析,使决策者能够
7、以更加自然的方式来分析数据。数据挖掘则以数据仓库和多维数据库中的数据为基础,发现数据中的潜在模式和进行预测。因此,数据仓库的功能是支持管理层进行科学决策,而不是事务处理。,11,数据仓库的技术要求,大量数据的组织和管理:包含了大量的历史数据,它是从数据库中提取得来的,不必关心它的数据安全性和数据完整性。复杂分析的高性能体现:涉及大量数据的聚集、综合等,在进行复杂查询时经常会使用多表的联接、累计、分类、排序等操作。对提取出来的数据进行集成:数据仓库中的数据是从多个应用领域中提取出来的,在不同的应用领域和不同的数据库系统中都有不同的结构和形式,所以如何对数据进行集成也是构建数据仓库的一个重要方面。
8、对进行高层决策的最终用户的界面支持:提供各种分析应用工具。,12,随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储的数据量急剧增大,在大量的数据背后隐藏着许多重要的信息。如何有效使用数据库中存储的海量数据?,13,如何有效使用数据库中存储的海量数据?,数据挖掘就是从大量的实际应用数据中,提取隐含在其中的、人们事先不知道的但又可能有用的信息和知识的过程。数据挖掘的主要目的是提高市场决策能力,检测异常模式,在过去的经验基础上预言未来趋势等。例如,通过对大量气象资料和销售资料的处理及分析,德国的啤酒商发现,夏天气温每升高1,就会增加230万瓶的啤酒销量;而日本人则发现,夏季30以上的
9、天气每增加一天,空调的销量便增加4万台。,14,美国沃尔玛超市“啤酒与尿布”的故事,沃尔玛超市建立数据仓库,按周期统计产品的销售信息,经过科学建模后提炼决策层数据。发现每逢周末,位于某地区的沃尔玛超市连锁店的啤酒和尿布的销售量很大,而且单张发票中同时购买尿布和啤酒的记录非常普遍。分析人员认为这并非偶然,经过深入分析得知,通常周末购买尿布的是男士,他们在完成了太太交给的任务后,经常会顺便买一些啤酒。得出这样的结果后,沃尔玛超市的工作人员尝试着将啤酒和尿布摆放在一起销售,结果尿布与啤酒的销售额双双增长。从上面的例子不难看出,数据管理的主要目的是获取信息和分析信息以指导我们的行动或帮助我们作决策。,
10、15,数据挖掘,数据挖掘(ata Mining):又称为数据库中的知识发现,是基于、机器学习、统计学等技术,高度自动化地分析原有的数据,进行归纳性推理,从数据仓库或数据库中提取可信的、新颖的、有效的、人们感兴趣的、能别人理解的知识的高级处理过程。这些知识是隐含的、事先未知的有用信息,提取的知识表现为概念、规则、模式、规律等形式,以帮助管理者作出正确的决策。模式:它给出了数据特性或数据之间的关系,是对数据所包含的信息更抽象的描述。模式按功能可以分为预测型模式和描述型模式。在实际应用中,可以细分为关联模式、分类模式、聚类模式和序列模式等。,16,数据挖掘,数据挖掘和数据仓库是作为两种独立的信息技术
11、出现的。它们都可以完成对决策过程的支持,并且相互间有一定的内在联系。因此,将数据仓库与数据挖掘集成到一个系统中将能够更有效地提高系统的决策支持能力。数据挖掘是一门交叉性学科,它涉及到机器学习、模式识别、统计学、智能数据库、知识获取、数据可视化、高性能计算、专家系统等多个领域。可广泛地应用于信息管理、过程控制、科学研究、决策支持等许多方面。,17,数据挖掘的发展,“从数据中发现有用模式”历来有很多称法,如:数据挖掘(data mining)知识提取(knowledge extraction)信息发现(information discovery)信息收获(information harvestin
12、g)数据考古(data archaeology)数据模式处理(data pattern processing)“数据挖掘”的称法大部分是由统计学家,数据分析学家和MIS团体使用的,在数据库领域也得到了广泛接受。,18,数据挖掘的发展,7080年代:知识发现与数据挖掘结合1989年6月:在美国底特律举行了第一届“从数据库中知识发现”的国际学术会议,在这次会议中第一次使用了KDD 这个词来强调“知识”是数据驱动(data-driven)发现的最终结果。1995:加拿大召开第一届知识发现与数据挖掘国际学术会议,19,历届有关KDD的学术会议,20,数据挖掘的发展,数据挖掘技术的应用开发在国外已经迅速
13、发展,许多大公司(如Informix,Oracle,IBM等)都投入了巨资对其进行研究,并开发出了一些产品和原型,如DBMiner、Quest、EXPLORA等。第一本关于数据挖掘的国际学术杂志Data Mining and Knowledge Discovery于1997年3月创刊。国内在这方面的研究起步比较晚,早期研究的方向多集中于关联规则的挖掘,近来关于时序模式、分类、聚类、WEB数据挖掘等的研究也日益受到重视,并取得了不少可喜的成果,一些原型系统或数据挖掘工具已经研制成功并在不断完善中。,21,DM系统的体系结构(1)DW 的步骤:数据准备:数据集成数据选择预分析挖掘表述评价(2)DW
14、 系统的结构:,用户界面,结果输出,数据挖掘核心,知识库,数据仓库,数据库,文件系统,其他数据源,ODBC或其他专用数据库接口,22,数据准备阶段:经过处理过的数据一般存储在数据仓库中。数据准备是否做得充分将影响到数据挖掘的效率和准确度以及最终模式的有效性。包括:数据的选择:选择相关的数据数据的净化:消除噪音、冗余数据数据的推测:推算缺失数据数据的转化:离散值数据与连续值数据之间的相互转换、数据值的分组分类、数据项之间的计算组合等数据的缩减:减少数据量,数据挖掘的过程,23,数据挖掘的过程,挖掘阶段:该阶段是数据挖掘的核心步骤,也是技术难点所在。根据数据挖掘的目标,采用人工智能、集合论、统计学
15、等方法,应用相应的数据挖掘算法,分析数据并通过可视化工具表述所获得的模式或规则。,24,数据挖掘的过程,评价阶段:在数据挖掘中得到的模式可能是没有实际意义或没有使用价值的,也有可能不能准确反映数据的真实意义,甚至在某些情况下是与事实相反的,因此需要评估,确定哪些是有效的、有用的模式。评估可以根据用户多年的经验,有些模式也可以直接用数据来检验其准确性。,25,数据挖掘的过程,巩固和运用阶段:用户理解的、并被认为是符合实际和有价值的模式形成了知识。同时还要对知识进行一致性检查,解决与以前得到的知识互相冲突、矛盾的地方,使知识得到巩固。运用知识有两种方法:一种是只需看知识本身所描述的关系或结果,就可
16、以对决策提供支持;另一种是要求运用知识对新的数据进行分析,由此可能产生新的问题,而需要对知识作进一步的优化。,26,数据挖掘的类型,数据挖掘的任务:是从大量的数据中发现模式。比较典型的有:预测模型关联分析分类分析聚类分析序列分析偏差检测模式相似性挖掘Web数据挖掘,27,预测模型,预测模型(Predictive Modeling):即从数据库或数据仓库中已知的数据推测未知的数据或对象集中某些属性的值分布建立预测模型的常用方法:回归分析线性模型关联规则决策树预测遗传算法神经网络,28,关联分析,关联(Association)分析:关联规则描述了一组数据项之间的密切度或关系。关联分析用于发现项目集
17、之间的关联。在关联规则挖掘算法中,通常给出了置信度和支持度两个概念,对于置信度和支持度均大于给定阈值的规则称为强规则,而关联分析主要就是对强规则的挖掘。近几年研究较多。现在,已经从单一概念层次关联规则的发现发展到多概念层次的关联规则的发现,并把研究的重点放在提高算法的效率和规模可收缩性上。它广泛地运用于帮助市场导向、商品目录设计客户关系管理)(CRM)和其他各种商业决策过程中。关联分析算法:APRIORI算法、DHP算法、DIC算法、PARTITION算法及它们的各种改进算法等。另外,对于大规模、分布在不同站点上的数据库或数据仓库,关联规则的挖掘可以使用并行算法,如:Count分布算法、Dat
18、a分布算法、Candidate 分布算法、智能Data分布算法(IDD)和DMA分布算法等。,29,分类分析,分类(Classification)分析:根据数据的特征为每个类别建立一个模型,根据数据的属性将数据分配到不同的组中。在实际应用过程中,分类规则可以分析分组中数据的各种属性,并找出数据的属性模型,从而确定哪些数据属于哪些组。这样就可以利用该模型来分析已有数据,并预测新数据将属于哪一个组。类的描述可以是显式的,如用一组特征概念描述;也可以是隐式的,如用一个数学公式或数学模型描述。分类分析已经成功地用于顾客分类、疾病分类、商业建模和信用卡分析等。分类分析的常用方法:约略(Rough)集决策
19、树神经网络统计分析法,30,聚类分析,聚类(Clustering)分析:聚类是指一组彼此间非常“相似”的数据对象的集合。相似的程度可以通过距离函数来表示,由用户或专家指定。聚类分析是按照某种相近程度度量方法将数据分成互不相同的一些分组。每一个分组中的数据相近,不同分组之间的数据相差较大。好的聚类方法可以产生高质量的聚类,保证每一聚类内部的相似性很高,而各聚类之间的相似性很低。聚类分析的核心是将某些定性的相近程度测量方法转换成定量测试方法。采用聚类分析,系统可以根据部分数据发现规律,找出对全体数据的描述。聚类分析的常用方法:随机搜索聚类法特征聚类CF树,31,序列分析,序列(Sequence)分
20、析:序列分析主要用于分析数据仓库中的某类与时间相关的数据,搜索类似的序列或子序列,并挖掘时序模式、周期性、趋势和偏离等。例如,它可以导出类似“若AT&T股票连续上涨两天且DEC股票不下跌,则第三天IBM股票上涨的可能性为75%”的数据关系。序列模式可以看成是一种特定的关联模型,它在关联模型中增加了时间属性。,32,偏差检测与模式相似性挖掘,偏差检测(Deviation Detection):用于检测并解释数据分类的偏差,它有助于滤掉知识发现引擎所抽取的无关信息,也可滤掉那些不合适的数据,同时可产生新的关注性事实。模式相似性挖掘:用于在时间数据库或空间数据库中搜索相似模式时,从所有对象中找出用户
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 引言

链接地址:https://www.31ppt.com/p-5361644.html