UNIT8数据挖掘的概念.ppt
1,UNIT eight数据挖掘的概念,2,学完本讲后,你应该能够了解:数据挖掘是一门交叉学科;数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘产生的内容(或知识)包括广义知识、关联知识、分类知识、预测型知识、偏差型知识等挖掘的数据对象是多样的,可以是关系数据库、数据仓库、高级数据库、flat文件和WWW等数据挖掘的常用技术包括人工神经网络、决策树、遗传算法、近邻算法、规则推导等,本 讲 主 要 目 标,3,一数据挖掘技术的由来二数据挖掘的定义三数据挖掘研究内容和本质四在何种数据上进行数据挖掘五.数据挖掘的功能六.所有模式都是有用的吗?七.数据挖掘系统的分类八.数据挖掘常用技术九.数据挖掘工具十.数据挖掘的热点和主要问题,内容提纲,4,数据挖掘技术的由来,5,数据挖掘技术的由来,信息技术的下一个技术热点大量信息在给人们带来方便的同时也带来了一大堆问题:第一是信息过量,难以消化;第二是信息真假难以辨识;第三是信息安全难以保证;第四是信息形式不一致,难以统一处理。,6,数据挖掘技术的由来,信息技术的下一个技术热点人们开始提出一个新的口号:“要学会抛弃信息”人们开始考虑:“如何才能不被信息淹没,而是从中及时发现有用的知识、提高信息利用率?”面对这一挑战,数据挖掘和知识发现(Data Mining and Knowledge Discovery)技术应运而生,并显示出强大的生命力,7,数据挖掘技术的由来,数据爆炸但知识贫乏随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。数据的丰富带来了对强有力的数据分析工具的需求,快速增长的海量数据、存放在大型和大量数据库中,没有强有力的工具,理解这些数据已远远超出了人的能力,8,数据挖掘技术的由来,数据爆炸但知识贫乏,9,数据挖掘技术的由来,数据爆炸但知识贫乏目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。,10,可怕的数据,有价值的知识,11,数据挖掘技术的由来,支持数据挖掘技术的基础数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。现在数据挖掘技术在商业应用中已经可以马上投入使用,因为对这种技术进行支持的三种基础技术已经发展成熟:海量数据搜集强大的多处理器计算机数据挖掘算法,12,数据挖掘技术的由来,数据挖掘的演变过程数据挖掘其实是一个逐渐演变的过程,电子数据处理的初期,人们就试图通过某些方法来实现自动决策支持。当机器学习成为人们关心的焦点.机器学习的过程就是将一些已知的并已被成功解决的问题作为范例输入计算机,机器通过学习这些范例总结并生成相应的规则,这些规则具有通用性,使用它们可以解决某一类的问题.随着神经网络技术的形成和发展,人们的注意力转向知识工程,知识工程不同于机器学习那样给计算机输入范例,让它生成出规则,而是直接给计算机输入已被代码化的规则,而计算机是通过使用这些规则来解决某些问题。专家系统就是这种方法所得到的成果,但它有投资大、效果不甚理想等不足。,13,数据挖掘技术的由来,数据挖掘的演变过程80年代又在新的神经网络理论的指导下,重新回到机器学习的方法上,并将其成果应用于处理大型商业数据库。随着在80年代末一个新的术语,即数据库中的知识发现,简称KDD(Knowledge discovery in database).它泛指所有从源数据中发掘模式或联系的方法,人们接受了这个术语,并用KDD来描述整个数据发掘的过程,包括最开始的制定业务目标到最终的结果分析,而用数据挖掘(data mining)来描述使用挖掘算法进行数据挖掘的子过程。,14,数据挖掘技术的由来,数据挖掘的演变过程最近人们却逐渐开始使用数据挖掘中有许多工作可以由统计方法来完成,并认为最好的策略是将统计方法与数据挖掘有机的结合起来。数据仓库技术的发展与数据挖掘有着密切的关系。数据仓库的发展是促进数据挖掘越来越热的原因之一。但是,数据仓库并不是数据挖掘的先决条件,因为有很多数据挖掘可直接从操作数据源中挖掘信息,15,数据挖掘的定义,16,数据挖掘的定义,技术上的定义及含义简单地说,数据挖掘是从大量数据中提取或挖掘知识。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与数据挖掘相近的同义词有数据融合、数据分析和决策支持等。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。,17,数据挖掘的定义,技术上的定义及含义何为知识?从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉,好像从矿石中采矿或淘金一样。原始数据可以是结构化的,如关系数据库中的数据;可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。,18,数据挖掘的定义,技术上的定义及含义发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。,19,数据挖掘的定义,技术上的定义及含义这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。实际上,所有发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。最好能用自然语言表达所发现的结果,20,数据挖掘的定义,知识发现的过程确定业务对象数据准备数据挖掘结果分析知识同化,21,数据挖掘的定义,知识发现的过程知识发现过程中各步骤的大体内容如下:A.确定业务对象清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步.挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的.,22,数据挖掘的定义,知识发现的过程B.数据准备数据的选择:搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据.数据的预处理(包括数据清理和数据集成):研究数据的质量,为进一步的分析作准备.并确定将要进行的挖掘操作的类型.数据的转换:将数据转换成一个分析模型.这个分析模型是针对挖掘算法建立的.建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键.,23,数据挖掘的定义,知识发现的过程C 数据挖掘:对所得到的经过转换的数据进行挖掘.除了完善从选择合适的挖掘算法外,其余一切工作都能自动地完成.D 结果分析:解释并评估结果.其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术.E 知识的同化:将分析所得到的知识集成到业务信息系统的组织结构中去,24,数据挖掘的定义,数据挖掘与传统分析方法的区别数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识.数据挖掘所得到的信息应具有先未知,有效和可实用三个特征.先前未知的信息是指该信息是预先未曾预料到的,既数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值.在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系.,25,数据挖掘的研究内容和本质,26,数据挖掘的研究内容和本质,随着DMKD研究逐步走向深入,数据挖掘和知识发现的研究已经形成了三根强大的技术支柱:数据库、人工智能和数理统计。目前DMKD的主要研究内容包括基础理论、发现算法、数据仓库、可视化技术、定性定量互换模型、知识表示方法、发现知识的维护和再利用、半结构化和非结构化数据中的知识发现以及网上数据挖掘等。,27,数据挖掘的研究内容和本质,数据挖掘所发现的知识最常见的有以下几类:广义知识(Generalization)关联知识(Association)分类知识(ClassificationClustering)预测型知识(Prediction)偏差型知识(Deviation),28,数据挖掘的研究内容和本质,广义知识广义知识指类别特征的概括性描述知识。根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物共同性质,是对数据的概括、精炼和抽象。,29,数据挖掘的研究内容和本质,关联知识它反映一个事件和其他事件之间依赖或关联的知识。如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。,30,数据挖掘的研究内容和本质,分类知识它反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。最为典型的分类方法是基于决策树的分类方法。它是从实例集中构造决策树,是一种有指导的学习方法。该方法先根据训练子集(又称为窗口)形成决策树。如果该树不能对所有对象给出正确的分类,那么选择一些例外加入到窗口中,重复该过程一直到形成正确的决策集。最终结果是一棵树,其叶结点是类名,中间结点是带有分枝的属性,该分枝对应该属性的某一可能值。,31,数据挖掘的研究内容和本质,预测型知识根据时间序列型数据,由历史的和当前的数据去推测未来的数据,也可以认为是以时间为关键属性的关联知识。,32,数据挖掘的研究内容和本质,偏差型知识(Deviation)它是对差异和极端特例的描述,揭示事物偏离常规的异常现象,如标准类外的特例,数据聚类外的离群值等。所有这些知识都可以在不同的概念层次上被发现,并随着概念层次的提升,从微观到中观、到宏观,以满足不同用户不同层次决策的需要孤立点数据分析、欺骗检测等,33,在何种数据上进行数据挖掘,34,在何种数据上进行数据挖掘,原则上讲,DM可以在任何类型的信息存储上进行.包括:关系数据库数据仓库高级数据库面向对象的数据库对象-关系数据库空间数据库时间数据库和时间序列数据库文本数据库和多媒体数据库异种数据库和遗产数据库flat文件WWW,35,数据挖掘的功能,36,数据挖掘的功能,数据挖掘功能用于指定数据挖掘任务中要找的模式类型。数据挖掘任务有两类:描述和预测.描述性挖掘任务刻画数据库中数据的一般特性;预测性数据挖掘任务在当前数据上进行推断、预测.概念描述关联分析自动预测趋势和行为聚类偏差检测,37,数据挖掘的功能,概念描述概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等,38,数据挖掘的功能,关联分析数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。关联分析发现关联规则,这些规则展示属性值频繁地在给定数据集中一起出现的条件。,39,数据挖掘的功能,自动预测趋势和行动数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。,40,数据挖掘的功能,聚类数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。聚类分析与分类和预测的区别:聚类分析数据对象,而不考虑已知的类标记。,41,数据挖掘的功能,聚类,42,数据挖掘的功能,偏差检测数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。,43,所有模式都是有用的吗?,44,所有模式都是有用的吗?,所有的模式都是有趣的吗?什么样的模式是有趣的?数据挖掘系统能产生所有有趣的模式吗?数据挖掘系统能仅产生有趣模式吗?,45,数据挖掘系统的分类,46,数据挖掘系统的分类,数据挖掘系统是一个多学科交叉融合领域 正由于源于多学科,数据挖掘研究产生了大量的、各种不同类型的数据挖掘系统,按不同的标准,数据挖掘系统可分为根据挖掘的数据库类型分类根据挖掘的知识类型分类根据所用的挖掘技术分类根据应用分类,47,数据挖掘常用技术,48,数据挖掘常用技术,人工神经网络仿照生理神经网络结构的非线形预测模型,通过学习进行模式识别。决策树:代表着决策集的树形结构。遗传算法基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。近邻算法将数据集合中每一个记录进行分类的方法。规则推导从统计意义上对数据中的“如果-那么”规则进行寻找和推导。,49,数据挖掘常用技术,采用上述技术的某些专门的分析工具已经发展了大约十年的历史,不过这些工具所面对的数据量通常较小。而现在这些技术已经被直接集成到许多大型的工业标准的数据仓库和联机分析系统中去了。,50,数据挖掘工具,51,数据挖掘工具,常用的数据挖掘工具包括:基于神经网络的工具基于规则和决策树的工具基于模糊逻辑的工具综合多方法工具,52,数据挖掘工具,基于神经网络的工具由于对非线性数据的快速建模能力,基于神经网络的数据挖掘工具现在越来越流行。其开采过程基本上是将数据聚类,然后分类计算权值。神经网络很适合非线性数据和含噪声数据,所以在市场数据库的分析和建模方面应用广泛。,53,数据挖掘工具,基于规则和决策树的工具大部分数据挖掘工具采用规则发现或决策树分类技术来发现数据模式和规则,其核心是某种归纳算法。这类工具通常是对数据库的数据进行开采,生产规则和决策树,然后对新数据进行分析和预测。这类工具的主要优点是,规则和决策树都是可读的。,54,数据挖掘工具,基于模糊逻辑的工具其发现方法是应用模糊逻辑进行数据查询、排序等。该工具使用模糊概念和“最近”搜索技术的数据查询工具,它可以让用户指定目标,然后对数据库进行搜索,找出接近目标的所有记录,并对结果进行评估。,55,数据挖掘工具,综合多方法工具 不少数据挖掘工具采用了多种开采方法,这类工具一般规模较大,适于大型数据库包括并行数据库。这类工具开采能力很强,但价格昂贵,并要花很长时间进行学习。,56,数据挖掘的热点和主要问题,57,数据挖掘的热点和主要问题,就目前来看,将来的几个热点包括:网站的数据挖掘mining)生物信息或基因的数据挖掘文本的数据挖掘,58,数据挖掘的热点和主要问题,网站的数据挖掘(Web site data mining)需求:随着Web技术的发展,各类电子商务网站风起云涌,建立起一个电子商务网站并不困难,困难的是如何让您的电子商务网站有效益。要想有效益就必须吸引客户,增加能带来效益的客户忠诚度。电子商务业务的竞争比传统的业务竞争更加激烈,原因有很多方面,其中一个因素是客户从一个电子商务网站转换到竞争对手那边,只需点击几下鼠标即可。网站的内容和层次、用词、标题、奖励方案、服务等任何一个地方都有可能成为吸引客户、同时也可能成为失去客户的因素。而同时电子商务网站每天都可能有上百万次的在线交易,生成大量的记录文件(Logfiles)和登记表,如何对这些数据进行分析和挖掘,充分了解客户的喜好、购买模式,甚至是客户一时的冲动,设计出满足于不同客户群体需要的个性化网站,进而增加其竞争力,几乎变得势在必行。若想在竞争中生存进而获胜,就要比您的竞争对手更了解客户。,59,数据挖掘的热点和主要问题,电子商务网站数据挖掘 在对网站进行数据挖掘时,所需要的数据主要来自于两个方面:一方面是客户的背景信息,此部分信息主要来自于客户的登记表;而另外一部分数据主要来自浏览者的点击流(Click-stream),此部分数据主要用于考察客户的行为表现。但有的时候,客户对自己的背景信息十分珍重,不肯把这部分信息填写在登记表上,这就会给数据分析和挖掘带来不便。在这种情况之下,就不得不从浏览者的表现数据中来推测客户的背景信息,进而再加以利用。就分析和建立模型的技术和算法而言,网站的数据挖掘和原来的数据挖掘差别并不是特别大,很多方法和分析思想都可以运用。所不同的是网站的数据格式有很大一部分来自于点击流,和传统的数据库格式有区别。因而对电子商务网站进行数据挖掘所做的主要工作是数据准备。目前,有很多厂商正在致力于开发专门用于网站挖掘的软件。,60,数据挖掘的热点和主要问题,生物信息或基因的数据挖掘 生物信息或基因数据挖掘则完全属于另外一个领域,在商业上很难讲有多大的价值,但对于人类却受益非浅。例如,基因的组合千变万化,得某种病的人的基因和正常人的基因到底差别多大?能否找出其中不同的地方,进而对其不同之处加以改变,使之成为正常基因?这都需要数据挖掘技术的支持。对于生物信息或基因的数据挖掘和通常的数据挖掘相比,无论在数据的复杂程度、数据量还有分析和建立模型的算法而言,都要复杂得多。从分析算法上讲,更需要一些新的和好的算法。现在很多厂商正在致力于这方面的研究。但就技术和软件而言,还远没有达到成熟的地步。,61,数据挖掘的热点和主要问题,文本的数据挖掘(Textual mining)人们很关心的另外一个话题是文本数据挖掘。举个例子,在客户服务中心,把同客户的谈话转化为文本数据,再对这些数据进行挖掘,进而了解客户对服务的满意程度和客户的需求以及客户之间的相互关系等信息。从这个例子可以看出,无论是在数据结构还是在分析处理方法方面,文本数据挖掘和前面谈到的数据挖掘相差很大。文本数据挖掘并不是一件容易的事情,尤其是在分析方法方面,还有很多需要研究的专题。目前市场上有一些类似的软件,但大部分方法只是把文本移来移去,或简单地计算一下某些词汇的出现频率,并没有真正的分析功能。随着计算机计算能力的发展和业务复杂性的提高,数据的类型会越来越多、越来越复杂,数据挖掘将发挥出越来越大的作用。,62,学完本讲后,你应该能够了解:数据挖掘是一门交叉学科;数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘产生的内容(或知识)包括广义知识、关联知识、分类知识、预测型知识、偏差型知识等挖掘的数据对象是多样的,可以是关系数据库、数据仓库、高级数据库、flat文件和WWW等数据挖掘的常用技术包括人工神经网络、决策树、遗传算法、近邻算法、规则推导等,本 讲 主 要 目 标,