UNIT8数据挖掘的概念.ppt
《UNIT8数据挖掘的概念.ppt》由会员分享,可在线阅读,更多相关《UNIT8数据挖掘的概念.ppt(62页珍藏版)》请在三一办公上搜索。
1、1,UNIT eight数据挖掘的概念,2,学完本讲后,你应该能够了解:数据挖掘是一门交叉学科;数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘产生的内容(或知识)包括广义知识、关联知识、分类知识、预测型知识、偏差型知识等挖掘的数据对象是多样的,可以是关系数据库、数据仓库、高级数据库、flat文件和WWW等数据挖掘的常用技术包括人工神经网络、决策树、遗传算法、近邻算法、规则推导等,本 讲 主 要 目 标,3,一数据挖掘技术的由来二数据挖掘的定义三数据挖掘研究内容和本质四在何种数据上进行数据挖掘五
2、.数据挖掘的功能六.所有模式都是有用的吗?七.数据挖掘系统的分类八.数据挖掘常用技术九.数据挖掘工具十.数据挖掘的热点和主要问题,内容提纲,4,数据挖掘技术的由来,5,数据挖掘技术的由来,信息技术的下一个技术热点大量信息在给人们带来方便的同时也带来了一大堆问题:第一是信息过量,难以消化;第二是信息真假难以辨识;第三是信息安全难以保证;第四是信息形式不一致,难以统一处理。,6,数据挖掘技术的由来,信息技术的下一个技术热点人们开始提出一个新的口号:“要学会抛弃信息”人们开始考虑:“如何才能不被信息淹没,而是从中及时发现有用的知识、提高信息利用率?”面对这一挑战,数据挖掘和知识发现(Data Min
3、ing and Knowledge Discovery)技术应运而生,并显示出强大的生命力,7,数据挖掘技术的由来,数据爆炸但知识贫乏随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。数据的丰富带来了对强有力的数据分析工具的需求,快速增长的海量数据、存放在大型和大量数据库中,没有强有力的工具,理解这些数据已远远超出了人的能力,8,数据挖掘技术的由来,数据爆炸但知识贫乏,9,数据挖掘技术的由来,数据爆炸但知识贫乏目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但
4、无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。,10,可怕的数据,有价值的知识,11,数据挖掘技术的由来,支持数据挖掘技术的基础数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。现在数据挖掘技术在商业应用中已经可以马上投入使用,因为对这种技术进行支持的三种基础技术已经发展成熟:海量数据搜集强大的多处理器计算机数据挖掘算法,12,数据挖掘技术的由来,数据挖掘的演变过程数据挖掘其实是一个逐渐演变的过程,电子数据处理的初期,人们就试图通过某些方法来实现自动决策支持。当机器学习成为人们关心的焦点.机器学
5、习的过程就是将一些已知的并已被成功解决的问题作为范例输入计算机,机器通过学习这些范例总结并生成相应的规则,这些规则具有通用性,使用它们可以解决某一类的问题.随着神经网络技术的形成和发展,人们的注意力转向知识工程,知识工程不同于机器学习那样给计算机输入范例,让它生成出规则,而是直接给计算机输入已被代码化的规则,而计算机是通过使用这些规则来解决某些问题。专家系统就是这种方法所得到的成果,但它有投资大、效果不甚理想等不足。,13,数据挖掘技术的由来,数据挖掘的演变过程80年代又在新的神经网络理论的指导下,重新回到机器学习的方法上,并将其成果应用于处理大型商业数据库。随着在80年代末一个新的术语,即数
6、据库中的知识发现,简称KDD(Knowledge discovery in database).它泛指所有从源数据中发掘模式或联系的方法,人们接受了这个术语,并用KDD来描述整个数据发掘的过程,包括最开始的制定业务目标到最终的结果分析,而用数据挖掘(data mining)来描述使用挖掘算法进行数据挖掘的子过程。,14,数据挖掘技术的由来,数据挖掘的演变过程最近人们却逐渐开始使用数据挖掘中有许多工作可以由统计方法来完成,并认为最好的策略是将统计方法与数据挖掘有机的结合起来。数据仓库技术的发展与数据挖掘有着密切的关系。数据仓库的发展是促进数据挖掘越来越热的原因之一。但是,数据仓库并不是数据挖掘的
7、先决条件,因为有很多数据挖掘可直接从操作数据源中挖掘信息,15,数据挖掘的定义,16,数据挖掘的定义,技术上的定义及含义简单地说,数据挖掘是从大量数据中提取或挖掘知识。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与数据挖掘相近的同义词有数据融合、数据分析和决策支持等。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。,17,数据挖掘的定义,技术上的定义及含义何为知识?从广
8、义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉,好像从矿石中采矿或淘金一样。原始数据可以是结构化的,如关系数据库中的数据;可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。,18,数据挖掘的定义,技术上的定义及含义发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在这种需求牵引
9、下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。,19,数据挖掘的定义,技术上的定义及含义这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。实际上,所有发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。最好能用自然语言表达所发现的结果,20,数据挖掘的定义,知识发现的过程确定业务对象数据准备数据挖掘结果分析知识同化,21,数据挖掘的定义,知识发现的过程知识发现过
10、程中各步骤的大体内容如下:A.确定业务对象清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步.挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的.,22,数据挖掘的定义,知识发现的过程B.数据准备数据的选择:搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据.数据的预处理(包括数据清理和数据集成):研究数据的质量,为进一步的分析作准备.并确定将要进行的挖掘操作的类型.数据的转换:将数据转换成一个分析模型.这个分析模型是针对挖掘算法建立的.建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键.,23,
11、数据挖掘的定义,知识发现的过程C 数据挖掘:对所得到的经过转换的数据进行挖掘.除了完善从选择合适的挖掘算法外,其余一切工作都能自动地完成.D 结果分析:解释并评估结果.其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术.E 知识的同化:将分析所得到的知识集成到业务信息系统的组织结构中去,24,数据挖掘的定义,数据挖掘与传统分析方法的区别数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识.数据挖掘所得到的信息应具有先未知,有效和可实用三个特征.先前未知的信息是指该信息是预先未曾预料到的,既数据挖掘是要发现那些不能靠直
12、觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值.在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系.,25,数据挖掘的研究内容和本质,26,数据挖掘的研究内容和本质,随着DMKD研究逐步走向深入,数据挖掘和知识发现的研究已经形成了三根强大的技术支柱:数据库、人工智能和数理统计。目前DMKD的主要研究内容包括基础理论、发现算法、数据仓库、可视化技术、定性定量互换模型、知识表示方法、发现知识的维护和再利用、半结构化和非结构化数据中的知识发现以及网上数据挖掘等。,27,数据挖掘的研究内容和本质,数据挖掘所发现的知识最常见
13、的有以下几类:广义知识(Generalization)关联知识(Association)分类知识(ClassificationClustering)预测型知识(Prediction)偏差型知识(Deviation),28,数据挖掘的研究内容和本质,广义知识广义知识指类别特征的概括性描述知识。根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物共同性质,是对数据的概括、精炼和抽象。,29,数据挖掘的研究内容和本质,关联知识它反映一个事件和其他事件之间依赖或关联的知识。如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。,30,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- UNIT8 数据 挖掘 概念

链接地址:https://www.31ppt.com/p-6522491.html