《数据开采技术》PPT课件.ppt
《《数据开采技术》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《数据开采技术》PPT课件.ppt(41页珍藏版)》请在三一办公上搜索。
1、第5章数据开采技术,引言,研究背景及意义,国内外研究现状,数据库中知识发现(knowledge discovery in database,KDD)一词首先出现在1989年8月在美国底特律召开的第11届国际人工智能会议(The 11th International Joint Conference on AI)。1999年,亚太地区在北京召开了第三届PAKDD会议,收到158篇论文,电子工程师学会(Institute of Electrical and Electronic Engineers,IEEE)的Knowledge and Data Engineering会刊率先在1993年出版了K
2、DD技术专刊。并行计算、计算机网络和信息工程等其他领域的国际学会、学刊也把数据挖掘和知识发现列为专题讨论,甚至到了脍炙人口的程度。到目前为止,由美国人工智能协会主办的KDD国际研讨会已召开了多次,规模由原来的专题讨论会发展到国际学术大会;研究重点逐渐从发现方法的研究转向实际的系统应用,注重发现多种策略和技术的集成,以及多种学科之间的渗透。,国内:,数据开采的定义,数据开采(data mining),又译作数据挖掘、数据采掘,还有的译成数据发掘。一种比较公认的数据开采定义是、G.Piatetsky、Shapiro 等人提出的:数据开采就是从大型数据库的数据中提取人们感兴趣的知识。这些知识是隐含的
3、、事先未知的潜在有用信息,提取的知识表示为概念(concepts)、规则(rules)、规律(regularities)、模式(patterns)等形式。这种定义把数据开采的对象定义为数据库。而更广义的说法是,数据开采意味着在一些事实或观察数据的集合中寻找模式的决策支持过程。数据开采的对象不仅是数据库,也可以是文件系统,或其他任何组织在一起的数据集合,例如WWW信息资源。,与知识发现的区别:数据开采的任务是发现可以理解的知识,而机器学习关心的是提高系统的性能,因此训练神经网络来控制一根倒立棒是一种机器学习过程,但不是数据开采;数据开采的对象是大型的数据库,一般来说机器学习处理的数据集要小得多,
4、因此效率问题对数据开采是至关重要的。,数据开采处于影响空间中,从中可以看出数据开采在整个决策支持中所处的重要地位。,决策支持空间,数据开采的过程及分类,数据开采的过程,根据发现知识的种类,根据采用的技术分类,人工神经网络,决策树,遗传算法,最近邻技术,可视化,规则归纳,数据开采的分类,最后均走上数据开采的道路,DMKD的研究主的3个技术支柱,数据库,人工智能,数理统计,查询是数据库的奴隶,发现才是数据库的主人,知识获取、知识表示、基本常识成为三大难题,进入DMKD行业,数据仓库作为一种新型的数据存储地,为数据开采提供了新的支持平台。可以预见,数据仓库以其内在的对决策的支持能力,将会成为数据开采
5、的主战场。数据仓库的发展不仅仅是为了数据开采开辟了新的空间,更对数据开采技术提出了新的要求。数据仓库环境下的数据开采,2,数据仓库环境中的数据开采的新特点:,数据开采方法,聚类,定义:聚类是把一组个体相似性归成若干类别,即“物以类聚”。它的目的是使得属于同一类别的个体之间的距离尽可能小,而不同类别上的个体间的距离尽可能的大。方法:统计方法、机器学习方法、神经网络方法和面向数据库的方法,神经网络,一个6结点的前馈神经网络,神经网络一个输入结点的运算,神经网络方法的优点和缺点:神经网络因为不能解释发现的关系,常被看做黑箱。它只能输入数字数据,这就意味着非数字数据需要转换。另外,输入还需要归一为0至
6、1之间。神经网络通过很好的训练能快速预测新的案例,训练阶段是非常精密的,需要选择合适的数字和控制过度匹配。神经网络的一个缺点是它永远不是非常精确,即使永远训练。,关联规则开采方法,关联规则挖掘算法可以分解为两个子问题。(1)找到所有支持度大于最小支持度的项集(itemset),这些项集称为频集(frequent itemset)。(2)使用第1步找到的频集产生期望的关联规则,定义:所谓决策树就是一个类似流程图的树状结构,其中树的每个内部结点代表对一个属性(取值)的测试,其分支就代表测试的每个结果;而树的每个叶结点就代表一个类型。树的最高层结点就是根结点基本决策树算法就是一个贪心算法。它采用自上
7、而下、分而制之的递归方式来构造一个决策树。决策树所表示的分类知识可以被抽取出来并可用ifthen分类规则形式加以表示。从决策树的根结点到任一个叶结点所形成的一条路径就构成了一条分类规则。沿着决策树的一条路径所形成的属性值偶对就构成了分类规则条件部分(if部分)中的一个合取项;叶结点所标记的类别就构成了规则的结论内容(then部分)。ifthen分类规则表达方式易于被人理解,且决策树较大时,ifthen规则表示形式的优势就更加突出。,决策树,定义:数据库中的数据和对象经常包含原始概念层上的详细信息,将一个数据集合归纳成高概念层次信息的数据开采技术被称为数据汇总(data generalizati
8、on)。两种方法:数有数据立方体和面向属性数据立方体(多维数据库)方法的主要思想是将那些经常查询、代价高昂的运算,如Count、Sun、Average、Max和Min等汇总函数具体化,并存储在一个多维数据库中,为决策支持、知识发现及其他应用服务。面向属性的抽取方法用一种类SQL数据开采查询语言表达查询要求,收集相关数据,并利用属性删除、概念层次树、门槛控制、数量传播及集合函数等技术进行数据汇总。汇总数据用汇总关系表示,可以将数据转化为不同类型的知识;或将其映射成不同的表,并从中抽取特征、判别式和分类等相关规则。,多层次数据归纳汇总,属性city的概念层次树,空间数据开采技术帮助人们从庞大的空间
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据开采技术 数据 开采 技术 PPT 课件

链接地址:https://www.31ppt.com/p-5519573.html