第1次课数据挖掘及其算法概览new.ppt
《第1次课数据挖掘及其算法概览new.ppt》由会员分享,可在线阅读,更多相关《第1次课数据挖掘及其算法概览new.ppt(88页珍藏版)》请在三一办公上搜索。
1、哈尔滨工程大学计算机科学与技术学院软件与理论研究所数据库与知识工程研究室王念滨 教授 博导,新一代数据库系统,数据库,新一代数据库系统课程安排,主动数据库分布式数据库知识库,数据仓库数据集成数据挖掘,张建沛,王念滨,基础,学习,课 程 体 系,第 1 章 数据挖掘及其算法概览,第1章 数据挖掘及其算法概览,主要内容,数据库知识发现基本概念,数据挖掘算法概览,典型数据挖掘算法,数据集成概览,第1章 数据挖掘及其算法概览,主要内容,数据库知识发现基本概念,数据挖掘算法概览,典型数据挖掘算法,数据集成概览,第1章 数据挖掘及其算法概览,数据挖掘概述,数据挖掘技术是人们长期对数据库技术进行研究和开发的
2、成果。数据挖掘和知识发现源于人工智能的学习,并在20世纪80年代有了长足的进展。目前,数据挖掘技术已经在市场分析、政府管理、医疗卫生、科学探索、金融及制造业得到应用并取得了一定的实效。,数据库知识发现基本概念,第1章 数据挖掘及其算法概览,数据挖掘的目标是支持利用数据进行合理的决策。数据挖掘可以与数据仓库结合起来帮助实现某些类型的决策。,数据库知识发现基本概念,数据挖掘目标,第1章 数据挖掘及其算法概览,四个方面的原因促进了数据挖掘技术产生、发展应用。数据挖掘技术是信息技术发展到一定程度的必然结果 A.大容量数据库的出现。B.先进计算机技术应用。C.现代化经营管理的需要。D.对数据挖掘精、深能
3、力的要求。,数据挖掘产生的背景,数据库知识发现基本概念,第1章 数据挖掘及其算法概览,数据库知识发现基本概念,数据挖掘产生的背景,沃尔玛 每天交易记录2千万条,客户数据库记录11T.1998年.,黑龙江省地方税务局 每月纳税高峰期(7/8/9),纳税记录平均每天新增 1百万条.2009年数据库记录容量1.5T.,数据量不断增长,先进计算机技术应用,第1章 数据挖掘及其算法概览,数据库知识发现基本概念,数据挖掘产生的背景,对海量数据集成和处理技术的发展(并行、分布式数据库系统);数据仓库技术的不断成熟;网络及数据搜索技术的牵引。人工智能技术的发展,现代化经营管理的需要,第1章 数据挖掘及其算法概
4、览,数据库知识发现基本概念,数据挖掘产生的背景,1、根据销售数据库,发现某类商品用户消费特征(尿布与牛奶的故事)。2、根据纳税人财务数据和纳税数据,通过建立模型,发现偷税漏税情况3、根据信用卡消费情况,建立监测模型,发现信用卡欺诈情况;4、根据病人病情分析,建立医疗模型;,纳税人基础信息,纳税人应税信息,纳税人其它信息,外部数据源,分组规则,按照规则分组,行为规律分析,组间交叉分析,纳税人应税地点、方式,纳税人应税品种,纳税人所属地区、行业,欠税发生频率,欠税高峰期,基础近似,分组不同原因,纳税人分组变化的条件及可能性,不同分组的主要差别,统计分析归纳演绎,确定稽查检查对象,制定鼓励政策,信用
5、等级评定,纳税人辅导,税务机关,税收计划,基于数据仓库的纳税人信息辅助分析软件,财务报表对比,辅助分析系统,税务机关,历史数据仓库,聚类、决策树等,第1章 数据挖掘及其算法概览,大量的数据是当今信息社会的特征。是社会的宝贵财富。然而面对海量的数据,我们往往无法适从,无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。导致了“我们淹没在数据的海洋中,但却缺少知识”的现象。80年代中后期,人们开始考虑运用知识发现技术从这些数据中挖掘出对我们有用的知识。大量的数据背后隐藏了很多具有决策意义的信息,通过对海量数据的分析,发现数据之间的潜在联系,为人们提供自动决策支持。,数据库知识发现
6、基本概念,数据挖掘产生的背景,对数据挖掘精、深能力的要求,应用和需求是技术发展的动力 A.大容量数据库的出现。B.先进计算机技术应用。C.现代化经营管理的需要。D.对数据挖掘精、深能力的要求。我们拥有丰富的资源,但却缺乏有用的信息解决方法 数据仓库与OLAP 数据挖掘、知识发现,数据挖掘产生的背景,第1章 数据挖掘及其算法概览,数据库知识发现基本概念,第1章 数据挖掘及其算法概览,数据挖掘的演变进程,数据库知识发现基本概念,演变阶段,商业问题,支持技术,产品厂家,产品特点,数据搜集(20世纪60年代),数据访问(20世纪80年代),数据仓库决策支持(20世纪90年代,数据挖掘(正在流行),“过
7、去五年中整个有关联锁超市总收入是多少?”,“联锁超市第一分部去年三月的销售额是多少?”,“联锁超市第一分部去年三月的销售额是多少?第二分部据此可得出什么结论?”,“下个月第二分部的销售会怎么样?为什么?”,计算机、磁带和磁盘,关系数据库(RDBMS),结构化查询语言(SQL),ODBC,OLAP、多维数据库和数据仓库,高级算法、多处理器计算机和海量数据库,IBM和CDC,Oracle、Sybase、Informix、IBM和Microsoft,Pilot、Comshare、Arbor、Cognos和Microstrategy,Pilot、Lockheed、IBM、SGI和其他初创公司,提供历史
8、性的静态的数据,在记录级提供历史性动态数据,在各种层次上提供回溯的动态数据,提供预测性信息,工具特点,分析重点,分析目的,数据集大小,启动方式,技术状况,传统数据分析工具(DSS/EIS),回顾型的、验证型的,已经发生了什么,从最近的销售文件中列出最大客户,数据维、维中属性数、维中数据均是少量的,企业管理人员、系统分析员、管理顾问启动与控制,成熟,数据挖掘工具,预测型的、发现型的,预测未来的情况、解释发生的原因,锁定未来的可能客户,以减少未来的销售成本,数据维、维中属性数、维中数据均是庞大的,数据与系统启动,少量的人员指导,统计分析工具已经成熟,其他工具正在发展中,第1章 数据挖掘及其算法概览
9、,数据库知识发现基本概念,数据挖掘工具与传统数据分析工具的比较,数据库知识发现基本概念,第1章 数据挖掘及其算法概览,参考文献 以上的统计数据来源于文献 Written By Walter Alberto Aldana MIT 2000 网上可以找到。,第1章 数据挖掘及其算法概览,数据库知识发现基本概念,数据挖掘技术定义,从技术角度看,数据挖掘就是应用一系列技术从(大型数据库或数据仓库的)数据中提取人们感兴趣的信息和知识,这些知识或信息是隐含的、事先未知而潜在有用的,所提取的知识表示为概念、规则、规律和模式等形式。从商业角度看,数据挖掘是新型的商业分析处理技术。它是从大型数据库或数据仓库中发
10、现并提取隐藏在其中信息的一种新技术,帮助决策者寻找数据间潜在的关联,发现被忽略的因素。,第1章 数据挖掘及其算法概览,数据库知识发现基本概念,数据挖掘的三股研究力量,1、从数据库(应用需求)的角度来研究数据挖掘问题 参考文献 Data Mining:An overview from Database Perspective IEEE Transactions on Knowledge and Data Engineering 1996,8(6):866-883,2、从统计学(应用需求)的角度来研究数据挖掘问题 参考文献 Statistical Themes and Lessons for Da
11、ta Mining Data Mining and Knowledge Discovery,1996,3、从机器学习的角度来研究数据挖掘问题,第1章 数据挖掘及其算法概览,数据库知识发现基本概念,数据挖掘领域国外著名期刊和会议,1、IEEE Transactions on Knowledge and Data Engineering2、Data Mining and Knowledge Discovery3、Knowledge and Information Systems4、Intelligent Data Analysis5、Information Systems6、Journal of
12、Intelligent Information System,期刊,会议,1、ACM SIGKDD2、ICDM3、PKDD,PAKDD4、ACMSIGMON/PODS,VLDB,CIKM,ICDE,ICML(数据库领域)5、AAAI,第1章 数据挖掘及其算法概览,数据库知识发现基本概念,参考书籍,数据挖掘:概念和技术 范明 孟小峰 译,数据挖掘原理 张银奎译,数据挖掘导论 范明 范宏建 译,第1章 数据挖掘及其算法概览,数据库知识发现基本概念,数据(挖掘)的发展历程,1960S及以前 文件系统,1970S 层次及网状数据库,1980S前期 关系数据库,1980S后期 关系数据库逐渐成熟,并成为
13、商业市场主要产品,1990S 数据仓库、数据挖掘、网络数据库,2000S 数据集成、流数据库、XML数据库、数据空间、数据挖掘应用,第1章 数据挖掘及其算法概览,数据、信息与知识,数据(DATA):描述事物的符号记录称为“数据”。包含两层含义:存储在某一介质上的可加以鉴定的符号资料;数据内容是事物特征的反映或者描述。,信息(INFORMATION):是对数据的解释。数据经过处理并经 过解释才有意义,才成为信息。,知识(Knowledge):知识是通过实践、研究、联系或调查获得 的关于事物的事实和状态的知识,数据库知识发现基本概念,第1章 数据挖掘及其算法概览,学生的分数-数据,成绩最好的学生的
14、分数-信息,成绩最好的学生的特点-知识,数据、信息与知识,数据库知识发现基本概念,第1章 数据挖掘及其算法概览,数据库知识发现基本概念,数据挖掘与数据库知识发现,数据挖掘是数据库知识发现的过程之一。,知识发现:从数据集中抽取和精化新的模式的过程。知识发现的范围非常广泛,可以是经济、工业、农业、军事等的数据,数据的形态包括数字、符号、图形、图像、声音等。数据组织方式各不相同,可以使结构化的、半结构化的、非结构化的。知识发现的结果可以表示成多种形式,包括规则、法则、规律、方程等。由于关系数据库具有统一的组织结构、一体化的查询语言、关系之间及属性之间具有平等性等优点,因此基于数据库(特别是关系数据库
15、)的知识发现(KDD:Knowledge Discovery in Database)是知识发现研究的主体和热点。,第1章 数据挖掘及其算法概览,KDD的定义 从数据集中识别出有效的、新颖的、潜在有用的,以及最终可以理解的模式的非平凡过程。数据集是一组事实F(如关系数据库中的记录);模式是一个用语言L来表示的一个表达式E,它可以用来描述数据集F的某个子集FE,E作为一个模式要求它比对数据子集FE的枚举要简单(所用的描述信息量要少)。非平凡(nontrivial)是指KDD过程不是线性的,具有智能性和自动性,并且往往是一个反复的过程。有效性是指发现的模式对于新的数据仍保持一定的可信度。新颖性是指
16、发现的模式应该不同于以往的知识或模式。潜在有用性是指发现的知识将来有实际效用。,数据库知识发现基本概念,第1章 数据挖掘及其算法概览,数据库知识发现基本概念,知识发现的过程,数据源,数据源,。,数据,目标数据,预处理后的数据,信息,知识,数据准备,数据挖掘,结果表达及解释,数据集成,数据选择,预处理,数据挖掘,表达及解释,第1章 数据挖掘及其算法概览,数据库知识发现基本概念,知识发现的过程-数据准备,数据准备:数据选取、数据预处理和数据转换。数据选取的目标是确定发现任务的操作对象,即目标数据,它是根据用户需求从原始数据库中抽取的一组数据;数据预处理一般包括消除噪声、推导计算缺值数据、消除重复记
17、录、完成数据类型转换(如将连续值数据转换为离散值数据);数据转换的主要目标是消减数据维数或降维。即从初始特征中找出真正有用的特征并减少数据挖掘时要考虑的特征或者变量的个数。,第1章 数据挖掘及其算法概览,数据库知识发现基本概念,知识发现的过程-数据准备,数据选取,数据挖掘通常不需要所有的数据。有些数据对象和数据属性对建立模型获得模式是没有影响的,这些数据的加入会大大影响挖掘效率,甚至可能导致数据挖掘结果的偏差。对数据库表的选择,有两种方式,纵向选择-列属性选择;横向选择-元组或记录选择。数据选择是对发现任务和数据本身的内容的理解的基础上。寻找依赖于发现目标的表达数据的有用特征,以减少数据规模,
18、从而在尽可能保持数据原貌的前提下最大限度地精简数据量。通过数据选取使数据的规律性和潜在特征更加明显。数据选取在实际应用中非常重要,但DM领域对其也就并不深入,往往认为数据挖掘时,数据已经准备好了。,第1章 数据挖掘及其算法概览,数据库知识发现基本概念,知识发现的过程-数据准备,数据预处理,也称数据清理或者数据清洗。在数据中消除错误和不一致,并解决对象识别问题的过程。主要包括空值处理、噪声数据处理、及不一致数据处理等。也就是说通过数据预处理去除噪声或无关数据,并处理数据中缺失的数据项或域。例如,关于“高薪”、“低收入”等概念在不同的数据集合中有不同的定义,需要进行统一。需要对数据值进行标准化,例
19、如,人员出身地在不同的集合中表示不同,例如一个集合中为哈市,一个集合中为哈尔滨市。解决异名同义问题,以及同名异义等问题。数据清理是一个困难、繁琐的问题。DM领域对此研究并不多,在数据集成领域研究比较丰富。,第1章 数据挖掘及其算法概览,数据库知识发现基本概念,知识发现的过程-数据准备,数据集成,数据挖掘需要对数据进行集成。将多个数据源中的数据合并存放在统一的数据存储中。数据集成主要涉及三个方面的问题:模式集成:从多个异构的数据库、文件、遗留系统中提取并集成数据,解决语义二义性,统一不同的数据格式,消除冗余,重复等问题。模式集成涉及实体识别。目前该领域研究比较热,但问题多难以形成统一的解决方法。
20、目前研究包括元数据、元知识(Meta data,Meta knowledge)及本体(Ontology)等方法。数据值冲突检测及处理:表示、比例、单位、编码等不同的解决方法。例如,货币单位等 冗余:如同一属性多次出现等。在数据仓库和数据挖掘领域,也许不需要规范化(去规范化)。,第1章 数据挖掘及其算法概览,数据库知识发现基本概念,知识发现的过程-数据挖掘,数据挖掘:确定目标和任务。如数据总结、分类、聚类、关联规则发现或者序列模式发现等。确定任务后,考虑采用何种算法。同样的任务可以采用不同的算法来实现。选择算法的考虑因素包括:不同的数据有不同的特点,因此需要采用与之相关的算法来处理;用户或实际运
21、行系统的要求,有的用户可能希望获得描述性、易于理解的描述性知识,有的用户可能希望获得预测准确度高的预测型知识。数据挖掘仅仅是整个过程的一个部分,数据挖掘质量的好坏有两个影响因素。采用的数据挖掘技术的有效性;用于挖掘数据的质量和数量。数据挖掘过程是一个非平凡的过程,需要不断反馈。可视化在数据挖掘中扮演重要的角色。,第1章 数据挖掘及其算法概览,数据库知识发现基本概念,知识发现的过程-结果表达于解释,结果解释和评价:数据挖掘阶段发现的模式,经过用户或机器的评价,可能存在冗余或无关的模式,需要将其剔除。模式也可能不满足用户的要求,需要重新进行KDD过程。,第1章 数据挖掘及其算法概览,数据库知识发现
22、基本概念,KDD知识发现抽取知识的类型和表示,依赖关系;分类知识;描述性知识;偏差性知识,第1章 数据挖掘及其算法概览,数据库知识发现基本概念,1 依赖关系 若其中一项的数据可以预测另一项的数据,即A-B,则称这两项存在依赖关系。当确定依赖关系不存在时,可以附加不确定度量:A-(0.95)B。这类知识可用于数据库知识的归一化、查询优化,还可用于最小化决策树、搜索数据特例等2 分类知识 数据子类的标识知识。子类可由某一现有属性确定,也可由附加的知识领域知识来定义,KDD系统基于分类知识的发现任务促进了交互式新型聚类算法的发展,即处理器计算机能力和用户知识及可视化工具的有机集成。,KDD知识发现抽
23、取知识的类型和表示,第1章 数据挖掘及其算法概览,数据库知识发现基本概念,3 描述性知识 关于类别特征的概括性知识。主要包括两类知识:特征描述知识和区分性知识。特征描述性知识是指本类数据所共有的;区分性知识是指本类区别于其他类的特征4 偏差性知识 关于类别差异的描述。包括:标准类的特例,各类边缘外的孤立点,时序关系上的单属性值和集合取值的不同,实际观测值与系统预测值间的显著差别等。,KDD知识发现抽取知识的类型和表示,第1章 数据挖掘及其算法概览,数据库知识发现基本概念,KDD的主要任务,KDD的核心部分是数据模式的抽取,即通过数据挖掘完成各种模式的抽取。其主要的任务是:分类知识发现、数据总结
24、、数据聚类、关联规则发现、序列模式发现、依赖关系模型发现、异常发现和趋势预测等,第1章 数据挖掘及其算法概览,数据库知识发现基本概念,1 分类知识发现 根据样本数据寻找相应的分类规则。然后根据获得的规则来确定某一非样本个体或对象是否属于某一特定的组或者类。在这种分类知识发现中,样本数据中的个体或对象的类标识是已知的。数据挖掘的任务就是从样本数据的属性中发现个体或对象分类的一般规则,从而依据该规则对非样本数据对象进行分类有用。这种分类规则一般表示为某种分类函数或者分类模型,简称分类器。,KDD的主要任务,第1章 数据挖掘及其算法概览,数据库知识发现基本概念,2 聚类知识发现 数据聚类用于发现在数
25、据库中未知的数据类。这种数据类划分的依据是“物以类聚”,即按照个体或数据对象间的相似性,将研究对象划分为若干类。由于数据挖掘之前,数据类划分的数量和类型均是未知的,因此数据挖掘后需要对数据挖掘结果进行合理分析与解释。与分类知识发现不同的是,聚类任务没有已知的数据输入。即对于所有元组(v1,v2,.,vn,C),给定属性vi,其类别C均是未知的。在机器学习中,聚类被称为无监督或无指导学习,与之相反,分类被称为有监督学习或有指导学习。因为在分类学习中,输入数据中有已知的信息(各元组的类别属性C是已知的),算法从已知信息中抽取分类的规则,使有指导的。聚类算法中没有已知类别信息的输入,完全依靠算法对元
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 及其 算法 概览 new
链接地址:https://www.31ppt.com/p-5634287.html