韩家炜数据挖掘概念与技术第1章ppt课件.pptx
《韩家炜数据挖掘概念与技术第1章ppt课件.pptx》由会员分享,可在线阅读,更多相关《韩家炜数据挖掘概念与技术第1章ppt课件.pptx(64页珍藏版)》请在三一办公上搜索。
1、第一章 简介,2014.10,目录,1.1 数据挖掘的目的1.2 数据挖掘的概念1.3 数据挖掘的对象1.4 数据挖掘的挖掘模式1.5 数据挖掘的技术1.6 数据挖掘的应用领域1.7 数据挖掘的主要挑战1.8 总结,1.1 Why Data Mining?1.1.1 Moving toward the Information Age1.1.2 Data Mining as the Evolution of Information Technology1.2 What is Data Mining?1.3 What kinds of Data Can be Mined?1.4 What kind
2、s of Patterns Can be Mined?1.5 Which Technologies Are Used?1.6 Which Kinds of Applications Are Target?1.7 Major Issues in Data Mining1.8 Summary,1.1.1 人类迈入信息时代,我们已经进入大数据的时代。每天,有大量的(TB、PB数量级)的数据从商业、社会、科学和工程、医药以及生活中的方方面面涌入我们的计算机网络、万维网、以及各种不同的数据存储设备。这些爆炸性增长的、广泛可获取的、大量的数据使我们真正的处于数据时代。,强大的、万能的能够自动从大量数据中挖
3、掘有价值的信息的工具被急切的需要。这种需求催生了数据挖掘。这个领域是年轻、动态变化并且前景乐观的。数据挖掘正在并且将会持续的将我们大踏步的从数据时代跃入即将到来的信息时代。,举例1.1 数据挖掘将一个大数据集转化成知识搜索引擎(例如google)每天接收到数以亿计的查询请求。每一个请求都看成是用户描述他(她)需要的信息的一个事务。搜索引擎能从如此巨大的查询请求的数据集中学习到什么样新的有用的知识呢?令人感兴趣的是,我们能从这些数据中发现一些揭示有价值信息的模式。而靠单个查看每个数据记录是无法做到这点的。举个例子,谷歌的Flu Trends使用一些特定的词语作为流感的指示器。它能够发现搜索流感信
4、息的人群的数量与真正有流感症状的人群的数量之间的紧密关系。当所有的关于流感的信息聚集在一起时,就能呈现某种模式。使用聚集的谷歌搜索数据,Flu Trends能比传统系统提早两周估计到流感的发生。这个例子展示了数据挖掘怎样将大量的信息转化成知识。,1.1.2 数据挖掘是信息科技的进化,数据挖掘技术可以被看做是信息技术自然进化的产物。数据库和数据管理技术发展的几个阶段:数据收集和数据库创建、数据管理(数据存储,检索和数据库事务处理)、高级数据分析(数据仓库和数据挖掘)。从1960年开始,数据库和信息科技开始从最初的文件处理系统进化到更复杂和功能更强大的数据库系统。从1970年开始,对数据库系统的研
5、究从早期的层式结构和网状结构发展到关系数据库系统。,数据库管理系统建立之后,数据库技术发展到高级数据库、数据仓库和数据挖掘阶段。丰富的数据、对多种数据分析工具的需求,被称为是“数据丰富但是信息量少”的环境,这种巨大的鸿沟催生了数据挖掘工具的系统化发展,把数据坟墓转化为知识金矿。,1.1 Why Data Mining?1.2 What is Data Mining?1.3 What kinds of Data Can be Mined?1.4 What kinds of Patterns Can be Mined?1.5 Which Technologies Are Used?1.6 Whic
6、h Kinds of Applications Are Target?1.7 Major Issues in Data Mining1.8 Summary,1.2 什么是数据挖掘?,数据挖掘是从大量数据中发掘有趣的模式和知识的过程。很多词语有和数据挖掘类似的含义:数据知识挖掘、知识抽取、数据/模式分析、data archaeology, data dredging.很多人把数据挖掘看做和一个流行的词汇knowledge discovery from data( KDD,知识发现)一样的含义。,数据挖掘的步骤,1 数据清洗(去除噪声和不一致的数据)2 数据聚合(多种数据源的融合)3 数据选择(和
7、分析任务相关的数据从数据库中检索出来)4 数据转换(数据被使用摘要和聚合的方式转换和联合成合适用于挖掘的形式)5 数据挖掘(最重要的步骤,智能的抽取数据模式的方法)6 模式评估7 知识表达,1.1 Why Data Mining?1.2 What is Data Mining?1.3 What kinds of Data Can be Mined?1.3.1 Database Data1.3.2 Data Warehouse1.3.3 Transactional Data1.3.4 Other Kinds of Data1.4 What kinds of Patterns Can be Min
8、ed?1.5 Which Technologies Are Used?1.6 Which Kinds of Applications Are Target?1.7 Major Issues in Data Mining1.8 Summary,1.3 什么样的数据能被挖掘?,数据挖掘能被应用于任何对目标应用有意义的数据类型。最基本的形式有:数据库数据、数据仓库数据、交易事务数据,以及一些其他的类型,例如数据流、序列数据、图数据、空间数据、文本数据、多媒体数据、www等。,1.3.1 数据库数据,DBMS(数据库管理系统)包含一系列相互关联的数据。关系数据库是一系列的表,表都有表名,一系列的属性,
9、和一系列的记录。关系数据库可以通过数据库查询语句来检索记录。对关系数据库挖掘时,是想要发现趋势或者数据模式。比如,分析客户数据预测新用户的信用风险,基于他们的收入、年龄和以前的信用信息。还可以用来发现差异,比如,发现包装商品或者显著提升价格的变化。,1.3.2 数据仓库,数据仓库是多种数据来源的信息仓库,以统一的模式存放,通常是在一个站点。数据仓库通过一系列的数据清洗、聚合、转换、加载和周期性的更新构建。数据仓库以重要的主题组织,从历史的视角提供信息,常常是概要型的。数据仓库模型是高维数据结构,每一维对应于相应的一个或者一组属性。称为数据立方。通过提供高维数据视角和概要数据,数据仓库为OLAP
10、联机处理提供支持。高维数据挖掘以OLAP的方式在高维空间挖掘。,1.3.3 事务数据,事务数据库存放交易记录,例如顾客的一次购买,机票的预订,或者用户点击了一个web页面。交易数据被存放在表中,每条记录表示一次交易记录。假如我们想知道哪些商品放在一起出售更好,如果我们知道打印机通常会和电脑一起被购买,则可以对买电脑的顾客提供打印机购买折扣,或者完全免费,以期销售更多电脑。传统的数据库系统不能做这种商业分析。但是基于交易数据的数据挖掘能够发现这种频繁模式,即发现那些商品会被一起经常购买。,1.3.4 其他类型的数据,其他数据如和时间相关的数据,序列数据,流数据,空间数据,工程设计数据,超链接和多
11、媒体数据,图数据和网络数据,web数据等等。如何处理各种复杂的数据结构、特殊的语义、如何挖掘模式都是有挑战的问题。比如我们可以通过股票交易数据挖掘未被发现的趋势帮助你计划投资策略;通过挖掘计算机网络数据流来基于信息流进行入侵检测;对于空间数据,我们可以基于主要高铁线路的城市距离描述城市贫困率的变化;通过挖掘文本数据,例如过去十年的文化,来识别该领域的热点演化。通过挖掘用户对于产品的评论,获得客户情绪和了解产品在市场上的接受度。通过挖掘多媒体数据,来对图像进行目标识别和对其进行语义标签和分类。挖掘WWW上的信息,可以发现网页的变化以及不同网页之间的关联关系,或者用户,社区以及活动之间的关联关系。
12、,需要注意的是,在许多应用领域,数据是多种类型共存的。比如,web挖掘中,包括文本数据和多媒体数据在网页上。对于多种类型数据融合的应用的数据挖掘,数据清洗、聚合是很困难的事情,因为多种数据源的复杂交互。,1.1 Why Data Mining?1.2 What is Data Mining?1.3 What kinds of Data Can be Mined?1.4 What kinds of Patterns Can be Mined?1.4.1 Characterization and Discrimination1.4.2 Frequent Patterns, Associations
13、 and Correlations1.4.3 Classification and Regression 1.4.4 Cluster Analysis1.4.5 Outliner Analysis1.4.6 Are all Patterns Interesting?1.5 Which Technologies Are Used?1.6 Which Kinds of Applications Are Target?1.7 Major Issues in Data Mining1.8 Summary,1.4 什么样的模式能被挖掘?,数据挖掘任务可以被归类为两种类别:描述性的和预测性的。描述性的挖掘
14、任务是描述目标数据集的数据属性。预测性的挖掘任务是归纳现有数据以用来做预测。,1.4.1 类别/概念描述:特征化和区分,对于一个电商企业,销售商品可分为计算机和打印机,客户可分为大客户和节约型客户。对这些单个的类别和概念使用总结、概要或者精确的术语进行描述非常有用。这种对类别或者概念的描述称为类别/概念描述。 描述可以通过:(1)通过总结目标类别的一般术语进行数据特征化;(2)把目标类别和一个或一组对比类别做比较的数据区分;(3)同时使用上面2种方法。,数据描述,数据描述是总结目标类别数据的一般特征。数据一般通过查询来收集。例如,想研究上一年销售额增长了10%的软件产品,可以通过SQL查询语句
15、来进行。有多种数据描述的方法。可以使用基于统计测量和散点图的简单数据总结。基于数据立方的OLAP操作可以使用在特定维度空间的用户控制的数据摘要。面向属性的归纳技术也可以用来描述数据。描述的结果可以通过多种图表展现,包括饼图、柱状图、曲线、高维数据立方体和多维表、交叉表等。也可以使用规则形式的广义关系来表示。,举例如,总结每年在AllElectronics 花掉5000美元以上的客户特征。描述结果可能是这些客户的一般信息,如他们是40-50岁之间的,有工作的,有很高信用度的。,数据区分,数据区分是比较目标类别数据对象和一个或者一组对象的一般特征。举例如,用户想比较去年的销售额增长了10%的软件产
16、品和销售额下降了30%的产品的一般特征。数据区分的技术和结果展示和数据描述很相似。举例如,客户关系经理想比较那些经常购买计算机产品和很少购买这类产品的客户特征。描述结果给出这些客户的一般对比信息,比如经常购买电脑产品的80%的客户是20到40岁之间的有大学文凭的,很少买这类产品的人中60%是老年人或者青少年,没有大学学历。,1.4.2 挖掘频繁模式、关联规则和相关性,频繁模式,含义是数据中经常发生的模式。包括频繁项集,频繁序列,频繁子结构。频繁项集指的是在交易数据集中经常同时发生的商品。频繁序列,比如顾客先买了笔记本电脑,再买了数码相机,接着买了内存卡,这是一个序列模式。频繁子结构指的是结合项
17、集或者子序列的不同的结构形式(图、树、或者格)。挖掘频繁模式,会发现有趣的数据之间的关联和相关度。,1.4.3 用于预测分析的分类和回归,主要技术如:分类规则、决策树、神经网络等。分类是找到模型可以描述和区分数据类别或者概念的方法。模型从一系列的训练数据中分析获得,用于预测未知类别的数据标签。回归是连续值模型,预测缺失的数值型数据而非分类标签。相关性分析是在分类和回归之前的步骤,我们需要选择那些属性跟分类和回归的过程显著相关。不相关的属性不被包含在考虑之列。,1.4.4 聚类分析,聚类分析针对没有标签的数据进行。基于最大化类别内部的相似度,最小化类别之间的相似度的原则来分组。举例如,从电商数据
18、中识别同类型的顾客人群。,1.4.5 离群点分析,数据集可能包含不遵守一般行为和模型的数据。这些目标称为离群点。检测离群点可以使用统计检验方法、距离测量、或者基于密度的方法。举例如,通过与常规的消费相比较发现大笔金额的异常消费,可以发现信用卡的盗刷问题。离群值可能跟消费的地点、支付类型或者频率有关。,1.4.6 所有的模式都很有趣吗?,一般来说,答案是否定的。只有一小部分模式在实际上对特定的用户是有用的。一个模式是有趣的有如下几个条件:1)能很容易被人理解2)对于新的或者测试数据以一定的确信度也是合理的3)潜在有用的4)新奇的一个有趣的模式能表达知识。,一些有关模式是否有趣的客观测量方法如:关
19、联规则挖掘的客观衡量是规则的支持度,表示给定的规则在交易数据库中所占的百分比。另一个是置信度,表示关联规则的确定程度。一般来说,每一个有趣程度的测量方法都有一个用户能控制的阀值。另一种客观的有趣度的衡量包括精确度和覆盖率。,主观的有趣度的衡量基于用户对数据的看法。如果模式是没有预料到的或者提供了可以指导用户行为的策略,则认为这些模式是有趣的。比如,“大量地震之后会常常有一系列小震”是很可行性的如果基于这个信息能挽救生命。如果模式是人们期待的,那么如果它验证了人们的假设,则被认为是有趣的。,数据挖掘能产生所有有趣的模式吗?,这是数据挖掘的完整性问题。答案是,数据挖掘系统产生所有可能的模式是不现实
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 韩家炜 数据 挖掘 概念 技术 ppt 课件
链接地址:https://www.31ppt.com/p-1369655.html