韩家炜数据挖掘概念与技术第1章ppt课件.pptx

上传人：牧羊曲112

文档编号：1369655

上传时间：2022-11-15

格式：PPTX

页数：64

大小：139.05KB

《韩家炜数据挖掘概念与技术第1章ppt课件.pptx》由会员分享，可在线阅读，更多相关《韩家炜数据挖掘概念与技术第1章ppt课件.pptx（64页珍藏版）》请在三一办公上搜索。

1、第一章简介,2014.10,目录,1.1 数据挖掘的目的1.2 数据挖掘的概念1.3 数据挖掘的对象1.4 数据挖掘的挖掘模式1.5 数据挖掘的技术1.6 数据挖掘的应用领域1.7 数据挖掘的主要挑战1.8 总结,1.1 Why Data Mining?1.1.1 Moving toward the Information Age1.1.2 Data Mining as the Evolution of Information Technology1.2 What is Data Mining?1.3 What kinds of Data Can be Mined?1.4 What kind

2、s of Patterns Can be Mined?1.5 Which Technologies Are Used?1.6 Which Kinds of Applications Are Target?1.7 Major Issues in Data Mining1.8 Summary,1.1.1 人类迈入信息时代,我们已经进入大数据的时代。每天，有大量的（TB、PB数量级）的数据从商业、社会、科学和工程、医药以及生活中的方方面面涌入我们的计算机网络、万维网、以及各种不同的数据存储设备。这些爆炸性增长的、广泛可获取的、大量的数据使我们真正的处于数据时代。,强大的、万能的能够自动从大量数据中挖

3、掘有价值的信息的工具被急切的需要。这种需求催生了数据挖掘。这个领域是年轻、动态变化并且前景乐观的。数据挖掘正在并且将会持续的将我们大踏步的从数据时代跃入即将到来的信息时代。,举例1.1 数据挖掘将一个大数据集转化成知识搜索引擎（例如google)每天接收到数以亿计的查询请求。每一个请求都看成是用户描述他（她）需要的信息的一个事务。搜索引擎能从如此巨大的查询请求的数据集中学习到什么样新的有用的知识呢？令人感兴趣的是，我们能从这些数据中发现一些揭示有价值信息的模式。而靠单个查看每个数据记录是无法做到这点的。举个例子，谷歌的Flu Trends使用一些特定的词语作为流感的指示器。它能够发现搜索流感信

4、息的人群的数量与真正有流感症状的人群的数量之间的紧密关系。当所有的关于流感的信息聚集在一起时，就能呈现某种模式。使用聚集的谷歌搜索数据，Flu Trends能比传统系统提早两周估计到流感的发生。这个例子展示了数据挖掘怎样将大量的信息转化成知识。,1.1.2 数据挖掘是信息科技的进化,数据挖掘技术可以被看做是信息技术自然进化的产物。数据库和数据管理技术发展的几个阶段：数据收集和数据库创建、数据管理（数据存储，检索和数据库事务处理）、高级数据分析（数据仓库和数据挖掘）。从1960年开始，数据库和信息科技开始从最初的文件处理系统进化到更复杂和功能更强大的数据库系统。从1970年开始，对数据库系统的研

5、究从早期的层式结构和网状结构发展到关系数据库系统。,数据库管理系统建立之后，数据库技术发展到高级数据库、数据仓库和数据挖掘阶段。丰富的数据、对多种数据分析工具的需求，被称为是“数据丰富但是信息量少”的环境，这种巨大的鸿沟催生了数据挖掘工具的系统化发展，把数据坟墓转化为知识金矿。,1.1 Why Data Mining?1.2 What is Data Mining?1.3 What kinds of Data Can be Mined?1.4 What kinds of Patterns Can be Mined?1.5 Which Technologies Are Used?1.6 Whic

6、h Kinds of Applications Are Target?1.7 Major Issues in Data Mining1.8 Summary,1.2 什么是数据挖掘？,数据挖掘是从大量数据中发掘有趣的模式和知识的过程。很多词语有和数据挖掘类似的含义：数据知识挖掘、知识抽取、数据/模式分析、data archaeology, data dredging.很多人把数据挖掘看做和一个流行的词汇knowledge discovery from data( KDD，知识发现)一样的含义。,数据挖掘的步骤,1 数据清洗（去除噪声和不一致的数据）2 数据聚合（多种数据源的融合）3 数据选择（和

7、分析任务相关的数据从数据库中检索出来）4 数据转换（数据被使用摘要和聚合的方式转换和联合成合适用于挖掘的形式)5 数据挖掘（最重要的步骤，智能的抽取数据模式的方法）6 模式评估7 知识表达,1.1 Why Data Mining?1.2 What is Data Mining?1.3 What kinds of Data Can be Mined?1.3.1 Database Data1.3.2 Data Warehouse1.3.3 Transactional Data1.3.4 Other Kinds of Data1.4 What kinds of Patterns Can be Min

8、ed?1.5 Which Technologies Are Used?1.6 Which Kinds of Applications Are Target?1.7 Major Issues in Data Mining1.8 Summary,1.3 什么样的数据能被挖掘？,数据挖掘能被应用于任何对目标应用有意义的数据类型。最基本的形式有：数据库数据、数据仓库数据、交易事务数据，以及一些其他的类型，例如数据流、序列数据、图数据、空间数据、文本数据、多媒体数据、www等。,1.3.1 数据库数据,DBMS(数据库管理系统）包含一系列相互关联的数据。关系数据库是一系列的表，表都有表名，一系列的属性，

9、和一系列的记录。关系数据库可以通过数据库查询语句来检索记录。对关系数据库挖掘时，是想要发现趋势或者数据模式。比如，分析客户数据预测新用户的信用风险，基于他们的收入、年龄和以前的信用信息。还可以用来发现差异，比如，发现包装商品或者显著提升价格的变化。,1.3.2 数据仓库,数据仓库是多种数据来源的信息仓库，以统一的模式存放，通常是在一个站点。数据仓库通过一系列的数据清洗、聚合、转换、加载和周期性的更新构建。数据仓库以重要的主题组织，从历史的视角提供信息，常常是概要型的。数据仓库模型是高维数据结构，每一维对应于相应的一个或者一组属性。称为数据立方。通过提供高维数据视角和概要数据，数据仓库为OLAP

10、联机处理提供支持。高维数据挖掘以OLAP的方式在高维空间挖掘。,1.3.3 事务数据,事务数据库存放交易记录，例如顾客的一次购买，机票的预订，或者用户点击了一个web页面。交易数据被存放在表中，每条记录表示一次交易记录。假如我们想知道哪些商品放在一起出售更好，如果我们知道打印机通常会和电脑一起被购买，则可以对买电脑的顾客提供打印机购买折扣，或者完全免费，以期销售更多电脑。传统的数据库系统不能做这种商业分析。但是基于交易数据的数据挖掘能够发现这种频繁模式，即发现那些商品会被一起经常购买。,1.3.4 其他类型的数据,其他数据如和时间相关的数据，序列数据，流数据，空间数据，工程设计数据，超链接和多

11、媒体数据，图数据和网络数据，web数据等等。如何处理各种复杂的数据结构、特殊的语义、如何挖掘模式都是有挑战的问题。比如我们可以通过股票交易数据挖掘未被发现的趋势帮助你计划投资策略；通过挖掘计算机网络数据流来基于信息流进行入侵检测；对于空间数据，我们可以基于主要高铁线路的城市距离描述城市贫困率的变化；通过挖掘文本数据，例如过去十年的文化，来识别该领域的热点演化。通过挖掘用户对于产品的评论，获得客户情绪和了解产品在市场上的接受度。通过挖掘多媒体数据，来对图像进行目标识别和对其进行语义标签和分类。挖掘WWW上的信息，可以发现网页的变化以及不同网页之间的关联关系，或者用户，社区以及活动之间的关联关系。

12、,需要注意的是，在许多应用领域，数据是多种类型共存的。比如，web挖掘中，包括文本数据和多媒体数据在网页上。对于多种类型数据融合的应用的数据挖掘，数据清洗、聚合是很困难的事情，因为多种数据源的复杂交互。,1.1 Why Data Mining?1.2 What is Data Mining?1.3 What kinds of Data Can be Mined?1.4 What kinds of Patterns Can be Mined?1.4.1 Characterization and Discrimination1.4.2 Frequent Patterns, Associations

13、 and Correlations1.4.3 Classification and Regression 1.4.4 Cluster Analysis1.4.5 Outliner Analysis1.4.6 Are all Patterns Interesting?1.5 Which Technologies Are Used?1.6 Which Kinds of Applications Are Target?1.7 Major Issues in Data Mining1.8 Summary,1.4 什么样的模式能被挖掘？,数据挖掘任务可以被归类为两种类别：描述性的和预测性的。描述性的挖掘

14、任务是描述目标数据集的数据属性。预测性的挖掘任务是归纳现有数据以用来做预测。,1.4.1 类别/概念描述：特征化和区分,对于一个电商企业，销售商品可分为计算机和打印机，客户可分为大客户和节约型客户。对这些单个的类别和概念使用总结、概要或者精确的术语进行描述非常有用。这种对类别或者概念的描述称为类别/概念描述。描述可以通过：（1）通过总结目标类别的一般术语进行数据特征化；（2）把目标类别和一个或一组对比类别做比较的数据区分；（3）同时使用上面2种方法。,数据描述,数据描述是总结目标类别数据的一般特征。数据一般通过查询来收集。例如，想研究上一年销售额增长了10%的软件产品，可以通过SQL查询语句

15、来进行。有多种数据描述的方法。可以使用基于统计测量和散点图的简单数据总结。基于数据立方的OLAP操作可以使用在特定维度空间的用户控制的数据摘要。面向属性的归纳技术也可以用来描述数据。描述的结果可以通过多种图表展现，包括饼图、柱状图、曲线、高维数据立方体和多维表、交叉表等。也可以使用规则形式的广义关系来表示。,举例如，总结每年在AllElectronics 花掉5000美元以上的客户特征。描述结果可能是这些客户的一般信息，如他们是40-50岁之间的，有工作的，有很高信用度的。,数据区分,数据区分是比较目标类别数据对象和一个或者一组对象的一般特征。举例如，用户想比较去年的销售额增长了10%的软件产

16、品和销售额下降了30%的产品的一般特征。数据区分的技术和结果展示和数据描述很相似。举例如，客户关系经理想比较那些经常购买计算机产品和很少购买这类产品的客户特征。描述结果给出这些客户的一般对比信息，比如经常购买电脑产品的80%的客户是20到40岁之间的有大学文凭的，很少买这类产品的人中60%是老年人或者青少年，没有大学学历。,1.4.2 挖掘频繁模式、关联规则和相关性,频繁模式，含义是数据中经常发生的模式。包括频繁项集，频繁序列，频繁子结构。频繁项集指的是在交易数据集中经常同时发生的商品。频繁序列，比如顾客先买了笔记本电脑，再买了数码相机，接着买了内存卡，这是一个序列模式。频繁子结构指的是结合项

17、集或者子序列的不同的结构形式（图、树、或者格）。挖掘频繁模式，会发现有趣的数据之间的关联和相关度。,1.4.3 用于预测分析的分类和回归,主要技术如：分类规则、决策树、神经网络等。分类是找到模型可以描述和区分数据类别或者概念的方法。模型从一系列的训练数据中分析获得，用于预测未知类别的数据标签。回归是连续值模型，预测缺失的数值型数据而非分类标签。相关性分析是在分类和回归之前的步骤，我们需要选择那些属性跟分类和回归的过程显著相关。不相关的属性不被包含在考虑之列。,1.4.4 聚类分析,聚类分析针对没有标签的数据进行。基于最大化类别内部的相似度，最小化类别之间的相似度的原则来分组。举例如，从电商数据

18、中识别同类型的顾客人群。,1.4.5 离群点分析,数据集可能包含不遵守一般行为和模型的数据。这些目标称为离群点。检测离群点可以使用统计检验方法、距离测量、或者基于密度的方法。举例如，通过与常规的消费相比较发现大笔金额的异常消费，可以发现信用卡的盗刷问题。离群值可能跟消费的地点、支付类型或者频率有关。,1.4.6 所有的模式都很有趣吗？,一般来说，答案是否定的。只有一小部分模式在实际上对特定的用户是有用的。一个模式是有趣的有如下几个条件：1）能很容易被人理解2）对于新的或者测试数据以一定的确信度也是合理的3）潜在有用的4）新奇的一个有趣的模式能表达知识。,一些有关模式是否有趣的客观测量方法如：关

19、联规则挖掘的客观衡量是规则的支持度，表示给定的规则在交易数据库中所占的百分比。另一个是置信度，表示关联规则的确定程度。一般来说，每一个有趣程度的测量方法都有一个用户能控制的阀值。另一种客观的有趣度的衡量包括精确度和覆盖率。,主观的有趣度的衡量基于用户对数据的看法。如果模式是没有预料到的或者提供了可以指导用户行为的策略，则认为这些模式是有趣的。比如，“大量地震之后会常常有一系列小震”是很可行性的如果基于这个信息能挽救生命。如果模式是人们期待的，那么如果它验证了人们的假设，则被认为是有趣的。,数据挖掘能产生所有有趣的模式吗？,这是数据挖掘的完整性问题。答案是，数据挖掘系统产生所有可能的模式是不现实

20、和不高效的。对一些数据挖掘任务来说，比如关联规则挖掘，能充分保证算法的完整性。这是一个限制和有趣度测量能保证数据挖掘完整性的一个例子。,一个数据挖掘系统能只产生有趣的模式吗？,这是数据挖掘的优化问题。只产生有趣的模式是会高度令人满意的。因为对于用户和挖掘系统来说，不需要从生成的模式中鉴别是否有趣，因此是很高效的。但是，虽然这方面研究有进展，但优化问题仍然是一个挑战性的问题。,模式有趣度的测量对于高校的模式挖掘是很关键的。这些测量能够给予有趣度对于模式进行排序，过滤掉没有价值的模式。更重要的，这些测量能够对发现模式的过程起导向和限制作用。提高了搜索效率，剪掉一些不满足预先指定的兴趣度限制的子集。

21、,1.1 Why Data Mining?1.2 What is Data Mining?1.3 What kinds of Data Can be Mined?1.4 What kinds of Patterns Can be Mined?1.5 Which Technologies Are Used?1.5.1 Statistic1.5.2 Machine Learning1.5.3 Database System and Data Warehouses1.5.4 Information Retrieval1.6 Which Kinds of Applications Are Target

22、?1.7 Major Issues in Data Mining1.8 Summary,1.5 使用哪些数据挖掘的技术？,数据挖掘作为一种应用驱动程度很高的领域，很多技术被使用到，例如：统计学、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、算法、高性能计算等等。下面介绍几种和数据挖掘方法强相关联的技术。,1.5.1 统计学,统计学研究包括数据的收集、分析、解释和展示。统计学模型是依据随机变量和它们的分布来描述目标对象的行为的数学函数的集合。统计学模型被广泛应用于数据和数据类别的建模。比如，对于数据描述或者数据分类的数据挖掘任务，可以建立目标类别的统计模型。即数据挖掘的结果可以是统计模

23、型。另外，数据挖掘模型也可以建立在统计学模型上。我们可以利用统计学来对噪声和缺失数据进行建模。统计学模型也可以用来验证数据挖掘的效果。,1.5.2 机器学习,机器学习是研究计算机如何从数据中学习。机器学习是发展很快的方法。这里，我们着重对分类问题的机器学习进行阐述，分为：1 监督学习2 非监督学习3 半监督学习标注数据和未标注数据。标注数据用来学习类别，非标注数据用来精化类别之间的边界。,4 主动学习让用户在学习过程中起主动作用。比如，可以要求用户对一个样例进行标注，这个样例可能从一系列未标注的样本或者合成的数据中学习而来。目标是通过主动获取人类知识来优化模型，对要使用多少标注的数据提供限制。

24、对于分类和聚类任务，机器学习算法主要专注模型的精确性以及延展到大数据上的可扩展性。,1.5.3 数据库系统和数据仓库,数据库系统的研究主要关注数据库的建立、保存和使用。许多数据挖掘任务需要处理大量的数据，或者实时，快速变化的流数据。因此，数据挖掘能够很好的利用可扩展的数据库技术来获得大数据上的高精确度和可扩展性。数据挖掘也能被用来扩展现有数据库系统的容量，满足高级用户的复杂数据分析的需求。,1.5.4 信息检索,信息检索（Information Retrieval, IR)是在文档中搜索文档或信息的科学。文档可以是web上的文本或者多媒体。IR和传统数据库系统的区别是：1）数据是非结构化的 2

25、）查询通常以关键字的方式，没有复杂的结构（不像sql查询）信息检索的主要技术是使用概率模型。文档的语言模型是生成文档的词袋的概率密度函数。文档之间的相似度可以通过相应的语言模型来衡量。,文本文档的主题可以通过词语的概率分布来建模，即主题模型。在线大量的文本和多媒体数据聚集并容易获得。比如数字图书馆，数字政府，医疗信息系统。这些数据的有效搜索和分析为数据挖掘提供了很多挑战。因此，文本挖掘和多媒体数据挖掘、信息检索技术融合就变的十分重要。,1.1 Why Data Mining?1.2 What is Data Mining?1.3 What kinds of Data Can be Mined?

26、1.4 What kinds of Patterns Can be Mined?1.5 Which Technologies Are Used?1.6 Which Kinds of Applications Are Target?1.6.1 Business Intelligence1.6.2 Web Search Engineen1.7 Major Issues in Data Mining1.8 Summary,1.6 有哪些种类的数据挖掘应用呢？,1.6.1 Business Inteligence(商业智能）对于商业机构来说，更好的了解组织的交易环境是非常重要的。比如他们的顾客、市场、

27、供应、资源以及竞争者。商业智能技术提供历史的、现在的和预测性的商业操作。如果没有数据挖掘，企业无法做出有效的市场分析，比较客户对于相似产品的犯困，发现竞争者的优点和弱点，留住有价值的顾客，做出敏捷的商业决策。,显然，数据挖掘是商业智能的核心。在线的过程分析工具依赖于数据仓库和高维数据挖掘技术。分类和预测技术是商业智能的预测分析的核心，因为有很多市场分析，供需和销售的应用。聚类在客户关系管理上发挥中心作用。顾客依据相似性被聚类。使用描述化的数据挖掘技术，我们可以更好的理解不同顾客群的特征，发展不同的客户定制程序。,1.6.2 web搜索引擎,Web搜索引擎是在web上搜索信息的特殊的计算机服务器

28、。搜索结果通常是一个列表，列表可能包含网页、图像或者其他类型的文件。Web搜索引擎是很大的数据挖掘应用。大量的数据挖掘技术被应用到搜索引擎的多个方面，从爬取（决定哪些页面被爬取和爬取频率）、索引（选取建立索引的页面并决定索引被建立时扩充的范围）到搜索（页面如何被排序，哪些广告被加载，搜索结果如何被个性化和上下文感知）。,搜索引擎给数据挖掘带来巨大的挑战：1、必须处理大量和不断增长的数据。搜索引擎通常使用计算机云来协同挖掘大数据。如何将数据挖掘技术扩展到云计算和大量分布数据集是今后的研究方向。2、web搜索引擎常常要处理在线的数据。它可以建立一个查询分类器，把每一个查询请求分配到预先定义的类别中

29、（比如，“苹果”指的是水果还是电脑品牌？）不论模型是否是离线创建的，在线应用模型都必须实时快速的回复用户查询。,3、另外一个挑战是，维护和增量式更新一个快速增长的流数据模型。例如，查询分类器需要能动态连续的维护，因为新的查询请求不断涌现，事先定义的类别和数据分布可能会改变。现有的绝大部分模型都是离线的、静态的，不能被应用在这样的场景中。4 、搜索引擎常常需要处理只出现很少次数的查询请求。假定搜索引擎想提供上下文相关的查询推荐。即当一个用户提交一个查询时，搜索引擎尝试在几秒钟之内利用用户的个人资料和查询历史来返回一个更为定制的答案。即使查询总数可能非常大，但多数查询可能只会出现几次。对数据挖掘和

30、机器学习技术来说，这种偏斜的数据是一种挑战。,1.1 Why Data Mining?1.2 What is Data Mining?1.3 What kinds of Data Can be Mined?1.4 What kinds of Patterns Can be Mined?1.5 Which Technologies Are Used?1.6 Which Kinds of Applications Are Target?1.7 Major Issues in Data Mining1.7.1 Mining Methodology1.7.2 User Interaction1.7.3

31、 Efficiency and Scalability1.7.4 Diversity and Database Types1.7.5 Data Mining and Society1.8 Summary,1.7 数据挖掘的主要挑战,1.7.1 挖掘方法1、挖掘多种新类型的知识数据挖掘覆盖了数据分析和知识发现任务的广泛范围。这些任务基于同一种数据库使用不同的挖掘方法。因为应用类型非常多样化，新的挖掘任务不断出现，使数据挖掘成为一个动态和快速增长的领域。例如，对于信息网络的有效知识发现，融合聚类和排序技术能在大型网络中发现高质量聚类和对目标进行排序。,2、从高维空间挖掘在很多种情况下，数据能被看成

32、是一个高维数据方块。挖掘数据方块能从本质上提升数据挖掘的功能和灵活性。3、多学科交叉的数据挖掘数据挖掘能通过融合多种学科知识来得到本质提升。例如，自然语言文本挖掘就是融合了数据挖掘技术到信息检索和自然语言处理技术。另外，在大型程序中挖掘软件错误，是结合了软件工程知识到数据挖掘过程中。,4、提升挖掘能力到网络环境很多数据对象是互相链接和内在关联的。比如web，数据库关系，文件或者文档。多种数据对象的语义关联可以被用来提升数据挖掘技术。在一种数据对象挖掘的知识能被用来提升到关联或者语义关联的数据对象的知识发现上。5、处理数据的不确定性、噪声和不完整性数据清洗、预处理、离群点发现和删除、不确定性的

33、质疑都是需要被融合到数据挖掘过程中的技术。,6、模式评估和模式导向（或限制导向）的挖掘需要使用使用一些主观测量技术去评估模式是否有趣。基于给定的用户分类和基本信仰和期望，来对模式给出一个评分，以此对挖掘过程给出导向，产生更有趣的模式和减少搜索空间。,1.7.2 用户交互,用户在数据挖掘过程起重要的作用，如何和挖掘系统交互，如何在挖掘中结合用户的背景知识，如何可视化和理解挖掘结果。1、交互挖掘数据挖掘过程应该是高度交互性的。意即需要建立灵活的用户界面和探索性的挖掘环境，来更加有利于用户的交互。用户可能在开始抽样一些数据，然后描述数据的一般特征，评估可能的挖掘效果。交互式挖掘需要能够让用户能动态的

34、改变搜索焦点，基于结果精化挖掘请求，挖掘，切块，旋转，在挖掘时动态的对数据立方进行探索。,2、结合背景知识背景知识、限制、规则以及其他的领域相关的信息需要被融合到知识发现过程中。这些知识能被用于模式评估和为挖掘有趣模式作为向导。,3、特殊的数据挖掘和数据挖掘查询语言高层次的数据挖掘查询语言或者其他的高层次的灵活的用户界面能给用户定义特殊无组织的数据挖掘任务的自由。这将有利于数据相关性分析、领域知识、以及条件和限制被加入到模式发现中。对于这种灵活的挖掘请求的过程的优化是一个很有前景的研究方向。4、数据挖掘结果的展示和可视化数据挖掘结果需要能生动灵活的展示，以便于发现的知识被更好的理解和直接应用。

35、这需要系统能够采用更丰富的知识表达、更友好的用户界面和可视化技术。,1.7.3 效率和可扩展性,1、数据挖掘算法的效率和可扩展性数据挖掘算法的运行时间需要是可预测的、短的、可以被应用接受的。2、并行的、分布式的和可增长的挖掘算法许多数据集的规模很大，分布式分布，很多数据挖掘算法的高复杂度催生了并行和分布式的数据集中式挖掘算法。云计算和计算机簇，促进了并行数据挖掘的问题。数据挖掘过程的高代价和不断增长的输入促使了增量式数据挖掘，即能够合并新数据的更新而不需要从头开始从整个数据集挖掘。,1.7.4 数据库类型的多样化,1、对于复杂数据类型的处理期望在多种数据类型和多种数据挖掘目标的情况下，使用一种

36、数据挖掘系统能挖掘所有类型的数据是不现实的。可以建立基于领域的或基于应用的精细数据挖掘系统，对特定数据类型做深度挖掘。建立高效的和有效的针对各种应用的挖掘工具是一个有挑战性和活跃的研究领域。,2、挖掘动态、网络化的和全局的数据仓库网络把不同来源的数据连接在一起，形成了巨大的、分布式的、异质的全局信息系统。对多种数据来源的结构化、半结构化和非结构化并且内在连接的数据是对数据挖掘的巨大挑战。对这些数据的为挖掘将有助于发现比在小规模的孤立数据仓库中更多的异质网络中的模式和知识。Web挖掘、多数据源挖掘、信息网络挖掘将成为有挑战性和快速增长的数据挖掘领域。,1.7.5 数据挖掘和社会,1、数据挖掘的社

37、会影响我们如何利用数据挖掘造福社会？如何保护不被错误使用？对用户数据的不合适暴露或者潜在的侵犯用户隐私以及数据隐私权是需要被考虑的问题。2、隐私保护的数据挖掘隐私保护的数据发布和数据挖掘是正在进行的研究领域。原则是在成功的进行数据挖掘的同时察觉数据敏感性和保护个人隐私。,3、隐形数据挖掘我们不能期待社会中的每个人学习和掌握数据挖掘技术。很多数据挖掘系统让人们不需要理解数据挖掘算法，只是简单的点击鼠标就可以运行数据挖掘和使用挖掘结果。智能搜索引擎和基于网络的商家使用这种隐形挖掘技术来提升它们的功能和效果。比如，人们在线购物时，并不知道商家很可能在收集顾客的购买模式，这些将被用来在以后向其推荐其他

38、商品。,1.1 Why Data Mining?1.2 What is Data Mining?1.3 What kinds of Data Can be Mined?1.4 What kinds of Patterns Can be Mined?1.5 Which Technologies Are Used?1.6 Which Kinds of Applications Are Target?1.7 Major Issues in Data Mining1.8 Summary,1.8 总结,“需求是发明之母”。伴随着每个应用领域的大量数据，数据挖掘技术满足了当前社会的高效、可扩展、灵活的数据分析需求。,第一章完,