物联网中的智能决策.ppt
《物联网中的智能决策.ppt》由会员分享,可在线阅读,更多相关《物联网中的智能决策.ppt(31页珍藏版)》请在三一办公上搜索。
1、第13章物联网中的智能决策,内容提要,智能决策是物联网“智慧”的来源。本章将介绍数据挖掘的基本流程,基本类型和典型算法。,13.1 数据挖掘概述13.2 数据挖掘的基本类型和算法*13.3 智能决策与物联网什么是数据挖掘?数据挖掘有哪三个步骤?,本章内容,13.1 数据挖掘概述,数据挖掘(Data Mining)从大量数据中获取潜在有用的并且可以被人们理解的模式的过程。即从大量数据中提取或“挖掘”知识。是一个反复迭代的人机交互和处理的过程,历经多个步骤,并且在一些步骤中需要由用户提供决策数据挖掘的过程:数据预处理、数据挖掘和对挖掘结果的评估与表示每一个阶段的输出结果成为下一个阶段的输入,沃尔马
2、的故事,13.1 数据挖掘概述,数据挖掘的过程数据预处理阶段数据准备:了解领域特点,确定用户需求数据选取:从原始数据库中选取相关数据或样本数据预处理:检查数据的完整性及一致性,消除噪声等数据变换:通过投影或利用其他操作减少数据量数据挖掘阶段确定挖掘目标:确定要发现的知识类型选择算法:根据确定的目标选择合适的数据挖掘算法数据挖掘:运用所选算法,提取相关知识并以一定的方式表示知识评估与表示阶段模式评估:对在数据挖掘步骤中发现的模式(知识)进行评估知识表示:使用可视化和知识表示相关技术,呈现所挖掘的知识,13.1 数据挖掘概述,数据挖掘的过程,13.1 数据挖掘概述13.2 数据挖掘的基本类型和算法
3、*13.3 智能决策与物联网数据挖掘的基本类型和算法有那些?,本章内容,13.2 数据挖掘的基本类型和算法,数据挖掘的基本类型关联分析(Association Analysis)聚类分析(Clustering Analysis)离群点分析(Outlier Analysis)分类与预测(Classification and Prediction)演化分析(Evolution Analysis),描述性挖掘任务:刻画数据库中数据的一般特性,预测性挖掘任务:在当前数据上进行推断和预测,关联分析,关联分析的目标是从给定的数据中发现频繁出现的模式,即关联规则关联规则通常的表述形式是X Y,表示“数据库中
4、满足条件X的记录(元组)可能也满足条件Y”以某电器商场销售记录为例:含义:4%(支持度)的顾客的年龄在20至29岁且月收入在3000至5000元,且这样的顾客中,65%(置信度)的人购买了笔记本电脑,关联分析,挖掘关联规则,需要置信度和支持度越高越好基本概念项集:满足若干条件的数据项的集合,如果条件数为k,则称k-项集满足年龄(顾客,“2029”)的项集是1-项集满足年龄(顾客,“2029”)收入(顾客,“30005000”)的项集是2-项集计算步骤首先找到具备足够支持度的项集,即频繁项集然后由频繁项集构成关联规则,并计算置信度,分类和预测,分类和预测的目标是找出描述和区分不同数据类或概念的模
5、型或函数,以便能够使用模型预测数据类或标记未知的对象所获得的分类模型可以采用多种形式加以描述输出分类规则判定树数学公式神经网络分类与预测的区别:分类通常指预测数据对象属于哪一类,而当被预测的值是数值数据时,通常称为预测,分类和预测,以判定树方法为例,简要介绍分类的基本步骤和结果表示,问题实例:假定商场需要向潜在的客户邮寄新产品资料和促销信息。客户数据库描述的客户属性包括姓名、年龄、收入、职业和信用记录。我们可以按是否会在商场购买计算机将客户分为两类,只将促销材料邮寄给那些会购买计算机的客户,从而降低成本。,分类和预测,用于预测客户是否可能购买计算机的判定树,其中每个非树叶节点表示一个属性上的测
6、试,每个树叶节点代表预测结果,聚类分析,聚类的目的是将数据对象划分为多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大聚类与分类的区别:要划分的类是事先未知的聚类分析的应用,聚类分析,聚类分析的方法划分方法:要求事先给定聚类的数目k。首先创建一个初始划分,然后通过对划分中心点的反复迭代来改进划分。典型算法包括k-means算法和k-medoids算法等层次方法:对给定数据集合进行逐层递归的合并或者分裂,因此可以被分为合并或分裂方法。合并方法首先将每个对象都作为独立的类,然后持续合并相近的类,直到达到终止条件为止。分裂方法首先将所有的数据对象置于一个类中,然后反复迭代并
7、判定当前的类是否可以被继续分裂,直到达到终止条件为止基于密度的方法:只要某区域数据密度超过阈值,就将该区域的数据进行聚类。其优势在于噪音数据下的抗干扰能力,并能够发现任意形状的聚类,聚类分析,聚类分析的方法(续)基于网格的方法:把对象空间量化为具有规则形状的单元格,从而形成一个网格状结构。在聚类的时候,将每个单元格当作一条数据进行处理。优点是处理速度很快,因处理时间与数据对象数目无关,而只与量化空间中的单元格数目相关基于模型的方法:如果事先已知数据是根据潜在的概率分布生成的,基于模型的方法便可为每个聚类构建相关的数据模型,然后寻找数据对给定模型的最佳匹配。主要分两类:统计学方法和神经网络方法,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 联网 中的 智能 决策
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-5998766.html