《数据仓库与数据挖掘》演示稿第7章.ppt
《《数据仓库与数据挖掘》演示稿第7章.ppt》由会员分享,可在线阅读,更多相关《《数据仓库与数据挖掘》演示稿第7章.ppt(27页珍藏版)》请在三一办公上搜索。
1、1,复旦大学 软件学院2004.04,数据仓库与数据挖掘(第7章),2,第7章数据挖掘中的数据预处理,主要内容数据预处理的基本功能数据预处理的主要方法数据清理数据采样数据集成与变换数据约简数据的概念分层,3,DM的过程(1)DW 的步骤:数据准备:数据集成数据选择预分析挖掘表述评价(2)DW 系统的结构:,用户界面,结果输出,数据挖掘核心,知识库,数据仓库,数据库,文件系统,其他数据源,ODBC或其他专用数据库接口,4,数据准备阶段:数据的选择(选择相关的数据)净化(消除噪音、冗余数据)推测(推算缺失数据)转化(离散值数据与连续值数据之间的相互转换、数据值的分组分类、数据项之间的计算组合等)数
2、据缩减(减少数据量)经过处理过的数据一般存储在数据仓库中。数据准备是否做得充分将影响到数据挖掘的效率和准确度以及最终模式的有效性。,数据挖掘的过程,5,数据挖掘的过程,挖掘阶段:该阶段是数据挖掘的核心步骤,也是技术难点所在。根据数据挖掘的目标,采用人工智能、集合论、统计学等方法,应用相应的数据挖掘算法,分析数据并通过可视化工具表述所获得的模式或规则。,6,数据挖掘的过程,评价阶段:在数据挖掘中得到的模式可能是没有实际意义或没有使用价值的,也有可能不能准确反映数据的真实意义,甚至在某些情况下是与事实相反的,因此需要评估,确定哪些是有效的、有用的模式。评估可以根据用户多年的经验,有些模式也可以直接
3、用数据来检验其准确性。巩固和运用阶段:用户理解的、并被认为是符合实际和有价值的模式形成了知识。同时还要对知识进行一致性检查,解决与以前得到的知识互相冲突、矛盾的地方,使知识得到巩固。运用知识有两种方法:一种是只需看知识本身所描述的关系或结果,就可以对决策提供支持;另一种是要求运用知识对新的数据进行分析,由此可能产生新的问题,而需要对知识作进一步的优化。,7,数据预处理的必要性,数据挖掘要求的数据:干净、准确、简洁、完整。原始数据存在的问题:杂乱性:来自多种数据库和文件系统,缺乏统一标准和定义。冗余性:同一个事务在数据库中可能存在多个相同的物理描述。不完整性:设计缺陷或人为原因造成数据丢失、不确
4、定、不完整。,8,数据预处理的基本功能,数据清洗数据集成数据变换数据约简,9,数据预处理的基本功能数据清洗,功能:去除源数据中的噪声数据和无关数据重复数据处理缺值数据处理数据类型转换方法:有监督方法:有领域专家指导无监督方法:样本数据训练算法,10,数据预处理的基本功能数据集成,功能:数据的选择:从多数据源中选择数据数据冲突处理:如字段同名异义、异名同义、长度不同。数据不一致处理:如单位、命名、结构、含义不一致。数据类型的选择,11,数据预处理的基本功能数据变换,功能:格式化:将元组集按照格式化条件合并,即对属性值量纲的归一化处理。归纳:处理元组属性值之间的“is-a”语义关系。多维数据组织:
5、采用切片、旋转、投影等操作将原始数据按照多维立方体形式组织成为不同层次、不同粒度、不同维度的聚集。,12,数据预处理的基本功能数据简化,功能:在对数据挖掘任务和原始数据充分理解的基础上,发现依赖于目标的表达数据的有用特征,从而尽可能地精简数据量。方法:属性选择:属性剪枝、并枝、相关分析。数据抽样:随机抽样、等间隔抽样、分层抽样。,13,数据预处理的主要方法,基于约略集的属性约简方法:按等价关系对属性集进行划分,求出最小约简集。基于概念树的数据浓缩方法:将元组逐层归纳为概念树,并去除噪声数据。基于信息论的数据泛化方法:数据立方体法、面向属性的归纳方法、最大熵方法。基于统计分析的属性选取方法:主成
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库与数据挖掘 数据仓库 数据 挖掘 演示

链接地址:https://www.31ppt.com/p-6380124.html