商务数据挖掘与应用案例分析课件.ppt
《商务数据挖掘与应用案例分析课件.ppt》由会员分享,可在线阅读,更多相关《商务数据挖掘与应用案例分析课件.ppt(27页珍藏版)》请在三一办公上搜索。
1、第2章 数据挖掘建模方法,2.1 概述 2.2 业务理解 2.3 数据理解 2.4 数据准备 2.5 建模 2.6 评估 2.7 部署,2.1 概述(1),成功的数据挖掘是让数据有商业价值,数据挖掘分析师需要知道什么对商业有价值,并且知道为了获得巨大收益如何整理数据。为了成功运用数据挖掘,对数据挖掘技术层面的理解至关重要,尤其是应该了解如何将数据变成有用信息的过程。本章主要介绍跨行业标准流程CRISP-DM(cross-industry standard process for data mining)。该模型将一个数据挖掘项目的生命周期分为业务理解、数据理解、数据准备、建模、评估和部署等6个
2、阶段,这个流程为我们提供了一个数据挖掘所需步骤的完整概括。,2.1 概述(2),业务理解(Business Understanding)数据理解(Data Understanding)数据准备(Data Preparation)建模(Modeling)评估(Evaluation)部署(Deployment),商业数据挖掘案例,2.2 业务理解,业务理解是数据挖掘的第一个阶段,从业务的角度了解项目的要求和最终目的是什么,并将这些目的与数据挖掘的定义以及结果结合起来。具体任务包括:(1)业务梳理(2)业务描述(3)业务特征研究(4)业务关联分析,2.3 数据理解(1),数据理解阶段是从收集数据开始
3、,通过一些活动的处理,目的是熟悉数据,识别数据的质量问题,首次发现数据的内部属性,或是探测引起兴趣的自己去形成隐含信息的假设。其任务包括:(1)数据收集(2)数据描述(3)数据探索(4)数据质量检测,2.3 数据理解(2),(1)数据收集在收集数据之前,需要根据业务问题明确数据挖掘过程需要哪些信息,哪些变量是必需的,哪些变量与数据挖掘目标不相关,然后根据选择的标准收集数据,检查是否所有的信息都确实可以利用来实现数据挖掘的目标。(2)数据描述描述数据主要是熟悉数据,理解数据的内涵,检验数据的“总的”或者“表面的”特征。例如从商业的角度理解每个变量及其值的含义,变量的含义是否始终一致,变量是否与具
4、体的数据挖掘目标相关联等。,2.3 数据理解(3),(3)数据探索探索数据主要是详细分析引人注目的变量特征,识别潜在的特征,思考和评估在描述数据过程中的信息和发现,提出假设并确定方案,阐明数据挖掘的目标。例如,电信公司想挖掘出移动业务之间的关联规则,那么,在描述数据后,根据数据的特征,选择各种可能相关的业务进行挖掘,对于显而易见的规则,则可以不作考虑。比如说开通上网功能的客户中绝大部分客户也开通了飞信业务,则在探索数据时,不需要考虑这两个业务之间的关联。(4)数据质量检测检验数据质量,列举有关问题。例如数据是否完整、正确,是否存在缺失值,数值型变量的范围是否落在允许的范围内,变量的含义与变量值
5、是否一致等质量问题。,2.4 数据准备(1),数据准备阶段的工作是对可用的原始数据进行一系列的组织以及清洗等预处理,使之达到建模需求,而这些数据将是模型工具的输入值。数据准备阶段的任务有可能执行多次,并且没有任何规定的顺序。这个阶段其任务包括:(1)数据筛选(2)数据清理(3)数据构建(4)数据整理合并(5)规范化数据(6)准备建模数据集(7)选择建模技术和训练模型,(1)数据筛选数据筛选的任务是确定数据挖掘分析过程中所必须的数据,即选择有用的特征和记录。在选择数据的时候,首先要考虑的问题是数据要符合解决企业问题的需要。再者,由于用于建模的数据应尽可能地完整,数据量尽可能多。当开发预测模型时,
6、资料中也应该包括想要的输出。,2.4 数据准备(2),(2)数据清洗数据挖掘过程是否成功,得出的结果模型是否可靠,取决于数据质量的好坏。清理数据的任务恰恰是清理数据中包含的噪声和与数据挖掘主题明显无关的数据,从而提高数据的质量。清理数据通常包括:填补空缺的数据值。例如忽略有空缺值的记录;人工填写空缺值;使用一个全局变量填写空缺值;使用属性的均值填写空缺值。清理噪声数据。对于噪声数据有以下几种处理方法:一是分箱,二是聚类方法,通过聚类发现孤立点。三是计算机与人工相结合的方法,四是回归分析,建立回归方程。解决不一致问题。数据的不一致主要表现在数据的单位、命名、结构、含义不一致。可以通过对数据的统一
7、调整进行解决。,2.4 数据准备(3),(3)数据构建数据构建包括建设性的数据准备工作,例如属性构造,多维数据组织(聚集),数据泛化处理。属性构造是指构造新的属性并添加到属性集中,以帮助提高数据挖掘的过程。多维数据组织(聚集)是指对数据进行汇总和聚集,采用切片、旋转等操作将原始数据按照多维立体形式组织成为不同层次、不同粒度、不同维度的聚集。数据泛化处理是指使用高层次的概念替换低层次的概念。例如短信业务替换各种不同种类的短信业务,使用国家替换城市。,2.4 数据准备(4),(4)数据整合数据整合的主要任务是将来自多数据源(例如数据库、文件等)的相关数据组合到一起,即把不同来源、格式、特点性质的数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 商务 数据 挖掘 应用 案例 分析 课件
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-3879872.html