数据挖掘的实施过程.ppt
《数据挖掘的实施过程.ppt》由会员分享,可在线阅读,更多相关《数据挖掘的实施过程.ppt(101页珍藏版)》请在三一办公上搜索。
1、第五章数据挖掘的实施过程,第5章,前面介绍了数据挖掘的基本方法。在本章中我们进一步说明数据挖掘的实施过程。,5.1 数据挖掘过程模型5A,数据挖掘是一个过程,它是从大量数据中抽取出有价值的信息或知识以提供决策依据。由于每一种数据挖掘方法(算法及技术要求)都有其自身的特点且实现步骤与具体应用问题有密切相关性,因此成功应用数据挖掘技术以达到目标的过程本身就是一件很复杂的事情。,5.1 数据挖掘过程模型5A,一般来说,数据挖掘项目要经历的过程包括问题的理解、数据的理解收集和准备、建立数据挖掘模型、评价所建的模型、将建立的模型投入应用等一系列任务。这里,数据挖掘过程的系统化、工程化方法学和支持系统(软
2、件或工程)对解决应用问题起着至关重要的作用。,5.1 数据挖掘过程模型5A,为了抽象系统化方法,人们提出了一些数据挖掘过程的参考模型或标准:SPSS提出的5A(Assess、Access、Analyze、Act、Automate);SAS提出的SEMMA(采样Sample,探索 Explore,修正Modify,建模Model,评估Assess)数据挖掘特别兴趣小组提出的“数据挖掘 交叉行业标准过程”CRISP-DM(Cross-Industry Standard Process for Data Mining)。,5.1 数据挖掘过程模型5A,在这些模型中,5A模型强调的是支持数据挖掘过程的
3、工具应具备的功能和能力,它是对支持数据挖掘工具的定义。SEMMA强调的是结合SAS公司的挖掘工具进行应用开发的方法。CRISP-DM则从进行数据挖掘方法学的角度强调实施数据挖掘项目的方法和步骤,并独立于每种具体数据挖掘算法和数据挖掘系统。,5.1 数据挖掘过程模型5A,5A模型认为任何数据挖掘方法学都由5个基本元素组成,即Assess、Access、Analyze、Act、Automate。Assess:正确、彻底的评价任务的需求及数据。Access:方便、快速的存取任务所涉及的数据。Analyze:适当、完备的分析技术和工具。Act:具有推荐性、有说服力的演示。用大量的列表和图形或者通过办公
4、软件来演示数据挖掘软件的能力。软件应该具备快速回答用户提问的控制性和灵活性,这样才便于用户更好、更快地做决策。Automate:为用户提供最易于使用、最方 便的自动化软件。,5.1 数据挖掘过程模型5A,针对着5个过程,5A描述了各元素在数据挖掘技术应用中所需完成的任务和应该提供的支持功能。(1)Assess Assess是指要正确地理解和设置数据,一旦充分了解了数据的上下文后,就可以正确地收集它并在其上做需要的决策。实现Assess的软件技术方案可以不同,但问题含义相同。a.将技术与组织的目标、策略和步骤结合起来。b.拥有世界范围的咨询和培训,目的是交付高级分析工具给分析员后,能快速实现数据
5、挖掘及其应用。,5.1 数据挖掘过程模型5A,(2)Access Access是指数据集合(DB、DW、DM)应该完全符合评价的要求和质量。若数据集合不充分,须补充附加的数据。选用的数据挖掘软件必须在所要求的数据上灵活地工作,并满足下列存取准则。易于存取和连接各种数据源,包括数据表、公司数据库、数据仓库和其它必要的外部数据库。能直接从ASCII正文、数据表、数据库文件读入数据。能处理大量(GB以上)的数据文件。,5.1 数据挖掘过程模型5A,(3)Analyze Analyze要求分析工具具备两类分析方法和工具:发现工具和验证工具。验证工具检验发现工具所产生的结果是否合理。发现型方法和工具包括
6、基因遗传算法、规则推导、模糊逻辑、数据可视化、聚类算法、因素分析、神经网络、决策树等。验证方法和工具包括回归、逻辑回归、判别分析、预测建模等。理想的数据挖掘软件应该具备这两类分析方法和工具,同时应该包括下列分析特性。,5.1 数据挖掘过程模型5A,统计过程、范围和深度较强,应包括预测、分段、分类等。集成商业和统计图形功能、具备多种可选的2D/3D图类,能用数据定点模式显示和跟踪等。辅助分析的模版、过程导引、示范、在线帮助等,能帮助分析员快速选择和获得结果。数据、文件、中间结果管理功能。能合并和分离文件、选择数据子集、处理数据缺值、净化、改善数据完整性、支持IF-THEN-ELSE条件操作。数据
7、转换功能。有一组完备的转换函数支持变量/特征和条件的计算,可以重复计算、编辑原来的变量/特征。,5.1 数据挖掘过程模型5A,可裁减的工作环境。有脚本/宏语言支持的可重复任务的自动化、批处理及其菜单按钮功能,以支持一般用户快速使用。灵活的动态输出。表结果可以转动和轮换,易于观察数据全貌和用鼠标重新组织表数据,以便于清晰的提交、观察、探索数据结果并做进一步的特殊分析。基于线性回归和ANOVA的预测性建模,具有相关性、分类分析、预测等基本分析功能。插件/模块功能。可以提供特殊的功能模块,以支持特定的分析。,5.1 数据挖掘过程模型5A,(4)Act 用大量的列表和图形或者通过办公软件来演示数据挖掘
8、软件的能力。软件应该具备快速回答用户提问的控制性和灵活性,这样才便于用户更好、更快地做决策。数据挖掘软件应该提供下面的演示特性。l完好的集成图形功能,以提供专业级的演示。lOLE支持,以易于嵌入图表节省报告时间。lINTERNET特性,以易于图表的网上传输和本地察看。l演示模版特性,以节省编辑时间。l特殊查询功能,以利于快速提供附加的分析能力来响应用户的提问。l报告注解功能,以加入注解到报告中。,5.1 数据挖掘过程模型5A,(5)Automate Automate是指面向用户的操作尽可能完善和自动化软件的应用过程。吸取专业分析决策人员及多数用户的意见和见解,以最快的方式显示分析结果,以标准的
9、接口、按钮式的功能/菜单、丰富的帮助、可选的附加分析将软件呈现给用户。为此,软件应提供以下自动化功能:,5.1 数据挖掘过程模型5A,lOLE自动化开发者的机制,允许用户在通用代码级(VB、EXCEL、ACCESS、PB等)使用软件。l内建编程语言/脚本/宏,使用户可以方便的创建自己的应用。l制作能力,能编写产生日常报告的命令行文件。,5.2数据挖掘过程模型CRISP-DM,CRISP-DM模型是由几家相关开发和应用行业的跨国公司和集团所支持(并由欧洲委员会部分支持)的一个特别兴趣小组在1997年7月到1999年4月间研究后提出的。这几家公司分别是数据仓库提供商NCR在丹麦的SEC公司,德国的
10、汽车、航天航空、电信和咨询业公司DAIMLER-BENZ AG,英国的数据挖掘系统开发商ISL(CLEMENTINE的研发商,1998年其成为SPSS的子公司)以及荷兰最大的银行、保险业公司OHRA。,5.2数据挖掘过程模型CRISP-DM,由于其直接动机是将数据挖掘技术转化为商业应用,所提出的过程模型均在项目中进行实际实践和验证,因此具有一定的代表性。CRISP-DM模型采用分层方法将一个数据挖掘项目的生存周期定义为6个阶段(PHASE)和4个层次(LEVEL)。,5.2数据挖掘过程模型CRISP-DM,CRISP-DM模型6个阶段为:BUSINESS UNDERSTANDING、DATA
11、UNDERSTANDING、DATA PREPARATION、MODELING、EVALUATION和DEPLOYMENT 阶段间的顺序并不严格,比如商业理解和数据理解之间常常需要反复,数据准备和数据模型建立也常常需要反复。阶段间有循环,比如在对模型进行评价后,如果不满意,可能需要重新对商业问题进行理解,重新开始建模。一个阶段的任务完成后,如果需要继续扩展挖掘的范围,则需要重新开始循环。,5.2数据挖掘过程模型CRISP-DM,CRISP-DM模型4个层次是:阶段划分(PHASE)定义通用任务(GENERIC TASK)定义专用任务(SPECIALIZED TASK)处理实例(PROCESS
12、INSTANCE)每个PHASE由若干GENERIC TASK组成,每个GENERIC TASK又需要实施若干SPECIALIZED TASK,每个SPECIALIZED TASK由若干PROCESS INSTANCE来完成。,5.2数据挖掘过程模型CRISP-DM,其中,上两层独立于具体数据挖掘方法,即是一般数据挖掘项目均需实施的步骤(这解决了“WHAT TO DO?”的问题)。这两层的任务将结合具体数据挖掘项目的“上下文”(CONTEXT)映射到下两层的具体任务和过程。项目的“上下文”是指项目开发中密切相关、需要综合考虑的一些关键问题,如应用领域、数据挖掘问题类型、技术难点、工具及其提供的
13、技术等。下两层注重解决如何完成每个阶段所要完成的任务和任务的输出所要求的必要映射活动(这用于解决“HOW TO DO”的问题)。,5.2数据挖掘过程模型CRISP-DM,CRISP-DM6个阶段的含义是:(1)BUSINESS UNDERSTANDING 在开始阶段,专注于从商业的角度理解项目目标和需求,然后将这种知识转换成一种数据挖掘的问题定义,并设计出达到目标的一个初步计划。,5.2数据挖掘过程模型CRISP-DM,(2)DATA UNDERSTANDING 在数据理解阶段,先收集初步的数据,然后进行熟悉数据的各种活动,包括识别数据的质量问题、找到对数据的基本观察或假设隐含的信息来检测出感
14、兴趣的数据子集。,5.2数据挖掘过程模型CRISP-DM,(3)DATA PREPARATION 数据预处理阶段覆盖了从数据构造到最终数据集合(将要输入建模工具的数据)的所有活动。数据预处理任务很可能要执行多次,并且没有任何规定的顺序。任务包括表、记录属性的选择以及为了适合建模工具的要求对数据进行的转换和净化。,5.2数据挖掘过程模型CRISP-DM,(4)MODELING 在建模阶段,可以选择和应用各种建模技术将其参数校正到优化值。,5.2数据挖掘过程模型CRISP-DM,(5)EVALUATION 从数据分析的观点看:在开始进入这个阶段时已经建立了看上去是高质量的模型。但在最终扩展模型之前
15、,要更彻底地评价模型,对所建模型再次考察其执行的步骤并确信其正确地达到了商业目标。这里,一个关键的目的是确定是否有某些重要的商业问题还没有充分地考虑。在这个阶段的结尾,应该获得使用数据挖掘结果的判定。,5.2数据挖掘过程模型CRISP-DM,(6)DEPLOYMENT 创建完模型并不意味着项目结束。所获得的知识要用一种用户可以使用的方式来组织和表示。根据要求,扩展阶段可以简单到只生成一份报告,或复杂到实现一个可重复的数据挖掘过程。在许多情况下,这将由客户而不是分析员来实施。所以分析员来实施扩展将达不到预期的扩展效果,因此在这之前,客户理解和利用所建模型所要实施的动作很重要。,5.3 数据挖掘过
16、程中的相关问题,TWO CROWS公司的数据挖掘过程模型同CRISP-DM模型很类似,并且比较简洁,其基本数据挖掘步骤包括:l 定义商业问题;l建立数据挖掘仓库;l 分析数据;l 准备数据;l 建立模型;l 评价模型;l 实施。下面结合这个数据挖掘过程模型说明在数据挖掘过程中的相关问题。,5.3.1 定义商业问题,我们的最终目的是希望从技术和商业角度为公司建立一个能够理解和实施数据挖掘的工作环境。数据挖掘的成功,并不在于特定工具和算法的选择,而是一个合适的环境。一个企业的执行能力越强,数据挖掘的能力就越大。,5.3.1 定义商业问题,企业所处的商业环境往往在战略上、顾客定位、数据仓库建立、市场
17、定位、生命周期、分析技术等方面各不相同,成功的基础必须是基于对数据挖掘与商业规律良好结合的环境,建立自己的挖掘平台。在开始数据挖掘之前,最重要的是要了解数据和相关的业务问题。比如要分析电信领域的客户呼叫行为,需要了解电信的业务构成、业务运营以及其它诸多的行业知识。,5.3.1 定义商业问题,要想充分发挥数据挖掘的价值,必须对目标有一个清晰明确的定义,了解数据和相关的业务问题是决定到底想干什么的前提。数据挖掘对系统分析/开发人员提出了更高的要求,它要求分析/开发人员具有比较宽广的基础知识和行业背景。,商业理解体系的核心语义层,业务数据库,商业理解体系的核心语义层,数据源,终端用户,商业元语,查询
18、面板,数据源,5.3.2 建立数据挖掘库,建立数据挖掘仓库、分析数据、选择变量构成了数据预处理的核心,这三步比其它所有的步骤加在一起所花的时间和精力还多。数据准备工作大概要花去整个数据挖掘项目的50%90%的时间和精力。,5.3.2 建立数据挖掘库,我们应该把要挖掘的数据都收集到一个数据库中(或者存放在数据仓库中,通常是以关系表的方式存储)。当然,这并不是说一定要使用一个数据库管理系统。根据要挖掘的数据量的大小、数据的复杂程度、使用方式的不同,有时一个简单的平面文件或电子表格就足够了。,5.3.2 建立数据挖掘库,数据挖掘系统可以作为一个独立的系统存在。对于一个大型的企业将数据挖掘系统建立在数
19、据仓库的基础上是非常合理的想法,因为数据仓库已经为数据挖掘累积了大量的历史数据,要将这些数据充分发挥作用,就需要一个良好的数据挖掘系统。,5.3.2 建立数据挖掘库,但是,一般我们并不直接在公司的数据仓库上进行数据挖掘。原因有以下几点:1)数据仓库中的数据量很大,许多数据并不 是数据挖掘问题所关心的。2)数据挖掘需要的信息涉及的方面很广,这 些信息可能存放在数据仓库的许多表中,如果直接在数据仓库中挖掘,将使数据 的访问性能受到影响。3)数据挖掘需要反复进行,不断地对模型 进行优化。,5.3.2 建立数据挖掘库,4)在数据挖掘过程中需要对变量进行转化,比如神经网络只能处理数值型的变量,对于非数值
20、型的变量需要转化。而数据仓库不支持更新操作。5)多个数据挖掘的主题可能同步进行,如果直接在数据仓库中进行,数据仓库需要增加相应地控制机制。6)数据仓库系统还有其它工作,比如定期地数据刷新、对OLAP系统的支持等。,5.3.2 建立数据挖掘库,因此有必要从数据仓库中抽取出需要的数据单独存放在数据挖掘库中,这样可以达到以下目的。l数据量大大地减小了:l多个数据挖掘主题可以并行地进行:l多个数据挖掘主题在物理上分开,对数 据的更新互不影响;l数据挖掘的结果可以回写进数据仓库,供OLAP工具展现使用。,5.3.2 建立数据挖掘库,如果数据仓库允许建立一个在逻辑上独立的数据库并且在计算资源上也足够,那么
21、在它上面进行数据挖掘也是可以的。建立数据挖掘库可以分成下面几个部分:l 数据收集;l 对数据进行描述;l 选择数据;l 数据质量评估和数据清理;l 对数据进行合并和整合;l 构建元数据;l 将数据加载到数据挖掘库;l 维护数据挖掘库。,5.3.2 建立数据挖掘库,这些步骤并不一定要按步骤执行,而应该按需要进行。比如在收集数据时就开始构建元数据,并随着工作的进行不断的对其进行修改。在数据整合和数据质量评估过程中发现问题可能需要修改最初的数据选择。,5.3.2 建立数据挖掘库,1.数据收集 首先,确定要挖掘的数据源。在数据仓库中已经提供了丰富的数据,但是还需要一些外部的数据,比如人口统计或天气数据
22、等。对于一些有偿数据,甚至需要向专门提供数据服务的公司购买。我们可以用一个数据搜集报告把所需的各种不同的数据源的属性列出来。此报告至少应包含如下的内容:,5.3.2 建立数据挖掘库,l数据源;l数据的拥有者;l负责维护此数据的人/组织;l设计该数据库的DBA;l如果数据需要购买,则需要说明费用;l数据使用的存储方式,如ORACLE数据库,平面文件;l数据中包含的表,字段,记录的数目;l数据的大小;l数据的物理存储介质,如CD-ROM,磁带,磁盘阵列等;l安全需求;l数据在使用上的限制;l数据是否涉及用户的隐私问题。,5.3.2 建立数据挖掘库,2.数据描述数据描述报告中应包含如下内容:l 字段
23、/列的数目;l 字段是空(缺值)的数目/百分比;l 字段名;,5.3.2 建立数据挖掘库,对于对每个字段,我们通常需要记录:l 数据类型;l 数据定义;l 数据描述;l 计量单位;l 所有不同值的个数;l 值的列表;l 值的范围;l 空值的百分比;l 收集信息;l 时间频度;l 特别时间数据;l 主键/外键关系。,5.3.2 建立数据挖掘库,3.数据选择 接下来要选择用于数据挖掘的数据。这与对数据进行采样和选择预测变量是不同的,这里只是粗略的把冗余或无关的数据除去或由于资源的限制、费用的限制、数据使用的限制和质量问题而必须做出的选择。,5.3.2 建立数据挖掘库,4.数据质量评估和数据清理 要
24、想得到好的模型必须用好数据。数据质量评估就是要确定数据的哪些性质会最终影响模型的质量。我们不仅要保证数据值的正确性和一致性,还要保证这些值是按同样的方法记录的同一件事情。,5.3.2 建立数据挖掘库,数据域中可能包括了不正确的值。比如,身份证号码被粗心的数据录入人员录入了年龄。即使单个域中包含的数据是正确的,但这些域组合起来时也可能就出现错误的记录,如小学生的年龄是90。有时域中的值为空。当从多个不同的源整合数据的时候,一定要注意不同源之间数据的一致性。这些工作看起来和数据仓库的数据清洗转换工作很相似。,5.3.2 建立数据挖掘库,缺值是一个非常有害的问题,并且在实际情况中常常出现。比如在网上
25、调查或者问卷调查中,填写人会漏填甚至不填某些选项。如果有一个数据域缺值就把这个记录删除掉,那么最后可能得到一个很小的数据集合。如果可用的数据集合太小,则这个集合就不能代表整体的特征,因此在这样的数据集合上进行分析的结果与实际情况有较大的出入。,5.3.2 建立数据挖掘库,我们应当考虑一些合适的方法进行弥补,可能的方法有:a.据其它字段来推测缺失字段,比如通过身份证计算出客户的性别、年龄信息,从而填补这两个字段数据的缺失。如果客户的身份证有误,这个方法就失效了。b.用非空值的数据通过计算后代替空值数据。我们通过计算收入水平的非空数据的平均值来取代空值数据。c.使用非空值的数据的统计特征来填充空值
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 实施 过程

链接地址:https://www.31ppt.com/p-6296682.html