数据挖掘与处理(DataMiningandDataProcessing).ppt
数据挖掘与处理(Data Mining and Data Processing),主讲人:张正军E-mail:Mobile PhoneOffice Phone:84315586Office Address:理学院718室,第一章 数据科学与数据挖掘,1 数据科学2 数据挖掘,1 数据科学,1.0 概述(1)信息化的本质:将现实世界中的事物以数据的形式存储到计算机主机中,即信息化是一个生产数据的过程。(2)数据爆炸(data explosion):数据被快速大量地生产并存储在计算机系统中。(3)数据自然界(data nature):数据爆炸在计算机系统中形成数据自然界(data nature)。注:研究数据自然界是研究自然界(real nature)的一种有效方法。(4)数据学(dataology)或数据科学(data science):研究数据自然界规律的理论、方法和技术。,1 数据科学,1.1 数据能够输入到计算机中的任何内容。数据在物理上以字节(Byte)作为其大小的计量单位,一个字节为一个数据单位,数据物理存在于计算机系统中。对于数据自然界,计算机系统是它的载体,数据是它的唯一存在。(1)数据原子(data atomic):不可再分割的最小数据单位,即计算机系统所使用的基本字符集。例:TXT数据注:数据原子一般为单字节字符,也有双字节字符。(2)数据对象(data object):识别数据的基本单位,可命名,具有独立含义。注:(a)数据对象:由有限个数据项组成,有一个对象标识,其他为对象内容。(b)数据项(data item):数据原子的有限集,用于描述数据对象的特性,可命名,可定义其数据类型但没有独立含义(即脱离数据对象单独讨论数据项是没有意义的)。,1 数据科学,(3)数据集(data set):数据对象的集合。例:MDB数据库注:(a)数据集是一个数据对象的有限集合;(b)一些无限的数据集(如:流数据)的数据在任何时刻都是有限的;(c)数据学通常是处理有限数据集的。(4)元数据(mata data):描述数据的数据。ASCII表结构、变量NAME、结构EMPLOYEE(ID,NAME,RANK),数据库DATABASE tablel(al.a2,),table2(bl,b2,),.。(5)数据工具(data tool):计算机系统中存储的能够运行的计算机程序或软件系统。例:杀毒软件、病毒程序注:(a)数据工具是一种特殊的数据对象;(b)数据工具通常用于处理数据但数据工具本身也是数据,可以被其他数据工具处理。,1 数据科学,1.2 数据自然界(1)数据自然界:所有计算机系统中的数据构成了数据自然界。注:计算机系统是数据的载体,不是数据自然界的组成部分。(2)数据自然界特征:不为人控制;具有未知性、多样性和复杂性等自然界特征。注:(a)从个体上看,数据是可控的;从总体上看,数据不为人控制;(b)数据的含义未知,规律未知,现实世界没有的未知;(c)数据类型:私人、企业、政府、公共等数据库;(d)组织形式:专用格式、通用格式、互联网等数据形式。,1 数据科学,1.3 数据学(1)数据学:研究探索数据自然界奥秘的理论、方法和技术。注:(a)研究对象:数据自然界;(b)研究内容:数据的各种类型、状态、属性及变化形式和变化规律;(c)目的:揭示自然界和人类行为的现象与规律。注:(a)数据记录了宇宙和生命现象人文和社会。(b)寻找数据所含的规律,就是探索宇宙、生命、人类行为、社会发展的规律。,1 数据科学,(2)数据学的框架,1 数据科学,注:(a)数据勘探:勘探数据集的结构(分析数据集的物理结构、逻辑结构)和总体特性(用抽样分析的方法发现数据集服从的分布、个体性或群体性、是否有簇或关联规则)。(b)数据实验(data experiment):验证自然界和数据自然界的假说和规律、模拟人文与社会行为、发现数据规律。数据实验通过实验的方式(实验对象、工具、方法和步骤、观察手段等),对数据进行实验,获得实验结果,通过观察实验结果对假说和预的规律进行验证。(c)数据伪装(data camouflage):将暴露在公众可及地方的自己的数据进行伪装,使得别人即使获得该数据也无法知道其数据含义。(d)数据辨伪(data perception):识别经过伪装的数据。,1 数据科学,注:(e)数据分类学(data taxonomy):将数据分门别类,形成数据谱系和发展历史图谱。(f)数据感知(data awareness):像感受大自然那样感受数据自然界,包含数据可视化、数据可听化、数据可嗅可触化等方法和技术。(g)专门领域的数据学:针对具体领域和环境的数据学,即专门领域的数据学,即专门的理论、技术和方法。,2 数据挖掘,人类已进入一个崭新的信息时代,数据库中存储的数据量急剧膨胀,需要从海量数据库和大量繁杂信息中提取有价值的知识,进一步提高信息的利用率。产生了一个新的研究方向:基于数据库的知识发现及相应的数据挖掘理论和技术的研究。随着大数据库的建立和海量数据的不断涌现,必然提出对强有力的数据分析工具的迫切需求。但现实情况往往是“数据十分丰富,而信息相当贫乏。”快速增长的海量数据收集、存放在大型数据库中,没有强有力的工具,理解它们已经远远超出人的能力。因此,有人称之为:“数据坟墓”。由于专家系统工具过分依赖用户或专家人工地将知识输入知识库中,而且分析结果往往带有偏差和错误,再加上耗时、费用高,故不可行。,数据矿山,信息金块,数据挖掘工具,2 数据挖掘,大量信息带来方便也带来一大堆问题:信息过量,难以消化;信息真假难以辨识;信息安全难以保证;信息形式不一致,难以统一处理。数据爆炸但知识贫乏:随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。,2 数据挖掘,产生背景及阶段,2 数据挖掘,数据挖掘是多学科的产物,数据挖掘,数据库技术,统计学,高性能计算,人工智能,机器学习,可视化,数据挖掘的应用,电信:流失银行:聚类(细分),交叉销售百货公司/超市:购物篮分析(关联规则)保险:细分,交叉销售,流失(原因分析)信用卡:欺诈探测,细分电子商务:网站日志分析税务部门:偷漏税行为探测警察机关:犯罪行为分析医学:医疗保健,英国电信需要发布一种新的产品,需要通过直邮的方式向客户推荐这种产品。,使直邮的回应率提高了100,电信,GUS日用品零售商店需要准确的预测未来的商品销售量,降低库存成本。,通过数据挖掘的方法使库存成本比原来减少了3.8%,零售商店,美国国内税务局需要提高对纳税人的服务水平。,合理安排税务官的工作,为纳税人提供更迅捷、更准确的服务,税务局,银行,金融事务需要搜集和处理大量的数据,由于银行在金融领域的地位、工作性质、业务特点以及激烈的市场竞争决定了它对信息化、电子化比其它领域有更迫切的要求。利用数据挖掘技术可以帮助银行产品开发部门描述客户以往的需求趋势,并预测未来。美国商业银行是发达国家商业银行的典范,许多地方值得我国学习和借鉴。,数据挖掘在银行领域的应用,美国银行家协会(ABA)预测数据仓库和数据挖掘技术在美国商业银行的应用增长率是14.9。分析客户使用分销渠道的情况和分销渠道的容量;建立利润评测模型;客户关系优化;风险控制等,Mellon银行使用数据挖掘软件提高销售和定价金融产品的精确度,如家庭普通贷款。美国Firstar银行使用数据挖掘工具,根据客户的消费模式预测何时为客户提供何种产品。,汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价值的客户。,营销费用减少了30,银行,2 数据挖掘,注:相近的术语:数据库中的知识发现、知识挖掘、知识提取、数据融合。数据挖掘(Data Mining,DM)从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与之相似的概念称为知识发现。知识发现(Knowledge Discovery in Databases,KDD)是用数据库管理系统来存储数据,用机器学习的方法来分析数据,挖掘大量数据背后隐藏的知识,称为数据库中的知识发现。,2.1 KDD(1)定义 人们给KDD下过很多定义,内涵也各不相同,目前公认的定义是由Fayyad等人提出的。所谓基于数据库的知识发现(KDD)是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。,2 数据挖掘,(2)KDD过程 KDD是一个人机交互处理过程。该过程需要经历多个步骤,并且很多决策需要由用户提供。从宏观上看,KDD过程主要经由三个部分组成,即数据整理、数据挖掘和结果的解释评估。,2 数据挖掘,2 数据挖掘,数据清理筛选,数据,目标数据,Knowledge,预处理及变换,变换后的数据,数据挖掘,解释/评估,2 数据挖掘,(3)知识发现(KDD)的步骤(a)数据准备:了解KDD应用领域的有关情况。包括熟悉相关的知识背景,搞清用户需求。(b)数据选取:数据选取的目的是确定目标数据,根据用户的需要从原始数据库中选取相关数据或样本。在此过程中,将利用一些数据库操作对数据库进行相关处理。(c)数据预处理:对步骤2中选出的数据进行再处理,检查数据的完整性及一致性,消除噪声及与数据挖掘无关的冗余数据,根据时间序列和已知的变化情况,利用统计等方法填充丢失的数据。,(d)数据变换:根据知识发现的任务对经过预处理的数据再处理,主要是通过投影或利用数据库的其它操作减少数据量。(e)确定KDD目标:根据用户的要求,确定KDD要发现的知识类型。(f)选择算法:根据步骤5确定的任务,选择合适的知识发现算法,包括选取合适的模型和参数。,(g)数据挖掘:这是整个KDD过程中很重要的一个步骤。运用前面的选择算法,从数据库中提取用户感兴趣的知识,并以一定的方式表示出来。(h)模式解释:对在数据挖掘步骤中发现的模式(知识)进行解释。通过机器评估剔除冗余或无关模式,若模式不满足,再返回到前面某些处理步骤中反复提取。(i)知识评价:将发现的知识以用户能了解的方式呈现给用户。其中也包括对知识一致性的检查,以确信本次发现的知识不会与以前发现的知识相抵触。,2 数据挖掘,2.2数据挖掘的定义(1)数据挖掘:通过分析每个数据,从大量数据中寻找其规律的技术。注:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。注:(a)数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;(b)发现的知识要可接受、可理解、可运用;(c)并不要求发现放之四海皆准的知识,仅支持特定的发现问题。,2 数据挖掘,(2)商业角度的定义 定义:数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。理解:数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。,2 数据挖掘,(3)数据挖掘与传统分析方法的区别 注:(a)数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识.(b)数据挖掘所得到的信息应具有先未知,有效和可实用三个特征。(c)先前未知的信息是指该信息是预先未曾预料到的,数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。案例:南京的房价与离婚率是同步的。,2 数据挖掘,2 数据挖掘,(4)数据挖掘和数据仓库(a)数据挖掘不必非得建立一个数据仓库(DW,Data Warehouse),数据仓库不是必需的。(b)基于数据仓库的数据挖掘。,2 数据挖掘,(5)数据挖掘和在线分析处理(OLAP)注:(a)OLAP(OnLine Analytic Processing)基于假设,然后用OLAP检索数据库来验证这个假设是否正确。例:一个分析师想找到导致贷款拖欠的原因,他可能先假定:低收入的人信用度也低,然后用OLAP来验证他这个假设。若该假设没被证实,他可能去察看那些高负债的账户,如果还不行,他也许要把收入和负债一起考虑,一直进行下去,直到找到他想要的结果或放弃。缺点:如果分析的变量达到几十或上百个,那么再用OLAP手动分析验证这些假设将是一件非常困难和痛苦的事情。,2 数据挖掘,(b)DM不基于假设,数据挖掘与OLAP不同的地方:数据挖掘不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型。例:一个用数据挖掘工具的分析师想找到引起贷款拖欠的风险因素。数据挖掘工具可能帮他找到高负债和低收入是引起这个问题的因素,甚至还可能发现一些分析师从来没有想过或试过的其他因素,比如年龄。(c)二者关系:数据挖掘和OLAP具有一定的互补性。在利用数据挖掘出来的结论采取行动之前,验证一下的行动的影响,那么OLAP工具能回答你的这些问题。知识发现的早期阶段,OLAP工具有利于探索数据,重要的变量,发现异常数据和互相影响的变量。加快知识发现的过程。,2 数据挖掘,(6)三个步骤:数据准备、规律寻找和规律表示。注:(a)数据准备:从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;(b)规律寻找:用某种方法将数据集所含的规律找出来;(c)规律表示:尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。,2 数据挖掘,数据挖掘过程模型注:ETL(Extraction-Transformation-Loading):数据提取、转换和加载|数据准备|规律寻找|规律表示|结果评价|,2 数据挖掘,源数据,集成数据,目标数据,预处理数据,商业模式,知识,应用方案,业务对象,确定挖掘对象准备数据建立模型数据挖掘结果分析知识应用阶段,2 数据挖掘,注:数据挖掘包含有以下几个方面的含义:(a)核心是“大量”和“寻找”。“大量”数据含义:能够形成规律;传统数据分析工具和技术、经验和直觉等失效。“寻找”规律:规律隐含在大量数据之中。(b)只要求被挖掘的“数据”是大量的,没有其他限制。(c)对挖掘到的“规律”没有描述或限制,即没有要求“规律”是“有用的”。数据挖掘分为描述性和预测性两类任务。描述性数据挖掘产生数据集所含的规律;预测性数据挖掘产生关于数据的预测。,2 数据挖掘,2.3 DM的任务数据挖掘的任务:关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析。(1)关联分析:寻找数据项之间感兴趣的关联关系,用关联规则的形式予以描述。关联分析就是挖掘支持度和置信度分别超过用户给定的最小支持度阈值和最小置信度阈值的关联规则。例:“85%购买尿布的客户也购买了啤酒,并且购买尿布的总次数占所有购物次数的百分比为8%“(一条”啤酒”和“尿布”之间的关联规则)。,2 数据挖掘,注:关联规则通常用支持度和置信度评估。(a)支持度是事件A发生占数据集事件发生总次数的百分比;(b)置信度是事件A发生时,事件B发生的百分比。注:关联规则的分类(a)根据数据类型可分为Boole关联规则和量化关联规则。(b)根据数据抽象层次可分为单层关联规则和多层关联规则。(c)根据数据维数可分为单维关联规则和多维关联规则。,2 数据挖掘,(2)聚类分析:根据最大化簇内的相似性、最小化簇间的相似性的原则,将数据对象集合划分成若干个簇的过程。(a)主要工作:判断两个数据对象之间的相似性,如何衡量簇划分的好坏。(a)聚类分析过程的质量取决于簇相似性函数的设计。样本间的距离函数是常用的相似性度量标准。(b)准则函数用于衡量对象集合划分的好坏。准则函数将聚类问题转化为找到一种划分使得准则函数最优的问题。衡量的结果和聚类分析的初始目标一致(即满足内部聚合和外部分离的原则)。,2 数据挖掘,(c)聚类分析的基本因素:相似性度量、簇的数量、属性、聚类算法。(d)聚类算法的聚类分析能力的评价标准:是否适用于大数据量,能否处理不同类型数据,能否发现任意形状的簇,能否处理高维数据,能否具有处理噪声的能力,聚类结果是否可解释等等。,2 数据挖掘,(3)分类分析:找出描述并区分数据类的模型,以便能够使用模型预测给定数据对象所属的数据类。(a)分类分析是要获得一个分类模型,并根据分类模型预测给定数据对象属于哪一个类。(b)构造分类模型过程的两个阶段:分为模型训练和模型测试。注:模型训练:模型通常用决策树、分类规则或数学公式的形式提供。模型测试:利用类别的描述或模型对测试数据进行分类。注:首先用测试数据评估分类规则的准确率,如果准确率是可以接受的,则分类模型可用于对新的数据对象进行分类。,2 数据挖掘,(c)分类模型的构造方法:机器学习方法、统计方法、神经网络方法等。注:机器学习方法包括决策树法(决策树)和规则归纳法(产生式规则)等。统计方法包括Bayes法(判别函数)和非参数法(原型事例)。神经网络方法(常用于分类和回归)主要是BP算法(前向反馈神经网络模型)。注:一般情况下,统计学习理论和支持向量机(SVM)比一般的神经网络更有效,而且可将SVM看作是广义化的神经网络。其优点是,具有深厚的数学基础,算法可靠、推广能力强,适用于小样本数据集的知识(或规则)发现。,y=x+1,2 数据挖掘,(4)异常分析:发现数据对象集中明显不同于大部分数据对象(具有相似性)的数据对象(称为异常对象)的过程。注:异常对象不属于任何簇,与其他对象不相似,很多情况下异常对象都是孤立点。注:异常分析算法:(a)基于统计的异常分析方法:首先使用统计分布(如Normal分布、Poisson分布等)对数据对象进行建模,然后用不一致检验(discordancy test)确定异常。(b)基于深度的异常分析方法:每一个数据被映射到一个k维数据空间上的点,并且每个点被赋予一个特定定义的“深度”。根据不同深度,数据被划分成不同层次,异常往往存在于较“浅”的层次中,而存在于较“深”层次中的可能性较小。,2 数据挖掘,(c)基于偏差的异常分析:通过检查一组对象的主要特征来确定异常。该方法将异常定义为与给出的描述偏离的对象。注:数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。(d)基于距离的异常分析方法:如果数据集中与点p的距离小于d的点的个数不超过M,那么称p为相对于M和d的异常。(e)基于密度的异常分析方法:“异常”概念本身具有一定的“局部”性,即某一点异常是指这一点与之邻近的簇相对较远。,2 数据挖掘,(5)特异群组分析:发现数据对象集中明显不同于大部分数据对象(不具有相似性)的数据对象(称为特异对象)的过程。特异群组:一个大部分数据对象不具有相似性的数据集中具有相似性或共同特性的一组对象。注:异常对象和特异群组是相反的两端,完全由数据集的特性所决定,或者说特异群组和异常点挖掘是针对两类相反的数据集的挖掘问题。特异群组分析在个性化的行为数据集中比较常见。,2 数据挖掘,(6)演变分析:一种用于描述对象行为随时间变化的规律或趋势,并对其建模,以预测其未来形式的技术。演变分析主要包括因果关系分析、时间序列分析两类。注:(a)因果分析是指当某个或某些因素发生变化时,对其他因素的影响。回归分析是一类重要的因果分析方法,由回归分析求出的关系式称为回归模型。(b)时间序列分析是通过分析已知的历史和现状方面的数据资料,研究其演变规律,据此预测对象的未来发展趋势。,2 数据挖掘,2.4 DM的类型(1)一般数据源的挖掘序列数据挖掘流数据挖掘文本数据挖掘空间数据挖掘Day-by-Day行为数据挖掘(2)特殊应用数据源的挖掘交易数据挖掘Web数据挖掘生物数据挖掘,主要参考资料:,1 郭崇慧等译.数据挖掘教程.北京:清华大学出版社.2005.2 范明等译.数据挖掘概念与技术.北京:机械工业出版社.2004.3 陈文伟等.数据仓库与数据挖掘.北京:人民邮电出版社.2005.4 朱杨勇等.数据学.上海:复旦大学出版社.2009.,2.4 数据挖掘系统进展,第一代数据挖掘系统,特点支持一个或少数几个数据挖掘算法 挖掘向量数据(vector-valued data)数据一般一次性调进内存进行处理 典型的系统如Salford Systems公司早期的CART系统()缺陷如果数据足够大,并且频繁的变化,这就需要利用数据库或者数据仓库技术进行管理,第一代系统显然不能满足需求。,CBA,新加坡国立大学。基于关联规则的分类算法,能从关系数据或者交易数据中挖掘关联规则,使用关联规则进行分类和预测,第二代数据挖掘系统,第二代数据挖掘系统支持数据库和数据仓库,和它们具有高性能的接口,具有高的可扩展性。例如,第二代系统能够挖掘大数据集、更复杂的数据集、以及高维数据。这一代系统通过支持数据挖掘模式(data mining schema)和数据挖掘查询语言(DMQL)增加系统的灵活性。,第二代数据挖掘系统(续),特点与数据库管理系统(DBMS)集成 支持数据库和数据仓库,和它们具有高性能的接口,具有高的可扩展性 能够挖掘大数据集、以及更复杂的数据集 通过支持数据挖掘模式(data mining schema)和数据挖掘查询语言(DMQL)增加系统的灵活性 典型的系统如DBMiner,能通过DMQL挖掘语言进行挖掘操作缺陷只注重模型的生成,如何和预测模型系统集成导致了第三代数据挖掘系统的开发,DBMiner,SAS Enterprise Miner,第三代数据挖掘系统,第三代的特征是能够挖掘Internet/Extranet的分布式和高度异质的数据,并且能够有效地和操作型系统集成。这一代数据挖掘系统关键的技术之一是提供对建立在异质系统上的多个预测模型以及管理这些预测模型的元数据提供第一级别(first class)的支持。,第三代数据挖掘系统,特点和预测模型系统之间能够无缝的集成,使得由数据挖掘软件产生的模型的变化能够及时反映到预测模型系统中 由数据挖掘软件产生的预测模型能够自动地被操作型系统吸收,从而与操作型系统中的预测模型相联合提供决策支持的功能 能够挖掘网络环境下(Internet/Extranet)的分布式和高度异质的数据,并且能够有效地和操作型系统集成 缺陷不能支持移动环境,SPSS Clementine,以PMML的格式提供与预测模型系统的接口,第四代数据挖掘系统,第四代数据挖掘系统能够挖掘嵌入式系统、移动系统、普适(ubiquitous)计算设备产生的各种类型的数据。,第四代数据挖掘系统,特点目前移动计算越发显得重要,将数据挖掘和移动计算相结合是当前的一个研究领域。第四代软件能够挖掘嵌入式系统、移动系统、和普适(ubiquitous)计算设备产生的各种类型的数据第四代数据挖掘原型或商业系统尚未见报导,PKDD2001上Kargupta发表了一篇在移动环境下挖掘决策树的论文,Kargupta是马里兰巴尔的摩州立大学(University of Maryland Baltimore County)正在研制的CAREER数据挖掘项目的负责人,该项目研究期限是2001年4月到2006年4月,目的是开发挖掘分布式和异质数据(Ubiquitous设备)的第四代数据挖掘系统。,第一代系统与第二代相比因为不具有和数据管理系统之间有效的接口,所以在数据预处理方面有一定缺陷 第三、四代系统强调预测模型的使用和在操作型环境的部署 第二代系统提供数据管理系统和数据挖掘系统之间的有效接口 第三代系统另外还提供数据挖掘系统和预测模型系统之间的有效的接口 目前,随着新的挖掘算法的研究和开发,第一代数据挖掘系统仍然会出现,第二代系统是商业软件的主流,部分第二代系统开发商开始研制相应的第三代数据挖掘系统,比如 IBM Intelligent Score Service。第四代数据挖掘原型或商业系统尚未见报导,谢谢大家!,