埃森哲大数据分析方法.ppt
《埃森哲大数据分析方法.ppt》由会员分享,可在线阅读,更多相关《埃森哲大数据分析方法.ppt(65页珍藏版)》请在三一办公上搜索。
1、大数据分析-埃森哲,2015-7,目录,数据分析即从数据、信息到知识的过程,数据分析需要数学理论、行业经验以及计算机工具三者结合,数学&统计学知识数据分析的基础,将整理、描述、预测数据的手段、过程抽象为数学模型的理论知识,工具支撑各种厂商开发了数据分析的工具、模块,将分析模型封装,使不了解技术的人也能够快捷的实现数学建模,快速响应分析需求。,行业经验行业经验可在数据分析前确定分析需求,分析中检验方法是否合理,以及分析后指导应用,但行业特征不同,其应用也不同,因此本文不展开介绍,传统分析在数据量较少时,传统的数据分析已能够发现数据中包含的知识,包括结构分析、杜邦分析等模型,方法成熟,应用广泛,本
2、文不展开介绍,分析误区不了解分析模型的数学原理,会导致错误的使用模型,而得出错误的分析结论,影响业务决策,因此在选用分析模型时,要深入了解该模型的原理和使用限制,机器学习不需要人过多干预,通过计算机自动学习,发现数据规律,但结论不易控制。,数据挖掘数据挖掘是挖掘数据背后隐藏的知识的重要手段,随着计算机技术发展和数据分析理论的更新,当前的数据分析逐步成为机器语言、统计知识两个学科的交集(备选),计算机技术,统计学、人工智能,业务数据,数据挖掘就是充分利用了统计学和人工智能技术的应用程序,并把这些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题。
3、,信息处理,信息处理信息处理基于查询,可以发现有用的信息。但是这种查询的回答反映的是直接存放在数据库中的信息。它们不反映复杂的模式,或隐藏在数据库中的规律。,传统分析,数据分析工具,传统分析在数据量较少时,传统的数据分析已能够发现数据中包含的知识,包括结构分析、杜邦分析等模型,方法成熟,应用广泛,本文不展开介绍,数据分析工具各种厂商开发了数据分析的工具、模块,将分析模型封装,使不了解技术的人也能够快捷的实现数学建模,快速响应分析需求。,随着计算机科学的进步,数据挖掘、商务智能、大数据等概念的出现,数据分析的手段和方法更加丰富,一系列以事实为支持,辅助商业决策的技术和方法,曾用名包括专家系统、智
4、能决策等一般由数据仓库、联机分析处理、数据挖掘、数据备份和恢复等部分组成对数据分析的体系化管理,数据分析的主体依然是数据挖掘,结构分析,分组分析,杜邦分析,预警分析,常规分析,揭示数据之间的静态关系分析过程滞后对数据质量要求高,商务智能,数据挖掘,大数据技术,数据可视化,统计学和计算机技术等多学科的结合揭示数据之间隐藏的关系将数据分析的范围从“已知”扩展到“未知”,从“过去”推向“将来”,从多种类型的数据中,快速获取知识的能力数据挖掘技术的衍生,大数据时代,展示数据可以更好辅助理解数据、演绎数据,本文在描述数据分析的流程后,重点介绍通用的数据分析方法和主流的应用工具、软件。随着数据量的不断扩大
5、,数据分析理论正处于飞速发展期,因此本文的方法侧重于基础原理介绍。,数据分析,目录,概述,1.业务理解(business understanding)确定目标、明确分析需求2.数据理解(data understanding)收集原始数据、描述数据、探索数据、检验数据质量3.数据准备(data preparation)选择数据、清洗数据、构造数据、整合数据、格式化数据4.建立模型(modeling)选择建模技术、参数调优、生成测试计划、构建模型5.评估模型(evaluation)对模型进行较为全面的评价,评价结果、重审过程6.部署(deployment)分析结果应用,数据分析标准流程,CRISP
6、-DM为90年代由SIG组织(当时)提出,已被业界广泛认可的数据分析流程。,数据分析框架,业务理解,数据理解,数据准备,建立模型,理解业务背景,评估分析需求,模型评估,应用,理解业务背景:数据分析的本质是服务于业务需求,如果没有业务理解,缺乏业务指导,会导致分析无法落地。评估业务需求:判断分析需求是否可以转换为数据分析项目,某些需求是不能有效转换为数据分析项目的,比如不符合商业逻辑、数据不足、数据质量极差等。,数据收集数据清洗,数据收集:抽取的数据必须能够正确反映业务需求,否则分析结论会对业务将造成误导。数据清洗:原始数据中存在数据缺失和坏数据,如果不处理会导致模型失效,因此对数据通过过滤“去
7、噪”从而提取出有效数据,数据探索数据转换,选择方法、工具,建立模型,建模过程评估模型结果评估,分析结果应用分析模型改进,探索数据:运用统计方法对数据进行探索,发现数据内部规律。数据转换:为了达到模型的输入数据要求,需要对数据进行转换,包括生成衍生变量、一致化、标准化等。,建立模型:综合考虑业务需求精度、数据情况、花费成本等因素,选择最合适的模型。在实践中对于一个分析目的,往往运用多个模型,然后通过后续的模型评估,进行优化、调整,以寻求最合适的模型。,建模过程评估:对模型的精度、准确性、效率和通用性进行评估。,模型结果评估:评估是否有遗漏的业务,模型结果是否回答了当初的业务问题,需要结合业务专家
8、进行评估。,结果应用:将模型应用于业务实践,才能实现数据分析的真正价值:产生商业价值和解决业务问题。模型改进:对模型应用效果的及时跟踪和反馈,以便后期的模型调整和优化。,业务理解,数据理解,数据准备,建立模型,模型评估,开始,是否明确需求,否,否,数据探索,结构分析,分布特性,特征描述,分类与回归,聚类分析,时序模型,关联分析,结构优化,分析结果应用,数据分析框架,理解业务背景,评估分析需求,是,是否满足要求,收集数据,否,是,是,建立模型,数据清洗,数据转换,SVM算法,KNN算法,目录,概述,数据分析框架,数据清洗&数据探索,数据收集的方法多种多样,本文不再详述。在对收集的数据进行分析前,
9、要明确数据类型、规模,对数据有初步理解,同时要对数据中的“噪声”进行处理,以支持后续数据建模。,数据清洗和数据探索通常交互进行数据探索有助于选择数据清洗方法数据清洗后可以更有效的进行数据探索,给定一个置信概率,并确定一个置信限,凡超过此限的误差,就认为它不属于随机误差范围,将其视为异常值。常用的方法(数据来源于同一分布,且是正态的):拉依达准则、肖维勒准则、格拉布斯准则、狄克逊准则、t检验。,根据人们对客观事物、业务等已有的认识,判别由于外界干扰、人为误差等原因造成实测数据偏离正常结果,判断异常值。比较困难,数据清洗的第一步是识别会影响分析结果的“异常”数据,然后判断是否剔除。目前常用的识别异
10、常数据的方法有物理判别法和统计判别法,数据清洗:1.异常值判别,12,物理判别法,统计判别法,慎重对待删除异常值:为减少犯错误的概率,可多种统计判别法结合使用,并尽力寻找异常值出现的原因;若有多个异常值,应逐个删除,即删除一个异常值后,需再行检验后方可再删除另一个异常值检验方法以正态分布为前提,若数据偏离正态分布或样本较小时,则检验结果未必可靠,校验是否正态分布可借助W检验、D检验,注意,常见统计判别法,由包含m个插补值的向量代替每一个缺失值,然后对新产生的m个数据集使用相同的方法处理,得到处理结果后,综合结果,最终得到对目标变量的估计,在给定完全数据和前一次迭代所得到的参数估计的情况下计算完
11、全数据对应的对数似然函数的条件期望(E步),后用极大化对数似然函数以确定参数的值,并用于下步的迭代(M步),基于完整的数据集,建立回归方程(模型),对于包含空值的对象,将已知属性值代入方程来估计未知属性值,以此估计值来进行填充;但当变量不是线性相关或预测变量高度相关时会导致估计偏差,先根据欧式距离或相关分析确定距离缺失数据样本最近的K个样本,将这K个值加权平均来估计缺失数据值,取所有对象(或与该对象具有相同决策属性值的对象)的平均值来填充该缺失的属性值,数据清洗:2.缺失值处理,平均值填充,K最近距离法,回归,极大似线估计,多重插补法,在数据缺失严重时,会对分析结果造成较大影响,因此对剔除的异
12、常值以及缺失值,要采用合理的方法进行填补,常见的方法有平均值填充、K最近距离法、回归法、极大似线估计法等,随着数据量的增大,异常值和缺失值对整体分析结果的影响会逐渐变小,因此在“大数据”模式下,数据清洗可忽略异常值和缺失值的影响,而侧重对数据结构合理性的分析,数据探索,通过数据探索,初步发现数据特征、规律,为后续数据建模提供输入依据,常见的数据探索方法有数据特征描述、相关性分析、主成分分析等。,结构优化,描述已有数据特征数据分布特征描述,数据探索要遵循由浅入深、由易到难的步骤,概率分布,特征描述,推断整体数据特征参数检验非参数检验,探索数据之间的关系相关性分析主成分分析,数据特征描述,中心位置
13、,众数中位数/四分位数均值,分散程度,方差和标准差极差、四分位差标准分数 z-score离散系数,图形特征,偏度数据分布偏斜程度的测度峰度数据分布扁平程度的测度,数据概率分布,概率分布可以表述随机变量取值的概率规律,是掌握数据变化趋势和范围的一个重要手段。,离散分布,均匀分布,二项分布,几何分布,离散型均匀分布是一个离散型概率分布,其中有限个数值拥有相同的概率,1.在每次试验中只有两种可能的结果,而且是互相对立的;2.每次实验是独立的,与其它各次试验结果无关;3.结果事件发生的概率在整个系列试验中保持不变,则这一系列试验称为伯努力试验。,以下两种离散型概率分布中的一种:在伯努利试验中,得到一次
14、成功所需要的试验次数X。X的值域是 1,2,3,.在得到第一次成功之前所经历的失败次数Y=X 1。Y的值域是 0,1,2,3,.,泊松近似,泊松近似是二项分布的一种极限形式。其强调如下的试验前提:一次抽样的概率值相对很小,而抽取次数值又相对很大。因此泊松分布又被称之为罕有事件分布。泊松分布指出,如果随机一次试验出现的概率为p,那么在n次试验中出现k次的概率按照泊松分布应该为,连续分布,均匀分布,指数分布,正态分布,如果连续型随机变量具有如下p=1/(b-a)的概率密度函数,其中Xa,b,则称服从上的均匀分布,指数分布可以用来表示独立随机事件发生的时间间隔,比如指数分布还用来描述大型复杂系统(如
15、计算机)的平均故障间隔时间MTBF的失效分布,正态分布,若随机变量X服从一个数学期望为、方差为2的高斯分布,记为N(,2)。其概率密度函数为正态分布的期望值决定了其位置,其标准差决定了分布的幅度。因其曲线呈钟形,因此人们又经常称之为钟形曲线。我们通常所说的标准正态分布是=0,=1的正态分布,数据分布初步推断,参数检验:数据的分布已知的情况下,对数据分布的参数是否落在相应范围内进行检验,假设检验是数理统计学中根据一定假设条件由样本推断总体的一种方法,可以分为参数检验和非参数检验。,非参数检验:一般是在不知道数据分布的前提下,检验数据的分布情况,总结1、参数检验是针对参数做的假设,非参数检验是针对
16、总体分布情况做的假设。2、二者的根本区别在于参数检验要利用到总体的信息,以总体分布和样本信息对总体参数作出推断;非参数检验不需要利用总体的信息。,相关系数是考察变量之间的相关程度的变量,相关分析是优化数据结构的基础,适用条件,结构优化相关性分析,用于分析的多个变量间可能会存在较多的信息重复,若直接用来分析,会导致模型复杂,同时可能会引起模型较大误差,因此要初步探索数据间的相关性,剔除重复因素。,Spearman秩相关系数,衡量两个变量之间联系(变化趋势)的强弱在秩(排序)的相对大小基础上得到,对异常值更稳健,Pearson相关系数,衡量两个变量线性相关性的强弱在方差和协方差的基础上得到的,对异
17、常值敏感,Kendall相关系数,基于协同思想得到,衡量变量之间的协同趋势对异常值稳健,特点,服从正态分布或接近正态的单峰分布两个变量为连续数据,两个变量均为连续数据或等级数据,两个变量均为连续数据或等级数据,偏相关分析,二元变量相关分析,距离相关分析,研究两个变量之间线性相关关系时,控制可能对其产生影响的变量,对观测量之间或变量之间相似或不相似程度的一种测度,检验动机:样本数据只是总体的一个实现,因此,根据现有数据计算出来的相关系数只是变量相关系数的一个观测值,又称为样本相关系数。欲根据这个样本相关系数来估计总体相关系数,必须进行显著性检验。其原假设:在总体中,两个变量的相关系数(总体相关系
18、数)为零检验意义:计算在原假设成立的情况下(也就是在两个变量相关系数为零的情况下),由于抽样的原因(收集样本数据的原因)得到当前的样本相关系数(可能这个系数并不为零,甚至还比较大)的概率。(p值越小说明越是小概率事件,不可能发生,拒绝原假设)检验方法:T检验(常用):对于近似高斯分布的数据(如两个变量服从双变量正态分布),相关系数的 样本分布 近似地服从自由度为N2的 t分布;如果样本容量不是特别小(通常大于30),即使观测数据不服从正态分布,依然可使用t检验,结构优化相关性分析,Karl Pearson(1901)探究如何通过少数几个主成分(principal component)来解释多个
19、变量间的内部结构时提出主成分分析法,旨在从原始变量中导出少数几个主分量,使其尽可能多地保留原始变量的信息,且彼此间互不相关内涵:将彼此相关的一组指标变量转化为彼此独立的一组新的指标变量,并用其中较少的几个新指标变量就能综合反映原多个指标变量所包含主要信息的多元统计方法,结构优化主成分分析,应用:数据的压缩和解释,即常被用来寻找和简化判断事物或现象的综合指标,并对综合指标所包含的信息进行适当的解释原理:设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上用来降维的一种方
20、法。,数据转换或统一成适合于挖掘的形式,通常的做法有数据泛化、标准化、属性构造等,本文详细介绍数据标准化的方法,即统一数据的量纲及数量级,将数据处理为统一的基准的方法。,基期标准化法,直线法,折线法,曲线法,选择基期作为参照,各期标准化数据各期数据/基期数据,数据转换,各方法都有缺点,要根据客观事物的特征及所选用的分析方法来确定,如聚类分析、关联分析等常用直线法,且聚类分析必须满足无量纲标准;而综合评价则折线和曲线方法用得较多能简就简,能用直线尽量不用曲线。,极值法:z-score法:,某些数据在不同值范围,采用不同的标准化方法,通常用于综合评价,示例,Log函数法:Arctan函数法:对数函
21、数法、模糊量化模式等,目录,分类,定义:按照某种指定的属性特征将数据归类。需要确定类别的概念描述,并找出类判别准则。分类的目的是获得一个分类函数或分类模型(也常常称作分类器),该模型能把数据集合中的数据项映射到某一个给定类别。分类是利用训练数据集通过一定的算法而求得分类规则的。是模式识别的基础。分类可用于提取描述重要数据类的模型或预测未来的数据趋势。,银行根据客户以往贷款记录情况,将客户分为低风险客户和高风险客户,学习得到分类器。对一个新来的申请者,根据分类器计算风险,决定接受或拒绝该申请,分析影响变压器正常运行的因素,预测变压器是否有故障,若有故障,故障为放电故障、过热故障、短路故障等的哪一
22、种。,设备类型 2,负荷,负荷,未知数据,分类,分类的实现:,模型的构建,对每个样本进行类别标记训练集构成分类模型分类模型可表示为:分类规则、决策树或数学公式,分类算法,模型的使用,识别未知对象的所属类别模型正确性的评价已标记分类的测试样本与模型的实际分类结果进行比较模型的正确率是指测试集中被正确分类的样本数与样本总数的百分比。测试集与训练集相分离,否则将出现过拟合(over-fitting)现象,分类模型,测试数据,(唐旭,高级,4),提薪?,是,分类,分类的主要算法:KNN算法、决策树(CART、C4.5等)、SVM算法、贝叶斯算法、BP神经网络等,分类,分类的主要算法:KNN算法、决策树
23、(CART、C4.5等)、SVM算法、贝叶斯算法、BP神经网络等,决策树示例:套用俗语,决策树分类的思想类似于找对象。现想象一个女孩的母亲要给这个女孩介绍男朋友,于是有了下面的对话:女儿:多大年纪了?母亲:26。女儿:长的帅不帅?母亲:挺帅的。女儿:收入高不?母亲:不算很高,中等情况。女儿:是公务员不?母亲:是,在税务局上班呢。女儿:那好,我去见见。,分类,分类的主要算法:KNN算法、决策树(CART、C4.5等)、SVM算法、贝叶斯算法、BP神经网络等,设每个数据样本用一个n维特征向量来描述n个属性的值,即:X=x1,x2,xn,假定有m个类,分别用C1,C2,,Cm表示。给定一个未知的数据
24、样本X(即没有类标号),若朴素贝叶斯分类法将未知的样本X分配给类Ci,则一定是P(Ci|X)P(Cj|X)1jm,jI根据贝叶斯定理由于P(X)对于所有类为常数,最大化后验概率P(Ci|X)可转化为最大化先验概率P(X|Ci)P(Ci)。如果训练数据集有许多属性和元组,计算P(X|Ci)的开销可能非常大,为此,通常假设各属性的取值互相独立,这样先验概率P(x1|Ci),P(x2|Ci),P(xn|Ci)可以从训练数据集求得。根据此方法,对一个未知类别的样本X,可以先分别计算出X属于每一个类别Ci的概率P(X|Ci)P(Ci),然后选择其中概率最大的类别作为其类别。朴素贝叶斯算法成立的前提是各属
25、性之间互相独立。当数据集满足这种独立性假设时,分类的准确度较高,否则可能较低。另外,该算法没有分类规则输出。,贝叶斯图像识别贝叶斯方法是一个非常通用的推理框架。其核心理念可以描述成:Analysis by Synthesis(通过合成来分析)。06 年的认知科学新进展上有一篇论文就是讲用贝叶斯推理来解释视觉识别的,一图胜千言,下图就是摘自这篇论文:,首先是视觉系统提取图形的边角特征,然后使用这些特征自底向上地激活高层的抽象概念(比如是 E 还是 F 还是等号),然后使用一个自顶向下的验证来比较到底哪个概念最佳地解释了观察到的图像,分类,分类的主要算法:KNN算法、决策树(CART、C4.5等)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 埃森 数据 分析 方法
链接地址:https://www.31ppt.com/p-6107726.html