现代统计方法及案例分析.ppt
现代统计方法及案例分析 基于数据挖掘的数据准备,报告内容及目的,让大家了解数据挖掘的概念,认识海量数据分析时所遇到的问题,在此基础上,介绍原始大型数据库的基本表述和特征,了解数据准备的不同技术,比较去除丢失值的不同方法,构造时间相关数据的统一表述方法,实现一些数据预处理技术。其目的是让大家从中领悟现代统计方法的基本思想。,现代统计方法及案例分析,一、数据挖掘的定义 二、数据挖掘与知识发现 三、海量数据分析中遇到的问题 四、数据准备 1、数据选择 2、数据预处理 3、数据变换,What are these numbers trying to Tell me?,Matrix Codes:,舅舅:不要吃酒,吃酒误事,吃了二两酒,不是动怒,就是动武,.。吃酒要被酒杀死,一点酒也不要吃。,What Are These Numbers Trying to Tell Us?,What Are These Numbers Trying to Tell Us?,7 2 2x3 40 6 二四六八 0000 1 1=1 10002=100100100 7/8,不三不四 接二連三 陸續不斷 無獨有偶 掛萬漏一 一成不變 千方百計 七上八下,一、数据挖掘的技术定义与商业定义,什么是数据挖掘(Data Mining)?关于定义取决于定义者的观点和背景,各人的说法不一.Friedman,J.H.在技术报告Data Mining and Statistics:Whats The Connection?中总结出了多家关于数据挖掘的定义(也有对知识发现而言的):Fayyad提出数据挖掘是一个确定数据中有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程.,Zekulin的说法是数据挖掘是一个从大型数据库中提取以前未知的、可理解的、可执行的信息,并用它来进行关键的商业决策的过程.Ferruzza给出数据挖掘是用在知识发现过程,来辩识存在于数据中的未知关系和模式的一些方法.Jonn提到数据挖掘是发现数据中有益模式的过程.Parsaye定义数据挖掘是我们为那些未知的信息模式而研究大型数据集的一个决策支持过程.这些表达方式虽然不同,但从各自的角度描述出了对数据挖掘的理解.这里我们主要从技术和商业的角度给出数据挖掘的定义.,1、数据挖掘的技术定义,从技术角度,数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程.它是涉及机器学习、模式识别、统计学、人工智能、数据库管理及数据可视化等学科的边缘学科.,这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;这些知识是相对的,是有特定前提和约束条件的,在特定领域中具有实际应用价值.,什么是知识呢?从广义上理解,数据、信息是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识.人们把数据看作是形成知识的源泉,好像从矿石中采矿或淘金一样.,2、数据挖掘的商业定义,从商业应用角度看,数据挖掘是一种新的商业信息处理技术。数据挖掘也可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,且进一步将其模型化的数据处理方法.,二、数据挖掘与知识发现(DM&KDD),1、知识发现(Knowledge Discovery in Database)过程 知识发现过程可以粗略的理解为三部曲:数据准备(data preparation)数据挖掘(data mining)结果的解释评估(interpretation and evaluation),知识发现过程示意图,数据准备又可分为三个子步骤:数据选取、数据预处理和数据变换.数据挖掘阶段主要是确定开采的任务,如数据总结、分类、聚类、关联规则发现或序列模式发现等.结果解释和评价主要是数据挖掘阶段发现出的模式,经过用户和机器的评价,可能存在冗余或无关的模式,这时需要将其剔除。如果有的模式不满足用户要求,需要将整个发现过程退回到发现阶段之前。,2、数据挖掘的地位,KDD是一种知识发现的一连串程序,数据挖掘只是KDD的一个重要程序.数据挖掘主要是利用某些特定的知识发现算法,在一定的运算效率的限制内,从数据中发现有关的知识,即隐藏的模式.数据挖掘是KDD中最重要的一步,在KDD的全过程中起到了至关重要的作用.因此,人们往往不加区别地使用数据挖掘和KDD.,親愛的齊:我們的感情,在組織的親切關懷下、在領導的過問下,一年來正沿著健康的道路蓬勃發展。這主要表現在:(一)我們共通信121封,平均3.01天一封。其中你給我的信51封,占42.1%我給你的信70封,占57.9%。每封信平均1502字,最長的達5215字,最短的也有624字。,我们不能这样简单的理解统计,三、海量数据分析中遇到的问题,(二)約會共98次,平均3.7天一次。其中你主動約我38次,占38.7%我主動約你60次,占61.3%。每次約會平均3.8小時,最長達6.4小時,最短的也有1.6小時。(三)我到你家看望你父母38次,平均每9.4天一次,你到我家看望我父母36次,平均10天一次。以上充分証明一年來的交往我們已形成了戀愛的共識,我們愛情的主流是互相了解、互相關心、互相幫助,是平等互利的。,當然,任何事物都是一分為二的,缺點的存在是不可避免的。我們二人雖然都是積極的,但從以上的數據看,發展還不太平衡,積極性還存在一定的差距,這是前進中的缺點。相信在新的一年里,我們一定會發揚成績、克服缺點、攜手前進,開創我們愛情的新局面。,因此,我提出三點意見供你參考:(一)要圍繞一個愛字,(二)要狠抓一個親字,(三)要落實一個合字。讓我們弘揚團結拼搏的精神,共同振興我們的愛情,爭取達到一個新高度,登上一個新台階。本著我們的婚事我們辦,辦好婚事為我們的精神,共創輝煌!你的小惠,Given 7 2 5 8 11 1 6What is the mean?What is the median?What is the first quartile?What is the third quartile?,Introductory Statistics,Mean,Put in order 1 2 5 6 7 8 11 Q1 Median Q3,Given x1,x2,x3,xnWhat is the mean?What is the median?What is the first quartile?What is the third quartile?,Mean,Put in order x(1)x(2)x()x(n-1)x(n)Median,Given x1,x2,x3,xnwhere n=300,000,000.What is the mean?What is the median?What is the first quartile?What is the third quartile?,Database,Data StructureA+100-A=0,四、数据准备,(一)数据选择(二)数据预处理(三)数据变换,1、原始数据的表述,数据样本是数据挖掘过程的基本组成部分,(一)数据选择,每个样本都用几个特征来描述,每个特征有不同类型的值。常见的类型有:数值型和分类型。数值型包括实型变量和整型变量注:具有数值型值的特征有两个重要的属性:其值有顺序关系和距离关系。注意:市场调查资料,分类型变量的两个值可以相等或不等。一个有两个值的分类型变量原则上可以转化成一个二进制的数值型变量,这种数值型变量有两个值:0或1;而有N值的分类型变量原则上可以转化成一个二进制的数值型变量,这种数值型变量有N个值。,例如:如果变量“季节”有4个值:春、夏、秋、冬。特征值 编码 春 1000 夏 0100 秋 0010 冬 0001,定量型共有四种,1)标称数据(nominal data).表示类别或属性的数值数据,如表示性别的数字值.表示性别的数字值(1或2)就是标称数据值.标称数据的一个重要特性是它没有相关重要性.如,即使男性=1,女性=2,也不意味着女性的值是男性的2倍或更高.对于建模来说,只有两个值的标称变量应编码为0和1.,2、数据分类,2)序数数据(ordinal data)序数数据是表示有相对重要性的类别的数值数据,可用于给强度、重要性分等级.例如,用1-5表示用户对某产品的质量评价,分别表示很差、较差、中等、较好、很好.,3)间隔数据(interval data).间隔数据是有相对重要性,没有0点的数值数据.对它而言,加、减是有意义的操作.例如,可以用更详细的数字来分析产品质量的好坏,可以用0-100之间的数字具体分析产品之间的差距.,4)连续数据(continuous data)连续数据是开发预测模型时最常用的数据,适用于所有基本的算术运算,包括加、减、乘、除.大多数业务数据如销售额、余款、差额等都是连续数据.,另一种数据分类维度是基于数据与时间有关的行为特性.我们把那些不随时间的变化而变化的数据称为静态数据.而另一部分随时间变化而变化的属性值,我们称之为动态数据或时间数据.在大多数的数据挖掘算法中都使用的静态数据,若要使用动态数据,则需要进行特殊的考虑和预处理.这方面的内容将在后面介绍.,(二)数据预处理,1、噪声数据的处理 噪声(noise)是一个被测变量中的随机误差或偏差.下面我们将要讨论给定一个数值型属性,要如何平滑数据去除噪声的方法.1)数据的平整 一个数值型的特征y可能包括许多不同的值,这些数据之间的小小差异也许并不重要,但是却有可能影响到挖掘方法的性能甚至最终结果.实际上我们也可以把这些数据之间的差异看成是同一数值的随机变差,因此有时对这些数据进行平整处理还是很重要的.,有些情况下的平整算法比较复杂.减少不同的数值数目意味着同时减少了数据空间的维度,这对数据挖掘的方法十分有利.这样的平整方法可用于将连续型特征分解成一系列离散二元“真假”值的特征.,2)Bin方法.Bin方法也就是分箱方法,是通过利用相应被平滑数据点的“邻居”(即周围的值),对一组排序数据进行平滑.排序成的这些数据被分配到一些“桶”或箱中.由于Bin方法考察的是相邻的值,因此它进行局部平滑.,下面给出了一些Bin的方法技术,3)聚类方法 通过聚类分析可以检测到异常数据,也就是孤立点.聚类将相似或相邻近的数据聚合到一起形成了各个聚类集合.直观地看,落在聚类集合之外的值就被认为是孤立点.孤立点之值作为噪声处理,将其删除,试用“聚类”中心值代替.,4)回归分析法 可以通过回归关系,根据大量统计数据,找出变量之间在数量变化方面的统计规律,从而消除变量之间的随机关系,以达到拟合函数对数据平滑的目的.例如可以借助线性回归(linear regression),拟合一个变量与其他多个变量之间的关系,这样就可以用这一关系以一组变量值来帮助预测另一个变量.通过回归分析可以消除随机因素,除去噪声.,2、异常的分析,例如:数据集为:S=S1,S2,S3,S4,S5,S6,S7=(2,4),(3,2),(1,1),(4,3),(1,6),(5,3),(4,2)欧氏距离 d=(X1-X2)2+(Y1-Y2)21/2 取阈值距离为 d=3,根据所用程序的结果和所给的阈值,可选择S3和S5作为异常点。,3、缺失数据,(三)数据变换,1、标准化 一些数据挖掘方法,需要对数据进行标准化以获得最佳的效果。1)小数缩放 小数缩放移动小数点,但是要仍然保持原始数据的特征。典型的缩放是保持数值在-1和1范围内。可以用格式描述,2)最小-最大标准化 最小-最大标准化的格式:注:这种转换可能会导致标准化值无意识的集中。,3)标准差标准化标准差标准化的格式是 其中:是均值;是标准差,2、高维度问题大多数数据挖掘问题的出现是因为有大量的样本具有不同类型的特征。此外,这些样本往往是高维度的,这就意味着它们有相当大数目的可测量特征。大型数据集中这种高维现象会产生“高维祸根”(维数灾),这种现象可以用高维空间几何学来解释,这是数据挖掘问题的典型。,注意:数据集的大小随维数呈指数增长,这个数据集在一个n维空间中生成数据点的相同密度 例如:n个数据点的一维样本,其密度令人满意的,那么,要在k维空间中获得同样的密度,需要nk 个数据点。注意:几乎每一个点都是异常点,高维空间的物体比低维空间的物体拥有更大的面积。,3、差值和比率 设数值型变量 的数值为,其差值转换为;比率转换为。,应该注意:有时是对于样本的不同属性进行转换。例如:在很多的医学数据集中,一个病人有两个属性特征,身高和体重,应用表明用一个新的叫做身体素质指标体重和身高加权比,来反映诊断结果会更好。,从以上可以看出,不但统计学者应该关心数据挖掘的发展,而且已经为数据挖掘的发展作着贡献。我们要正确地认识这一点,要逐渐地加强统计学对信息科学的影响,促使别的领域的同事们增强了解统计学的价值和重要性,扩大统计学理论研究和实际应用的市场,保持统计学的健康发展和生命力。,thanks for Your presence,Any Questions?,