商务智能分类算法.ppt
《商务智能分类算法.ppt》由会员分享,可在线阅读,更多相关《商务智能分类算法.ppt(123页珍藏版)》请在三一办公上搜索。
1、第4章 分类Chapter 4:Classification,信息管理学院,数据挖掘十大算法,The k-means algorithm The Apriori algorithm ExpectationMaximization PageRank AdaBoost,分类算法,C4.5 CART Naive Bayes k-nearest neighbor classification Support vector machines,C4.5 CART Naive Bayes k-nearest neighbor classificationSupport vector machines,C4.
2、5 CART Naive Bayes k-nearest neighbor classificationSupport vector machines,决策树分类算法,主要内容,4.1 概念4.2 决策树分类方法4.3 朴素贝叶斯分类方法4.4 k近邻分类方法4.5 分类性能的度量,4.1 基本概念,信息管理学院,分类(classification):总结已有类别的对象的特点并进而进行未知类别对象的类别预测的过程用给定的训练集用来建立一个分类模型(或称分类器),所建立的分类模型用来预测数据库中类标号未知的数据元组的类别。训练数据集由一组数据库元组(称为训练样本、实例或对象)构成样本形式为(v1
3、,v2,vn;c),其中vi表示属性值,c表示类标号。,分类及其相关的基本概念,分类及其相关的基本概念,分类器(classifier)训练数据集(training dataset)分类属性(class label attribute),每个取值称为一个类别(class label)属性,用于描述一个对象的某个特性或性质测试数据集(testing dataset),信息管理学院,分类属于有监督学习还是无监督学习?有监督学习(classification)训练集是带有类标签的;新的数据是基于训练集进行分类的无监督学习(clustering)训练集是没有类标签的;提供一组属性,然后寻找出训练集中存在
4、的类别或者聚集,信息管理学院,人口、收入、信用购买力,性别、年龄、婚姻状况、收入信用等级,地点、产品、折扣促销效果,性别、收入、兴趣偏好产品类型,分类算法的应用领域,分类及其相关的基本概念,分类属性,类别,训练数据集,属性,分类方法,LazyEager构建模型测试、使用模型,分类:构建模型,Tenured?,分类:测试分类模型并预测,分类的概念与过程,分类技术,决策树(decision tree)朴素贝叶斯(Nave Bayes)K近邻(K nearest Neighbors)基于关联的分类支持向量机(Support Vector Machines)人工神经网络Logistic Regress
5、ion,4.2 决策树分类方法,4.2 决策树分类方法,4.2.1 决策树的构建过程4.2.2 属性的类型及分裂条件4.2.3 决策树的剪枝,决策树的概念,决策树叶子节点:类别其余节点:测试属性树的层次 根结点的层次为1 根结点的子女结点的层次为2 边:一种基于此结点属性的判断(分裂)条件,根节点,叶子节点,双亲节点,子女节点,决策树(decision tree)是一个类似于流程图的树结构。树的最顶层节点是根节点,根节点与每个内部节点表示数据集合在某个属性上的测试,每个分枝代表一个数据子集的输出,而每个树叶节点代表类或类分布。,信息管理学院,=30,3040,40,yes,no,excelle
6、nt,fair,例:预测顾客是否可能购买计算机的决策树,信息管理学院,Refund,MarSt,TaxInc,YES,NO,NO,NO,Yes,No,Married,Single,Divorced,80K,80K,Splitting Attributes,训练数据,模型:决策树,决策树分类实例,信息管理学院,应用决策树进行分类,测试数据,Start from the root of tree.,信息管理学院,应用决策树进行分类,测试数据,信息管理学院,应用决策树进行分类,Refund,MarSt,TaxInc,YES,NO,NO,NO,Yes,No,Married,Single,Divorce
7、d,80K,80K,测试数据,信息管理学院,应用决策树进行分类,Refund,MarSt,TaxInc,YES,NO,NO,NO,Yes,No,Married,Single,Divorced,80K,80K,测试数据,信息管理学院,应用决策树进行分类,Refund,MarSt,TaxInc,YES,NO,NO,NO,Yes,No,Married,Single,Divorced,80K,80K,测试数据,信息管理学院,应用决策树进行分类,Refund,MarSt,TaxInc,YES,NO,NO,NO,Yes,No,Married,Single,Divorced,80K,80K,测试数据,Ass
8、ign Cheat to“No”,信息管理学院,构造决策树的方法采用自上而下递归的方式,如果:一个节点(训练集的子集合)上的数据都是属于同一个类别没有属性可以再用于对数据进行分割就将其作为一个叶子节点。否则,根据某种策略选择一个分裂属性,并按该属性的取值把实例集合划分为若干个子集合。并继续递归处理各子集。可基于启发式规则或者统计的度量,ID3算法选用最大信息增益法选择分裂属性,决策树的构建过程,决策树生成算法分成两个步骤:树的生成 起始时,数据都在根节点;采用递归方式进行数据分片 树的修剪 去掉一些可能是噪音或者异常的数据,决策树的构建过程,主要步骤:训练数据集D,类别集合C=c1,c2,ck
9、创建一个结点t,初始情况下训练数据集中的所有样本与根结点关联,记为Dt。将t设为当前结点。如果当前结点t所关联的数据集Dt中所有样本的类别相同(假设为ci),则将该结点标记为叶子节点,记录类别为ci,停止对该结点所关联的数据集的进一步分裂。接着处理其他非叶子节点。否则,进入下一步。为数据集Dt选择分裂属性和分裂条件。根据分裂条件将数据集Dt分裂为m个子集,为结点t创建m个子女结点,将这m个数据集分别与之关联。依次将每个结点设为当前结点,转至步骤2进行处理,直至所有结点都标记为叶子结点。,决策树的构建,奥卡姆剃刀(Occams Razor)原理:“如无必要,勿增实体”(Entities shou
10、ld not be multiplied unnecessarily)一棵小的树的预测能力更好采用分而治之的思想,利用贪心策略从局部出发来构造一棵大小紧凑的决策树。Hunt、ID3、C4.5、CART,信息管理学院,决策树的构建过程,算法:Generate_decision_tree由给定的训练数据产生一棵 决策树输入:训练样本samples,由离散值属性表示;侯选属性的集合attribute_list输出:一棵决策树方法:创建节点N;if samples都在同一个类 C then 返回N作为叶节点,以类C标记;if attribute_list 为空 then 返回N作为叶节点,标记为sam
11、ples中最普通的类:/多数表决,信息管理学院,选择attribute_list 中具有最高信息增益的属性test_attribute;标记节点N为test_attribute;for each test_attribute中的已知值ai/划分samples 由节点N长出一个条件为test_attribute=ai的分枝;设si是samples中的test_attribute=ai的样本集合;/划分 if si为空 then 加上一个树叶,标记为samples中最普通的类:else 加上一个由Generate_decision_tree(si,attribute-list-test-attri
12、bute)返回的节点,决策树的构建过程,信息管理学院,决策树分类原理Procedure BuildTree(S,A)(S:训练样本集,A:分类属性集合)用样本集S创建节点N if A为空 then 返回N,标记为S中最普遍的类 if N pure then 返回N else for 每一个属性 A 估计该节点在A上的信息增益 选出最佳的属性A*,将S分裂为Si,N长出分支 for each Si if Si 为空 then 返回叶节点,标记为S中最普遍的类 else BuildTree(Si,A-A*),决策树的构建过程,信息管理学院,分裂属性选择在树的每个节点上使用信息增益度量选择测试属性。
13、这种度量称作属性选择度量。选择具有最高信息增益的属性作为当前节点的测试属性。该属性使得对结果划分中的样本分类所需的信息量最小,并反映划分的最小随机性或不纯性。这种信息论的方法使得对一个对象分类所需的期望测试数目达到最小,并确保找到一棵简单(不必最简单)的树,第二节 决策树分类,信息管理学院,例题:样本个数10;类属性为hand_in papers,取值为c1=yes,c2=no.,分裂属性选择,信息管理学院,high,low,female,male,例题:样本个数10;类属性为hand_in papers,取值为c1=yes,c2=no.,决策树的构建过程,分裂属性和分裂条件的选择分裂属性的选
14、择通常利用类别纯度的衡量作为标准,信息熵和gini指数两种,信息管理学院,D是训练样本集合。假定类标号属性具有m个不同值ci(i=1,m)。设pi是D中任意元组属于类ci中的概率。对一个D中的元组分类所需的期望信息为(实现完全划分的信息需求、不纯性度量):信息熵:消除不确定性所需的信息量(bit),1比特的信息量指含有两个独立均等概率状态的事件不确定性被全部消除所需的信息。,分裂属性选择,分类属性的选择,信息熵entropy(D)数据集D及类别集合C=c1,c2,ckcount(ci):类别ci在D中出现的次数,p(ci):ci在D中出现的相对频率p(ci)=count(ci)/|D|D|代表
15、D中的数据行数,若两个类别均匀分布(0.5,0.5)Entropy=?,信息熵,若所有行属于同一类别:Entropy=?,信息管理学院,Info(D)=1,最高不纯性实现完全划分的信息需求最大,Info(D)=0,零不纯性已经实现完全划分信息需求为0,Info(D)=0.65,不纯性=实现完全划分的信息需求=0.65,信息管理学院,Info(D)=1Gini=0.5Error=0.5,最高不纯性实现完全划分的信息需求最大,Info(D)=0Gini=0Error=0,零不纯性已经实现完全划分信息需求为0,Info(D)=0.65Gini=0.278Error=0.167,不纯性=实现完全划分的
16、信息需求,分类属性的选择,按属性A分裂的信息熵entropy(D,A)数据集D按照属性A的分裂条件分裂出的m个子数据集分别为D1,D2,Dm,则entropy(D,A)综合这m个子数据集的信息熵就可以作为衡量一个属性A优劣的度gain(D,A):一个数据集D按属性A分裂前后信息熵的差值信息增益(information gain)gain(D,A)=entropy(D)-entropy(D,A),初始样本集合,某个分裂属性确定的样本子集,high,low,female,male,gender?,gpa?,接上例,信息管理学院,high,low,?,?,信息管理学院,第二节 决策树分类,作业:训练
17、样本集合D,样本个数14;类属性为buys_computer,取值为c1=yes,c2=no.,信息管理学院,作业:训练样本集合D,样本个数14;类属性为buys_computer,取值为c1=yes,c2=no.,集合D分类所需的期望信息(不纯性),信息管理学院,30,40,30-40,使用属性A(age)将训练样本集合D划分为D1,D2,D3,属性A,集合D1,集合D2,集合D3,信息管理学院,集合D3,集合D1,集合D2,使用age划分后,分类的期望信息(不纯性),使用age划分的信息增益为,信息管理学院,同样可以计算其它属性信息增益,得到age信息增益最大并选作分裂属性。用age来标记
18、节点,并对每个属性值引出分枝,?,?,=30,3040,40,50,基尼指数(Gini Index),如果集合T分成两部分 N1 and N2。那么这个分割的Gini就是提供最小Ginisplit 就被选择作为分割的标准.,Gini指标在CART中使用,并考虑每个属性的二元划分,其他分裂方法,CART算法:限定每次对数据集的分裂都是二分的若属性有个不同的取值a、b和c,则组合有3种情况 a和b,c、a,b和c及 a,c和b,信息增益的调整-增益比率,以属性“年龄”为例,分成的3个数据集的大小分别为4、5、5属性“年龄”的增益比率则为0.24/1.58=0.15,增益率(gain ratio)在
19、C4.5中使用,信息管理学院,增益率(gain ratio)在C4.5中使用,pj为属性A取不同值的概率。SplitI(A)值越小,表明属性A取值越少,GainRatio就越大,分类效果越好。,4.2.2 属性的类型及分裂条件,为了减少信息增益,需要确定根据属性A对数据集的分裂方法属性的分类定量(quantitative)和定性(qualitative)定量属性又称为数值(numerical)属性,每个取值为数值,既可以比较大小,又可以进行数值运算,如加、减、乘、除等。如:“年收入”定性属性又称为类别(categorical)属性,其取值不具有数的特点。定性属性又可以分为标称(nominal)
20、属性和序数(ordinal)属性属性从另一个角度又可以分为离散(discrete)属性和连续(continuous)属性,定性属性的分裂条件,一个数据集D若根据一个定性属性A进行分裂,假设A在D中的取值由集合VA表示,VA=a1,a1,am,则分裂条件为A=ai例如若按属性“婚姻”进行数据集分裂,则分裂条件为婚姻=单身、婚姻=已婚和婚姻=离异entropy(D,年龄)=0.69,entropy(D,性别)=0.89,按属性“婚姻”进行数据集分裂,定量属性的分裂条件(1),属性及分类属性抽出并按年收入升序排序对于定量属性A,设A在数据集D中有m个不同的取值,a1 ai,其中1im,定量属性的分裂
21、条件(2),以“年收入40万”为例可以证明不需要在每个取值处都计算信息熵,只需在类别发生变化的两个点处进行数据集的分裂并计算信息熵即可年收入50万”、“年收入65万”、“年收入80万”、“年收入86万”、“年收入91万”、“年收入96万”最小的是“年收入80万”,定量属性的分裂条件(3),数据集的信息熵entropy(D)=0.94.gain(D,年龄)=0.24,gain(D,年收入)=0.15,gain(D,性别)=0.05,gain(D,婚姻)=0.03.属性年龄的信息增益最大,故在根结点的分裂属性为“年龄”,4.2.3 决策树的剪枝,过度拟合(overfitting)过度拟合了训练集中
22、的样本特点,训练集的准确度高,但通常具有较低的概括(generalization)能力,在预测未知类别对象时的准确率较低拟合不足(underfitting)如果过早地停止对结点的进一步分裂也会导致拟合不足问题剪枝(pruning)优化先剪枝(pre-pruning)后剪枝(post-pruning),子树替换(subtree replacement)方法,C4.5中所用的基于误差估计的剪枝方法,子树替换剪枝:概括误差估计,子树替换剪枝:概括误差估计,基于统计的误差上界估计将上式中的不等式改为等式,解出p的上限为下式,作为每个结点中分类误差的悲观估计通过查标准正态分布表格,当=25%时z=0.6
23、9。C4.5中的默认值为25%。,信息管理学院,思考问题:,对算法感兴趣的同学:ID3算法是选用最大信息增益作为选择分裂属性的标准,C4.5与CART两种方法是用什么度量选择分裂属性的?对编程、数据挖掘软件感兴趣的同学:使用程序编写ID3算法,并用例题检验程序;使用spss modeler(climentine)等数据挖掘软件求解例题。,4.3 朴素贝叶斯分类方法,信息管理学院,定义 事件组A1,A2,An(n可为),称为样本空间 S的一个划分,若满足:,A1,A2,An,B,贝叶斯定律回顾,信息管理学院,定理 设A1,,An是S的一个划分,且P(Ai)0,(i1,n),则对任何事件BS,有,
24、称为贝叶斯公式。,贝叶斯定律回顾,信息管理学院,朴素贝叶斯分类:假定一个属性值对给定类的影响独立于其他属性的值,这一假定称作类条 件独立。做此假定是为了简化计算,并在此意义下被称为“朴素的”贝叶斯信念网络:是图形模型,可以表示属性子集间的依赖,贝叶斯分类主要包括:,朴素贝叶斯分类,给定一个样本变量X的一个观察到的样本x,由n个属性A1,A2,An描述,其属性取值分别为x1,x2,xn,即x=(x1,x2,xn),要判断其所属的类别,即类别属性Y的取值,C=c1,c2,ck贝叶斯定理:,朴素贝叶斯分类,假设给定类别变量取值一定的情况下,各个属性取值之间互相独立,则,概率计算,P(ci)可以用训练
25、数据集中类别ci出现的次数占训练数据集总行数的比例来近似对于定性属性,P(xj|ci)可以通过计算类别为ci的样本中属性Aj取值为xj的样本所占比例来近似对于定量属性,有两种方法。一种方法是先将该属性取值离散化假设变量服从某种概率分布,通过训练数据集估计分布的参数,概率计算,对于定量属性,有两种方法。假设变量服从正态分布N(,2)。计算P(xj|ci)时,在类别为ci的样本中为属性Aj(xj是属性Aj的取值)的取值计算均值ij和标准差ij,然后利用下面的公式进行近似估计,x=(年龄30,男,年收入30万,单身),要预测其是否购买豪华车,平滑处理,在计算P(是|x)时,由于年龄30的情况在类别为
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 商务 智能 分类 算法
链接地址:https://www.31ppt.com/p-2907024.html