数据挖掘第8章-分类:基本概念.ppt
数据挖掘与商务智能,范勤勤物流研究中心,第八章 分类,基本概念,4,分类 VS.预测,5,一个两步过程,6,第一步建立模型,7,第二步用模型进行分类,8,有指导的学习 VS.无指导的学习,决策树归纳,10,用决策树归纳分类,决策树:Buys_computer,11,用决策树归纳分类,12,决策树归纳策略,13,属性选择度量,14,信息增益,15,例8.1,16,例8.1,代表“age=30”占14个样本中的5个有2个yes和3个no,Class P:buys_computer=“yes”Class N:buys_computer=“no”,相应的,,计算对D中元组分类所需要的期望信息:,若元组根据age划分,则:,这种划分的信息增益:,17,计算连续值属性的信息增益,18,增益率,19,基尼指数,20,属性选择度量对比,21,过度拟合与树剪枝,22,可伸缩性与决策树归纳,23,雨林:训练集和它的AVC-集,AVC-set on income,AVC-set on Age,AVC-set on Student,AVC-set on credit_rating,贝叶斯分类方法,25,贝叶斯定理,26,朴素贝叶斯分类(Nave Bayesian),类条件独立,27,使用朴素贝叶斯分类预测类标号,28,使用朴素贝叶斯分类预测类标号,29,使用朴素贝叶斯分类预测类标号,30,使用拉普拉斯校准避免计算零概率值,基于规则的分类,32,使用IF-THEN规则分类,33,使用IF-THEN规则分类,34,由决策树提取规则,模型评估与选择,36,模型评估与选择,37,评估分类器性能的度量,正组元(P):感兴趣的主要类的元组。负组元(N):其他元组。真正例(True Positive,TP):是指被分类器正确分类的正元组。真负例(True Negative,TN):是指被分类器正确分类的负元组。假正例(False Positive,FP):是被错误地标记为正元组的负元组。假负例(False Negative,FN):是被错误地标记为负元组的正元组。,38,评估分类器性能的度量:混淆矩阵,39,准确性、错误率、敏感度和特效性,40,精度、召回率、F 度量,41,例子,Precision=90/230=39.13%Recall=90/300=30.00%,42,保持方法,随机二次抽样,43,自助法,44,使用统计显著性检验选择模型,45,使用统计显著性检验选择模型,46,t-检验,47,使用统计显著性检验选择模型,提高分类准确率的技术,49,提高分类准确率的技术,50,装袋:自助聚集,51,提升,52,Adaboost,53,提高类不平衡数据的分类准确率,谢,谢,关,注,欢,迎,指,导,