数据挖掘概念与技术CHAPTER6-分类基本概念.ppt
1,Chapter 6.分类:基本概念,分类:基本概念决策树归纳贝叶斯分类基于规则的分类模型评价与选择提高分类准确率的技术:集成方法Ensemble MethodsSummary,2,有监督 vs.无监督学习,有监督学习(分类)监督:训练数据(观察,测量等)都带有标签,指示观察的类别根据训练集分类新数据无监督学习(聚类)训练集的类别(标签)未知给定一个观察,测量等的集合,目标是建立数据中存在的数据的类或簇,3,分类预测分类的类标签(离散 or名义)基于训练数据和类标签 构造一个模型,并分类新数据数值预测 建连续值函数/模型,预测未知/缺失值 典型应用信用卡/贷款审批:医疗诊断:肿瘤是癌或良性?欺诈检测:交易欺诈?网页分类:这是哪一类?,预测问题:分类vs.数值预测,4,分类:一个两步的过程,模型构建:描述一组预先定义的类假定每个元组/样本 属于一个类,由类标签属性设定用于构建模型的元组集合称为训练集training set模型可以表示为分类规则,决策树,数学公式模型使用:分类将来/未知对象估计模型的准确率测试集:独立于训练集的样本(避免过分拟合overfitting)比较测试样本的已知标签/由模型预测(得到)标签准确率:测试样本集中模型正确预测/分类的样本的比率如果准确率合时,使用模型来分类标签为未知的样本,5,Process(1):模型构建,TrainingData,ClassificationAlgorithms,IF rank=professorOR years 6THEN tenured=yes,Classifier(Model),6,Process(2):Using the Model in Prediction,Classifier,TestingData,Unseen Data,(Jeff,Professor,4),Tenured?,Issues:Evaluating Classification Methods,Accuracyclassifier accuracy:predicting class labelpredictor accuracy:guessing value of predicted attributesSpeedtime to construct the model(training time)time to use the model(classification/prediction time)Robustness:handling noise and missing valuesScalability:efficiency in disk-resident databases Interpretabilityunderstanding and insight provided by the modelOther measures,e.g.,goodness of rules,such as decision tree size or compactness of classification rules,8,Chapter 6.分类:决策树归纳,分类:基本概念决策树归纳贝叶斯分类基于规则的分类模型评价与选择提高分类准确率的技术:集成方法Ensemble MethodsSummary,9,决策树归纳:例子,训练集:购买计算机结果:,10,决策树归纳的算法,基本算法(贪心算法)树构建:自顶向下递归地分治方式开始,所有的训练样本位于根节点属性是分类属性(若是连续值,事先离散化)基于选择的属性,样本被递归地分割基于启发式/统计测来选择测试属性(例如 信息增益)终止划分的条件一个给定节点的所有样本属于一个类别没有属性剩下,用于进一步划分 运用多数投票来标记此节点没有样本剩下,属性选择度量,属性选择度量分裂规则,决定给定节点上的元组如何分裂具有最好度量得分的属性选定位分裂属性三种度量信息增益、增益率、Gini指标数学符号D为元组的训练集,元组属于m个不同的类Ci(i=1,m)Ci,D是D中的Ci类的元组集合|Ci,D|和|D|分别表示各自的元组个数,13,选择具有最高信息增益的属性令 pi 为D中的任一元组属于类 Ci概率,估计为|Ci,D|/|D|分类D中元组需要的期望信息(entropy):(利用 A 分裂D 为v个部分后)分类D 需要的信息为:以属性A分枝得到的信息增益,属性选择度量:信息增益(ID3/C4.5),14,Class P:买电脑=“yes”Class N:买电脑=“no”,属性选择:信息增益,15,计算信息增益-连续值属性,令 A 为连续属性必须为A确定一个最佳分裂点 best split point上升序排序 A 典型地,每对相邻值的中点是一个可能的分裂点(ai+ai+1)/2 is the midpoint between the values of ai and ai+1具有最小期望信息需求的点选为A的分裂点Split:D1 为D中元组满足 A split-point,D2 是元组满足 A split-point,16,增益率(C4.5),信息增益倾向于有大量不同取值的属性(划分更细,更纯)极端:每个划分子集只有一个样本,即一个类此时Info(d)=0 C4.5(ID3 后继)使用增益率来克服这一问题(规范化信息增益)GainRatio(A)=Gain(A)/SplitInfo(A)Ex.gain_ratio(income)=0.029/1.557=0.019具有最大增益率的属性选为分裂属性,17,Gini Index指标(CART),数据 D 包含n 类别的样本,gini指标,gini(D)定义为 pj 类别 j 在D中的频率数据集 D 基于属性A 分裂为子集 D1 和 D2,gini 指标定义为不纯度减少:具有最小ginisplit(D)的属性(or不纯度减少最大的)用于分裂节点(需要枚举所有可能的分裂情况),18,计算 Gini Index 指标,D 有 9个元组买电脑=“yes”/5 个买电脑=“no”设属性income分裂D为包含10个元组的D1:low,medium/4个元组的D2 Ginilow,high=0.458;Ginimedium,high=0.450.因此low,medium/high分裂,由于其有最小的Gini index假设所有属性都是连续值,需要其他技术,e.g.,聚类,来获得可能的分裂点,19,比较属性选择度量,通常三种度量获得较好的结果信息增益Information gain:偏向于多值属性增益率Gain ratio:倾向于不平衡的分裂,其中一个子集比其他小得多Gini index:偏向于多值属性当类数目较大时,计算困难倾向于导致大小相等的分区和纯度,20,其他属性选择度量,CHAID:一种流行的决策树算法,基于独立 2 检验的选择度量C-SEP:某些情况下比信息增益gini指标更好G-statistic:非常近似于 2 分布MDL(最小描述长度)(i.e.,首选最简单的解):最佳树为需要最小二进位的树(1)编码树,(2)编码树的异常多元划分(基于多变量组合来划分)CART:基于属性的线性组合来发现多元划分哪一个是最好的?大部分可以获得较好结果,没有一个显著地优于其他,21,过拟合与数剪枝,过拟合Overfitting:一棵归纳的树 可能过分拟合训练数据分枝太多,某些反映训练数据中的异常,噪音/孤立点对未参与训练的样本的低精度预测两种处理方法 先剪枝:提前终止树构造 如果对一个节点的分裂会产生低于给定的阈值的度量,划分停止选择一个合适的阈值很难后剪枝:从完全生长的树中剪去树枝得到一个逐步修剪树例如,最小化代价复杂度(树节点个数和错误率的函数)使用不同于训练集的数据来确定哪一个是“best pruned tree”,22,决策树归纳的增强,允许连续值属性动态地定义新的离散值属性,其把连续值属性分成离散的区间处理缺失属性值分配属性的最常见值为每一个可能的值分配概率属性构造基于现有的稀少出现的属性创建新的属性,这减少了分散,重复和复制,23,大型数据库中分类,分类被统计学和机器学习研究人员广泛地研究一个经典问题可伸缩性:以合理的速度分类由带有数百个属性的百万个样本组成的数据集为什么决策树归纳受欢迎?相对快的训练速度(与其他分类方法相比)转换为简单、易于理解的分类规则可用 SQL查询来访问数据库与其它方法可比的分类精度RainForest(VLDB98 Gehrke,Ramakrishnan&Ganti)Builds an AVC-list(attribute,value,class label),24,RainForest雨林的可扩展性框架,可扩展性和确定质量树的标准相分离建并维持 AVC-list:AVC(属性-值,类标号)AVC集(of an attribute X)把训练集投影到属性X和类标签上,给出属性X的每个值上的类标签计数AVC组群(在节点n)节点n上所有预测属性的AVC集合-组群,25,Rainforest:训练集和AVC集,AVC-set on income,AVC-set on Age,AVC-set on Student,Training Examples,AVC-set on credit_rating,26,BOAT(Bootstrapped Optimistic Algorithm for Tree Construction),使用一个叫做 bootstrapping 自助法的统计技术多个更小的样本集(子集),每一个可放入内存每个子集产生一个树,导致多个树 考察这些树并用他们构造一个新树T事实证明,T 非常接近于使用全部数据集构造的树Adv:只要求扫描DB两遍,并且是一个增量算法.,2023年10月14日星期六,Data Mining:Concepts and Techniques,27,分类结果的陈述/表示,2023年10月14日星期六,Data Mining:Concepts and Techniques,28,决策树可视化SGI/MineSet 3.0,SGI公司和美国Standford大学联合开发的多任务数据挖掘系统。MineSet以先进的可视化显示方法闻名于世,29,Chapter 6.分类:贝叶斯分类,分类:基本概念决策树归纳贝叶斯分类基于规则的分类模型评价与选择提高分类准确率的技术:集成方法Ensemble MethodsSummary,30,贝叶斯理论,令X 为数据样本:类标签未知令H为一个假设在:X属于类别 C 分类就是确定 P(H|X)(后验概率),给定观察数据 X,假设H成立的概率P(H)(先验概率)最初的概率例,不管年龄和收入等条件 X将会购买计算机P(X):样本数据x被观察到的概率P(X|H)(可能性),假设H成立,那么观测到样本X的概率E.g.,已知X购买计算机,X 为31.40且中等收入的概率,31,贝叶斯理论Bayesian Theorem,给定训练数据 X,假设 H的后验概率 P(H|X满足贝叶斯理论通俗地说,这可以写成posteriori=likelihood x prior/evidence预测X属于类别C2当且仅当概率P(Ci|X)是所有 P(Ck|X)for all the k classes最大的实际困难:需要许多可能性的初步知识,计算成本显著,32,Nave Bayesian Classifier,D为训练数据集(包含类别标签),并且每个元组表示为一个n-维的属性向量X=(x1,x2,xn)假定有 m 个类别 C1,C2,Cm.分类就是推导最大的后验概率,i.e.,the maximal P(Ci|X)可以由贝叶斯理论计算由于对所有类P(X)是常量,只需要最大化,33,朴素贝叶斯分类器的推导,一个简单假定:属性是条件独立的(i.e.,属性间没有依赖关系):这样极大地减少了计算代价:只需要统计类的分布若Ak 是分类属性P(xk|Ci)=Ci 类中Ak 取值为xk 的元组数/|Ci,D|(类Ci 的大小)若Ak 是连续值,P(xk|Ci)通常基于均值 标准差 的高斯分布计算P(xk|Ci)=,34,朴素贝叶斯分类:训练数据集,两个类别:C1:buys_computer=yesC2:buys_computer=no数据样本 X=(age=30,Income=medium,Student=yesCredit_rating=Fair),35,Nave Bayesian Classifier:例子,P(Ci):P(buys_computer=“yes”)=9/14=0.643 P(buys_computer=“no”)=5/14=0.357Compute P(X|Ci)for each class P(age=“=30”|buys_computer=“yes”)=2/9=0.222 P(age=“=30”|buys_computer=“no”)=3/5=0.6 P(income=“medium”|buys_computer=“yes”)=4/9=0.444 P(income=“medium”|buys_computer=“no”)=2/5=0.4 P(student=“yes”|buys_computer=“yes)=6/9=0.667 P(student=“yes”|buys_computer=“no”)=1/5=0.2 P(credit_rating=“fair”|buys_computer=“yes”)=6/9=0.667 P(credit_rating=“fair”|buys_computer=“no”)=2/5=0.4 X=(age=30,income=medium,student=yes,credit_rating=fair)P(X|Ci):P(X|buys_computer=“yes”)=0.222 x 0.444 x 0.667 x 0.667=0.044 P(X|buys_computer=“no”)=0.6 x 0.4 x 0.2 x 0.4=0.019P(X|Ci)*P(Ci):P(X|buys_computer=“yes”)*P(buys_computer=“yes”)=0.028 P(X|buys_computer=“no”)*P(buys_computer=“no”)=0.007Therefore,X belongs to class(“buys_computer=yes”),36,贝叶斯分类:Why?,一个统计学分类器:执行概率预测,i.e.,预测类成员的概率基础:基于贝叶斯理论 Performance:一个简单的贝叶斯分类器,朴素贝叶斯分类器,可以与决策树和经过挑选的神经网络分类器相媲美增量:每次训练的样本可以逐步增加/减少一个假设是正确的可能性先验知识可与观测数据相结合Standard:即使贝叶斯方法是难以计算的,最优决策制定提供标准(其他方法可以衡量),37,避免零概率问题,朴素贝叶斯要求每个条件概率非零.然而,预测的概率可能为零Ex.假定有1000 元组,e=low(0),income=medium(990),and income=high(10)Use Laplacian correction校准(or Laplacian estimator估计法)Adding 1 to each caseProb(income=low)=1/1003Prob(income=medium)=991/1003Prob(income=high)=11/1003校准的“corrected”概率估计很接近未校准的,38,Nave Bayesian Classifier:评论,Advantages Easy to implement Good results obtained in most of the casesDisadvantagesAssumption:类条件独立性,损失精度实际中,变量间存在依赖 E.g.,医院:患者:简介:年龄,家族病史等症状:发烧,咳嗽等疾病:肺癌,糖尿病等 Dependencies among these cannot be modeled by Nave Bayesian ClassifierHow to deal with these dependencies?Bayesian Belief Networks,39,Chapter 6.分类:基于规则的分类,分类:基本概念决策树归纳贝叶斯分类基于规则的分类模型评价与选择提高分类准确率的技术:集成方法Ensemble MethodsSummary,40,使用IF-THEN 规则分类,使用 IF-THEN 规则表示知识R:IF age=youth AND student=yes THEN buys_computer=yes规则前件/前提 vs.规则结论评估规则:覆盖率coverage and 准确率accuracy ncovers=#规则R覆盖的元组数%给定元组,规则的前提满足覆盖元组ncorrect=#R正确分类的元组数coverage(R)=ncovers/|D|/%D:训练数据集accuracy(R)=ncorrect/ncovers如果超过1条规则被触发,需要解决冲突规模序Size ordering:最高优先权赋予“最苛刻”的规则(即,最多属性测试)基于类的序:每个类的错误分类代价的下降序基于规则的序(决策表):根据一些规则的质量度量或由专家建议,规则被组织成一个长的优先级列表,41,Example:Rule extraction from our buys_computer decision-treeIF age=young AND student=no THEN buys_computer=noIF age=young AND student=yes THEN buys_computer=yesIF age=mid-age THEN buys_computer=yesIF age=old AND credit_rating=excellent THEN buys_computer=noIF age=old AND credit_rating=fair THEN buys_computer=yes,从决策树提取规则,规则比一棵大的决策树更容易理解从根到每个叶子的路径产生一个规则沿路径的每个属性值对一起形成了一个联合:叶节点形成规则后件 规则是互斥的和穷举的没有冲突规则,每个元组被覆盖,42,顺序覆盖算法的规则归纳,顺序覆盖算法:直接从训练数据抽取规则典型的算法:FOIL,AQ,CN2,RIPPER规则被顺序地学习,类Ci 的规则将尽量覆盖Ci 的元组,不或少覆盖其他类的元组Steps:一次学习一个规则每学习一个规则,删除此规则覆盖的元组对剩下的元组重复该过程直到终止条件,e.g.,没有训练样本/返回的规则的质量低于用户给定的阈值与决策树对照:同时学习一组规则,43,顺序覆盖算法,while(enough target tuples left)产生一个规则删除这个规则覆盖的元组,Examples coveredby Rule 3,Examples coveredby Rule 2,Examples coveredby Rule 1,Positive examples,44,Rule Generation,To generate a rulewhile(true)找到最好的谓词pif 规则质量度量(p)threshold then add p to current ruleelse break,Positive examples,Negative examples,A3=1,A3=1&A1=2,A3=1&A1=2&A8=5,如何学习一个规则?,从可能的最一般的规则开始:condition=empty采用贪心的深度优先策略添加新属性(于规则中)选择对“规则质量”提高最大的那个属性,47,规则质量度量与剪枝,规则质量度量:同时考虑 覆盖率和准确率Foil-gain(in FOIL&RIPPER):评价扩展条件的info_gain偏向于具有高准确率并覆盖许多正元组的规则正用于学习规则的类的元组正元组;其余为负元组 Pos(neg):规则覆盖的正(负)元组数基于一个独立的测试集进行规则剪枝(即删除一个属性测试)Pos/neg are#被R覆盖的正/负元组.If 规则R 剪枝后FOIL_Prune 较高,那么剪枝R,48,Chapter 6.分类:模型评价与选择,分类:基本概念决策树归纳贝叶斯分类基于规则的分类模型评价与选择提高分类准确率的技术:集成方法Ensemble MethodsSummary,模型评价与选择,评价指标:怎样度量准确率?考虑其他指标?使用测试集(带标签)代替训练集评估准确度估计分类器准确率的方法:Holdout method,random subsampling交叉验证 Cross-validation自助法(解靴带)BootstrapComparing classifiers:置信区间Confidence intervals代价效益分析和ROC曲线Cost-benefit analysis and ROC Curves,49,分类器评价指标:混淆矩阵,感兴趣的类定为“正类”或“阳性类”,对应的为“负/阴性类”正样本/负样本 给定 m 个类,CMi,j 表示#类i的样本被分类器分到类别 j 的个数可以提供额外的行/列提供“合计”和“识别率”,混淆矩阵Confusion Matrix:,例子:,50,分类器评价指标:准确度,误差率,灵敏性Sensitivity,特效性Specificity,分类器准确度,or 识别率:测试元组被正确识别的比例Accuracy=(TP+TN)/All误差率:1 accuracy,orError rate=(FP+FN)/All,Class Imbalance Problem类分布不平衡问题:One class may be rare,e.g.fraud,or HIV-positiveSensitivity:True Positive recognition rateSensitivity=TP/PSpecificity:True Negative recognition rateSpecificity=TN/N,51,分类器评价指标:Precision and Recall,and F-measures,Precision:正确 被分类器标记为正类的样本中实际上属于“正类”的比例Recall:completeness完全 what%of positive tuples did the classifier label as positive?Perfect score is 1.0精度和召回率逆关系F measure(F1 or F-score):精度和召回的调和平均值,F:精确度和召回率的加权量assigns times as much weight to recall as to precision,52,分类器评价指标:例子,53,Precision=90/230=39.13%Recall=90/300=30.00%,评测分类器的正确率:Holdout&Cross-Validation Methods,Holdout method给定数据随机分成两个部分训练集(e.g.,2/3)用于模型构造测试集(e.g.,1/3)用于正确率估计随机抽样:a variation of holdout重复holdout k次,accuracy=所有正确率的平均值Cross-validation(k-fold,k=10 最常用)随机分割数据为 k 互不相交的子集,每一个大小近似相等在i-th 迭代中,使用Di 为测试集其他的为训练集留一法:k folds where k=#of tuples,for small sized data*Stratified cross-validation*:每个部分分层使得每个子集中类分布近似于原始数据,54,评测分类器的正确率:Bootstrap,Bootstrap对于小样本数据,效果很好从给定样本中又放回的均匀抽样 with replacementi.e.,每次一个样本被选中,把它加入训练集并且等可能得被再次选中多个自助法,最常用的是.632 boostrap含 d 个样本的数据集有放回抽样d 次,产生d个样本的训练集.没有被抽到的样本组成测试集.大约63.2%的样本被抽中,剩余的36.8%形成测试集(因为(1 1/d)d e-1=0.368)重复抽样过程k 次,总体准确率为:,55,估计置信区间:分类器 M1 vs.M2,假定有连个分类器 M1 and M2,那一个更好?用10-fold cross-validation获得了这些平均误差率仅仅是未来数据总体误差的一种估计2个错误率之间差别如果是否是偶然的?使用统计显著性检验 获得估计误差的confidence limits置信界,56,估计置信区间:Null Hypothesis,执行 10-fold cross-validation假定样本服从k1个自由度的 t distribution(k=10)degrees of freedom Use t-test(or Students t-test)零假设 Null Hypothesis:M1&M2 相同(即没有区别)如果可以拒绝 null hypothesis,那么 可以断定M1&M2 间的不同是统计上显著的Chose model with lower error rate,57,估计置信区间:t-test,当只有一个测试集时:成对比较 pairwise comparison对于10倍交叉验证中的 ith round,使用相同的样本分割 来计算 err(M1)i and err(M2)i然后球平均over 10t-test computes t-statistic with k-1 degrees of freedom:如果有连个测试集:use non-paired t-test,其中,and,where,where k1&k2 are#of cross-validation samples used for M1&M2,resp.,58,估计置信区间:Table for t-distribution,SymmetricSignificance level,e.g.,sig=0.05 or 5%means M1&M2 are significantly different for 95%of populationConfidence limit,z=sig/2,59,估计置信区间:Statistical Significance,M1&M2 是否显著得不同?Compute t.Select significance level(e.g.sig=5%)Consult table for t-distribution:Find t value corresponding to k-1 degrees of freedom(here,9)t-分布对称:通常显示分布的上百分点%查找值confidence limit z=sig/2(here,0.025)If t z or t-z,那么t的值位于拒绝域:Reject null hypothesis that mean error rates of M1&M2 are sameConclude:statistically significant difference between M1&M2 Otherwise,conclude that any difference is chance,60,模型选择:ROC Curves,ROC(Receiver Operating Characteristics)curves:图形比较分类模型源于信号检测理论true positive rate和false positive rate间的折衷ROC 曲线下的面积就是模型正确率的度量测试元组递减序排列:最可能属于正类的排在最顶端The closer to the diagonal line(i.e.,the closer the area is to 0.5),the less accurate is the model,垂直坐标表示the true positive rate水平坐标表示the false positive rate同时显示对角线A model with perfect accuracy will have an area of 1.0,61,62,Chapter 6.分类:集成方法,分类:基本概念决策树归纳贝叶斯分类基于规则的分类模型评价与选择提高分类准确率的技术:集成方法Ensemble MethodsSummary,集成方法:Increasing the Accuracy,集成方法 Ensemble methods使用多个模型的组合来提高accuracy组合多个学习的模型,M1,M2,Mk,来获得一个提高的模型M*Popular ensemble methods装袋Bagging:多个分类器的结果进行多数表决提升Boosting:多个分类器的结果权重投票集成Ensemble:combining a set of heterogeneous classifiers,63,装袋Bagging,训练给定包含d个元组的数据D,在第 i次迭代,从D中有放回抽取d个样本组成训练集Di(i.e.,bootstrap),从Di 学习一个分类器Mi 分类:分类一个未知样本 X 每个分类器 Mi 给出预测结果装袋分类器M*计算投票,把得票最多的类分配给X预测:每个分类器预测的值的平均值正确性Accuracy常常优于D 上单个分类器的正确率对噪音数据:不会很差,更健壮Proved improved accuracy in prediction,64,提升 Boosting,类比:咨询几个医生,在原来的诊断准确性的基础上分配权重,加权诊断的组合为结果Boosting如何工作?Weights 分配给每个训练样本迭代学习一系列分类器学习Mi 后,权重更新使得,后续得分类器Mi+1更关注于Mi错误分类的训练样本最后的分类器M*组合了每个独立分类器的投票,其中每个分类器的权重势其正确率的函数可以扩充Boosting 算法用于数值预测与bagging比较:Boosting倾向于得到更高的准确率,但有过拟合错误分类数据的风险,65,66,Adaboost(Freund and Schapire,1997),数据集含 d class-labeled 元组,(X1,y1),(Xd,yd)最初,每个元组的权重为1/d在k轮中产生 k classifiers.在第 i轮,从D 有放回抽取训练集 Di(大小相等每个元组被选中的概率基于其权重分类模型Mi 学习自Di使用Di为测试集计算误差率如果一个元组被错分,权重增加,o.w.否则下降误差率:err(Xj)为错误分类元组Xj误差,分类器Mi 误差率是元组错误分类的权重和:分类器Mi投票权重为,随机森林Random Forest(Breiman 2001),Random Forest:每个分类器为decision tree,在每个结点上使用随机选出的属性来分裂产生判定树分类时,每棵树投票得票最多的类返回结果两种构造方法:Forest-RI(random input selection):每个结点随机选F 个属性为分裂的候选.用CART方法产生最大尺寸的树Forest-RC(random linear combinations):以现有属性的线性组合来产生新属性(降低了单个分类器间的相关性)准确率比得上Adaboost,对误差和孤立点更稳健 每次分裂时对选出的候选属性数目不敏感,faster than bagging or boosting,67,分类类别不平衡数据集,类别不平衡问题.传统的方法假定平衡的类别分布和相等的错误代价:不适合二元分类中典型的方法处理不平衡数据:过采样Oversampling:对正类数据过/多采样Under-sampling:随机减少负类的样本阈值-移动Threshold-moving:移动判定阈值t,使得少数类元组更容易识别,减少(昂贵的)假阴性错误的机会集成技术:Still difficult for class imbalance problem on multiclass tasks,68,69,预测误差的度量,度量预测准确率:度量预测值与真实值的距离损失函数:度量 yi 和预测值yi 间的误差绝对误差Absolute error:|yi yi|平方误差Squared error:(yi yi)2 检验误差(泛化误差generalization error):平均绝对误差:均方误差Mean squared error:Relative absolute error:Relative squared error:均方误差夸大了离群点Popularly use(square)root mean-square error,similarly,root relative squared error,70,What Is Prediction?,(Numerical)预测类似于分类构建一个模型利用模型来估计给定输入的连续或排序的值与分类的不同分类是预测类别标签预测是模型连续值函数Major method for prediction:regression模型一个或多个预测变量和相应变量间的关系Regression analysis线性和多元回归非线性回归其他方法:generalized linear model,Poisson regression,log-linear models,regression trees,71,线性回归,Linear regression:包含一个响应变量y 和一个预测变量xy=w0+w1 xMethod of least squares:estimates the best-fitting straight line多元线性回归:包含多个预测变量Training data is of the form(X1,y1),(X2,y2),(X|D|,y|D|)对2-D数据,有y=w0+w1 x1+w2 x2通常用统计软件包求解 SAS,S-Plus多个非线性函数可以表示成上面这种形式,72,某些非线性模型可以用多项式函数多项式回归模型可以变换为线性回归模型.例如y=w0+w1 x+w2 x2+w3 x3借助新变量:x2=x2,x3=x3y=w0+w1 x+w2 x2+w3 x3 其他函数,如幂函数,也可以转化为线性函数Some models are intractable nonlinear(e.g.,指数相求和)可能通过更复杂的公式综合计算,得到最小二乘估计,非线性回归,2023年10月14日星期六,Data Mining:Concepts and Techniques,73,Generalized linear model:Foundation on which linear regression can be applied to modeling categorical response variablesVariance of y is a function of the mean value of y,not a constantLogistic regression:models the prob.of some event occurring as a linear function of a set of predictor variablesPoisson regression:mode