《决策树分类.ppt》由会员分享,可在线阅读,更多相关《决策树分类.ppt(37页珍藏版)》请在三一办公上搜索。
1、Bagging&Boosting,分类,决策树分类:ID3C4.5贝叶斯分类后向传播分类其它分类,分类法的准确性,评估分类法的准确率 保持(holdout)K-次交叉验证(k-fold cross validation)提高分类法的准确率baggingboosting,评估分类法的准确率,保持(holdout)划分为两个独立的数据集:通常:训练集(2/3),测试集(1/3)变形:随机子选样,数据,训练集,测试集,导出分类法,评估准确性,评估分类法的准确率,K-次交叉验证将数据集分为k个子集;用k-1个子集作训练集,1个子集作测试集,然后k次交叉验证;,数据,S1,S2,Sk,训练集,测试集,提
2、高分类法的准确率,Bagging Boosting,数据,C1,C2,Ct,组合得票,新数据样本,类预测,Bagging,基本思想:给定一个弱学习算法,和一个训练集;单个弱学习算法准确率不高;将该学习算法使用多次,得出预测函数序列,进行投票;最后结果准确率将得到提高.,Bagging,算法:For t=1,2,T Do 从数据集S中取样(放回选样)训练得到模型Ht 对未知样本X分类时,每个模型Ht都得出一个分类,得票最高的即为未知样本X的分类也可通过得票的平均值用于连续值的预测,Bagging,Bagging,Bagging要求“不稳定”的分类方法;比如:决策树,神经网络算法不稳定:数据集的小
3、的变动能够使得分类结果的显著的变动。“The vital element is the instability of the prediction method.If perturbing the learning set can cause significant changes in the predictor constructed,then bagging can improve accuracy.”(Breiman 1996),Boosting背景,来源于:PAC-Learning Model Valiant 1984-11提出问题:强学习算法:准确率很高的学习算法弱学习算法:准确率
4、不高,仅比随机猜测略好是否可以将弱学习算法提升为强学习算法,Boosting背景,最初的boosting算法 Schapire 1989AdaBoost算法 Freund and Schapire 1995,Boosting,基本思想:每个样本都赋予一个权重T次迭代,每次迭代后,对分类错误的样本加大权重,使得下一次的迭代更加关注这些样本。Boosting也要求“不稳定”的分类方法,Boosting,过程:在一定的权重条件下训练数据,得出分类法Ct根据Ct的错误率调整权重,Set of weightedinstances,Classifier Ct,train classifier,adjust
5、 weights,Boosting,AdaBoostAdaBoost.M1AdaBoost.M2,AdaBoost,输入:(X1,Y1),(X2,Y2),(Xn,Yn)XiX,YiY=+1,-1 初始化:D1(i)=1/nFor t=1,T在Dt下训练,得到弱的假设ht:X-1,+1,错误率:t=Dt(i)ht(Xi)Yi 选择t=1/2 ln(1-t)/t),更改权值:if ht(Xi)Yi,Dt+1(i)=Dt(i)*e t/Zt if ht(Xi)=Yi,Dt+1(i)=Dt(i)*e-t/Zt输出:H(X)=sign(tht(X),AdaBoost.M1,初始赋予每个样本相等的权重1/
6、N;For t=1,2,T Do 学习得到分类法Ct;计算该分类法的错误率Et Et=所有被错误分类的样本的权重和;t=Et/(1-Et)根据错误率更新样本的权重;正确分类的样本:Wnew=Wold*t 错误分类的样本:Wnew=Wold调整使得权重和为1;每个分类法Ct的投票价值为log 1/t,Boosting,AdaBoost training error,将t=1/2-Et;Freund and Schapire 证明:最大错误率为:即训练错误率随t的增大呈指数级的减小.,AdaBoost generalization error(1),最大总误差:m:样本个数d:VC维T:训练轮数P
7、r:对训练集的经验概率如果T值太大,Boosting会导致过适应(overfit),AdaBoost generalization error(2),许多的试验表明:Boosting不会导致overfit,AdaBoost generalization error(3),解释以上试验现象;样本(X,Y)的margin:margin(x,y)=t=1/2 ln(1-t)/t)较大的正边界表示可信度高的正确的预测较大的负边界表示可信度高的错误的预测,AdaBoost generalization error(4),解释:当训练误差降低后,Boosting继续提高边界,从而增大了最小边界,使分类的可
8、靠性增加,降低总误差.总误差的上界:该公式与T无关,Boosting其它应用,Boosting易受到噪音的影响;AdaBoost 可以用来鉴别异常;具有最高权重的样本即为异常.,Bagging 和boosting的区别,训练集:Bagging:随机选择,各轮训练集相互独立Boosting:各轮训练集并不独立,它的选择与前轮的学习结果有关预测函数:Bagging:没有权重;可以并行生成Boosting:有权重;只能顺序生成,Bagging,boosting,and C4.5,J.R.Quinlan,介绍,在大多数应用中,准确率比运算速度更为重要,因为计算机的性价比提高很快。bagging和boo
9、sting都可以有效地提高分类的准确性。在大多数数据集中,boosting的准确性比bagging高。在有些数据集中,boosting会引起退化。-OverfitBagging和boosting方法的要求:最基本的是分类方法的不稳定性。即:训练集的小变动能够使得分类模型显著变动。,Bagging试验:,效果实验:CART,T=50,7个中等大小的数据集,使用bagging后的平均错误率为使用单个分类法的57%-94%.,dataset,Boosting试验:,平均T=4.9时,训练准确率可以达到T=10时的训练准确率.但T=4.9时,总的错误率却比T=10时的错误率高,改变boosting投票权重(1),AdaBoost.M1中的投票权重:log 1/t 替代:,age?,student?,credit rating?,no,yes,fair,excellent,=30,30,k,改变boosting投票权重(2),x1,x2,xn,S,bagging&boosting 应用前景,Internet上的文本过滤图像数据库中的图像识别手写体字符识别 语音识别,研究方向,Bagging和boosting非常相似,是否存在统一的理论框架.Boosting发生overfit的条件.,
链接地址:https://www.31ppt.com/p-2345888.html