周志华-机器学习-西瓜书-全书16章-ppt-Chap08集成学习ppt课件.pptx
马健,第八章:集成学习,集成学习,个体与集成 BoostingAdaboost Bagging与随机森林 结合策略平均法投票法学习法多样性误差-分歧分解多样性度量多样性扰动,个体与集成,集成学习(ensemble learning)通过构建并结合多个学习器来提升性能,个体与集成,考虑一个简单的例子,在二分类问题中,假定3个分类器在三个样本中的表现如下图所示,其中 表示分类正确,X 号表示分类错误,集成的结果通过投票产生。,集成个体应:好而不同,个体与集成 简单分析,考虑二分类问题,假设基分类器的错误率为:,个体与集成 简单分析,假设基分类器的错误率相互独立,则由Hoeffding不等式可得集成的错误率为:,个体与集成 简单分析,上面的分析有一个关键假设:基学习器的误差相互独立现实任务中,个体学习器是为解决同一个问题训练出来的,显然不可能互相独立事实上,个体学习器的“准确性”和“多样性”本身就存在冲突如何产生“好而不同”的个体学习器是集成学习研究的核心集成学习大致可分为两大类,集成学习,个体与集成 BoostingAdaboost Bagging与随机森林 结合策略平均法投票法学习法多样性误差-分歧分解多样性度量多样性扰动,Boosting,Boosting,Boosting,Boosting,个体学习器存在强依赖关系,串行生成每次调整训练数据的样本分布,Boosting-Boosting算法,Boosting算法最著名的代表是AdaBoost,Boosting AdaBoost算法,Boosting AdaBoost推导,基学习器的线性组合,最小化指数损失函数,Boosting AdaBoost推导,Boosting AdaBoost推导,令指数损失函数的导数为0,即,Boosting AdaBoost推导,泰勒展开近似为,Boosting AdaBoost推导,于是,理想的基学习器:,注意到 是一个常数,令Dt 表示一个分布:,Boosting AdaBoost推导,根据数学期望的定义,这等价于令:,Boosting AdaBoost推导,最终的样本分布更新公式,则理想的基学习器,Boosting AdaBoost注意事项,数据分布的学习重赋权法重采样法重启动,避免训练过程过早停止,0,0.2,0.4,0.6,0.8,0.2,0.4,0.6,密度,含糖率,0,0.2,0.4,0.6,0.8,0.2,0.4,0.6,密度,含糖率,0,0.2,0.4,0.6,0.8,0.2,0.4,0.6,密度,含糖率,(a)3个基学习器,(b)5个基学习器,(c)11个基学习器,Boosting AdaBoost实验,从偏差-方差的角度:降低偏差,可对泛化性能相当弱的学习器构造出很强的集成,集成学习,个体与集成 BoostingAdaboost Bagging与随机森林 结合策略平均法投票法学习法多样性误差-分歧分解多样性度量多样性扰动,Bagging与随机森林,个体学习器不存在强依赖关系并行化生成自助采样法,Bagging与随机森林-Bagging算法,Bagging与随机森林-Bagging算法特点,时间复杂度低假定基学习器的计算复杂度为O(m),采样与投票/平均过程的复杂度为O(s),则bagging的复杂度大致为T(O(m)+O(s)由于O(s)很小且T是一个不大的常数因此训练一个bagging集成与直接使用基学习器的复杂度同阶可使用包外估计(由于Bootstrap sampling 只使用2/3左右数据,剩下的用作验证,称为“包外估计”out of bag estimate),Bagging与随机森林-包外估计,Bagging泛化误差的包外估计为:,0,0.2,0.4,0.6,0.8,0.2,0.4,0.6,密度,含糖率,0,0.2,0.4,0.6,0.8,0.2,0.4,0.6,密度,含糖率,0,0.2,0.4,0.6,0.8,0.2,0.4,0.6,密度,含糖率,(a)3个基学习器,(b)5个基学习器,(c)11个基学习器,Bagging与随机森林-Bagging实验,从偏差-方差的角度:降低方差,在不剪枝的决策树、神经网络等易受样本影响的学习器上效果更好,Bagging与随机森林-随机森林,随机森林(Random Forest,简称RF)是bagging的一个扩展变种采样的随机性属性选择的随机性,Bagging与随机森林-随机森林算法,随机森林算法,Bagging与随机森林-随机森林实验,集成学习,个体与集成 BoostingAdaboost Bagging与随机森林 结合策略平均法投票法学习法多样性误差-分歧分解多样性度量多样性扰动,同等性能的假设,结合策略,学习器的组合可以从三个方面带来好处,假设空间,结合策略,学习器的组合可以从三个方面带来好处,个体假设,真实假设,结合策略,学习器的组合可以从三个方面带来好处,结合策略 平均法,简单平均法加权平均法,结合策略 平均法,简单平均法是加权平均法的特例加权平均法在二十世纪五十年代被广泛使用集成学习中的各种结合方法都可以看成是加权平均法的变种或特例加权平均法可认为是集成学习研究的基本出发点加权平均法未必一定优于简单平均法,结合策略 投票法,绝对多数投票法(majority voting),相对多数投票法(plurality voting),加权投票法(weighted voting),结合策略 学习法,Stacking是学习法的典型代表,多响应线性回归(MLR)作为次级学习器的学习算法 效果较好贝叶斯模型平均(BMA),集成学习,个体与集成 BoostingAdaboost Bagging与随机森林 结合策略平均法投票法学习法多样性误差-分歧分解多样性度量多样性扰动,多样性 误差-分歧分解,集成的分歧:,多样性 误差-分歧分解,多样性 误差-分歧分解,令 表示个体学习器误差的加权均值,有,多样性 误差-分歧分解,集成的泛化误差为:,令 表示个体学习器泛化误差的加权均值,表示个体学习器的加权分歧值,有,多样性 误差-分歧分解,多样性 多样性度量,多样性度量(diversity measure)用于度量集成中个体学习器的多样性,常见的多样性度量不合度量(Disagreement Measure)相关系数(Correlation Coefficient),多样性 多样性度量,常见的多样性度量Q-统计量(Q-Statistic)K-统计量(Kappa-Statistic),多样性 多样性度量,多样性 多样性度量,数据点云的位置越低,个体分类器越准确数据点云的位置越靠左,个体分类器多样性越大,50颗C4.5决策树的结果,多样性 多样性增强,常见的增强个体学习器的多样性的方法数据样本扰动输入属性扰动输出表示扰动算法参数扰动,多样性 多样性增强-数据样本扰动,数据样本扰动通常是基于采样法Bagging中的自助采样法Adaboost中的序列采样对数据样本的扰动敏感的基学习器(不稳定基学习器)决策树,神经网络等对数据样本的扰动不敏感的基学习器(稳定基学习器)线性学习器,支持向量机,朴素贝叶斯,k近邻等,数据样本扰动对“不稳定基学习器”很有效,随机子空间算法(random subspace),多样性 多样性增强 输入属性扰动,翻转法(Flipping Output):随机改变一部分训练样本的标记输出调剂法(Output Smearing):将分类输出转化为回归输出等ECOC法:利用纠错输出码将多个问题拆解为一系列的二分类任务,多样性 多样性增强 输出表示扰动,负相关法不同的多样性增强机制同时使用,多样性 多样性增强 算法参数扰动,阅读材料,集成学习方面的主要推荐读物是Zhou,2012,本章提及的所有内容在该书中都有更深入的详细介绍。Kuncheva,2004;Rockach,2010b可供参考,Schapire and Freund,2012则是专门关于Boosting的著作,集成学习方面有一些专门性的会议MCS(International Workshop on Multiple Classifier System).Boosting源于Schapire,1990对Kearns and Valiant,1989提出的”弱分类器是否等价于强学习”这个重要理论问题的构造性证明。最初的Boosting算法仅有理论意义,经数年努力后Freund and Schapire,1997提出Adaboost,并因此或得理论计算机科学方面的重要奖项哥德尔奖。关于Boosting和Bagging已有的很多理论研究结果课参阅Zhou,2012第2-3章。,