《今天内容模型选择》PPT课件.ppt
《《今天内容模型选择》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《今天内容模型选择》PPT课件.ppt(83页珍藏版)》请在三一办公上搜索。
1、今天内容:模型选择,Occams razor测试误差/训练误差训练误差的乐观性估计Mallows Cp 统计量AICBIC/MDLSRM直接估计测试误差交叉验证Bootstrap,“模型”,我们说的“模型”有时指的是模型类别,例如所有2个高斯的混合模型和所有3个高斯的混合模型。有时也指在一个类别的模型中的一员,如参数 的值为特定值。也就是说,模型的类别是固定的,而考虑的是不同的参数值。在实际应用中,我们通常同时考虑上述两种情况,也就是说:参数 的选择统计决策理论部分已经讨论,在此主要讨论不同函数族的选择,Occams razor,William of Occham(12851348),from
2、 wikipedia,Occams razor:Entia non sunt multiplicanda praeter necessitatem Or:Entities should not be multiplied unnecessarily the explanation of any phenomenon should make as few assumptions as possible,eliminating,or shaving off,those that make no difference in the observable predictions of the expl
3、anatory hypothesis or theory.,Occams razor,例:树后面有多少个盒子?,模型选择,训练数据既包含输入输出之间的规律也包含噪声模型匹配时会匹配上述两种情况如果模型太复杂,会将噪声也包含在模型中所以,好的模型足够对输入输出之间的规律建模不够对噪声建模(假设噪声较弱),一个回归的例子,样本数n=10用M阶多项式拟合:,一个回归的例子(2),0阶多项式拟合,一个回归的例子(3),1阶多项式拟合,一个回归的例子(4),3阶多项式拟合,一个回归的例子(5),9阶多项式拟合,一个回归的例子(6),过拟合:,一个回归的例子(7),回归系数:,一个回归的例子(8),9阶多
4、项式拟合,训练样本数n=15,一个回归的例子(9),9阶多项式拟合,训练样本数n=100,一个回归的例子(10),岭回归:最小化,一个回归的例子(11),岭回归,一个回归的例子(12),岭回归,一个回归的例子(13),岭回归系数,目标,模型选择:估计不同模型的性能,选出最好的模型模型评估:已经选定最终的模型,估计它在新数据上的预测误差(泛化误差)提升模型的性能:模型平均BaggingBoost,教材第8章,模型选择和模型评估,当样本足够多时,可以将数据分成三份训练集:估计模型的参数校验集:估计模型的预测误差测试集:计算最终选定的模型的泛化误差但通常没有足够多样本,而且也很难说明多少足够数据是足
5、够的依赖于基础数据的信噪比和模型的复杂程度,模型选择,目标:选择使测试误差最小的模型M,称为模型选择。,训练误差与测试误差,测试误差,亦称泛化误差(generalization error),是在与训练数据同分布的独立测试样本上的风险(平均损失):亦称期望风险训练误差是在训练样本上的平均损失:亦称经验风险,训练误差与测试误差,目标是选择测试误差最小的模型但测试误差很难计算/估计用训练误差估计但训练误差是测试误差的欠估计在选择合适复杂性的模型时,存在偏差-方差的平衡,训练误差的乐观性,训练误差与测试误差,经验风险/训练误差是否是期望风险/测试误差的一个好的估计?随样本集容量n渐进成立在小样本条件
6、下,并不是一个好的估计训练误差是测试误差的欠估计(有偏估计),训练误差的乐观性,训练误差的乐观性,通常我们有因此,为了选择模型,我们可以对 进行估计,或以某种方式估计R(M),欠拟合程度+复杂性惩罚,训练误差的乐观性,估计预测误差的方法估计乐观性,然后与训练误差 相加AIC/BIC/MDL等(模型与参数为线性关系时)SRM直接估计测试误差 交叉验证/bootstrap对任意损失函数、非线性自适应拟合技术都适用,估计乐观性,通过各种技巧(通常是渐近性)估计乐观性,Mallows Cp 统计量,统计量:,使用所有特征的模型,AIC:Akaike Information Criterion,当采用l
7、og似然作为损失函数,测试误差为其中 为MLE,模型为,似然函数为则训练误差为其中 为在训练集上的log似然。,i为测试集上数据索引,AIC:Akaike Information Criterion,当 时,其中这导出R(M)的一个估计:AIC其中 为从一个低偏差(复杂的)估计的MSE获得。,(高斯模型时,对数似然与平方误差损失一致),BIC:Bayesian Information Criterion,类似AIC,可用于极大化对数似然实现的拟合中其中所以,同AIC,BIC:Motivation,用贝叶斯方法选择模型,回顾贝叶斯方法,为书写简单,记训练数据为假设已知模型 的 的形式,参数 的贝
8、叶斯估计为(见参数估计部分)定义模型参数的先验分布:和模型似然:当有数据Z到达后,参数的分布(后验分布)变得更确定,贝叶斯方法与模型选择,给定一些列侯选模型,并且模型参数为某个给定的模型的后验概率为:表示模型的先验 表示证据(参数估计中的归一化因子)为了比较两个模型,可以比较后验比:如果比值 1,则选择第1个模型。,贝叶斯方法与模型选择,其中先验比 可以根据美学原理或经验确定:如简单的模型先验更高但先验比不是必须的,即使假设模型的先验是均匀的,即先验比为常数,贝叶斯规则也倾向于选择能解释数据的最简单模型:Occam剃刀原理。Bayes因子 表示数据Z对后验比值的贡献(证据)根据证据对模型排序,
9、例:Occam剃刀原理,简单模型 只对有限范围内做预测 复杂模型(如有更多自由参数)能对更宽范围做预测但对区域 中的数据,的预测不如 强,证据,证据(evidence)通常会在最可能的参数 附近有一个很强的峰。以一维参数为例:利用Laplace方法近似,即用被积函数 乘以其宽度,Occam因子(参数为多维情况),其中,BIC:Bayesian Information Criterion,当模型为线性模型时用Laplace近似 其中 为极大似然估计,为模型中自由参数的数目当损失函数取,导出贝叶斯信息准则:,BIC,AIC不是一致的,而BIC是一致的。也就是说,选择最小BIC的模型等价于选择最大后
10、验概率的模型(在渐近意义下)。事实上,模型的后验概率为不仅可以估计最好的模型,而且可以评估所考虑模型的相关指标。但:假设候选模型包含正确的模型“Essentially,all models are wrong,but some are useful”G.Box(1987),最小描述长度MDL,最小描述长度MDL(minimum description length)采用与BIC完全相同的选择准则,但它源自数据压缩/最优编码BIC与MDL都只适用于似然损失。,Rissanen,J.1978.Modeling by shortest data description.Automatica,14,4
11、65-471.,MDL,可译变长编码:越频繁的信息码长越短平均信息长度越短消息的长度 与事件zi的概率 之间的关系为:为了传递具有概率密度为 的随机变量zi,需要大约 位平均信息长度,熵:消息长度的下界,MDL,假设我们有以为参数的模型M,和包含输入输出数据Z=(X,y),则传递输出的消息长度为:选择最小长度的模型等价于选择最大后验概率的模型,同BIC,传递模型参数所需的平均消息长度,用于传递模型与目标差别所需要的平均消息长度,AIC vs.BIC,AIC:选择使 最小的模型,也是使 最大的模型,其中 为log似然函数,表示模型中有效参数的数目极大似然,同时模型复杂度极小BIC:用贝叶斯方法选
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 今天内容模型选择 今天 内容 模型 选择 PPT 课件
链接地址:https://www.31ppt.com/p-5459810.html