线性回归中的模型选择.ppt
《线性回归中的模型选择.ppt》由会员分享,可在线阅读,更多相关《线性回归中的模型选择.ppt(49页珍藏版)》请在三一办公上搜索。
1、1,线性回归中的模型选择,多元回归分析中,输入特征可能有许多,这些特征对模型都是必须的?否因为:预测准确性:当回归模型中变量增多时,预测的偏差的低但方差高(过拟合)可解释性:当回归模型中的预测子数目很多时,模型很难解释希望找到效果更明显的少数预测子,2,模型选择,模型选择模型评估:用一些指标来衡量每个模型解析计算:AIC/BIC/MDL模拟计算:交叉验证/bootstap模型搜索:在模型空间中搜索,找到在某个衡量指标下最优的模型模型空间不大:穷举搜索否则:贪心搜索前向/后向/双向逐步上述模型选择是离散的,亦称子集选择。另一类方法为连续的收缩方法岭回归Lasso,3,回顾:线性回归模型,假定 不
2、依赖于x:其中 模型类型:参数模型损失:平方误差损失参数选择:训练数据上的最小平方误差(最小二乘,在高斯噪声假设下,=极大似然)计算:矩阵求逆/QR分解模型选择:AIC/BIC,4,回顾:线性回归模型,最小二乘参数估计的结果:点估计:偏差:方差:的无偏估计为:,5,回顾:线性回归模型,预测结果:点估计:偏差:方差 其中 是固有的,与参数的估计 无关。对不同的估计,得到的预测的方差不同(不同),6,子集选择,只保留变量的一个子集,将其余变量从模型中删除(将其系数置为0)当p较小时,可穷尽搜索最佳子集对每个,其中p为变量的总数目,找出容量为k的子集,计算每个模型的得分(AIC/BIC)具体算法参考
3、 Furnival&Wilson 1974容量较大的最佳子集不必包含容量较小的最佳子集,7,AIC:Akaike Information Criterion,AIC为模型M测试误差的一个估计:其中 为在模型M对应的训练集数据的对数似然函数,p为模型M中特征的数目我们选择测试误差 最小的模型,等价于选择下述表达式最大的模型,Akaike,Hirotugu(December 1974).A new look at the statistical model identification.IEEE Transactions on Automatic Control 19(6):,训练集上的拟合度,模
4、型复杂度,8,AIC:Akaike Information Criterion,当假设高斯噪声时,这样导出AIC另一种表示:其中 为从一个低偏差估计的MSE估计低偏差估计:复杂模型,即包括所有特征的模型,9,BIC:Bayesian Information Criterion,类似AIC,可用于极大对数似然实现的拟合中所以 最小化BIC,等价于最大化 最小描述长度(MDL)的结论同BIC,Schwarz,G.1978.Estimating the dimension of a model.Annals of Statistics,6,461-464.,10,前向逐步回归,从截距开始,每次增加一
5、个特征计算增加特征后每个模型的AIC,假设当前模型有k个输入特征,则其AIC为:选择AIC最小的模型直到AIC不再变小,11,后向逐步回归,从包含所有特征的模型开始,每次去掉一个特征计算去掉特征后每个模型的AIC选择AIC最小的模型直到AIC不再变小,12,例:前列腺癌后向逐步回归,所有变量都用:k=8 去掉一个变量,k=7,去掉变量后的AIC分别为去掉最小AIC对应的特征,即去掉gleason,13,例:前列腺癌后向逐步回归(续),最小AIC为72.0215,再继续去掉一个变量:k=6此时最小的AIC(72.1945)也比72.0215大,不过也没比72.0215大多少所以根据AIC准则,用
6、后向逐步回归最后选择的模型为k=7,14,例:前列腺癌后向逐步回归(续),如果不停止,而是继续后向逐步回归,直到删除所有特征,则接下来删除的特征及其对应的AIC分别为k=7,删除gleason,AIC=72.0215k=6,删除age,AIC=72.1945 k=5,删除lcp,AIC=73.2095 k=4,删除pgg45,AIC=72.6790 k=3,删除lbph,AIC=74.8309 k=2,删除svi,AIC=77.1088 k=1,删除lweight,AIC=89.7667 k=0,删除lcavol,AIC=189.7727,15,例:前列腺癌后向逐步回归(续),:模型与训练集的
7、拟合程度 模型越复杂,与训练数据拟合得越好,但可能过拟合 AIC:测试误差的估计,与训练集的拟合程度和模型复杂度都有关,16,例:前列腺癌前向逐步回归,不用任何变量:k=0 增加一个变量,k=1,增加变量后的AIC分别为增加最小AIC对应的特征,即lcavol,17,例:前列腺癌前向逐步回归(续),最小AIC为89.2667,再继续增加一个变量:k=2增加最小AIC对应的特征,即lweight再继续增加一个变量:k=3增加最小AIC对应的特征,即svi,18,例:前列腺癌前向逐步回归(续),最小AIC为74.8039,再继续增加一个变量:k=4增加最小AIC对应的特征,即lbph再继续增加一个
8、变量:k=5此时AIC不再变小,最终选择的模型为k=4,19,测试误差的模拟计算,模型评估与选择:1、选择模型调整参数的值2、估计给定模型的预测性能 最好有一个独立的测试集对1,校验集对2,测试集但通常没有足够多的数据来构造校验集/测试集,在这种情况下,我们通过重采样技术来模拟校验集。交叉验证和bootstrap是重采样技术的两个代表,20,K-折交叉验证,用于估计模型的调整参数(如子集的容量k)思想与jackknife类似将数据分成容量大致相等的K份(通常K=5/10),21,K-折交叉验证,对每个,取调整参数为,每次留出第k份数据,其余K-1份数据用于训练,得到参数的估计,并计算第k份数据
9、的预测误差:交叉验证的误差为 对多个不同的,计算其对应的误差,最佳模型为 最小的模型。,22,K-折交叉验证,在子集选择的例子中,为子集的容量 为子集容量为 的最佳子集的系数(训练数据为除了第k份数据的其他K-1份数据)为该最佳子集的测试误差的一个估计K-折交叉验证的测试误差的估计为,23,例:前列腺癌交叉验证,10折交叉验证,K=10训练集:67个数据点校验集:每次从67个训练数据中留出7个数据点(10-折)最佳模型:测试误差在最小测试 误差的一倍以内的最简单模型,最小测试误差,最佳模型,最佳测试误差+1倍方差,24,回顾:线性回归模型,预测结果:点估计:偏差:方差:在所有的无偏估计中,最小
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 线性 回归 中的 模型 选择
链接地址:https://www.31ppt.com/p-5758060.html