线性回归中的模型选择.ppt
1,线性回归中的模型选择,多元回归分析中,输入特征可能有许多,这些特征对模型都是必须的?否因为:预测准确性:当回归模型中变量增多时,预测的偏差的低但方差高(过拟合)可解释性:当回归模型中的预测子数目很多时,模型很难解释希望找到效果更明显的少数预测子,2,模型选择,模型选择模型评估:用一些指标来衡量每个模型解析计算:AIC/BIC/MDL模拟计算:交叉验证/bootstap模型搜索:在模型空间中搜索,找到在某个衡量指标下最优的模型模型空间不大:穷举搜索否则:贪心搜索前向/后向/双向逐步上述模型选择是离散的,亦称子集选择。另一类方法为连续的收缩方法岭回归Lasso,3,回顾:线性回归模型,假定 不依赖于x:其中 模型类型:参数模型损失:平方误差损失参数选择:训练数据上的最小平方误差(最小二乘,在高斯噪声假设下,=极大似然)计算:矩阵求逆/QR分解模型选择:AIC/BIC,4,回顾:线性回归模型,最小二乘参数估计的结果:点估计:偏差:方差:的无偏估计为:,5,回顾:线性回归模型,预测结果:点估计:偏差:方差 其中 是固有的,与参数的估计 无关。对不同的估计,得到的预测的方差不同(不同),6,子集选择,只保留变量的一个子集,将其余变量从模型中删除(将其系数置为0)当p较小时,可穷尽搜索最佳子集对每个,其中p为变量的总数目,找出容量为k的子集,计算每个模型的得分(AIC/BIC)具体算法参考 Furnival&Wilson 1974容量较大的最佳子集不必包含容量较小的最佳子集,7,AIC:Akaike Information Criterion,AIC为模型M测试误差的一个估计:其中 为在模型M对应的训练集数据的对数似然函数,p为模型M中特征的数目我们选择测试误差 最小的模型,等价于选择下述表达式最大的模型,Akaike,Hirotugu(December 1974).A new look at the statistical model identification.IEEE Transactions on Automatic Control 19(6):,训练集上的拟合度,模型复杂度,8,AIC:Akaike Information Criterion,当假设高斯噪声时,这样导出AIC另一种表示:其中 为从一个低偏差估计的MSE估计低偏差估计:复杂模型,即包括所有特征的模型,9,BIC:Bayesian Information Criterion,类似AIC,可用于极大对数似然实现的拟合中所以 最小化BIC,等价于最大化 最小描述长度(MDL)的结论同BIC,Schwarz,G.1978.Estimating the dimension of a model.Annals of Statistics,6,461-464.,10,前向逐步回归,从截距开始,每次增加一个特征计算增加特征后每个模型的AIC,假设当前模型有k个输入特征,则其AIC为:选择AIC最小的模型直到AIC不再变小,11,后向逐步回归,从包含所有特征的模型开始,每次去掉一个特征计算去掉特征后每个模型的AIC选择AIC最小的模型直到AIC不再变小,12,例:前列腺癌后向逐步回归,所有变量都用:k=8 去掉一个变量,k=7,去掉变量后的AIC分别为去掉最小AIC对应的特征,即去掉gleason,13,例:前列腺癌后向逐步回归(续),最小AIC为72.0215,再继续去掉一个变量:k=6此时最小的AIC(72.1945)也比72.0215大,不过也没比72.0215大多少所以根据AIC准则,用后向逐步回归最后选择的模型为k=7,14,例:前列腺癌后向逐步回归(续),如果不停止,而是继续后向逐步回归,直到删除所有特征,则接下来删除的特征及其对应的AIC分别为k=7,删除gleason,AIC=72.0215k=6,删除age,AIC=72.1945 k=5,删除lcp,AIC=73.2095 k=4,删除pgg45,AIC=72.6790 k=3,删除lbph,AIC=74.8309 k=2,删除svi,AIC=77.1088 k=1,删除lweight,AIC=89.7667 k=0,删除lcavol,AIC=189.7727,15,例:前列腺癌后向逐步回归(续),:模型与训练集的拟合程度 模型越复杂,与训练数据拟合得越好,但可能过拟合 AIC:测试误差的估计,与训练集的拟合程度和模型复杂度都有关,16,例:前列腺癌前向逐步回归,不用任何变量:k=0 增加一个变量,k=1,增加变量后的AIC分别为增加最小AIC对应的特征,即lcavol,17,例:前列腺癌前向逐步回归(续),最小AIC为89.2667,再继续增加一个变量:k=2增加最小AIC对应的特征,即lweight再继续增加一个变量:k=3增加最小AIC对应的特征,即svi,18,例:前列腺癌前向逐步回归(续),最小AIC为74.8039,再继续增加一个变量:k=4增加最小AIC对应的特征,即lbph再继续增加一个变量:k=5此时AIC不再变小,最终选择的模型为k=4,19,测试误差的模拟计算,模型评估与选择:1、选择模型调整参数的值2、估计给定模型的预测性能 最好有一个独立的测试集对1,校验集对2,测试集但通常没有足够多的数据来构造校验集/测试集,在这种情况下,我们通过重采样技术来模拟校验集。交叉验证和bootstrap是重采样技术的两个代表,20,K-折交叉验证,用于估计模型的调整参数(如子集的容量k)思想与jackknife类似将数据分成容量大致相等的K份(通常K=5/10),21,K-折交叉验证,对每个,取调整参数为,每次留出第k份数据,其余K-1份数据用于训练,得到参数的估计,并计算第k份数据的预测误差:交叉验证的误差为 对多个不同的,计算其对应的误差,最佳模型为 最小的模型。,22,K-折交叉验证,在子集选择的例子中,为子集的容量 为子集容量为 的最佳子集的系数(训练数据为除了第k份数据的其他K-1份数据)为该最佳子集的测试误差的一个估计K-折交叉验证的测试误差的估计为,23,例:前列腺癌交叉验证,10折交叉验证,K=10训练集:67个数据点校验集:每次从67个训练数据中留出7个数据点(10-折)最佳模型:测试误差在最小测试 误差的一倍以内的最简单模型,最小测试误差,最佳模型,最佳测试误差+1倍方差,24,回顾:线性回归模型,预测结果:点估计:偏差:方差:在所有的无偏估计中,最小二乘估计的方差最小但可能存在有偏估计,其MSE比最小二乘估计的MSE小,25,岭回归(Ridge Regression),现在考虑我们要最小化一个修正的函数:由原来RSS加上一项惩罚权向量大小的项,是一个复杂度参数,控制收缩量/正则量等价于:其中s取代了 的功能解为:仍然是y的线性组合如果输入时正交的:,26,岭回归:为什么?,当矩阵 奇异时,最小二乘的结果变得很坏当自变量系统中存在多重相关性时,它们的系数确定性变差,这种不确定性增加了方差(如一个大的权重可以被一个相关的特征上的负权重平衡)当矩阵A奇异时,一些特征值,从而使得 很大,表示 与之间的偏差很大。同时 也很大,表示结果不稳定岭回归在矩阵 求逆之前,将一个正的常数加到A的对角线上,使得问题非奇异,,其中 为矩阵 的特征值,27,岭回归:为什么?,从贝叶斯的观点:正则项可视为参数的先验如果假设,并且每个 都符合先验分布,岭回归也可以被看作是从后验分布得到的。那么 的负log后验密度就是,其中,28,奇异值分解(SVD),U的列生成X的列空间,V的列生成X的行空间用SVD的形式分解:,y 相对 U 基的坐标,y 相对 U 基的收缩坐标 越小的基,收缩得越多,越小的基,收缩得越多,模型的复杂度参数(有效自由度):,29,与主成分的关系,用SVD的形式:特征向量 为 X 的主成分方向,特征值分解,主成分X 列向量的线性组合,归一化的主成分,较小的 值对应有较小方差的X的列空间方向,收缩最多,岭回归假设在高方差的输入方向上,响应会变化大,因此避免小方差的X上的Y的大的变化,30,与主成分的关系,X的SVD分解:所以X进行SVD分解后,对所有的都可利用,31,例:前列腺癌岭回归,32,例:前列腺癌岭回归,33,Lasso,类似岭回归,最小化等价于将岭回归中的惩罚项 用 代替使得解为y的非线性组合,计算时用二次规划算法如果t选择为足够小,会使得一些系数等于0。,选择最小期望测试误差的t,34,例:前列腺癌Lasso,最佳测试误差,最佳模型,最佳测试误差+1倍方差,35,例:前列腺癌Lasso,Lasso会使某些系数=0而岭回归不会,36,例:前列腺癌不同正则化方法,37,收缩估计族,考虑标准不同q对应的 的轮廓线为在贝叶斯框架下,可视为 的负的log先验,38,收缩估计族,在贝叶斯框架下,Lasso、岭回归和最佳子集选择表现为选择的先验分布不同估计的结果都为贝叶斯估计:众数(最大后验)岭回归同时也是后验均值(高斯分布的众数也是均值),39,下节课内容,概率密度估计Wasserman Chp19,40,Regularization,Regularization:add model complexity penalty to training error.for some constant CNow Regularization forces weights to be small,but does it force weights to be exactly zero?is equivalent to removing feature f from the model,41,L1 vs L2 regularization,42,L1 vs L2 regularization,To minimize,we can solve by(e.g.)gradient descent.Minimization is a tug-of-war between the two terms,43,L1 vs L2 regularization,To minimize,we can solve by(e.g.)gradient descent.Minimization is a tug-of-war between the two terms,44,L1 vs L2 regularization,To minimize,we can solve by(e.g.)gradient descent.Minimization is a tug-of-war between the two terms,45,L1 vs L2 regularization,To minimize,we can solve by(e.g.)gradient descent.Minimization is a tug-of-war between the two termsw is forced into the cornersmany components 0Solution is sparse,46,L1 vs L2 regularization,To minimize,we can solve by(e.g.)gradient descent.Minimization is a tug-of-war between the two terms,47,L1 vs L2 regularization,To minimize,we can solve by(e.g.)gradient descent.Minimization is a tug-of-war between the two termsL2 regularization does not promote sparsityEven without sparsity,regularization promotes generalizationlimits expressiveness of model,48,Lasso Regression Tibshirani 94,Simply linear regression with an L1 penalty for sparsity.Two big questions:1.How do we perform this minimization?With L2 penalty its easysaw this in a previous lectureWith L1 its not a least-squares problem any more2.How do we choose C?,49,Least-Angle Regression,Up until a few years ago this was not trivialFitting model:optimization problem,harder than least-squaresCross validation to choose C:must fit model for every candidate C valueNot with LARS!(Least Angle Regression,Hastie et al,2004)Find trajectory of w for all possible C values simultaneously,as efficiently as least-squaresCan choose exactly how many features are wanted,Figure taken from Hastie et al(2004),