机器学习之模型评估与模型选择课件.ppt

资源ID：1476206 资源大小：2.07MB 全文页数：25页
资源格式： PPT 下载积分：16金币

快捷下载

会员登录下载

三方登录下载：

下载资源需要16金币

邮箱/手机：
温馨提示：	用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）
支付方式：
验证码：	换一换

加入VIP免费专享

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

机器学习之模型评估与模型选择课件.ppt

机器学习的模型评估与选择,泛化误差 vs 经验误差,泛化误差：在“未来”样本上的误差经验误差：在训练集上的误差，亦称“训练误差”,训练数据,模型,新样本数据,新样本属于什么类别？,过拟合 vs 欠拟合,模型选择,三个关键问题：如何获得测试结果评估方法如何评估性能优劣性能度量如何判断实质差别比较检验,评估方法,关键：怎么获得“测试集”？原则：测试集与训练集“互斥”常见方法：留出法（hold-out）交叉验证法（cross validation）自助法（bootstrap）,留出法,保持数据分布一致性（例如：分层采样）多次重复划分（例如：100次随机划分）测试集不能太大、不能太小（例如：1/51/3）,K-折交叉验证法,当K=m时，则得到“留一法”（leave-one-out, LOO）,自助法,基于“自助采样”（bootstrap sampling）Pull up by your own bootstraps有放回采样、可重复采样训练集与原样本集同规模数据分布有所改变约有36.8%的样本不出现,包外估计：out-of-bag estimation,模型选择,三个关键问题：如何获得测试结果评估方法如何评估性能优劣性能度量如何判断实质差别比较检验,性能度量,性能度量（performance measure）是衡量模型泛化能力的评价标准，反映了任务需求使用不同的性能度量往往会导致不同的评判结果什么样的模型是“好”的，不仅取决于算法和数据，还取决于任务需求。,性能度量,回归任务分类任务错误率与精度查准率、查全率与F1,回归模型评估有三种方法，分别是：平均绝对值误差、均方误差和R平方值（1）平均绝对误差（MAE）就是指预测值与真实值之间平均相差多大（2）均方误差是指参数估计值与参数真值之差平方的期望值，记为MSE。值越小，说明预测模型描述实验数据具有更好的精确度。（3）R平方值，表征回归方程在多大程度上解释了因变量的变化，或者说方程对观测值的拟合程度如何,性能度量错误率与精度,错误率精度,性能度量查准率与查全率,查准率：precision，准确率，P预测结果中是正例的比率查全率：recall，sensitivity, 召回率， R所有的正例中被正确预测出的比列,True Positive Rate, TPR, (Sensitivity)True Negative Rate, TNR, (Specificity)Positive Predictive Value, PPVFalse Positive Rate, FPRFalse Negative Rate, FNRFalse Discovery Rate, FDR,PR图：学习器A优于学习器C学习器B优于学习器C学习器A？学习器B,平衡点 (BEP)（Break-Even Point, ）学习器A优于学习器B学习器A优于学习器C学习器B优于学习器C,性能度量F1度量,性能度量ROC与AUC,https:/,集成学习,定义：通过构建并结合多个学习器来完成学习任务，又称为：多分类学习器系统、基于委员会的学习等。两大类个体学习器间存在强依赖关系，必须串行生产的序列化方法： Boosting个体学习器间不存在强依赖关系，可同时生成的并行化方法：Bagging and Random Forest,集成学习随机森林,Bagging 策略bootstrap aggregation 从样本集中重采样(有重复的)选出n个样本在所有属性上，对这n个样本建立分类器(ID3、C4.5、CART、SVM、Logistic回归等)重复以上两步m次，即获得了m个分类器将数据放在这m个分类器上，最后根据这m个分类器的投票结果，决定数据属于哪一类,随机森林在bagging基础上做了修改。从样本集中用Bootstrap采样选出n个样本；从所有属性中随机选择k个属性，选择最佳分割属性作为节点建立CART决策树；重复以上两步m次，即建立了m棵CART决策树这m个CART形成随机森林，通过投票表决结果，决定数据属于哪一类,投票机制,简单投票机制一票否决(一致表决)少数服从多数有效多数(加权)阈值表决贝叶斯投票机制,但也可以使用SVM、Logistic回归等其他分类器，习惯上，这些分类器组成的“总分类器”，仍然叫做随机森林。,

注意事项

本文（机器学习之模型评估与模型选择课件.ppt）为本站会员（小飞机）主动上传，三一办公仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三一办公（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。