特征选择与稀疏学习ppt课件.pptx
《特征选择与稀疏学习ppt课件.pptx》由会员分享,可在线阅读,更多相关《特征选择与稀疏学习ppt课件.pptx(33页珍藏版)》请在三一办公上搜索。
1、徐淼,第十一章:特征选择与稀疏学习,特征,特征描述物体的属性特征的分类相关特征:对当前学习任务有用的属性无关特征:与当前学习任务无关的属性,西瓜的特征,颜色纹理触感根蒂声音,相关特征,无关特征,好瓜,坏瓜,当前任务:西瓜是否是好瓜,特征选择,特征选择从给定的特征集合中选出任务相关特征子集必须确保不丢失重要特征原因减轻维度灾难:在少量属性上构建模型降低学习难度:留下关键信息,特征选择的一般方法,遍历所有可能的子集计算上遭遇组合爆炸,不可行可行方法,两个关键环节:子集搜索和子集评价,子集搜索,前向搜索:最优子集初始为空集,逐渐增加相关特征 后向搜索:从完整的特征集合开始,逐渐减少特征双向搜索:每一
2、轮逐渐增加相关特征,同时减少无关特征,用贪心策略选择包含重要信息的特征子集,子集评价,特征子集A 确定了对数据集D的一个划分每个划分区域对应着特征子集A的某种取值样本标记Y对应着对数据集的真实划分通过估算这两个划分的差异,就能对特征子集进行评价;与样本标记对应的划分的差异越小,则说明当前特征子集越好信息熵是判断这种差异的一种方式,常见的特征选择方法,常见的特征选择方法大致分为如下三类:过滤式包裹式嵌入式,将特征子集搜索机制与子集评价机制相结合,即可得到特征选择方法,常见的特征选择方法,常见的特征选择方法大致分为如下三类:过滤式先对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习器无
3、关。先用特征选择过程过滤原始数据,再用过滤后的特征来训练模型。包裹式嵌入式,将特征子集搜索机制与子集评价机制相结合,即可得到特征选择方法,过滤式选择-Relief算法,Relief(Relevant Features)方法是一种著名的过滤式特征选择方法。Relief算法最早由Kira提出,最初局限于两类数据的分类问题。Relief算法是一种特征权重算法(Featureweightingalgorithms),根据各个特征和类别的相关性赋予特征不同的权重(相关统计量),权重小于某个阈值的特征将被移除。Relief算法中特征和类别的相关性是基于特征对近距离样本的区分能力。Relief的关键是如何确
4、定权重(相关统计量)?,过滤式选择-Relief算法,过滤式选择-Relief算法的多类拓展,过滤式选择-医学数据分析实例,选用的数据:威斯康星州乳腺癌数据集,数据来源美国威斯康星大学医院的临床病例报告,每条数据具有9个属性。数据处理思路:先采用ReliefF特征提取算法计算各个属性的权重,剔除相关性最小的属性,然后采用K-means聚类算法对剩下的属性进行聚类分析。,过滤式选择-医学数据分析实例,乳腺癌数据集特征提取采用ReliefF算法来计算各个特征的权重,权重小于某个阈值的特征将被移除,针对乳腺癌的实际情况,将对权重最小的2-3种剔除。将ReliefF算法运行20次,得到了各个特征属性的
5、权重趋势图按照从小到大顺序排列,可知,各个属性的权重关系如下:属性9属性5属性7属性4属性2属性3属性8属性1属性6我们选定权重阀值为0.02,则属性9、属性4和属性5剔除。,过滤式选择-医学数据分析实例,乳腺癌数据特征分析从上面的特征权重可以看出,属性6裸核大小是最主要的影响因素,说明乳腺癌患者的症状最先表现了裸核大小上,将直接导致裸核大小的变化,其次是属性1和属性8等,后几个属性权重大小接近。几个重要的属性进行分析:块厚度属性的特征权重在0.19-25左右变动,也是权重极高的一个,说明该特征属性在乳腺癌患者检测指标中是相当重要的一个判断依据。进一步分析显示,在单独对属性6,和属性1进行聚类
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 特征 选择 稀疏 学习 ppt 课件
链接地址:https://www.31ppt.com/p-2064527.html