《特征选择》PPT课件.ppt
《《特征选择》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《特征选择》PPT课件.ppt(16页珍藏版)》请在三一办公上搜索。
1、特征选择1.背景数据集的大小可以从两方面衡量:特征的数目n和样本的数目P,n和P可能很大,而n的庞大常会引起维数灾难(Curse of Dimensionality)等问题。特征选择是常用的数据降维方法之一。特征选择是指从原始特征集中选择使某种评估标准最优的特征子集。,最早的特征选择研究是上世纪60年代初开始的,当时的研究主要是集中于统计学及信号处理问题,而且一般涉及到的特征较少,并且通常假定特征之间是独立的。上个世纪90年代以来涌现的大规模机器学习问题,使得已有的算法受到严峻的挑战,迫切需要适应大规模数据的准确性和运行效率等综合性能较好的特征选择算法。特征选择已引起机器学习等领域学者广泛的研
2、究兴趣。,2.特征选择的定义特征选择(Feature Selection)也称特征子集选择(Feature Subset Selection,FSS),或属性选择(Attribute Selection),是指从全部特征中选取一个特征子集,使构造出来的模型更好。3.特征选择的目的和方法在机器学习的实际应用中,特征数量往往较多,其中可能存在不相关的特征,特征之间也可能存在相互依赖,容易导致如下的后果:1)、特征个数越多,分析特征、训练模型所需的时间就越长。2)、特征个数越多,容易引起“维度灾难”,模型也会越复杂,其推广能力会下降。特征选择能剔除不相关或冗余的特征,从而达到减少特征个数,提高模型精
3、确度,减少运行时间的目的。另一方面,选取出真正相关的特征简化了模型,使研究人员易于理解数据产生的过程。,Filter,思路:对每一维的特征打分,即给每一维的特征赋予权重,这样的 权重就代表该维特征的重要性,然后依据权重排序。,主要方法,相关系数,卡方检验,信息增益,互信息,Wrapper,思路:将子集的选择看作是一个搜索寻优的问题,生成不同的 组合,对组合进行评价,再与其他的组合进行比较。这 样 就将子集的选择看作是一个优化问题。,生成特征子集,完全搜索,启发式搜索,随机搜索,Embedded,思路:在模型既定的情况下学习出对提高模型准确性最好的 属性,即在确定模型的过程中,挑选出那些对模型由
4、 重要意义的属性。,主要方法,正则化,决策树,4.特征选择的一般过程特征选择的一般过程可用下图表示。首先从特征全集中产生出一个特征子集,然后用评价函数对该特征子集进行评价,评价的结果与停止准则进行比较,若评价结果比停止准则好就停止,否则就继续产生下一组特征子集,继续进行特征选择。选出来的特征子集一般还要验证其有效性。,4.1产生过程产生过程是搜索特征子集的过程。搜索的算法分为完全搜索(Complete),启发式搜索(Heuristic),随机搜索(Random)3大类。4.1.1 完全搜索完全搜索分为穷举搜索(Exhaustive)与非穷举搜索(Non-Exhaustive)两类。算法具体包括
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 特征选择 特征 选择 PPT 课件
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-5551056.html