特征选择与降维sect9-1单个特征的评价.ppt
《特征选择与降维sect9-1单个特征的评价.ppt》由会员分享,可在线阅读,更多相关《特征选择与降维sect9-1单个特征的评价.ppt(76页珍藏版)》请在三一办公上搜索。
1、2023/10/16,北京邮电大学信息工程学院,1,第九章 特征选择与降维 9-1 单个特征的评价,在本节中,我们首先介绍几个对于单个特征进行评价的方法。评价每个特征的标准通常是它的分类能力。通过对于各个特征的评价,可以选出那些对于分类最有效的特征,淘汰那些无效的特征。,2023/10/16,北京邮电大学信息工程学院,2,一.K-W 检验,K-W(Kruskal and Wallis)检验是一种常用的特征选择方法。假定要检验某个特征x对于分类的有效程度,已知一批样品共有N个,这批样品分为m类,第i类包括品,则检验方法如下:(1)列出全部样品对应的特征x的取值。(2)按照x取值从小到大的顺序给每
2、个样品编号。例如,x取值最小的样品编号为1,x取值次小的样品编号为2,等等。若有几个样品所对应的x值相同,可以对它们随机编号,也可以采用平均也可以采用随机编号的办法。(3)取每类各样品编号的平均值,分别记作。(4)计算统计量H,公式为:,2023/10/16,北京邮电大学信息工程学院,3,(9.1)在实用中一般只需比较各特征的H值,H越大时,特征的分类能力越强。例9.1 设有N10个样品,共分m2类,每个样品取4个特征,用KW检验比较特征的分类能力。原始资料矩阵见表9.1。,表9.1 原始矩阵,2023/10/16,北京邮电大学信息工程学院,4,首先对 将各样品按值大小编号,所对应的 值最小(
3、0.18)。编号为第1号,编为第2号,全部编号结果列在表9.2的第一行中。于是有 表9.2 对于各样品的重新编号,2023/10/16,北京邮电大学信息工程学院,5,对于 分别有,。所以特征 的分类能力最强,次之,最差。K-W检验的原理是清楚的。首先,式(9.1)括号中的(N1)/2是全体样品编号的均值,而 是各类样品编号的均值,因此H实际上相当于特征x对应编号的组间离差。其次,用编号代替特征x的原有取值也是不难理解的。在表9.1中,两类样品所对应的特征 的原有取值的平均值都是0.7,即两类均值完全相同。从这一事实来看,应该是一个很坏的特征。但是,用 对样品分类时,如果取0.4和0.5之间的某
4、个数,例如0.45作为分界点,被分错的却只有一个点。这又说明 这个特征不太坏。那么何以会出现两类均值相同的现象呢?不难看出,这是由于,2023/10/16,北京邮电大学信息工程学院,6,点 的 值太大而造成的结果。用编号代替特征则可以排除这种干扰。因为编号只反映特征的大小顺序,而不考虑其数值。,二直方图方法,我们仍然考虑例9.1。特征的变化范围在0.1到0.9之间。我们把这一范围分为几个长度为0.1的区间,在每个区间内画出落在该区间内的样品点数与总数之比(f)。这样的图形称为特征值-样品频数直方图。对于每特征分两类做出这样的直方图,其中 和 的直方图见图9.1。,2023/10/16,北京邮电
5、大学信息工程学院,7,图 9.1 特征值-样品频数直方图,a,b,2023/10/16,北京邮电大学信息工程学院,8,在图9.1中可以看到,在 的直方图中两类样品可以比较清楚地分开,而在特征 的直方图则有较多的混淆现象。因此,直方图可以作为检验特征分类能力的一种工具。从直方图出发可以构造所谓可接受的运算特征(ROC)曲线。一个一般的直方图如图9.2(a)所示。任意取x轴上一点t作为分界点。第一类样品被判错部分的面积记为,第二类被判错部分记作,不断改变t的位置,并将点(,1-)画在平面上,便形成图9.2(b)中的ROC曲线。图中的面积A表示特征x的分类能力,A越大,x的分类能力越强。现在我们来做
6、例9.1中特征 的ROC曲线,使t从 开始逐渐增加直到,对应的和值记在表9.3中,ROC曲线见图9.2(c)。,2023/10/16,北京邮电大学信息工程学院,9,从直方图出发还可以设计另外的特征选择方法。例如,在图9.1(a)中把两类中互不混淆的部分分别记作 和。当有多个特征时,先从中挑选一个使 之值最大的特征,并且去掉那些可以用这个特征分开的样品,再从剩下的样品中挑选其他的特征。表9.3 特征的ROC曲线计算步骤,图9.2 ROC曲线,2023/10/16,北京邮电大学信息工程学院,10,三利用不确定性选择特征,不确定性或熵是信息论中的概念。假定要考查某个特征 x的分类能力。首先把x的取值
7、范围分为k段,把样品点落到其中第j段的频率记作。又设样品共有m类,把第i类样品点落到第j段的频率记作。然后计算熵:熵越小则x的分类能力越强。,(9.2),2023/10/16,北京邮电大学信息工程学院,11,例9.2 设有40个样品点共分两类,其中某特征x的变化范围在0.20到0.90之间。将这个范围分为两段,所得结果列在表9.4中。,表9.4 特征x之熵的计算步骤,2023/10/16,北京邮电大学信息工程学院,12,由表9.4求出A0.8089。熵的原理可以用两个极端的例子说明。在上例中,若第一段中只有第一类样品而第二段内只有第二类样品,则 最后得到A0。另一方面,如果每段内的两类样品数都
8、相等,则 最后得到。以上两种情形分别对应于x的分类能力最强和最弱的两种状态。,2023/10/16,北京邮电大学信息工程学院,13,四用于有序样品的特征选择方法,有序样品,指那些按照某种次序或位置排列的样品。例如,在研究某个地区的强震弱震规律时,每个样品表示一个“时间段”,其长度通常取1至3年,全部样品可以按照其时间先后次序排列。对于这种样品的聚类称为满足邻接条件的聚类问题。对于用来描述有序样品的各种特征,可以采用以上所介绍的各种方法进行评价和选择。但是,这时还应该考虑特征的“顺序依赖性”。下面我们通过一个例子介绍顺序依赖性的概念,以及利用这种性质进行特征选择的方法。,2023/10/16,北
9、京邮电大学信息工程学院,14,例 9.3 假设已知10各样品点,按照下标从小到大的次序排列,x是用描述这些样品点的一个特征,它的取值如表9.5所示。由表9.5可见,x共有3种可能的取值:0,1,2。做出x的直方图,并计算x的每种取值出现的概率,见表9.6。,表 9.5 特征x的顺序取值,表 9.6 特征x的取值范围,2023/10/16,北京邮电大学信息工程学院,15,我们假设把样品点 想象为上文中所说的时间段,而把特征x想象为每段时间前的若干年内6.06.9级地震的发生次数。根据这种想象,x在不同时间段上的先后取值应该是有联系的,而不能认为是独立的随机变量。由这一假定出发,我们建立描述这种先
10、后联系关系的转移概率矩阵P。P通过以下两步算出:(1)求矩阵,其中每个元素 等于表中上一段x取值编号为i,而下一段x取值编号为j的次数,i,j1,2,3。例如,当ij1时,表示上段时间x取零,而下段时间x也取零的次数。这种情况在表9.5中共发生了三次,即m从3到4,从4变到5和从9变到10,所以,同样,(m从5到6),照此计算最后得到矩阵:,2023/10/16,北京邮电大学信息工程学院,16,(2)用 中每行元素之和去除该行的每个元素,得到转移概率矩阵P:其中每个元素 表示特征x从编号i转移到编号j的概率。,2023/10/16,北京邮电大学信息工程学院,17,形成转移概率矩阵P以后,便可由
11、此出发首先计算特征编号i的熵或分散程度:如果所有特征编号为i的样品点都具有这样的性质:它们的下一点特征编号相同,例如为j1,那么,由于,所以;而由于对j1有,所以。这时 将取得最小值零。反之,特征编号为i的诸点下一步转移趋势越分散时,也越大。特征x的总体熵可以定义为:,(9.3),2023/10/16,北京邮电大学信息工程学院,18,其中p(i)等于x取值编号为i的概率,见表9.6的最后一行。同样,E越大表示特征x的分散程度越大。对于上面所举的例子,有:,总体熵是对于特征顺序依赖性的一种量度,它可以作为评价特征作用的参考。一般地说,E取值较小时x的作用较大。但是,由于同一个熵值可能对应着不同的
12、分布情况,因此也有可能出现E很小,分类效果却不好的情况。不过,总体熵作为一种评价顺序依赖性的参考指标仍是有意义的。本节介绍了几种对于单项特征进行评选的方法。当然,根据分类结果对特征进行评选可能更有说服力。,2023/10/16,北京邮电大学信息工程学院,19,9.2 主成分分析和对应分析,在第一节中,我们介绍了评价单个特征分类能力的一些方法,利用这些方法可以挑选出最有效的特征。可惜的是,已经有人证明了以下事实:如果我们依次挑选出前M个最有效的单个特征,那么这M个特征放在一起却不一定是M个特征的最佳组合。这一事实在一定程度上可以这样解释:假定我们在诊断某种疾病时发现体温是最有效的特征,而白血球个
13、数是下一个有效地特征。那么,由于体温与白血球个数之间有着很密切的关系(“相关性”),因此这两个特征组合在一起实质上只相当于一个特征。,2023/10/16,北京邮电大学信息工程学院,20,从本节开始,我们将陆续介绍另外一些特征选择方法。它们的共同特点在于:不在从原有特征中进行选择和淘汰,而是利用原有各个特征去构造一批新特征。每个新特征都是原有各特征的函数。但是新特征的总数应该少于原有特征的总数。这样,我们的新特征集合既保留了原有各特征的主要信息,又达到了减少特征个数,即降低空间维数的目的。这一类方法可以统称为降维映射方法。本节首先介绍两种最常使用的降维映射的方法,即主成分分析和对应分析。它们都
14、属于所谓线性映射方法,也就是说,由它们构造出的每个新特征都是原有各特征的线性函数。,2023/10/16,北京邮电大学信息工程学院,21,一.主成分分析,线性变换实际上相当于一种坐标变换。利用坐标变换可以从原有特征得到一批个数相同的新特征,而且这些特征中的前几个可能包含了原有特征中的主要信息。主成分分析就是从这一观点出发的特征选择方法。一.基本概念 现在来考虑更一般的情况。假定对每个样品取n个特征,即。要求构造n个新特征,并使它们满足以下的条件:,(1)每个新特征是原有各特征的线性组合,即 i=1,2,n 或 其中各 是常数,(9.4),2023/10/16,北京邮电大学信息工程学院,22,(
15、2)各个新变量之间是不相关的,即相关系数为零:i=1,2,n ij(3)使 的方差达到极大,使 的方差达到次大,等等。满足以上条件的新特征 分别称为样品点的第1,2,n个主成分。下面讨论怎样求出各个,或者说怎样求出各个。首先求出全体样品点的协方差矩阵:,(9.5),2023/10/16,北京邮电大学信息工程学院,23,这里S的下标x表示这是对应旧特征 的协方差矩阵。然后,求出 的n个特征值 和与之对应的特征向量。每个 是一个数,而与之对应的特征向量是一个列向量,它们之间的关系是:,i1,2,n 因此求 和 相当于解以上的方程。具体的解法例如,雅克比(Jacobi)方法可在各种计算方法教材中找到
16、。如果我们在解方程时还要求正交归一条件 i,j1,2,n 成立,则各个 就是唯一确定的。,(9.6),(9.7),2023/10/16,北京邮电大学信息工程学院,24,现在我们来说明,用以上方法所求的各个 就可满足前面所说的条件(1)(3)。令,i1,2,n,也就是令 或 YUX(9.8)于是 就是由 经线性变换而得到的新特征。可以证明,当经过上述形式的线性变换后,如果对应于X的协方差矩阵是,那么对应于Y的协方差矩阵就是,(9.9),2023/10/16,北京邮电大学信息工程学院,25,注意到 的每列恰好是 的一个特征向量并利用条件(9.6)得到 其中 是以 为主对角线元素的主对角阵。再利用正
17、交归一条件(9.7),又可得到 这就是说:新特征 两两之间的协方差为零,即它们是不相关的。这样,我们已经找到了解决主成分分析问题的关键,即求原始协方差矩阵的特征值和特征向量。,(9.10),2023/10/16,北京邮电大学信息工程学院,26,我们再来强调一下主成分分析三条件的作用:条件(1)是线性条件,它反映新老特征之间的关系是简单的,便于计算;条件(2)是不相关性,它要求每个新特征都有着独立的作用;条件(3)是方差极大条件。每个特征的方差数值在一定意义下反映了它所包含的信息量。当前几个新特征的信息量已经足够大时,便可以舍弃其余的新特征,从而达到减少特征个数的目的。二.计算步骤 下面,我们来
18、详细叙述主成分分析的计算步骤。假定原始资料矩阵已知。,2023/10/16,北京邮电大学信息工程学院,27,(1)求出原有特征的协方差矩阵。(2)用任一种计算方法求出 的全部特征值 和对应的特征向量。考虑到上面条件(3)的要求,求出各个特征值后应将它们按照从大到小的顺序排列,也就是使特征向量也应按照对应特征值的顺序排列。在上段中已经知道,这时已经可以求出n个新特征,它们满足条件YUX,其中U等于矩阵 的转置,而且 是对角阵。在 中 主对角元素之和 等于原有各特征方差之和。在 中,分别等于新特征 的方差,而且 之值仍然等于。,(2.11),2023/10/16,北京邮电大学信息工程学院,28,(
19、3)我们定义第i个主成分 的“方差贡献率”为 前m个主成分 的“累计方差贡献率”为 当前m个主成分的累计方差贡献率已经足够大(例如,达到70%,80%或更大)时,就可以只取前m个主成分作为新的特征。这是有其后的nm个新特征可以舍去。,(2.12),(2.13),(2.14),2023/10/16,北京邮电大学信息工程学院,29,主成分分析的计算到这里本来已经完成,下面是两点补充。我们称第k个新特征(主成分)与第i个旧特征 之间的相关系数 为 在 上的“因子负荷量”,计算公式为 求出全体并作出因子负荷量矩阵:这个矩阵有以下两点性质:(1)每行元素平方之和为1。(2)第k列各元素平方再乘以对应原有
20、元素方差之和为,即,(9.15),2023/10/16,北京邮电大学信息工程学院,30,由此出发,也可定义前m个主成分对原有变量 的累计贡献率为当 足够大时,可以认为前m个主成分 已经包含了 中的主要信息量。例9.4 我们举两个最简单的例子说明主成分分析的计算步骤。假设有两批样品,每批样品数为N4,特征数n2。两批样品的原始资料矩阵见表9.7。,样品,特征,特征,样品,表9.7 两批样品的原始资料矩阵,2023/10/16,北京邮电大学信息工程学院,31,根据上面所讲的计算步骤,首先计算每批样品的协方差矩阵,结果为:然后分别计算两个协方差矩阵的特征值和特征向量,得到 特征值 特征向量 特征值
21、特征向量 与 的相同。由此可知,对于两组样品利用主成分分析所得的新特征都是,2023/10/16,北京邮电大学信息工程学院,32,即:这一公式表示新特征即主成分所对应的坐标系相当于将原坐标系旋转 而得,见图9.3。,图9.3 主成分分析的几何解释,2023/10/16,北京邮电大学信息工程学院,33,下面分别对两组数据计算主成分的累计方差贡献率,对 有:即只用第一主成分已可包含了原数据的全部信息。这点是显而易见的因为全部四4个点都分布在 轴上。对于 则有:即只用 时要损失原有信息的20%。三.应用实例 下面举出一个应用主成分分析解决实际问题的例子。例9.5 为了解决服装定型的问题,对N128个
22、成年男人测量体型,每人测量n16项指标,分别为:,2023/10/16,北京邮电大学信息工程学院,34,(身长),(坐高),(胸围),(头高),(裤长),(下裆),(手长),(领围),(前胸),(后背),(肩厚),(肩宽),(袖长),(肋围),(腰围),(腿肚)为了节省篇幅,只列出各特征的均值和方差,见表9.8。这一问题的讨论共分四步:(1)相关分析。首先,由原始资料矩阵(未列出)求出16个特征的相关系数矩阵R,见表9.9,表中只列出了下三角部分。对相关系数矩阵进行初步观察可以得出以下结论:1)凡是反映“长”的特征,彼此之间的相关系数都比较大。例如,(身长)与(头高)的相关系数为0.96。2)
23、凡是反映“围”的特征,彼此间的相关系数也比较大。,2023/10/16,北京邮电大学信息工程学院,35,例如,(胸围)与(肋围)的相关系数为0.64。3)“长”与“围”之间的相关系数相对较小。例如,与 之间的相关系数为0.36。由此可见,“长”与“围”两类特征大体上反映了两种不同的性质。,表9.8 16项体型特征的均值与方差,2023/10/16,北京邮电大学信息工程学院,36,表9.9 相关系数矩阵,2023/10/16,北京邮电大学信息工程学院,37,(2)主成分的计算与讨论。用相关系数矩阵代替协方差矩阵进行主成分分析。计算步骤同例9.4。计算所得的16个特征值和累计方差贡献率在表9.10
24、中,前三个特征向量 列在表9.11中,因子负荷量矩阵的前三列列在表9.12中。,表9.10 特征值和累计贡献率,表9.11 前三个特征向量,2023/10/16,北京邮电大学信息工程学院,38,由表可见,前三个主成分的累计方差贡献率已达到70%,所以只取前三个主成分进行讨论。,表9.12 因子负荷量与累计贡献率,2023/10/16,北京邮电大学信息工程学院,39,1)第一主成分。由表9.11可见,第一主成分 与原有各特征 间的关系为:在以上表达式中,每项系数都是正数,而数值都在0.09到0.34之间。考虑正交归一条件(9.7),16项系数的平方和为1,所以各系数的平均值。这样,每项系数都与平
25、均值相差不远。如果某人的原有16项特征值都比较大,则 也会比较大。反之,原有各特征取值都小时 也比较小。因此,可以认为 是全面的反映某人的魁梧或瘦小程度的特征,不妨称之为“大小因子”。2)第二主成分。在第二主成分 的表达式中,原有各特征的系数有正有负,绝对值相差仍不悬殊。系数为正的各项多数对应于反映“长”的旧特征,而系数为负者多数是但应映“围”的旧,2023/10/16,北京邮电大学信息工程学院,40,特征。不难想象,瘦高的人所对应的 值将比较大,而矮胖者对应的则较小。因此,称 为“形状因子”。3)第三主成分。在 的表达式中,多数系数接近于零,绝对值超过0.3的系数只有三个,分别对应(前胸),
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 特征 选择 sect9 单个 评价
链接地址:https://www.31ppt.com/p-6313587.html