粗糙集与数据约.ppt
智能信息处理技术,华北电力大学,第4章 粗糙集与数据约简,4.1、不确定性理论,自然界和人类的社会活动的各种现象:确定性现象和不确定性现象。确定性现象:在一定条件下必然会出现的现象。不确定性的分类:随机性:因为事物的因果关系不确定,从而导致事件发生的结果不确定性。用概率来度量。概率表示事件发生可能性的大小。概率论的运用是从随机性中去把握广义的因果律概率规律。模糊性:因为事件在质上没有明确的含义,在量上没有明确的界限,导致事件呈现“亦此亦彼”的性态,是事物类属的不确定性,用隶属度来度量。隶属度表示事物多大程度属于某个分类。模糊集合论的运用从模糊性中去确立广义的排中律隶属规律。粗糙性:因为描述事件的知识(或信息)不充分、不完全,导致事件间的不可分辨性。粗糙集把那些不可分辨的事件都归属一个边界域。因此,粗糙集中的不确定性是基于一种边界的概念,当边界域为一空集时,则问题变为确定性的。,4.1、不确定性理论,经典集合、模糊集合、粗糙集的关系经典集合认为一个集合完全有其元素所决定,一个元素要么属于这个集合,要么不属于这个集合。其隶属函数X(x)0,1是二值逻辑。模糊集合认为事物具有中介过渡性质,而非突然改变,集合中每一个元素的隶属函数X(x)0,1,即在闭区间0,1可以任意取值,隶属函数可以是连续光滑的,因此模糊集合对不确定信息的刻划是精细而充分的。但隶属函数不可计算,凭人的主观经验给定。粗糙集合把用于分类的知识引入集合。一个元素x是否属于集合X,需要根据现有知识来判定,可分为三个情况:x肯定不属于X;x肯定属于X;x可能属于也可能不属于X。到达属于哪种情况依赖于我们所掌握的关于论域的知识。粗糙集的隶属函数为阶梯状,对不确定性信息的描述是粗糙的,但粗糙隶属函数是可计算的。粗糙集主要用于对信息系统进行约简和分类。,1.0,0.8,0.6,0.4,0.2,0.0,0.2,0.4,0.6,0.8,1.0,第4章 粗糙集与数据约简,4.2 粗糙集的基本理论与方法,4.2.1、粗糙集的基本概念,知识与分类在粗糙集理论中,知识被认为是一种分类能力。人们的行为基本是分辨现实的或抽象的对象的能力。假定我们起初对论域内的对象(或称元素、样本、个体)已具有必要的信息或知识,通过这些知识能够将其划分到不同的类别。若我们对两个对象具有相同的信息,则它们是不可区分的,即根据已有的信息不能将其划分开。粗糙集理论的核心是等价关系,通常用等价关系替代分类,根据这个等价关系划分样本集合为等价类。从知识库的观点看,每个等价类被称为一个概念,即一条知识(规则)。即,每个等价类唯一地表示了一个概念,属于一个等价类的不同对象对该概念是不可区分的。,4.2.1、粗糙集的基本概念,知识表达系统一个知识表达系统或信息系统S可以表示为有序四元组S=U,R,V,f其中,U=x1,x2,xn为论域,它是全体样本的集合;RCD 为属性集合,其中子集C是条件属性集,反映对象的特征,D为决策属性集,反映对象的类别;为属性值的集合,Vr表示属性r的取值范围;f:URV 为一个信息函数,用于确定U中每一个对象x的属性值,即任一xiU,rR,则f(xi,r)=Vr,4.2.1、粗糙集的基本概念,不可分辨关系在粗糙集中,论域U中的对象可用多种信息(知识)来描述。当两个不同的对象由相同的属性来描述时,这两个对象在该系统中被归于同一类,它们的关系称之为不可分辨关系。即对于任一属性子集BR,如果对象xi,xjU,rB,当且仅当f(xi,r)=f(xj,r)时,xi和xj是不可分辨的,简记为Ind(B)。不可分辨关系称为等价关系。例如:只用黑白两种颜色把空间中的一些物体划分成两类:黑色物体、白色物体,那么同为黑色的物体就是不可分辨的,因为描述它们特征属性的信息是相同的,都是黑色。如果引入方、圆的属性,可将物体进一步划分为4类:黑色方物体、黑色圆物体、白色方物体、白色圆物体。这时,如果有两个同为黑色方物体,则它们还是不可分辨的。不可分辨关系这一概念在RS中十分重要,它反映了我们对世界观察的不精确性。另一方面,不可分辨关系反映了论域知识的颗粒性。知识库中的知识越多,知识的颗粒度就越小,随着新知识不断加入到知识库中,粒度会不断减小,直致将每个对象区分开来。但知识库中的知识粒度越小,则导致信息量增大,存储知识库的费用越高。,4.2.1、粗糙集的基本概念,基本集合由论域中相互不可分辨的对象组成的集合称之为基本集合,它是组成论域知识的颗粒。例如:考虑条件属性:头疼和肌肉疼。对于x1,x2,x3这三个对象是不可分辨的。x4,x6在这两个属性上也是不可分辨的。由此构成的不可分辨集x1,x2,x3,x4,x6,x5被称为基本集合。设论域U为有限集,R是U的等价关系簇,则K=U,R称为知识库,知识库的知识粒度由不可分辨关系Ind(R)的等价类反映。,4.2.1、粗糙集的基本概念,下近似集和上近似集下近似集:根据现有知识R,判断U中所有肯定属于集合X的对象所组成的集合,即R-(X)=xU,xR X其中,xR 表示等价关系R下包含元素x的等价类。上近似集:根据现有知识R,判断U中一定属于和可能属于集合X的对象所组成的集合,即R(X)=xU,xR X其中,xR 表示等价关系R下包含元素x的等价类。给定知识表达系统S=U,R,V,f,对于每个样本子集X U和等价关系R,所有包含于X的基本集的并(逻辑和)为R-(X);所有与X的交(逻辑积)不为空集的基本集的并为R(X)。,4.2.1、粗糙集的基本概念,正域、负域和边界域正域:Pos(X)=R-(X),即根据知识R,U中能完全确定地归入集合X的元素的集合。负域:Neg(X)=U-R-(X),即根据知识R,U中不能确定一定属于集合X的元素的集,它们是属于X的补集。边界域:Bnd(X)=R-(X)-R-(X),边界域是某种意义上论域的不确定域,根据知识R,U中既不是肯定归入集合X,又不能肯定归入集合X,的元素构成的集合。边界域为集合X的上近似与下近似之差,如果Bnd(X)是空集,则称集合X关于R是清晰的;反之,如果Bnd(X)不是空集,则称集合X为关于R的粗糙集。因此,粗糙集中的“粗糙”(不确定性)主要体现在边界域的存在。集合X的边界域越大,其确定性程度就越小。,4.2.1、粗糙集的基本概念,粗糙度(近似精确度)对于知识R(即属性子集),样本子集X的不确定程度可以用粗糙度R(X)来表示为R(X)亦称近似精确度,式中Card表示集合的基数(集合中元素的个数)。0R(X)1,如果R(X)1,则称集合X相对于R是确定的,如果R(X)1则称集合X相对于R是粗糙的,R(X)可认为是在等价关系R下逼近集合X的精度。,4.2.1、粗糙集的基本概念,例:以医疗信息表为例,对于属性子集R=头疼,肌肉疼=r1,r2,计算样本子集X=x1,x2,x5的上近似集、下近似集、正域、边界域。解:计算论域U的所有R基本集:U|Ind(R)=x1,x2,x3,x4,x6,x5令R1=x1,x2,x3 R2=x4,x6 R3=x5确定样本子集X与基本集的关系 XR1=x1,x2 XR2=XR3=x5 计算R-(X)、R(X)、Pos(X)、Bnd(X):R-(X)=R3=x5R(X)=R1R3=x1,x2,x3,x5 Pos(X)=R-(X)=x5Bnd(X)=R(X)-R-(X)=x1,x2,x3计算近似精确度:,4.2.1、粗糙集的基本概念,例:右表是考生情况调查表,其中U为被调查对象,即论域;R为高考成绩(A优,B良,C中,D差);X为升学情况(+为上,/为未上)。根据高考成绩和升学情况进行分类时:按成绩:U/R=1,6,2,3,5,4=Y1,Y2,Y3,Y4按升学:U/X=2,3,5,6,1,4=X1,X2分别计算出下近似集、上近似集、边界域和近似精度:R-(X1)=Y2Y3=2,3,5R-(X2)=Y4=4R-(X1)=Y2Y3Y1=2,3,5,6,1R-(X2)=Y1Y4=4,6,1Bnd(X1)=Y1=1,6Bnd(X2)=Y1=1,6R(X1)=Card(R-(X1)/Card(R-(X1)=3/5R(X2)=Card(R-(X2)/Card(R-(X2)=1/3,4.2 粗糙集的基本理论与方法,4.2.2、粗糙集的基本思想,RS的基本思想RS认为知识就是将论域中的对象进行分类的能力。对对象的认知程度取决于所拥有的知识的多少,知识越多,则分类能力越强。知识越少,则对象间的区分越模糊。在没有掌握所有关于对象域的知识的情况下,为了刻画模糊性,RS使用了一对称为下近似与上近似的精确概念来表示每个不精确概念,即使用一对逼近来描述对象域上的集合。下近似和上近似的差是一个边界集合,它包含了所有不能确切判定是否属于给定类的对象。这种处理可以定义近似的精确度,能够很好的近似分类,得到可以接受质量的分类。在RS中,论域中的对象可用多种知识来描述(通常描述为属性)。当两个不同的对象由相同的属性来描述时,这两个对象在系统中被归于同一类,它们的关系称之为不可分辨关系或等价关系。不可分辨关系是RS理论的基石,它反映了论域知识的颗粒性。影响分类能力的属性很多,不同的属性重要程度不同,其中某些属性起决定性作用;属性的取值不同对分类能力也会产生影响。RS理论提出知识的约简方法、在保留基本知识、对对象的分类能力不变的基础上,消除重复、冗余属性和属性值,实现了对知识的压缩和再提炼。,4.2 粗糙集的基本理论与方法,4.2.3、粗糙集的基本特点,RS的基本特点RS的基本方法是使用等价关系将集合中的元素(对象)进行分类,生成集合的某种划分,与等价关系相对应。根据等价关系的理论,同一分类(等价类)内的元素是不可分辨的,对信息的处理可以在等价类的粒度上进行,由此可以达到对信息进行简化的目的。RS是一种软计算方法,传统的知识处理是一种硬计算方法,使用精确、固定和不变的算法来表达和求解问题。而软计算方法则允许利用不精确性、不确定性和部分真实性以得到易于处理、鲁棒性强和低成本的解决方案。RS仅仅从数据本身进行分析,无需提供所要分析的样本数据以外的任何先验知识或附加信息,不要预先给予主观评价,如统计学中要假定概论分布,模糊集中要给定隶属度,证据理论中要赋予似然值等。RS能分析各种数据,包括确定性和非确定性的;不精确的和不完整的以及拥有众多变量的数据,并对数据进行简化,从而发现知识、推理决策规则,不仅是一种决策分析方法,而且是一种系统建模方法。,4.2.3、粗糙集的基本特点,RS的基本特点(续)RS与其他不确定方法一样,它们都是处理含糊性和不确定性问题的数学工具。但它们又有不同之处:主观Bayes中,不确定性看成概率;D/S证据理论中,不确定性是可信度;模糊集合理论中,不确定性是集合的隶属度;RS理论中,不确定性是上下近似集之差,有确定的数学公式来描述。由于RS理论本身未包含处理不精确或不确定原始数据的机制,在实际应用中,RS方法常常需要与其他方法结合起来使用,互为补充。,第4章 粗糙集与数据约简,4.3 知识的约简,设U为所讨论对象的非空有限集论域,R为非空的属性有限集,则称二元有序组K=U,R为一个知识库,亦称近似空间。在知识库中可能含有冗余的知识,知识约简是研究知识库中哪些知识是必要的,以及在保持分类能力不变的前提下,删除冗余的知识。特别是,当信息系统中的数据是随机采集的其冗余性更为普遍。知识约简是粗糙集理论的核心内容之一,在信息系统分析与数据挖掘等领域具有重要的应用意义。,4.3 知识的约简,4.3.1、一般约简,一般约简在粗糙集理论中,约简与核是两个最重要的基本概念。设R是一个等价关系族,且rR,若有Ind(R)=Ind(R-r)则称r在等价关系族R中是可省略的,否则r为R中不可省略的。若族R中每一个r都是不可省略的,则称族R为独立的。在用属性集R表达系统的知识时,R为独立的意味着属性集中的属性是必不可少的。它独立地构成一组表达系统分类知识的特征。定义:设QP,若Q是独立的,且Ind(Q)=Ind(R),则称Q是等价关系族P的一个约简,记为Red(P)。在P中所有不可省略关系的集合称为等价关系族P的核,记为Core(P)。知识约简与核的关系是:约简集Red(P)的交集等与P的核,即Core(P)=Red(P)一方面核是所有约简的计算基础;另一方面,核是知识库中最重要的部分,是进行知识约简时不能删除的知识。,4.3.1、一般约简,一般约简(续)例:设有知识库K=U,R,其中U=x1,x2,x8,R=R1,R2,R3,等价关系R1,R2,R3的等价类如下:U/R1=x1,x4,x5,x6,x2,x3,x7,x8U/R2=x1,x2,x5,x4,x6,x7,x3,x8U/R3=x1,x2,x5,x4,x6,x3,x7,x8求约简和核。解:由题意有下列等价类:U/Ind(R)=x1,x5,x2,x3,x4,x6,x7,x8 U/Ind(R-R1)=U/R2,R3=x1,x2,x5,x3,x4,x6,x7,x8U/Ind(R)U/Ind(R-R2)=U/R1,R3=x1,x5,x2,x3,x4,x6,x7,x8=U/Ind(R)U/Ind(R-R3)=U/R1,R2=x1,x5,x2,x3,x4,x6,x7,x8=U/Ind(R)因此,R1是R中不可省的,R2和R3是R中可省的。又因为U/Ind(R1,R2)U/Ind(R2),且U/Ind(R1,R2)U/Ind(R1),因此R1和R2是独立的,所以R1,R2是R的一个约简。同理R1,R3也是R的一个约简。故核Code(R)=R1,R2R1,R3=R1,4.3 知识的约简,4.3.2、相对约简,相对约简 在实际应用中,一个分类相对于另一个分类的关系非常重要。在粗糙集中相对约简的概念,即条件属性相对决策属性的约简。设P和Q为论域U上的等价关系,Q的P正域记为PosP(Q),即PosP(Q)=P-(X)Q的P正域是论域U中的所有那些使用分类U/P所表达的知识,能够正确地划入到U/Q的等价类之中的对象给出的集合。一个集合X相对于一个等价关系P的正区域就是这个集合的下近似P-(X);而一个等价关系Q相对于另一个等价关系P的正区域的概念是解决分类Q的等价类(一般视为决策类)之中的那些对象可由分类P的等价类(一般视为条件类)来分类的问题。,4.3.2、相对约简,例 考试(R)升学(X)表中,R和X为U中的等价关系,计算如下:R-(X1)=Y2Y3=2,3,5 R-(X2)=Y4=4X的正域记为PosR(X),将所有的R-(X)取并集得PosR(X)R-(X)=R-(X1)R-(X2)=2,3,4,5设P和Q为论域U上的等价关系,rP。若PosP(Ind(Q)=Pos(p-r)(Ind(Q)则称rP为P中Q可省的,否则称r为P中Q不可省的。上式可记为PosP(Q)=Pos(p-r)(Q)当P中的每一个r都是Q不可省的,则称P是相对于Q独立的,否则就称为是依赖的。当(P-r)为P的Q独立子族,且PosP(Q)=Pos(p-r)(Q),则族(P-r)称为P的Q相对约简,记为RedQ(P)。它是用属性P表达属性Q必不可少的属性集,如果从分类的观点看,就是用一种分类关系表达另一种分类关系必不可少的关系集合。P所有Q约简的交集,称为P的Q核,记为CoreQ(P),亦称相对核。相对核和相对约简的关系为:CoreQ(P)=RedQ(P),4.3.2、相对约简,例 设K=U,P为知识库,U=x1,x2,x8,P=R1,R2,R3。等价关系R1,R2,R3的等价类集合如下:U/R1=(x1,x2,x3,x4,x5,x6,x7,x8U/R2=(x1,x3,x4,x7,x2,x6,x5,x8U/R3=(x1,x5,x8,x2,x3,x4,x6,x7由等价关系族Q导出的不可分辨关系的等价类集合为U/Q=U/Ind(Q)=x1,x3,x4,x2,x5,x6,x7,x8求P的Q约简及P的Q核。解:等价关系族P导出的不可分辨关系Ind(P)的等价类为U/P=U/Ind(P)=x1,x2,x3,x4,x5,x8,x6,x7Q的P正域为PosP(Q)=x1x2x3,x4x6x7=x1,x2,x3,x4,x6,x7P中不可省的关系为U/(P-R1)=U/(R2,R3)=x1,x2,x3,x4,x5,x8,x6,x7U/(P-R2)=U/(R1,R3)=x1,x2,x3,x4,x5,x8,x6,x7U/(P-R3)=U/(R1,R2)=x1,x3,x4,x2,x5,x8,x6,x7,4.3.2、相对约简,Pos(P-R1)(Q)=x1x2x3,x4x6x7=x1,x2,x3,x4,x6,x7=PosP(Q)Pos(P-R2)(Q)=x1PosP(Q)Pos(P-R3)(Q)=x1,x3,x4x2x6x7=x1,x2,x3,x4,x6,x7=PosP(Q)可见R2是P中Q不可省的,而R1和R3是P中Q可省的,故CoreQ(P)=R2。由于Pos(R1,R2)(Q)=x1,x2,x3,x4,x5,x6,x7,Pos(R1)(Q)=,Pos(R2)(Q)=x2,x6,故R1,R2是独立的,因此是P的一个Q约简,同理R2,R3也是一个P的Q约简。注意:一般约简是在不改变对论域中对象的分类能力的前提下消去冗余知识,而相对约简是在不改变将对象划分到另一个分类中去的分类能力的前提下消去冗余知识。,4.3 知识的约简,4.3.3、知识的依赖性,知识的依赖性 知识库中的知识并不是同等重要的,有些知识可以由其他知识导出。知识的依赖性可以形式化地描述为:令KU,R为一知识库,且P,QR,则 当Ind(P)Ind(Q),知识Q依赖于知识P,记作PQ;当PQ且QP,知识P和Q是等价的;当不存在PQ且不存在QP,P、Q是独立的。如果知识Q依赖于P,则有下面的结论 Ind(P)Ind(Q);Ind(PQ)Ind(P);PosP(Q)=U;若任一xU/Q,则P-(X)=X。,4.3.3、知识的依赖性,依赖度 k=rp(Q)=Card(Posp(Q)/Card(U)记作P=kQ。当k=1时,称知识Q完全依赖于知识P;当0k1时,称知识Q部分依赖于知识P;当k=0时,称知识Q完全独立于知识P。依赖度k反映了根据知识P将对象分类到Q的基本概念中去的能力。确切的说,当PkQ时,论域中共有kCard(U)个属于Q的P正域的对象,这些对象可以依据知识P分类到知识Q的基本概念中去。例 U=x1,x2,x8,U/P=x1,x2,x3,x4,x5,x6,x7,x8,U/Q=x1,x2,x3,x4,x5,x6,x7,x8,求依赖度k。解:PosP(Q)=x1x2x3,x4x5,x6=x1,x2,x3,x4,x5,x6 k=6/8=0.75 即知识Q相对于知识P的依赖度为0.75,第4章 粗糙集与数据约简,4.4 决策表的约简,4.4.1、决策表,决策表是一类特殊的知识表达系统,它是指当满足某些条件时,决策应该怎样进行。多数决策问题都可以用决策表形式表达,这一工具在决策应用中起着重要作用。定义:设S=(U,R)为一知识表达系统,若R可划分为条件属性集C和决策属性集D,则CD=R,CD=。具有条件属性和决策属性的知识表达系统可表示为决策表,记作T=(U,R,C,D)或简称CD决策表。Ind(C)的等价类称为条件类,Ind(D)的等价类称为决策类。决策表可分为一致决策表和非一致决策表。当且仅当D依赖于C,即CD时,称决策表是一致的;当且仅当CkD(0k1)时,称决策表是不一致的。决策表必须是一致的才能够约简。对于不一致的决策表,首先要将其分解为两个决策表,一个为一致决策表,另一个为非一致决策表,然后再对一致决策表进行约简。,4.4.1、决策表,例 设论域U=x1,x2,x7,属性集R=CD,条件属性集C=a,b,c,d,决策属性集D=e。决策表如下所示:由决策表可知:U/C=x1,x2,x3,x4,x5,x6,x7 U/D=x1,x2,x7,x3,x5,x6,x4 Posc(D)=x1,x2,x3,x4,x5,x6,x7故该决策表是一致决策表。,4.4.1、决策表,U/(a)=x1,x2,x3,x4,x5,x6,x7 Pos(a)(D)=U/(b)=x1,x2,x3,x4,x5,x6,x7 Pos(b)(D)=x1,x2U/(c)=x1,x2,x4,x7,x3,x5,x6 Pos(c)(D)=x3,x5U/(d)=x1,x4,x7,x2,x3,x5,x6 Pos(d)(D)=U/(a,b)=x1,x2,x3,x4,x5,x6,x7 Pos(a,b)(D)=x1,x2U/(a,c)=x1,x2,x4,x3,x5,x6,x7 Pos(a,c)(D)=x3,x5,x6,x7U/(a,d)=x1,x4,x2,x3,x5,x6,x7 Pos(a,c)(D)=x5,x6,x7U/(b,c)=x1,x2,x3,x4,x5,x6,x7 Pos(b,c)(D)=x1,x2,x3,x4,x5,x6,x7 U/(b,d)=x1,x2,x3,x4,x5,x6,x7 Pos(b,d)(D)=x1,x2,x3,x4,x5,x6,x7U/(c,d)=x1,x4,x7,x2,x3,x5,x6 Pos(c,d)(D)=x2,x3,x5,x6U/(b,c,d)=x1,x2,x3,x4,x5,x6,x7 Pos(b,c,d)(D)=x1,x2,x3,x4,x5,x6,x7U/(a,c,d)=x1,x4,x2,x3,x5,x6,x7 Pos(a,c,d)(D)=x2,x3,x5,x6,x7U/(a,b,d)=x1,x2,x3,x4,x5,x6,x7 Pos(a,b,d)(D)=x1,x2,x3,x4,x5,x6,x7U/(a,b,c)=x1,x2,x3,x4,x5,x6,x7 Pos(a,b,c)(D)=x1,x2,x3,x4,x5,x6,x7所以,b是C中D不可省的,b,c和b,d是两个C的D约简,C的D核为b。,4.4.1、决策表,例 不一致决策表分解。下表所示为一非一致决策表,其中C=a,b,c,D=d,e,将其分解为两个决策表,一个是一致的,另一个是非一致的。,4.4 决策表的约简,4.4.2、属性的重要性,在一个知识系统中,不同的属性具有的重要程度是不同的。在传统的数据分析中,这种重要性需要事先假设,一般有领域专家给出的权重表示,具有一定的主观色彩。在粗糙集方法中,不需要事先假定的信息(先验知识),利用决策表中的数据可以计算其属性的重要性。判断属性重要性的方法:从决策表中去掉一些属性,再来考虑没有该属性后分类会怎样变化:若去掉该属性会相应地改变分类,则说明该属性的强度大,而重要性高;反之说明该属性的强度小,即重要性低。对于属性的重要性可以利用依赖度rP(Q)来描述。对于属性集D导出的分类属性集BB的重要性,采用两者的依赖度的差来度量,即rB(D)-rB-B(D)。这表示从集合B中去掉某些属性子集B后对对象进行分类时,分类U/D的正域将会受到怎样的影响。,4.4.2、属性的重要性,例 某一知识表达系统如表所示。计算表中属性a,b,c相对属性d,e的重要性。解:定义C=a,b,c,D=d,e,则可以构成各种分类:U/(b,c)=1,5,2,7,8,3,4,6 U/(a,c)=1,5,2,8,3,6,4,7 U/(a,b)=1,5,2,8,3,4,6,7 U/(a,b,c)=1,5,2,8,3,4,6,7 U/(d,e)=1,2,7,3,6,4,5,8,4.4.2、属性的重要性,PosC(D)=3,4,6,7 PosC-a(D)=3,4,6 PosC-b(D)=3,4,6,7 PosC-c(D)=3,4,6,7故 rC(D)=Card(PosC(D)/Card(U)=4/8=0.5 rC-a(D)=Card(PosC-a(D)/Card(U)=3/8=0.375 rC-b(D)=Card(PosC-b(D)/Card(U)=4/8=0.5 rC-c(D)=Card(PosC-c(D)/Card(U)=4/8=0.5因此 rC(D)rC-a(D)0.125 rC(D)rC-b(D)0 rC(D)rC-c(D)0可知,属性a是最重要的,其将U/D的正域改变的最多;属性b和c无关紧要,去掉它们后,分类依赖度未产生变化。,4.4 决策表的约简,4.4.3、分辨矩阵与分辨函数,分辨矩阵 设S(U,R,V,f)为一信息系统,RCD是属性集合,子集C=ai|i=1,2,m和Dd分别为条件属性集和决策属性集,U=x1,x2,xn为论域,ak(xj)是样本xj在属性ak上的取值。定义系统的分别矩阵为M(S)=mijnn,其i行j列处元素为因此,分辨矩阵中元素mij是能够区别对象xi和xj的所有属性的集合;但若xi和xj属于同一决策类时,则分辨矩阵中元素mij的取值为空集。分辨矩阵是一个依主对角线对称的n阶方阵,在进行分辨矩阵运算时,只需考虑其上三角(或下三角)部分。,4.4.3、分辨矩阵与分辨函数,分辨函数 对于每一个分辨矩阵M(S)对应唯一的分辨函数fM(S),其定义为:信息系统S的分辨函数是一个具有m元变量a1,a2,am(aiC,i=1,2,m)的布尔函数,它是(mij)的和取,而(mij)是矩阵项mij中的各元素的析取,即 fM(S)(a1,a2,am)=mij,1j in,mij 分辨函数的析取范式中的每一个合取式对应一个约简。而核则是分辨矩阵中所有单个元素组成的集合,即 Core(R)=akR:mij=ak,1j in根据分辨函数与约简的对应关系,可以得到计算信息系统S约简Red(S)的方法:计算信息系统S的分辨矩阵M(S);计算分辨矩阵M(S)对应的分辨函数fM(S);计算分辨函数fM(S)的最小析取范式,其中每个析取分量对应一个约简。,4.4.3、分辨矩阵与分辨函数,例 设有信息系统S=(U,R),U=x1,x2,x6,R=a,b,c,d,其数据表格如右表所示。利用分辨矩阵及分辨函数求约简及核。解:分辨矩阵M(S)如表格所示:分辨函数为:fM(S)(a,b,c,d)=(bcd)(b)(abcd)(ad)(abcd)(bcd)(ad)(abc)(ad)(abcd)(abd)(abcd)(bcd)(bcd)=b(ad)=abbd因此该信息系统有两个约简a,b和b,d,核是b,4.4 决策表的约简,4.4.4、决策表属性约简的分辨矩阵方法,采用分辨矩阵可以方便的求解属性集合的核和约简。C的D核就是分辨矩阵中所有只有一个元素的矩阵项mij的集合,即 CordD(C)=akC:mij=ak,1j in 分辨矩阵fM(S)的极小析取范式中各个合取式分别对应C的D约简,即若属性集合CC是满足以下条件 Cmij 对所有mij 的一个最小属性子集,则称C是C的D约简(相对约简)。,4.4.4、决策表属性约简的分辨矩阵方法,例 求下面决策表的属性约简。解:分辨矩阵如下表所示:,4.4.4、决策表属性约简的分辨矩阵方法,分辨函数为:fM(S)(a,b,c,d)=(bcd)(b)(abcd)(abcd)(bc)(bd)(abc)(abc)(cd)(abcd)(abcd)(ab)(cd)(cd)=b(cd)=bcbd故C的D约简有两个,分别是b,c和b,d,C的D核为b。约简后的决策表如下所示,4.4 决策表的约简,4.4.5、决策规则的生成,决策表是对信息系统中有效事实和规律的描述,根据表中数据能够推导出所有可能的规律。从决策表生成决策规则是粗糙集的主要应用之一。设T=(U,R,V,f)是决策表,R=CD,C为条件属性集,D为决策属性集。令Xi和Yi分别表示条件类和决策类。Des(Xi)表示条件类Xi的描述,定义为 Des(Xi)(a,va)|f(x,a)=va,aC Des(Yj)表示决策类Yj的描述,定义为 Des(Yj)(a,va)|f(x,a)=va,aD 决策规则定义为 Tij:Des(Xi)Des(Yj),XiYj 规则Tij的确定因子为(Xi,Yj)=Card(XiYj)/Card(Xi)显然,01 当(Xi,Yj)1时,Tij是确定性规则;当01时,Tij是不确定的规则,此时(Xi,Yj)反映Xi中的对象可分类到Yj中的比例。,4.4.5、决策规则的生成,决策表中所有决策规则的集合称为决策算法。从决策表中提取决策规则时,如果多个对象的信息(属性值)完全相同,则只保留其中一个(它们反映相同的决策规则),然后求条件属性的相对约简,得到约简的决策表。约简后的决策表具有更少的条件属性,但具有和原决策相同的知识。从决策表中生成规则需要经过以下步骤:数据预处理。将知识表达系统中的初始数据信息转换为粗糙集形式,并明确条件属性和决策属性;数据约简。生成分别矩阵,并在分辨矩阵的基础上生成约简的属性集;发现规则。在约简的决策表中,根据预先设定的确定性因子发现决策规则。,第4章 粗糙集与数据约简,4.5、粗糙集数据约简的具体实现与应用,4.5.1、属性值的离散归一化,运用粗糙集处理决策表时,要求决策表中的值用离散数据表达。因此在智能信息处理中,对定性的属性或属性的值域是连续的数据要进行预先处理,将其离散化,转换为粗糙集理论所识别的数据,从而提取有用信息,从中发现知识。将属性值的定性和定量描述都叫作连续值,则把粗糙集方法中的数据处理称为离散归一化。离散归一化方法应该满足下列条件属性离散归一化后的空间维数尽量小,也就是每一离散归一化后的属性值的种类尽量少;属性值被离散归一化后的信息丢失尽量少。定性说明型属性值的离散化对每一种定性说明概念,可用一种字母或数字代替,作为属性值的离散归一化值。例如颜色属性,属性值为“红”、“黄”、“蓝”、“白”,可以使用“r”、“y”、“b”、“w”或“1”、“2”、“3”、“4”代表。对每一种层次说明概念,可用一种字母或数字代替,作为属性值的离散归一化值。例如温度属性,属性值为“冷”、“凉”、“暖”、“热”,可以使用“a”、“b”、“c”、“d”或“1”、“2”、“3”、“4”代表。,4.5.1、属性值的离散归一化,连续型属性值的离散化等距离划分在每个属性上,根据给定的参数把属性值简单地划分为距离相等断点段,不考虑每个断点段中属性值个数的多少。假设某个属性的最多属性值是xmax,最小属性值是xmin,给定的参数为k,则断点间隔为=(xmax-xmin)/k,得到此属性上的断点为xmini,i=0,1,k。这些断点间的距离相等。等频率划分根据给定的参数k把m个对象分成段,每段有m/k个对象。假设某个属性的最多属性值为xmax,最小属性值为xmin,给定的参数k,则需将这个属性在所有实例上的取值从大到小排列,然后平均分成k段,即得断点集。Naive Scaler算法对于每一个属性aC,进行如下过程:根据a(x)的值,从小到大排列实例xU从上到下扫描,设xi和xj代表相邻实例:如果a(xi)=a(xj),则继续扫描;如果d(xi)=d(xj),即决策相同,则继续扫描;否则,得到一个断点C,C=(a(xi)+a(xj)/2。,4.5、粗糙集数据约简的具体实现与应用,4.5.2、基于分辨矩阵的启发式属性约简算法,基于分辨矩阵的启发式最小约简算法可以解决复杂决策表在进行分辨矩阵约简过程中过大的存储空间的问题。如果一个约简和分辨矩阵的某项mij的交为空的话,对象i和对象j对于该约简就是不可分辨的。这和约简是能够区分所有对象的最小属性集合相矛盾。所以,可以得出结论:一个约简和分辨矩阵的非空项的交都不能为空。由于原始数据未进行约简,所以其候选约简集合R=。检查分辨矩阵的每一项mij和候选约简集合的交,如果交为空,随机从mij中选择一个属性,加到候选约简集合R中;若不为空,就跳过这一项。重复这一过程,直到分辨矩阵中的每一项都检查过了。此时,在R中得到一个“约简”。但这并不是约简本身。例如,假定分辨矩阵中有这样三项:a1,a3,a2,a3,a3。根据此算法,可能会得到候选约简集合为a1,a2,a3或a1,a3,而不是a3。这是因为这个结论是约简的必要而非充分条件。一个简单而有效的方法是根据|mij|来对条件属性进行排序。如果mij中只有一个属性,该属性一定是约简的成员。从分辨矩阵的定义可以看出,分辨矩阵中某项的长度越短,该项就对分类所起的作用越大。而且该项出现的越频繁,该项越重要。因此,对分辨矩阵排序时,除了按长度外,在长度相同的情况下,出现频率高的属性更重要。,4.5.2、基于分辨矩阵的启发式属性约简算法,由此,提出一种新的基于分辨矩阵的计算属性重要性的方法。在生成分辨矩阵的时候,每个属性出现的频率同时被记录,以供以后使用。这些频率被用来评估属性的重要性,并用于属性的优先选择。这是基于如果一个属性出现的越频繁,它的潜在区分能力就越大的考虑。在计算属性的出现频率时,并不是简单的计数,而是加权,加权的大小根据属性出现的分辨矩阵中的长度。因此,对于一个分辨矩阵M=(mij)nn,相应的属性a的重要性计数公式为:式中,|mij|mij包含属性的个数公式体现了两个重要的启发式思想:属性在分辨矩阵中出现的次数越多,属性的重要性越大。属性出现在分辨矩阵中的项越短,属性的重要性越大。,4.5.2、基于分辨矩阵的启发式属性约简算法,基于分辨矩阵的启发式约简算法如下:输入:决策表(U,Ad,其中A=ai,i=1,2,n)。输出:约简(Reduct)。步骤:令约简后得到的属性集合等于条件属性集合,即Reduct=R;计算分辨矩阵M,并找出所有不包含核属性的属性组合S;将所有不包含核属性的属性组合表示为析取范式的形式,即 P=aik,i=1,2,s,k=1,2,m 将P转化为析取范式的形式,并计算属性的重要性;选择其中重要性最小的属性a,使得Reduct=Reduct-a;判断约简操作是否成立,若成立,删除因条件属性约简而引入的冗余样本和不一致样本,i=i+1,转步骤;否则恢复约简该属性前的样本数据,结束约简。步骤步中的判断条件为 p1/p0式中,p0为执行本次约简操作前信息表中样本的数量;p1为执行约简后引入的不一致样本数;为阈值,根据实际需要确定,通常取=5%。,4.5、粗糙集数据约简的具体实现与应用,4.5.3、基于粗糙集方法的实例,实例1:以气象状况实例作为决策表,如下表所示,则C=a1,a2,a3,a4,a5,a6,D=d,4.5.3、基于粗糙集方法的实例,项目离散化结果:,4.5.3、基于粗糙集方法的实例,分辨矩阵如下:,4.5.3、基于粗糙集方法的实例,由可辨识矩阵求出该决策表的核Core=a1,a4。不含核属性的属性组合为 P=(a3a5)(a3a6)=a3(a5a6)这个析取式的每一项中的元素与核元素就组成了约简后的属性集合,即最终得到的属性集合为:a1,a3,a4和a1,a4,a5,a6,4.5.3、基于粗糙集方法的实例,实例2:某科研基金立项评审系统指标体系的优化。下表是原有的项目评审指标体系,其中可得条件属性15个(0115号),决策属性1个(16号),根据已有的样本对该指标体系进行约简,重建更加科学、合理、简捷的科研项目评审指标体系。,4.5.3、基于粗糙集方法的实例,(1)对已有样本进行离散化。随机抽取30个样本,离散化结果如下表所示(部分数据),其中第114指标离散化为3个值:1(优)、2(良)、3(差),第15指标离散化为2个值:1(是)、2(否);决策属性(16)值2个:0(不资助)、1(资助)。,4.5.3、基于粗糙集方法的实例,(2)计算分辨矩阵。决策表共30项,15个条件属性,1个决策属性。经计算决策表的核属性为空,不包含核属性的属性组合如下所示:根据分辨矩阵的启发式约简算法,计算15个属性的重要性:f(1)=3.2644;f(2)=3.2973;f(3)=2.8719;f(4)=3.2195;f(5)=3.1049;f(6)=2.1064;f(7)=3.7537;f(8)=2.8656;f(9)=3.0751;f(10)=3.8406;f(11)=3.0957;f(12)=3.3640;f(13)=2.7445;f(14)=3.1699;f(15)=2.52