粗糙集理论及其应用.ppt
《粗糙集理论及其应用.ppt》由会员分享,可在线阅读,更多相关《粗糙集理论及其应用.ppt(51页珍藏版)》请在三一办公上搜索。
1、2023/2/1,1,粗糙集理论及其应用,2023/2/1,2,主要内容,粗糙集发展历程 粗糙集的基本理论介绍 粗糙集的属性约简算法研究 粗糙集的扩展模型 在文本分类中的应用 现有工具简介,2023/2/1,3,粗糙集发展历程,1970s,Pawlak和波兰科学院、华沙大学的一些逻辑学家,在研究信息系统逻辑特性的基础上,提出了粗糙集理论的思想。在最初的几年里,由于大多数研究论文是用波兰文发表的,所以未引起国际计算机界的重视,研究地域仅限于东欧各国。1982年,Pawlak发表经典论文Rough sets,标志着该理论正式诞生。1991年,Pawlak的第一本关于粗糙集理论的专著Rough se
2、ts:theoretical aspects of reasoning about data;,2023/2/1,4,粗糙集发展历程,1992年,Slowinski主编的Intelligence decision support:handbook of applications and advances of rough sets theory的出版,奠定了粗糙集理论的基础,有力地推动了国际粗糙集理论与应用的深入研究。1992年,在波兰召开了第一届国际粗糙集理论研讨会,有15篇论文发表在1993年第18卷的 Foundation of computingand decision science
3、s上。1995年,Pawlak等人在ACM Communications上发表“Rough sets”,极大地扩大了该理论的国际影响。,2023/2/1,5,粗糙集发展历程,19961999年,分别在日本、美国、美国、日本召开了第4-7届粗糙集理论国际研讨会。20012002,中国分别在重庆、苏州召开第一、二届粗糙集与软计算学术会议。2003年,在重庆召开粗糙集与软计算国际研讨会。2004年,在瑞典召开RSCTC国际会议(年会)。2005年,在加拿大召开RSFDGrC国际会议(年会)。,2023/2/1,6,主要内容,粗糙集发展历程 粗糙集的基本理论介绍 粗糙集的属性约简算法研究 粗糙集的扩展
4、模型 在文本分类中的应用 现有工具简介,2023/2/1,7,粗糙集的基本理论介绍,主要优点除数据集之外,无需任何先验知识(或信息)对不确定性的描述与处理相对客观【说明】:Bayes理论(先验分布)、证据理论(隶属度函数)等都需要先验知识,具有很大的主观性。,2023/2/1,8,粗糙集理论在知识发现中的作用,在数据预处理过程中,粗糙集理论可以用于对特征更准确的提取 在数据准备过程中,利用粗糙集理论的数据约简特性,对数据集进行降维操作。在数据挖掘阶段,可将粗糙集理论用于分类规则的发现。在解释与评估过程中,粗糙集理论可用于对所得到的结果进行统计评估。,2023/2/1,9,粗糙集理论的基本概念,
5、“知识”的定义使用等价关系集R对离散表示的空间U进行划分,知识就是R对U划分的结果。“知识库”的形式化定义等价关系集R中所有可能的关系对U的划分表示为:K=(U,R),2023/2/1,10,粗糙集理论的基本概念,“信息系统”的形式化定义S=U,A,V,f,U:对象的有限集A:属性的有限集,A=CD,C是条件属性子集,D是决策属性子集V:,Vp是属性P的域f:U A V是总函数,使得 对每个xi U,q A,有f(xi,q)Vq一个关系数据库可看作一个信息系统,其“列”为“属性”,“行”为“对象”。,2023/2/1,11,粗糙集理论的基本概念,设PA,xi,xj U,定义二元关系INDP称为
6、等价关系:称xi,xj在S中关于属性集P是等价的,当且仅当p(xi)=p(xj)对所有的pP 成立,即xi,xj不能用P 中的属性加以区别。,2023/2/1,12,等价关系示例:,2023/2/1,13,等价关系示例:,可知,U=1,2,3,4,5,6R=2 weather,road,time,accident 若P=weather,road,则x IND(P)=x INDweather x INProad=1,3,6,2,5,4 1,2,4,3,5,6=1,2,4,3,6,5,2023/2/1,14,集合的上近似&下近似,在信息系统S=U,A,V,f中,设XU是个体全域上的子集,PA,则X
7、的下和上近似集及边界区域分别为:,X是XU上必然被分类的那些元素的集合,即包含在X内的最大可定义集;X是U上可能被分类的那些元素的集合,即包含X的最小可定义集。BndP(X)是既不能在XU上被分类,又不能在U-X上被分类的那些元素的集合。,2023/2/1,15,集合的上、下近似概念示意图,X,2023/2/1,16,上、下近似关系举例:,X1=u|Flu(u)=yes=u2,u3,u6,u7 RX1=u2,u3=u2,u3,u6,u7,u5,u8,X2=u|Flu(u)=no=u1,u4,u5,u8RX2=u1,u4=u1,u4,u5,u8,u6,u7,由R=Headache,Temp.划分
8、出来的等价类有:u1,u2,u3,u4,u5,u7,u6,u8.,2023/2/1,17,近似精度&分类质量,设S=U,A,V,f为一信息系统,且XU,PA,则S上X的近似精度为:,注:card(X)表示集合X中元素个数 设S为一信息系统,PA,且令=X1,X2,Xn是U的一个分类(子集族),其中XiU,则的P-下近似和 P-上近似分别表示为:,2023/2/1,18,近似精度&分类质量,由属性子集PA确定的分类的分类质量为:,分类质量表示通过属性子集P正确分类的对象数与信息系统中所有对象数的比值。这是评价属性子集P的重要性的关键指标之一。,2023/2/1,19,属性约简&“核”,属性约简(
9、Attribute Reduction):在一个信息系统S中,设是S上的一个分类,经约简后的最小属性子集具有同原始属性集相同的分类质量,即存在RPQ,使得R()=P(),称之为属性集P的-约简,记作REDU(P)。所有-约简的交集称为-核,即CORE(P)=REDU(P),核是信息系统中一系列最重要的属性之一。【说明】:在大多数情况下,分类是由几个甚至一个属性来决定的,而不是由关系数据库中的所有属性的微小差异来决定。属性约简及核的概念为提取系统中重要属性及其值提供了有力的数学工具,而且这种约简是本着不破坏原始数据集的分类质量的,通俗地说,它是完全“保真”的。,2023/2/1,20,主要内容,
10、粗糙集发展历程 粗糙集的基本理论介绍 粗糙集的属性约简算法研究 粗糙集的扩展模型 在文本分类中的应用 现有工具简介,2023/2/1,21,利用区分矩阵进行属性约简,区分矩阵(discernibility matrix):在信息系统T=(U,CD,V,f)中,C为条件属性,D为决策属性,设对象全集U按决策属性D被分成不相交的类族,即X1,X2,Xm,则S中C的区分矩阵M(C)=mi,jnxn定义为:,其中,1 i j n。,2023/2/1,22,利用区分矩阵进行属性约简,令M是决策表T的可辨识矩阵,A=a1,a2,.,an,是T中所有条件属性的集合.S是M中所有属性组合的集合,且S中不包含重
11、复项.令S中包含有s个属性组合,每个属性组合表示为Bi,其公式化描述为:BiS,BjS,BiBj(i,j=1,2,.,s).令Card(Bi)=m,则Bi中每个条件属性表示为 bi,k Bi(k=1,2,.,m)令C0是M中的核属性集,则有C0 A.,2023/2/1,23,利用区分矩阵进行属性约简,算法步骤:第1步.将核属性列入属性约简后得到的属性集合,即red=C0;第2步.在可辨识矩阵中找出所有不包含核属性的属性组合S,即 第3步.将属性组合S与red表示为合取范式的形式,即 P=red bi,k:(i=1,2,.,s;k=1,2,.,m)第4步.将P转化为析取范式形式;第5步.根据需要
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 粗糙 理论 及其 应用
链接地址:https://www.31ppt.com/p-2219159.html