基于规则的分类器.ppt
《基于规则的分类器.ppt》由会员分享,可在线阅读,更多相关《基于规则的分类器.ppt(31页珍藏版)》请在三一办公上搜索。
1、数据挖掘,1,第十九讲 基于规则的分类器,主讲:王彦,2023/10/11,数据挖掘,2,基于规则的分类器,使用一组“ifthen”规则进行分类规则:(Condition)y其中 Condition 是属性测试的合取 y 是类标号左部:规则的前件或前提右部:规则的结论分类规则的例子:(胎生=否)(飞行动物=是)鸟类,2023/10/11,数据挖掘,3,基于规则的分类器:例,脊椎动物数据集,2023/10/11,数据挖掘,4,基于规则的分类器的使用,规则 r 覆盖 实例 x,如果该实例的属性满足规则r的条件r1:(胎生=否)(飞行动物=是)鸟类r2:(胎生=否)(水生动物=是)鱼类r3:(胎生=
2、是)(体温=恒温)哺乳类r4:(胎生=否)(飞行动物=否)爬行类r5:(水生动物=半)两栖类规则r1覆盖“鹰”=鸟类规则r3 覆盖“灰熊”=哺乳类,2023/10/11,数据挖掘,5,规则的质量,用覆盖率和准确率度量规则的覆盖率(coverage):满足规则前件的记录所占的比例规则的准确率(accuracy):在满足规则前件的记录中,满足规则后件的记录所占的比例规则:(Status=Single)No Coverage=40%,Accuracy=50%,Tid,Refund,Marital,Status,Taxable,Income,Class,1,Yes,Single,125K,No,2,N
3、o,Married,100K,No,3,No,Single,8,No,Single,85K,Yes,9,No,Married,75K,No,10,No,Singl,e,90K,Yes,10,2023/10/11,数据挖掘,6,如何用规则分类,一组规则r1:(胎生=否)(飞行动物=是)鸟类r2:(胎生=否)(水生动物=是)鱼类r3:(胎生=是)(体温=恒温)哺乳类r4:(胎生=否)(飞行动物=否)爬行类r5:(水生动物=半)两栖类待分类记录狐猴触发规则 r3,它分到哺乳类海龟触发规则r4和 r5-冲突狗鲨未触发任何规则,2023/10/11,数据挖掘,7,规则的分类器的特征,互斥规则集每个记录最
4、多被一个规则覆盖如果规则都是相互独立的,分类器包含互斥规则如果规则集不是互斥的一个记录可能被多个规则触发如何处理?有序规则集基于规则的序 vs 基于类的序 无序规则集 使用投票策略,2023/10/11,数据挖掘,8,规则的分类器的特征,穷举规则集每个记录至少被一个规则覆盖如果规则集涵盖了属性值的所有可能组合,则规则集具有穷举覆盖如果规则集不是穷举的一个记录可能不被任何规则触发如何处理?使用缺省类,有序规则集,根据规则优先权将规则排序定秩(rank)有序规则集又成决策表(decision list)对记录进行分类时由被触发的,具有最高秩的规则确定记录的类标号如果没有规则被触发,则指派到缺省类,
5、2023/10/11,数据挖掘,10,规则的排序方案,基于规则的序根据规则的质量排序基于类的序属于同一类的规则放在一起基于类信息(如类的分布、重要性)对每类规则排序,2023/10/11,数据挖掘,11,如何建立基于规则的分类器,直接方法:直接由数据提取规则把属性空间分为较小的子空间,以便于属于一个子空间的所有记录可以使用一个分类规则进行分类间接方法:由其他分类模型提取规则(例如,从决策树、神经网络等)例如:C4.5rules,2023/10/11,数据挖掘,12,规则提取的直接方法:顺序覆盖,基本思想依次对每个类建立一个或多个规则对第i类建立规则第i类记录为正例,其余为负例建立一个第i类的规
6、则r,尽可能地覆盖正例,而不覆盖负例删除r覆盖的所有记录,在剩余数据集上学习下一个规则,直到所有第i类记录都被删除,2023/10/11,数据挖掘,13,直接方法:顺序覆盖,顺序覆盖(sequential covering)算法 1:令E是训练记录,A是属性值对的集合(Aj,vj)2:令Yo是类的有序集y1,y2,.,yk 3:令R=是初始规则列表 4:for 每个类 yYo yk do 5:while 终止条件不满足 do 6:r Learn-One-Rule(E,A,y)7:从E中删除被r覆盖的训练记录 8:追加r到规则列表尾部:RR r 9:end while10:end for11:把
7、默认规则yk插入到规则列表R尾部,2023/10/11,数据挖掘,14,顺序覆盖:例,(a)Original data,(b)Step 1,(c)Step 2,(c)Step 3,2023/10/11,数据挖掘,15,Learn-One-Rule函数,Learn-one-rule 函数的目标是提取一个分类规则,该规则覆盖训练集中的大量正例,仅覆盖少量反例。规则增长实例删除规则评估停止准则规则剪枝,2023/10/11,数据挖掘,16,规则增长,两种策略一般到特殊从初始规则r:y开始反复加入合取项,得到更特殊的规则,直到不能再加入 特殊到一般随机地选择一个正例作为初始规则反复删除合取项,得到更一
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 规则 分类
链接地址:https://www.31ppt.com/p-6262666.html