欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    数据挖掘导论-ch.ppt

    • 资源ID:6296664       资源大小:228KB        全文页数:25页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    数据挖掘导论-ch.ppt

    数据挖掘异常检测,第十章数据挖掘简介,不规则/异常检测,什么是异常/离群值?与其余数据相差很大的数据点集异常/异常值检测问题的变体给定数据库D,找到具有大于某个阈值t的异常分数的所有数据点x D 给定数据库D,找到具有前n个最大异常分数f(x)的所有数据点x D 给定包含大部分正常(但未标记)数据点的数据库D和测试点x,计算x相对于D的异常分数应用:信用卡欺诈检测,电信欺诈检测,网络入侵检测,故障检测,异常检测的重要性,臭氧消耗历史1985年,三个研究人员(Farman,Gardinar和Shanklin)对英国南极调查收集的数据感到困惑,表明南极洲的臭氧水平比正常水平下降了10为什么Nimbus 7卫星(其上有用于记录臭氧水平的仪器)不记录类似的低臭氧浓度?由卫星记录的臭氧浓度如此之低,他们被计算机程序作为异常值处理并丢弃!,异常检测,挑战数据中有多少离群值?方法是无人监督的验证可能相当具有挑战性(就像聚类)在大海里捞针查找工作假设:与数据中的“异常”观察(异常值/异常)相比,存在显着更多的“正常”观察结果,异常检测方案,一般步骤构建“正常”行为的配置文件配置文件可以是总体人口的模式或摘要统计使用“正常”配置文件检测异常异常是其特征与正常特征明显不同的观察结果异常检测?方案的类型图形和统计基于距离基于模型,图形方法,箱形图(1-D),散点图(2-D),自旋图(3-D)缺点耗时的主观,凸体船体法,极值点被假定为异常值使用凸包方法来检测极值如果异常值出现在数据的中间怎么办?,统计方法,假设描述数据分布的参数模型(例如,正态分布)应用取决于的统计测试数据分布分布参数(例如,平均值,方差)预期异常值的数量(置信限制),格鲁布斯测试,检测单变量数据中的异常值假设数据来自正态分布一次检测一个异常值,删除异常值,然后重复H0:数据中没有异常值HA:至少有一个离群值Grubbs 检验统计量:拒绝H0如果:,基于统计的似然方法,假定数据集D包含来自两个概率分布的混合的样本:M(多数分布)A(异常分布)一般方法:最初,假设所有数据点属于M令Lt(D)是D在时间t的对数似然性对于属于M的每个点xt,将其移动到A 令Lt+1(D)为新的对数似然。计算差值,=Lt(D)Lt+1(D)如果 c(某些阈值),则xt被声明为异常,并从M永久移动到A,基于统计的似然方法,数据分布,D=(1)M+AM 是从数据估计的概率分布可以基于任何建模方法(朴素贝叶斯,最大熵等)最初假设A是均匀分布在时间t的似然性:,统计方法的局限性,大多数测试是针对单个属性的在许多情况下,数据分布可能不是已知的对于高维数据,可能难以估计真实分布,基于距离的方法,数据表示为特征向量三大方法基于最近邻基于密度基于集群,最近邻法,方法:计算每对数据点之间的距离有各种方法来定义异常值:在距离D内具有少于p个相邻点的数据点距第k个最近邻的距离最大的前n个数据点与k个最近邻居的平均距离最大的前n个数据点,低维投影中的离群值,在高维空间中,数据稀疏,接近度概念变得无意义从基于接近度的定义的角度来看,每一点都是一个几乎同样好的异常值低维投影方法如果在一些较低维投影中,点是异常值,则其存在于异常低密度的局部区域中,低维投影中的离群值,将每个属性划分为个等深度区间每个区间包含记录的分数f=1/考虑通过从k个不同维度中选择网格范围创建的k维多维数据集如果属性是独立的,我们期望区域包含记录的分数 fk如果有N个点,我们可以测量立方体D的稀疏度:负稀疏性表示立方体包含的点数比预期的少,示例,N=100,=5,f=1/5=0.2,N f2=4,基于密度:LOF方法,对于每个点,计算其局部邻域的密度计算样本p的局部离群值因子(LOF),作为样本p的密度与其最近邻的密度的比率的平均值异常值是具有最大LOF值的点,在NN方法中,p2不被认为是异常值,而LOF方法发现p1和p2都是异常值,基于聚类,基本思路:将数据聚集成不同密度的组在小集群中选择点作为候选离群值计算候选点和非候选聚类之间的距离。如果候选点远离所有其他非候选点,则它们是离群值,基本利率下跌,贝叶斯定理:推广:,基本利率下跌(Axelsson,1999),基本利率下跌,即使测试是99肯定,你的疾病的几率是1/100,因为健康的人口比病人大得多,入侵检测中的基本速率下降,I:侵入行为 I:非侵入行为 A:报警 A:无报警检测率(真阳性率):P(A|I)假报警率:P(A|I)目标是最大化两者贝叶斯检测率,P(I|A)P(I|A),检测率与假报警率,假设:然后:如果P(I)非常低,则错误报警率变得更显着,检测率与假报警率,Axelsson:我们需要非常低的误报率来实现合理的贝叶斯检测率,

    注意事项

    本文(数据挖掘导论-ch.ppt)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开