【大学课件】数据挖掘研究的新进展.ppt
数据挖掘研究的新进展,http:/,数据挖掘研究,数据挖掘研究的基础机器学习统计分析数据库数据挖掘技术的产生大规模的数据数据分析的需要,http:/,当前数据挖掘研究的主要方向,数据挖掘研究的发展方向新的应用领域WEB访问分析入侵检测生物信息学 新的工作形式流数据分析隐私保护新的数据类型文本数据图数据XML数据数据挖掘的进一步深入,http:/,生物数据挖掘,应用领域生物序列数据分析基因芯片分析主要难点数据规模大数据的模糊性,http:/,生物数据挖掘-序列分析,主要问题从大规模的基因序列中提取相关模式基因序列的特征序列长每个单元不同的取值少研究内容基因序列中频繁模式的发现重复序列的发现基因序列的聚类基因序列的高效组织方法,http:/,生物数据挖掘-基因芯片分析,主要问题从大量的芯片数据中提取相关模式芯片数据的特征序列短、序列数量长有时采用的是局部信息研究内容基因表达数据的聚类基因表达数据的分类,http:/,流数据分析,应用领域数据监控超大规模数据处理主要特点数据只能扫描一遍最多只有o(lgn)的空间可用来存储临时数据主要难点无法形成一个精确的整体状态现有的挖掘算法需要重新研究,http:/,流数据分析,研究内容分类构造一个分类器,不断修正构造多个分类器,通过投票的方法进行预测聚类针对流过信息建立数据摘要的方法动态调整现有分类对新增类的判断方法和对老类的合并,http:/,流数据分析,研究内容关联规则挖掘频繁模式的更新精确度分析变化监测变化发生时刻的确定数据变化模式高速流的处理方法数据采样并行处理,http:/,面向隐私保护的数据挖掘,主要背景防止通过挖掘结果对原始细节数据进行反推理主要应用于医疗数据的管理主要研究内容敏感数据的标示挖掘结果的裁减通过规则的推导预测生成的细节数据对挖掘结果进行裁减裁减的效率研究,http:/,面向隐私保护的数据挖掘,主要研究内容数据的转换挖掘前对数据进行转换基于一定的模式对数据进行变化添加一些错误数据基于变化后的数据进行数据挖掘将结果进行恢复数据挖掘流程的再造在多个结点之间进行数据的传递每个结点只了解局部的信息和部分全局信息单个结点无法推出其它节点的信息,http:/,图数据挖掘,主要应用领域生物信息学社会网络分子结构WEB网页分析主要困难结构复杂子图同构的匹配计算复杂性高,http:/,图数据挖掘,研究内容频繁子图挖掘图索引结构具有某些特征的子图模式挖掘直径要求连通性挖掘的应用图数据的管理技术,http:/,数据挖掘研究所面临的问题,数据挖掘研究已经开展了10年今后的路:推进数据挖掘技术的广泛应用企业界已经开始关注数据挖掘技术研究部门应该做什么?同现有应用领域相结合金融业生物信息学信息检索自身技术的研究易用性可用性新的应用领域,http:/,谢谢!,http:/,