欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    《数据挖掘》PPT课件.ppt

    • 资源ID:5519578       资源大小:576.50KB        全文页数:101页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    《数据挖掘》PPT课件.ppt

    数据挖掘在智能信息系统中的应用研究,吴渝重庆邮电学院计算机学院,2004.12,2,目录,数据挖掘简介数据挖掘研究平台技术海量数据挖掘应用研究电子邮件智能分析网络入侵检测研究展望,3,数据挖掘简介,实例应用工具,4,什么是数据挖掘,通过采用自动或半自动的手段,在海量数据中发现有意义的行为和规则的探测和分析活动。数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构,海量数据,数据挖掘,知识库,5,实例,全球最大的零售商沃尔玛(Walmart):星期四、啤酒与尿布销售额上涨了30英国电信通过直邮的方式向客户推荐新产品使直回应率提高了100汇丰银行分类客户群,对每种产品找出最有价值的客户营销费用减少了30,6,应用举例,电信:客户流失百货公司/超市:购物篮分析 保险:交叉销售,流失信用卡:欺诈探测电子商务:网站日志分析,个性化服务税务部门:偷漏税行为探测警察机关:犯罪行为分析医学:医疗保健,病症原因分析,7,应用比例,8,商业工具:SPSS Clementine,9,丰富的数据挖掘算法,PredictionNeural net,C5.0ClassificationNeural net,C5.0SegmentationKohonen,Kmeans,C5.0AssociationApriori,GRI,Web graphSequenceCaprI,Neural Net,Regression,10,价格?,SPSS Clementine 7.2 中文版校园方案租赁优惠买断优惠(台币)教授个人研究使用(1人)225000395000(10万RMB)教学专用版(10人)335000 595000 教学专用版(25人)449000 795000(20万RMB),1人民币 3.908台币,11,数据挖掘研究,回顾技术,12,数据挖掘历史回顾,1989 IJCAI Workshop on Knowledge Discovery in Databases Knowledge Discovery in Databases(G.Piatetsky-Shapiro and W.Frawley,1991)1991-1994 Workshops on Knowledge Discovery in DatabasesAdvances in Knowledge Discovery and Data Mining(U.Fayyad,G.Piatetsky-Shapiro,P.Smyth,and R.Uthurusamy,1996)1995-1998 International Conferences on Knowledge Discovery in Databases and Data Mining(KDD95-98)Journal of Data Mining and Knowledge Discovery(1997)1998 ACM SIGKDD,SIGKDD1999-2001 conferences,and SIGKDD ExplorationsMore conferences on data miningPAKDD,PKDD,SIAM-Data Mining,(IEEE)ICDM,DaWaK,SPIE-DM,etc.,13,相关技术,Data Mining,Database Technology,Statistics,OtherDisciplines,InformationScience,MachineLearning(AI),Visualization,14,数据挖掘的不同视角,Databases to be minedRelational,transactional,object-relational,active,spatial,time-series,text,multi-media,heterogeneous,legacy,WWW,etc.Knowledge to be minedCharacterization,discrimination,association,classification,clustering,trend,deviation and outlier analysis,etc.Techniques utilizedDatabase-oriented,data warehouse(OLAP),machine learning,statistics,visualization,neural network,etc.Applications adaptedRetail,telecommunication,banking,fraud analysis,DNA mining,stock market analysis,Web mining,Weblog analysis,etc.,15,预言模型文化(PM)输出的是预言模型,知识发现文化(KD)输出的是规则,数据挖掘文化,共同点两种文化输入的都是学习集(learning sets)目的都是尽可能多的自动化数据挖掘过程 数据挖掘过程并不能完全自动化,只能半自动化举例说明假设移动电话用户根据其转换到其他通信公司的风险,被分成低、中、高三组一个数据挖掘系统可能抽取出一条规则,比如:“一天至少接到两个电话的用户有低的更换率”。一个预言模型可能给每个用户分配两个分数:一个分数在0和1之间,表示用户可能更换通信公司的概率,另一个暗示该用户在下一年可能会给公司带来的利润。,16,数据挖掘与标准化进程,CRISP-DM(CRoss-Industry Standard Process for Data Mining)数据挖掘过程标准化XML(Extensible Markup Language)与数据预处理相结合,表示数据SOAP(Simple Object Access Protocol)数据库与系统互操作的标准PMML(Predictive Model Markup Language)预言模型交换标准,,利用XML描述和存储数据挖掘模型OLE DB For Data Mining数据挖掘系统基于API的接口,可算为通用数据挖掘语言2000年3月,微软公司推出了一个数据挖掘语言,17,数据挖掘标准流程,CRISP-DM(CRoss-Industry Standard ProcessData Mining),在1996年制定,是当今数据挖掘业界通用流行的标准之一,强调数据挖掘在商业中的应用,解决商业中存在的问题,而不是把数据挖掘局限在研究领域流程内容商业理解数据理解数据准备建立模型模型评估模型发布,18,数据挖掘流程,商业理解(Business Understanding)确定目标,对现有资源评估,确定问题是否能够通过数据挖掘来解决,确定数据挖掘的目标,制定数据挖掘计划数据理解(Data Understanding)确定数据挖掘所需要的数据,对数据进行描述,数据的初步探索,检查数据的质量数据准备(Data Preparation)选择数据,清理数据,对数据进行重建,调整数据格式使之适合建模,19,数据挖掘流程,建立模型(Modeling)对各个模型进行评价,选择数据挖掘模型,建立模型模型评估(Evaluation)评估数据挖掘的结果,对整个数据挖掘过程的前面步骤进行评估,确定下一步怎么办?是发布模型?还是对数据挖掘过程进行进一步的调整,产生新的模型模型发布(Deployment)把数据挖掘模型的结果送到相应的管理人员手中,对模型进行日常的监测和维护,定期更新数据挖掘模型,预言模型交换标准PMML,21,为什么需要PMML?,模型交换对于复杂的数据挖掘任务,需要应用不同的数据挖掘工具,因而工具之间必须能够互相交换结果模型部署(deploy)软件商能够更容易地将数据挖掘结果导入到其他支持这种标准的工具中。从发展的眼光看,需要将商业智能跨越在Ineternet上进行实施部署,PMML为这项功能提供了的基础。独立性独立于平台、应用和操作系统,只定义模型描述,而不是模型执行的方法 标准化标准化的模型描述就象HTML之于Internet一样,将开放模型的封闭性,开放数据挖掘行业。,22,PMML优缺点,优点描述数据挖掘模型的标准 在数据挖掘工具之间,以及数据挖掘工具和其他应用之间交换数据挖掘模型 数据挖掘工具外部一种存储模型的有效的方式 将模型与数据和工具分离 用户易于编辑模型(作为XML文档,可以通过文本编辑器编辑)缺陷当前,模型并没有真正实现与数据的分离,因为,在建模前需要经过大量的数据转换 没有被所有的数据挖掘软件商采纳 对模型诊断(diagnostics)和期望的性能度量没有规定,23,数据挖掘平台研究与开发,层次结构数据挖掘+商业逻辑+行业应用可扩展性的体系结构软件结构数据挖掘平台的应用针对行业的解决方案软件开发商二次开发,24,层次结构:数据挖掘+商业逻辑+行业应用,关联规则、序列模式、分类、聚集、神经元网络、偏差分析,数据挖掘算法层,产品推荐、客户细分、客户流失、欺诈甄别、特征分析,商业逻辑层,基因(DNA)分析、银行、保险、电信、证券、零售业,行业应用层,25,可扩展性的体系结构,数据挖掘应用服务器,行业客户端,信息系统,数据挖掘应用服务器,行业客户端,数据挖掘应用平台,26,软件结构,供数据挖掘使用的数据仓库ETL(抽取、转换、装载)工具数据挖掘应用服务器数据挖掘应用服务器管理平台针对行业的分析平台,27,数据挖掘平台针对行业的解决方案,28,数据挖掘平台对软件开发商二次开发,29,基于粗糙集的智能数据分析平台,RIDAS:基于Rough Set的研究平台,可用于数据挖掘开发:重庆邮电学院计算机科学与技术研究所,30,RIDAS功能,Complete Discretization Attribute reduction Value reduction Automation Sample test Sample recognizing Generating rules from incomplete data set directly Training data collection Checking history,31,和其它系统比较,RIDAS界面,33,粗糙集算法,Discretization algorithm(11),Data complete algorithm(6),Cancel completeDiscernibility matrix based completeAverage complete条件平均补齐;组合补齐;条件组合补齐;,基于属性重要性的离散算法;Nave algorithm;Semi-Naive数据离散算法;Nguyen greedy algorithm;Improved greedy algorithm 1;Improved greedy algorithm 2;基于断点重要性;等频率划分算法;等距离划分算法;基于信息熵算法 Entropy Scaler;Manual Scaler(手工指定断点);,34,Attribute reduction algorithms(12),Value reduction algorithms(5),General value reduction algorithm;归纳值约简算法;Discernibility matrix based value reduction algorithm;heuristic value reduction algorithm;Skowron algorithm;,General attribute reduction algorithm;基于可辨识矩阵和 逻辑运算的属性约简算法;基于特征选择的属性约简算法;归纳属性约简算法;基于互信息的属性约简算法;Entropy based attribute reduction algorithm 1;Entropy based attribute reduction algorithm 2;动态约简算法;Gene reduction algorithm1;Gene reduction algorithm2;Gene reduction algorithm3;Manual reduction algorithm,35,存在问题,算法流程较固定引入新算法困难,模型单一支持数据格式不够处理能力和处理数据量局限较大无可视化支持无知识解释功能软件bug较多,非专业开发,36,数据挖掘系统如何支持PMML标准?,一个实际的数据挖掘系统D-Miner,37,急需人员加盟,系统分析员、软件工程方式管理更多挖掘算法和模型实现方便的模型和算法导入机制可视化支持,丰富的数据视图数据库等各种数据接口支持海量数据处理能力行业应用接口,38,基于Rough Set的海量数据挖掘算法研究,2004.9,思想简介,39,当前数据特点,数据规模巨大:成百万、千万甚至更多的海量数据数据分布存储:集中处理代价极其昂贵数据来源广:甚至在格式和内容上也存在差距;数据特性未知:数据结构、内在联系和分布规律知之甚少如生物基因数据、空间数据和互联网络信息等数据包含不确定信息:数据不完备、冲突等数据日益增长:新数据可能与旧数据之间形成新的联系,呈现新的结构,甚至产生新的冲突,40,海量数据处理方案,直接处理海量数据全集的方法可伸缩Rough Set知识约简算法 分布式处理海量数据集的方法基于Rough Set的海量数据分割算法,41,可伸缩算法思想,42,解决方案,提出了类分布链表(CDL)的结构CDL包含每步数据处理所需所有信息通过CDL改进一组知识约简算法求取信息熵离散化属性约简值约简,43,CDL的分类,一个CDL可以分为三个部分:不相容类分布链表(ICDL)知识约简的重点 单例相容分布链表(SSCDL)多例相容分布链表(MSCDL),44,通过CDL发现知识的过程,数据集,内存,知识,提取并载入,处理,ICDL,SSCDL,MSCDL,处理,DBMS,45,算法测试结果,环境训练集大小:10万至100万测试集大小:训练集的30%测试环境:通过VC6.0&SQL Server 2000编程实现值得注意:使用RIDAS系统不能训练如此大数据集结论改进算法可以提高算法的可伸缩性改进算法不损失正确率及识别率等性能能够处理大规模数据集CDL的方法可以作为一种框架改进许多其他Rough Set算法的可伸缩性,分布式数据挖掘(DDM),Data Source,Data Source,Data Source,Data MiningAlgorithm,Data MiningAlgorithm,Data MiningAlgorithm,LocalModel,LocalModel,LocalModel,Local Model Aggregation,Final Model,47,分布式处理海量数据,分布式数据挖掘系统,?,?如何分割才是比较理想的呢,48,解决方法,通常的DDM系统都把重点放在了组合局部模型上了,在处理海量数据的时候采用随机抽样的思想进行分割解决方案:提出了最佳分割的定义提出基于Rough Set的分割算法来找寻最佳分割如果一个信息系统经过分割后,我们可以从分割后的信息系统中得到与原始的信息系统相同的知识或者规则,则我们说这样的分割是最佳的分割。,49,父数据集,子数据集1,子数据集2,子数据集n,数据分割,子规则集1,子规则集2,子规则集n,父规则集,规则生成,组合规则,分布式学习模型,50,算法测试,正确性测试和不分割(RIDAS)、随机分割方案对比速度测试记录数:12960属性数:9海量数据测试记录数:581012属性数:55其中训练集数:300000,51,算法正确性测试方法,数据集,RIDAS,规则集,(1),测试,数据集1,规则集1,父规则集,测试集,50%,RIDAS,随机分割,测试,本文方法,数据集n,规则集n,RIDAS,原 始数据集(测试集),总正确率,平均正确率,+,+,/n,(2),(3),(4),组合规则,52,算法测试结果,算法的性能随着分割数目的增多比较稳定,分割数目比较大时性能比随机分割方法要好很多在性能上本算法比处理数据全集的算法要差一些,但是要比处理数据全集的方法更快地获取规则分割过程也是知识挑选的过程,会比较耗时本文的方法能够较好的处理海量数据集,53,数据挖掘应用研究,邮件分类网络入侵检测,54,主要内容,基于Rough Set的邮件分类系统的研究基于Rough Set的网络入侵检测系统的研究,55,利用Rough Set解决问题的步骤,理解相关的先验知识,建立系统模型收集大量样本填充决策表规则挖掘过程数据预处理删除多余属性,求出属性约简;删除多余的属性值,得到值约简;根据值约简求出逻辑规则测试以及使用规则解决问题,56,基于Rough Set的,目前的解决方案:Bayesian、Nave Bayesian,Broosting tree,Co-training存在的问题考虑分析邮件头中蕴含的有用信息,利用基于Rough Set的数据挖掘方法将这些有用信息提取出来,57,邮件头示例,Received:(qmail 3071 invoked by uid 10000);3 Jan 2002 07:09:33+0800 Received:from unknown(HELO)(61.134.9.11)by 61.135.132.233 with SMTP;3 Jan 2002 07:09:33+0800 Received:from localhost 12.235.111.30 by with ESMTP(SMTPD32-7.04)id AFBB105014E;Wed,02 Jan 2002 04:44:43+0800 Received:from apple(128.8.99.7)by with Microsoft SMTPSVC(5.0.2195.4617);Tue,Jan 1 13:22:30 2002-0800 Message-ID:Return-Path:Delivered-To:Date:Tue,Jan 1 16:14:52 2002+0800(CST)From:neakvkl To:Subject:(Junk mail),由用户自己写入的信息,由邮件服务器添加的信封信息,58,Email Route,发送者Unknown,USA,(12-235-111-30-,USA),No IP(Hebei,China)R,H(,)Xian,China,Beijing,China,Received 1,Received 2,Received 3,路由中断,59,邮件分类系统:决策表,R=CD,C,D,V,U,60,属性的定义,A0:邮件中继次数,即邮件头中“Received”标签的个数;A1:收件人个数;A2:邮件路由信息中的中断次数,邮件路由信息中断定义为:若前一条“Received”标签中接收站点的域名和IP与后一条“Received”标签中发送站点的域名和IP均不相同,则被视为路由信息中断;A3:“Received”项中的各个域名与其IP不匹配的次数;A4:“Received”中发送站点项缺少域名的次数;A5:“Received”中的by项缺少域名的次数;A6:“Received”中的from项缺少IP的次数;,61,A7:“From”中的原始发送地址与“Received”中的原始发送地址是否一致;一致则取值为1,否则取值为0;A8:“To”中的目的地址与“Received”中的实际收信人的地址是否一致;一致则取值为1,否则取值为0;A9:“Delivered-To”项和“To”项是否一致,若一致则取值为1,否则取值为0,若不存在“Delivered-To”项,则这一属性值的缺省值为1;A10:“Return_Path”项和“From”项是否一致,若一致则取值为1,否则取值为0,若不存在“Return_Path”项,则这一属性值的缺省值为1;,62,邮件分类决策表示例,63,规则挖掘过程,A0 分割成6个区间*,0.5)0 0.5,1.5)1 1.5,2.5)2 2.5,3.5)3 3.5,5.5)4 5.5,*)5A1 分割成2个区间*,1.5)0 1.5,*)1,3 1 1 0 0 1 0 0 1 0 0 21 3 0 0 0 0 0 1 0 1 1 16 1 4 0 4 3 1 1 1 1 1 3.6 1 4 0 4 3 1 0 0 1 01,改进的贪心算法1,A0 A1 A2 A4A5 A6 A7 A8A9 A10,A01A81D1A20A100D2A03A10A21A41A51A60A70A80A91A101D3,属性约简,离散化,值约简,基于信息熵算法1,启发式值约简算法,64,测试,在小数据量的情况下数据量逐渐增多的情况下大数据量的情况下在邮件过滤中邮件分类模型的效果,65,算法正确性测试,邮件集合80封,训练集40封,随机选取50,属性提取,3 1 1 0。0 0 21 3 0 0。0 1 1 6 2 1 0。1 1 3,规则集,作为测试集,正确:92.5错误:3.75未识别:3.75,正确:87.5错误:8.75未识别:3.75,多数优先策略,少数优先策略,决策表,66,算法稳定性测试,67,处理大数据量的算法测试,测试样本数:13167普通邮件为7586广告邮件为4831可疑邮件为750,68,垃圾邮件判定测试,69,基于Rough Set的邮件分类系统,邮件接收模块 利用POP3协议,构造POP3类邮件路由分析模块 利用邮件头中的Received标签对邮件的传送路由进行分析记录邮件分类模块,70,系统界面,71,人员需求,系统分析员,软件工程项目管理Java编程人员服务器解决方案实用智能邮件分析功能实现围绕邮件的服务和安全研究,72,Rough Set 在入侵检测中的研究,入侵检测的必要性传统技术存在的局限基于数据挖掘的入侵检测系统的现状及存在问题 采用Rough Set技术的可行性,73,基于Rough Set的入侵检测系统,协议解析器,基于Rough Set规则挖掘模块,规则集,嗅探器,检测模块,告警/日志模块,训练数据,告警日志,训练,检测,Network,管理员,74,建立分类模型,基础属性(28个),集合属性(19个),决策属性,75,决策表:收集样本填充,76,规则挖掘过程,某些具有特殊意义且对检测攻击重要的属性不进行离散化处理其他属性按照算法被离散化倒不同的区间中A10 分割成2个区间*,1.5)01.5,*)1,3 1 1 0 0 1 0 0 1 0 0 21 3 0 0 0 0 0 1 0 1 1 16 1 4 0 4 3 1 1 1 1 1 3.6 1 4 0 4 3 1 0 0 1 0 1,A0A1A2A4A5A6A7A8.A47,A10 A120 D3A20A100D2A03A10A21A41A51A60A70A80A91A101D3,属性约简,离散化,值约简,77,增量式学习算法,原始训练数据库,新攻击,新的训练数据库,数据挖掘过程,新攻击,原始训练数据库,原始规则集,原始规则集,新的规则集,数据挖掘过程,增量式学习过程,新的规则集,78,部分规则示例,79,系统界面,80,正在进行的研究,智能的无监督学习报警智能处理,81,人员需求,系统分析员,软件工程管理Java编程更多实用智能算法主动防御技术定位为企业或个人的产业化开发,82,数据挖掘应用展望,实例研究,83,应用展望,基于移动通信的智能定位服务系统个性化主动信息提供服务数字电视网络信息检索生物基因的智能挖掘,84,电子商务推荐系统简介,电子商务推荐系统的作用:将电子商务网站的浏览者转变为购买者(Converting Browsers into Buyers)提高电子商务网站的交叉销售能力(Cross-Sell)提高客户对电子商务网站的忠诚度(Building Loyalty),85,电子商务推荐系统的界面表现形式,Browsing:根据客户查询要求返回高质量的推荐Similar Item:推荐系统根据客户购物篮中的商品和客户可能感兴趣的商品推荐类似的商品Email:通过电子邮件的方式通知客户可能感兴趣的商品信息Text Comments:向客户提供其他客户对相应产品的评论信息Average Rating:向客户提供其他客户对相应产品的等级评价 Top-N:根据客户的喜好向客户推荐最可能吸引客户的N件产品 Ordered Search Results:列出所有的搜索结果,并将搜索结果按照客户的兴趣降序排列,86,电子商务推荐系统的输入,客户输入(Targeted Customer Inputs)隐式浏览输入(Implicit navigation):客户的浏览行为作为推荐系统的输入,但客户并不知道这一点显式浏览输入(Explicit navigation):客户的浏览行为是有目的向推荐系统提供自己的喜好关键词和项目属性输入(Keywords and Item attributes):客户输入关键词或项目的有关属性以得到推荐系统有价值的推荐用户购买历史(Purchase history):用户过去的购买纪录,87,电子商务推荐系统的输入,社团输入(Community Inputs)项目属性(Item Attribute):社团对商品风格和类别的集体评判社团购买历史(Community Purchase History):社团过去的购买纪录文本评价(Text Comments):其他客户对商品的文本评价,计算机并不知道评价是好是坏评分(Rating):其他客户对商品的评分,计算机可以对评分进行处理,88,电子商务推荐系统的输出,建议(Suggestion)单个建议(Single Item)未排序建议列表(Unordered List)排序建议列表(Ordered List)预言(Prediction):系统对给定项目的总体评分个体评分(Individual Rating):输出其他客户对商品的个体评分评论(Review):输出其他客户对商品的文本评价,89,电子商务推荐技术分类标准,自动化程度(Degree of Automation)客户为了得到推荐系统的推荐是否需要显式的输入信息持久性程度(Degree of Persistence):推荐系统产生推荐是基于客户当前的单个会话(Session)还是基于客户的多个会话Non-Personalized Recommendation:推荐系统的推荐主要基于其他客户对该产品的平均评价,这种推荐系统独立于客户,所有的客户得到的推荐都是相同的 Attributed-Based Recommendation:推荐系统的推荐主要基于产品的属性特征Item-to-Item Correlation:推荐系统根据客户感兴趣的产品推荐相关的产品 People-to-People Correlation:又称协同过滤,推荐系统根据客户与其他已经购买了商品的客户之间的相关性进行推荐,90,电子商务推荐系统研究热点与方向,对当前的电子商务推荐系统进行改进,以使得推荐系统能产生更加精确的推荐 将数据挖掘技术及Web挖掘技术应用到电子商务推荐系统中,产生完全自动化的推荐,使用户感受到完全个性化的购物体验 将电子商务推荐系统由虚拟的销售人员转变为市场分析工具 开发销售方的电子商务推荐系统,为商家的产品定价、促销活动及交叉销售等提供推荐,91,智能信息处理工作分类,理论研究:进行智能信息处理算法和模型研究,成果主要以发表论文为主,结果用仿真方式验证。由于面临问题的复杂度,没有一个理论工具具有绝对优势。工具开发:进行智能信息处理平台研发。针对不同行业应用,可共用大量智能分析手段,也可在该平台基础上进行二次开发,包括设计各种定制的模型和算法。行业应用:在智能信息分析平台支持下,进行真实的行业应用系统开发。针对不同应用领域进行数据特性分析,以及采取不同的智能方案是至关重要的。,92,智能信息处理解决方案的层次体系,智能信息处理平台,处理接口,信息挖掘,平台管理,行业示范应用层,安全取证,定位服务,图像分析,知识库,模型库,算法库,93,行业示范应用模式,进行个性化的智能分析方案集成,可采用整合式或分离式两种不同模式。整合式:经过充分测试和选择,将最合适行业应用的算法导入行业示范系统中,智能信息处理平台和最终的行业示范系统相对独立,而应用的智能算法和示范系统是整合的。分离式:以智能信息处理平台为主体进行行业知识挖掘,最终的行业示范应用只是知识的应用。在本项目的三个示范系统中,这两种方式都会涉及。,94,网络安全监控与取证系统,取证系统目标建立适当的系统自动收集、过滤,自动发现可疑数据,自动分析、提取证据,并实现高效、安全可靠地存储数据。系统可以在出现安全事件后使证据量最大化。网络安全监控与取证存在两个主要问题:数据量巨大,管理员难以直接处理有关事件许多具有证据价值的数据消失,部分证据和海量的正常计算机数据混杂在一起,很难获得解决方案应用智能信息处理技术,自动对大数量级的管理数据进行裁减、分析,以实现方便的安全管理,同时及时发现并保存潜在的计算机证据,在海量数据中查找证据、分析各个数据证据间的关联。,95,面向第三代的智能定位服务系统,背景LBS技术成为国内外相关领域的研究热门,提出了LBS等新型增值服务的解决方案。基于第三代移动通信TD-SCDMA、CDMA手机、CDMA手机定位技术研究问题:对于大量移动对象的存储,移动对象过去行为的查询不尽如人意,在效率上都还存在问题。对于大量移动对象的历史位置所反映出的各种有极高价值的潜在信息没有得到充分挖掘。,96,面向第三代的智能定位服务系统,解决方案将智能信息处理和数据挖掘技术用于定位服务,可以提供更高层次的智能化服务,具有诱人的市场前景,不但可满足诸如市场推广等领域的迫切的商业需求,也在特殊安全场合大有用武之地。举例说明可统计某个地区的人口分布情况,流动人口及活动频度等信息,也可根据移动信息对某个路段的交通情况进行监测和预测。针对个人而言,可对于我们感兴趣的某个人(例如罪犯)的短时移动情况以及将来的位置移动进行预测,也可在更长时间段统计该人的活动领域和半径,如果该人经常进行跨省活动,这一重要信息可以被航空公司用于VIP客户发展计划,亦是旅行社、宾馆等相关商户可利用的重要资源,97,生物细菌群自动统计分析系统,背景:在食物及饮水类的质量检验和生物科学的实验室实验中,常常都要人工进行细菌群统计分析。为了提高计数的精度,增强定量分析的能力和提高自动化程度,采用基于图像分析及模式识别的方法。问题:图像取像系统:要求光度均匀和稳定,要求相机精度高,成本低,操作简易。由于精度的局限性,很小的细菌群不能在图像中被识别和统计分析。图像分割和识别系统:在现有的图像识别和统计分析中,没有基于统计分析的排除和过滤功能及过程。,98,生物细菌群自动统计分析系统,解决方案图像分割后的细菌群往往有不同的颜色和形状等特性,人工分析通常是根据这些特性来决定哪些细菌群应该分析,而哪些细菌群不应包括在统计分析之列。一个实用的系统应该可以根据图像中细菌群的颜色、大小、形状和纹理等属性区分出那些类型的细菌群不需要进行统计分析。在智能信息处理平台的支持下,运用粗糙集等机器学习方法,通过对已处理图像的分析结果进行智能挖掘,总结出图像分割与分析中特有的知识与规则,为图像处理提供指导,从而进一步提高系统的检测精度与自动化程度。,99,针对基因组功能组分的生物信息智能挖掘系统,背景生命科学近年来获得突破性进展,随着基因组研究的进展与现代生物技术的发展,许多高等动植物的基因组被破译,同时生物芯片等高通量的检测技术手段已经广泛用于生物学研究,积累了以序列数据为基础、各种各样的海量生物学数据,为揭开生命奥秘的提供了数据基础。生物数据种类丰富,高通量,维数和相关性高,本质上具有异质性与网络性,远远超出传统的分析方法的能力和速度,生物数据的分析成为生物研究的瓶颈,其处理、挖掘、分析和理解日益迫切。,100,针对基因组功能组分的生物信息智能挖掘系统,解决方案生物信息数据挖掘等决策支持技术因其在大规模数据处理方面的卓越能力而在其中占据越来越重要的地位。在生物信息学中,有许多方面需要数据挖掘技术,如基因表达调控信息分析、DNA 序列的进化信息分析、寻找基因之间的协同关系、探索基因表达时空规律、获取与疾病相关的信息等。目标研究开发能基于群体数据和基因组序列数据的分子标记SNPs和SSRs等遗传连锁图谱构建工具,能将性状更为准确的定位到基因组特定区段上。然后通过比较基因组学和基因组分子进化方法,得到包含与性状有关基因组功能组分的序列区段生物信息数据库,101,结束,欢迎探讨任何问题?联系方式信科大厦19楼(计算机科学与技术研究所),谢谢!,

    注意事项

    本文(《数据挖掘》PPT课件.ppt)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开