《序论数据挖掘》PPT课件.ppt
《《序论数据挖掘》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《序论数据挖掘》PPT课件.ppt(38页珍藏版)》请在三一办公上搜索。
1、数 据 挖 掘与知识发现,主讲教师:王玲,教科书和参考书,教科书数据挖掘:概念与技术,Jiawei Han和Micheline Kamber 著,机械工业出版社(2001)参考书数据挖掘原理,David Hand,Heikki Mannila和Padhraic Smyth著,机械工业出版社(2003)Data Mining:Practical Learning Tools and Techniques with Java Implementations 作者:(新西兰)Ian H.Witten,Eide Frank这本书是结合开源数据挖掘工具weka编写,用java语言实现,书中描述了怎么去开
2、发,怎么weka的基础上进行二次开发。机器学习(英文版)作者:Tom M.Mitchell,中文版,英文影 印版,数据挖掘的发展动力-需要是发明之母,数据爆炸问题 自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。我们拥有丰富的数据,但却缺乏有用的信息 解决方法:数据仓库技术和数据挖掘技术数据仓库(Data Warehouse)和在线分析处理(OLAP)数据挖掘:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束),数据库技术的演化(1),1960s和以前:文件系统1970s:层次数据库和网状数据库1980s早期:关系数据模型,关系数据库
3、管理系统(RDBMS)的实现,数据库技术的演化(2),1980s晚期:各种高级数据库系统(扩展的关系数据库,面向对象数据库等等.)面向应用的数据库系统(空间数据库,时序数据库,多媒体数据库等等)1990s:数据挖掘,数据仓库,多媒体数据库和网络数据库2000s流数据管理和挖掘基于各种应用的数据挖掘XML数据库和整合的信息系统,什么是数据挖掘?,数据挖掘(从数据中发现知识)从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识 挖掘的不仅仅是数据(所以“数据挖掘”并非一个精确的用词)数据挖掘的替换词数据库中的知识挖掘(KDD)知识提炼、数据/模式分析数据考古数据捕捞
4、、信息收获等等。,并非所有的东西都是数据挖掘,基于数据仓库的OLAP系统OLAP系统专注于数据的汇总,而数据挖掘系统可以对数据进行多种复杂的处理。机器学习系统,数据统计分析系统这些系统所处理的数据容量往往很有限。信息系统专注于数据的查询处理。相比于上述系统,数据挖掘系统关注更广的范围,是一个多学科的融合,数据挖掘应用的应用领域,市场分析和管理百货公司、超市、银行、电子商务风险分析和管理电信、保险欺诈检测和异常模式的监测信用卡、警察机关、税务部门其他应用文本挖掘流数据挖掘DNA和生物数据分析,数据挖掘应用市场分析和管理(1),数据从那里来?信用卡交易,会员卡,商家的优惠卷,消费者投诉电话,公众生
5、活方式研究目标市场构建一系列的“客户群模型”,这些顾客具有相同特征:兴趣爱好,收入水平,消费习惯,等等确定顾客的购买模式交叉市场分析货物销售之间的相互联系和相关性,以及基于这种联系上的预测,数据挖掘应用市场分析和管理(2),顾客分析哪类顾客购买那种商品(聚类分析或分类预测)客户需求分析确定适合不同顾客的最佳商品预测何种因素能够吸引新顾客提供概要信息多维度的综合报告统计概要信息(数据的集中趋势和变化),数据挖掘应用公司分析和风险管理,财务计划现金流转分析和预测交叉区域分析和时间序列分析(财务资金比率,趋势分析等等)资源计划总结和比较资源和花费竞争对竞争者和市场趋势的监控 将顾客按等级分组和基于等
6、级的定价过程将定价策略应用于竞争更激烈的市场中,数据挖掘应用欺诈行为检测和异常模式的发现,方法:对欺骗行为进行聚类和建模,并进行孤立点分析应用:卫生保健、零售业、信用卡服务、电信等汽车保险:相撞事件的分析 洗钱:发现可疑的货币交易行为 医疗保险职业病人,医生以及相关数据分析不必要的或相关的测试电信:电话呼叫欺骗行为电话呼叫模型:呼叫目的地,持续时间,日或周呼叫次数.分析该模型发现与期待标准的偏差零售产业分析师估计有38的零售额下降是由于雇员的不诚实行为造成的反恐怖主义,其他应用,体育竞赛美国NBA的29个球队中,有25个球队使用了IBM分析机构的数据挖掘工具,通过分析每个对手的数据(盖帽、助攻
7、、犯规等数据)来获得比赛时的对抗优势。天文学JPL实验室和Palomar天文台就曾经在数据挖掘工具的帮助下发现了22颗新的恒星网上冲浪通过将数据挖掘算法应用于网络访问日志,从有市场相关的网页中发现消费者的偏爱和行为,分析网络行销的有效性,改善网络站点组织。这就是新兴的WEB挖掘研究,数据挖掘:数据库中的知识挖掘(KDD),数据挖掘知识挖掘的核心,数据清理,数据集成,数据库,数据仓库,Knowledge,任务相关数据,选择,数据挖掘,模式评估,Knowledge Discovery in Database,典型数据挖掘系统的体系结构,数据仓库,数据清洗,过滤,数据库,数据库或数据仓库服务器,数据
8、挖掘引擎,模式评估,图形用户界面,知识库,数据集成,在何种数据上进行数据挖掘,关系数据库数据仓库事务数据库高级数据库系统和信息库空间数据库时间数据库和时间序列数据库流数据多媒体数据库面向对象数据库和对象-关系数据库异种数据库和历史(legacy)数据库文本数据库和万维网(WWW),空间数据库,空间数据库是指在关系型数据库(DBMS-Database Management System)内部对地理信息进行物理存储。空间数据库中存储的海量数据包括对象的空间拓扑特征、非空间属性特征以及对象在时间上的状态变化。常见的空间数据库数据类型 地理信息系统(GIS)遥感图像数据医学图像数据数据挖掘技术的应用:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 序论数据挖掘 序论 数据 挖掘 PPT 课件
链接地址:https://www.31ppt.com/p-5505424.html