数据挖掘1序论浙大.ppt
《数据挖掘1序论浙大.ppt》由会员分享,可在线阅读,更多相关《数据挖掘1序论浙大.ppt(36页珍藏版)》请在三一办公上搜索。
1、数 据 挖 掘,教科书和参考书,教科书数据挖掘:概念与技术,Jiawei Han和Micheline Kamber 著,机械工业出版社(2001)参考书数据挖掘原理,David Hand,Heikki Mannila和Padhraic Smyth著,机械工业出版社(2003),中文版,英文影 印版,数据挖掘的发展动力-需要是发明之母,数据爆炸问题 自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。我们拥有丰富的数据,但却缺乏有用的信息 解决方法:数据仓库技术和数据挖掘技术数据仓库(Data Warehouse)和在线分析处理(OLAP)数据挖
2、掘:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束),数据库技术的演化(1),1960s和以前:文件系统1970s:层次数据库和网状数据库1980s早期:关系数据模型,关系数据库管理系统(RDBMS)的实现,数据库技术的演化(2),1980s晚期:各种高级数据库系统(扩展的关系数据库,面向对象数据库等等.)面向应用的数据库系统(空间数据库,时序数据库,多媒体数据库等等)1990s:数据挖掘,数据仓库,多媒体数据库和网络数据库2000s流数据管理和挖掘基于各种应用的数据挖掘XML数据库和整合的信息系统,什么是数据挖掘?,数据挖掘(从数据中发现知识)从大量的数据中挖掘哪些令人感兴趣的、有用
3、的、隐含的、先前未知的和可能有用的模式或知识 挖掘的不仅仅是数据(所以“数据挖掘”并非一个精确的用词)数据挖掘的替换词数据库中的知识挖掘(KDD)知识提炼、数据/模式分析数据考古数据捕捞、信息收获等等。,数据挖掘:数据库中的知识挖掘(KDD),数据挖掘知识挖掘的核心,数据清理,数据集成,数据库,数据仓库,Knowledge,任务相关数据,选择,数据挖掘,模式评估,KDD的步骤,从KDD对数据挖掘的定义中可以看到当前研究领域对数据挖掘的狭义和广义认识数据清理:(这个可能要占全过程60的工作量)数据集成数据选择数据变换数据挖掘(选择适当的算法来找到感兴趣的模式)模式评估知识表示,典型数据挖掘系统的
4、体系结构,数据仓库,数据清洗,过滤,数据库,数据库或数据仓库服务器,数据挖掘引擎,模式评估,图形用户界面,知识库,数据集成,并非所有的东西都是数据挖掘,基于数据仓库的OLAP系统OLAP系统专注于数据的汇总,而数据挖掘系统可以对数据进行多种复杂的处理。机器学习系统,数据统计分析系统这些系统所处理的数据容量往往很有限。信息系统专注于数据的查询处理。相比于上述系统,数据挖掘系统关注更广的范围,是一个多学科的融合,在何种数据上进行数据挖掘,关系数据库数据仓库事务数据库高级数据库系统和信息库空间数据库时间数据库和时间序列数据库流数据多媒体数据库面向对象数据库和对象-关系数据库异种数据库和历史(lega
5、cy)数据库文本数据库和万维网(WWW),空间数据库,空间数据库是指在关系型数据库(DBMS)内部对地理信息进行物理存储。空间数据库中存储的海量数据包括对象的空间拓扑特征、非空间属性特征以及对象在时间上的状态变化。常见的空间数据库数据类型 地理信息系统(GIS)遥感图像数据医学图像数据数据挖掘技术的应用:通过空间分类和空间趋势分析,引入机器学习算法,对有用模式进行智能检索,时间数据库和时序数据库,时间数据库和时序数据库都存放与时间有关的数据。时间数据库通常存放包含时间相关属性的数据。时序数据库存放随时间变化的值序列。对时间数据库和时序数据库的数据挖掘,可以通过研究事物发生发展的过程,有助于揭示
6、事物发展的本质规律,可以发现数据对象的演变特征或对象变化趋势。,流数据,与传统的数据库技术中的静态数据不同,流数据是连续的、有序的、变化的、快速的、大量的数据输入的数据。主要应用场合网络监控网页点击流股票市场流媒体等等与传统数据库技术相比,流数据在存储、查询、访问、实时性的要求等方面都有很大区别。,多媒体数据库,多媒体数据库实现用计算机管理庞大复杂的多媒体数据,主要包括包括图形(graphics)、图象(image)、声音(audio)、视频(video)等等,现代数据库技术一般将这些多媒体数据以二进制大对象的形式进行存储。对于多媒体数据库的数据挖掘,需要将存储和检索技术相结合。目前的主要方法
7、包括构造多媒体数据立方体、多媒体数据库的多特征提取和基于相似性的模式匹配。,面向对象数据库和对象-关系数据库,面向对象数据库是面向对象技术和数据库技术结合的产物,该技术对数据以对象的形式进行存储,并在这个基础上实现了传统数据库的功能,包括持久性、并发控制、可恢复性、一致性和查询数据库的能力等。对象关系数据库基于对象关系模型构造,该模型通过处理复杂对象的丰富数据类型和对象定位等功能,扩充关系模型。面向对象数据库和对象关系数据库中的数据挖掘会涉及一些新的技术,比如处理复杂对象结构、复杂数据类型、类和子类层次结构、构造继承以及方法和过程等等。,异构数据库和历史(legacy)数据库,历史数据库是一系
8、列的异构数据库系统的集合,包括不同种类的数据库系统,像关系数据库、网络数据库、文件系统等等。有效利用历史数据库的关键在于实现不同数据库之间的数据信息资源、硬件设备资源和人力资源的合并和共享。对于异构数据库系统,实现数据共享应当达到两点:一是实现数据库转换;二是实现数据的透明访问。WEB SERVICE技术的出现有利于历史数据库数据的重新利用。,文本数据库和万维网(WWW),文本数据库存储的是对对象的文字性描述。文本数据库的分类无结构类型(大部分的文本资料和网页)半结构类型(XML数据)结构类型(图书馆数据)万维网(WWW)可以被看成最大的文本数据库数据挖掘内容内容检索WEB访问模式检索,数据挖
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 序论 浙大
链接地址:https://www.31ppt.com/p-6296654.html