数据挖掘概念与技术第一章.ppt
《数据挖掘概念与技术第一章.ppt》由会员分享,可在线阅读,更多相关《数据挖掘概念与技术第一章.ppt(38页珍藏版)》请在三一办公上搜索。
1、数据挖掘:概念与技术,Jiawei Han and Micheline Kamber著Monrgan Kaufmann Publishers Inc.范明 孟小峰等译机械工业出版社,2023/9/11,数据挖掘:概念与技术,2,2023/9/11,数据挖掘:概念与技术,3,第1章 引言,英文幻灯片制作:Jiawei Han中文幻灯片编译:范明,2023/9/11,数据挖掘:概念与技术,5,第一章 引论,动机:为什么要数据挖掘?什么是数据挖掘?数据挖掘:在什么数据上进行?数据挖掘功能所有的模式都是有趣的吗?数据挖掘系统分类 数据挖掘的主要问题,2023/9/11,数据挖掘:概念与技术,6,动机:
2、需要是发明之母,数据爆炸问题自动的数据收集工具和成熟的数据库技术导致大量数据存放在数据库,数据仓库,和其它信息存储中我们正被数据淹没,但却缺乏知识解决办法:数据仓库与数据挖掘数据仓库与联机分析处理(OLAP)从大型数据库的数据中提取有趣的知识(规则,规律性,模式,限制等),2023/9/11,数据挖掘:概念与技术,7,数据处理技术的演进,1960s:数据收集,数据库创建,IMS 和网状 DBMS1970s:关系数据库模型,关系 DBMS 实现1980s:RDBMS,先进的数据模型(扩充关系的,OO,演绎的,等.)和面向应用 的 DBMS(空间的,科学的,工程的,等.)1990s2000s:数据
3、挖掘和数据仓库,多媒体数据库,和 Web 数据库,2023/9/11,数据挖掘:概念与技术,8,什么是数据挖掘?,数据挖掘(数据库中知识发现):从大型数据库中提取有趣的(非平凡的,蕴涵的,先前未知的 并且是潜在有用的)信息或模式其它叫法和“inside stories”:数据挖掘:用词不当?数据库中知识发现(挖掘)(Knowledge discovery in databases,KDD),知识提取(knowledge extraction),数据/模式分析(data/pattern analysis),数据考古(data archeology),数据捕捞(data dredging),信息收
4、获(information harvesting),商务智能(business intelligence),等.什么不是数据挖掘?(演绎)查询处理.专家系统 或小型 机器学习(ML)/统计程序,2023/9/11,数据挖掘:概念与技术,9,为什么要数据挖掘?可能的应用,数据库分析和决策支持市场分析和管理针对销售(target marketing),顾客关系管理,购物篮分析,交叉销售(cross selling),市场分割(market segmentation)风险分析与管理预测,顾客关系,改进保险,质量控制,竞争能力分析欺骗检测与管理其它应用文本挖掘(新闻组,email,文档资料)流数据挖掘
5、(Stream data mining)Web挖掘.DNA 数据分析,2023/9/11,数据挖掘:概念与技术,10,市场分析与管理(1),用于分析的数据源在哪?信用卡交易,会员卡,打折优惠卷,顾客投诉电话,(公共)生活时尚研究针对销售(Target marketing)找出顾客群,他们具有相同特征:兴趣,收入水平,消费习惯,等.确定顾客随时间变化的购买模式个人帐号到联合帐号的转变:结婚,等.交叉销售分析(Cross-market analysis)产品销售之间的关联/相关 基于关联信息的预测,2023/9/11,数据挖掘:概念与技术,11,市场分析与管理(2),顾客分类(Customer p
6、rofiling)数据挖掘能够告诉我们什么样的顾客买什么产品(聚类或分类)识别顾客需求对不同的顾客识别最好的产品使用预测发现什么因素影响新顾客提供汇总信息各种多维汇总报告统计的汇总信息(数据的中心趋势和方差),2023/9/11,数据挖掘:概念与技术,12,法人分析和风险管理,财经规划和资产评估现金流分析和预测临时提出的资产评估交叉组合(cross-sectional)和时间序列分析(金融比率(financial-ratio),趋势分析,等.)资源规划:资源与开销的汇总与比较竞争:管理竞争者和市场指导对顾客分类和基于类的定价在高度竞争的市场调整价格策略,2023/9/11,数据挖掘:概念与技术
7、,13,欺骗检测和管理(1),应用广泛用于健康照料,零售,信用卡服务,电讯(电话卡欺骗),等.方法使用历史数据建立欺骗行为模型,使用数据挖掘帮助识别类似的实例例汽车保险:检测这样的人,他/她假造事故骗取保险赔偿洗钱:检测可疑的金钱交易(US Treasurys Financial Crimes Enforcement Network)医疗保险:检测职业病患者,医生和介绍人圈,2023/9/11,数据挖掘:概念与技术,14,欺骗检测和管理(2),检测不适当的医疗处置澳大利亚健康保险会(Australian Health Insurance Commission)发现许多全面的检查是请求做的,而不
8、是实际需要的(每年节省100万澳元).检测电话欺骗电话呼叫模式:通话距离,通话时间,每天或每周通话次数.分析偏离期望的模式.英国电讯(British Telecom)识别频繁内部通话的呼叫者的离散群,特别是移动电话,超过数百万美元的欺骗.零售分析家估计,38%的零售业萎缩是由于不忠诚的雇员造成的.,2023/9/11,数据挖掘:概念与技术,15,其它应用,运动IBM Advanced Scout分析NBA的统计数据(阻挡投篮,助攻,和犯规)获得了对纽约小牛队(New York Knicks)和迈艾米热队(Miami Heat)的竞争优势天文借助于数据挖掘的帮助,JPL 和 Palomar Ob
9、servatory 发现了22 颗类星体(quasars)Internet Web Surf-AidIBM Surf-Aid 将数据挖掘算法用于有关交易的页面的Web访问日志,以发现顾客喜爱的页面,分析Web 销售的效果,改进Web 站点的组织,等.,2023/9/11,数据挖掘:概念与技术,16,数据挖掘过程,数据挖掘:KDD的核心.,数据清理,数据集成,数据库,数据仓库,知识,任务相关数据,选择,数据挖掘,模式评估,2023/9/11,数据挖掘:概念与技术,17,KDD过程的步骤,学习应用领域:相关的先验知识和应用的目标创建目标数据集:数据选择数据清理和预处理:(可能占全部工作的 60%!
10、)数据归约与变换:发现有用的特征,维/变量归约,不变量的表示.选择数据挖掘函数 汇总,分类,回归,关联,聚类.,2023/9/11,数据挖掘:概念与技术,18,KDD过程的步骤(续),选择挖掘算法数据挖掘:搜索有趣的模式模式评估和知识表示可视化,变换,删除冗余模式,等.发现知识的使用,2023/9/11,数据挖掘:概念与技术,19,数据挖掘和商务智能,提高支持商务决策的潜能,最终用户,商务分析人员,数据分析人员,DBA,制定决策,数据表示,可视化技术,数据挖掘,信息发现,数据探查,OLAP,MDA,统计分析,查询和报告,数据仓库/数据集市,数据源,文字记录,文件,信息提供者,数据库系统,OLT
11、P系统,2023/9/11,数据挖掘:概念与技术,20,典型的数据挖掘系统结构,数据仓库,数据清理 数据集成,过滤,数据库,数据库或数据仓库,数据挖掘引擎,模式评估,图形用户界面,知识库,2023/9/11,数据挖掘:概念与技术,21,数据挖掘:在什么数据上进行?,关系数据库数据仓库事务(交易)数据库先进的数据库和信息存储面向对象和对象-关系数据库空间和时间数据时间序列数据和流数据文本数据库和多媒体数据库异种数据库和遗产数据库 WWW,2023/9/11,数据挖掘:概念与技术,22,数据挖掘功能(1),概念描述:特征和区分概化,汇总,和比较数据特征,例如,干燥和潮湿的地区关联(相关和因果关系)
12、多维和单维关联 age(X,“20.29”)income(X,“20.29K”)buys(X,“PC”)support=2%,confidence=60%contains(T,“computer”)contains(T,“software”)support=1%,confidence=75%,2023/9/11,数据挖掘:概念与技术,23,数据挖掘功能(2),分类和预测找出描述和识别类或概念的模型(函数),用于将来的预测例如根据气候对国家分类,或根据单位里程的耗油量对汽车分类表示:判定树(decision-tree),分类规则,神经网络预测:预测某些未知或遗漏的数值值聚类分析类标号(Class
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 概念 技术 第一章
链接地址:https://www.31ppt.com/p-5985899.html