数据挖掘导论课件PPT.ppt
《数据挖掘导论课件PPT.ppt》由会员分享,可在线阅读,更多相关《数据挖掘导论课件PPT.ppt(101页珍藏版)》请在三一办公上搜索。
1、数据挖掘导论ppt课件,56、死去何所道,托体同山阿。57、春秋多佳日,登高赋新诗。58、种豆南山下,草盛豆苗稀。晨兴理荒秽,带月荷锄归。道狭草木长,夕露沾我衣。衣沾不足惜,但使愿无违。59、相见无杂言,但道桑麻长。60、迢迢新秋夕,亭亭月将圆。,数据挖掘导论ppt课件数据挖掘导论ppt课件56、死去何所道,托体同山阿。57、春秋多佳日,登高赋新诗。58、种豆南山下,草盛豆苗稀。晨兴理荒秽,带月荷锄归。道狭草木长,夕露沾我衣。衣沾不足惜,但使愿无违。59、相见无杂言,但道桑麻长。60、迢迢新秋夕,亭亭月将圆。第一章 数据挖掘导论给你如下的数据,你能从中得到哪些信息,你会如何利用它们呢?某电子商
2、务网站的运营数据,包括用户资料、历史订单、价格信息和用户评论社交网络的数据,包括用户资料、发帖、回帖医保系统数据电信业务数据智能手机的位置信息,1.1 什么是数据挖掘,从信息技术的角度讲,数据挖掘属于商业智能(Business Intelligence,BI)的一个子集。数据挖掘的理论包括数据库、统计学、人工智能、优化等方面。数据挖掘的较为理论的定义可以使用名词“机器学习”来解释分析数据,使用自动化或半自动化的工具来挖掘隐含的模式(决策树、规则、聚类或数学公式)。数据挖掘过程有时也称为知识发现,或者数据库中的知识发现(knowledge discovery in databases,KDD),
3、数据挖掘的产生,社会产生了海量的数据来源:商业,科学,医学,经济,地理,环境,体育数据是潜在的有价值的资源人类积累的数据量以每月高于15%的速度增加,如果不借助强有力的技术方法,仅依靠人工的方式来理解这些数据是不可能的,需要技术来自动地从这些数据中提取信息,数据挖掘的产生,问题:数据丰富,但信息贫乏快速增长的海量数据收集存放在大型数据库中,没有强有力的工具,理解它们已经超出了人的能力。收集在数据库中的文件成了“数据坟墓”需要从海量数据库和大量繁杂信息中提取有价值的知识,进一步提高信息的利用率产生了一个新的研究方向:基于数据库的知识发现(Knowledge Discovery in Databa
4、se),以及相应的数据挖掘(Data Mining)理论和技术的研究,信息的重要性,例: 奶牛的筛选已知:描述奶牛的700多个特征,包括年龄、健康问题、生产记录、不良性情问题:选择被淘汰的奶牛,每年挤奶季节结束时只留下1/5的奶牛,其余卖到屠宰场数据:奶牛特征和奶农决策的历史记录,数据挖掘:从商业的角度,大量的数据被收集和存储Web数据,电子商务商场的销售数据银行卡交易计算机变得越来越价格便宜和功能强大竞争压力越来越大在领域中提供更好的个性化的服务(如客户关系管理),挖掘海量数据集动机,通常信息隐藏在数据之中,并不容易发现要人工分析数据得到有用信息可能要花费数周很多数据根本没有机会被分析,什么
5、是数据挖掘,各种定义从数据中提取出隐含的、潜在的、未知的信息分析数据,使用自动化或半自动化的工具来挖掘隐含的模式数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。,数据挖掘的定义商业定义,数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。,数据挖掘的定义商业定义,应用实例:某公司对多年来的客户资料进行挖掘后发现,大多数购买电脑的客户具有下面的特点:1、年轻(2045岁之间);2、收
6、入高;3、居住地:城市;4、学历高;基于此,此经营公司可以根据这些客户的特点有目的的做一些广告或者促销。,数据挖掘和信息检索,信息检索和数据挖掘的相同点是从档案文件或数据库中抽取感兴趣的数据和信息。区别数据检索对信息的抽取规则是事先定义好的,抽取的是外在信息。数据挖掘寻找现象之间事先未知的关系和关联,什么(不)是数据挖掘?,什么不是数据挖掘从电话号码簿中查找电话号码从一个Web搜索引擎中查询有关“BI”的信息,什么是数据挖掘确定名字是否在美国的某些州较为常见(如OBrien, ORurke, OReilly in Boston area)从搜索引擎中返回的文档中根据它们的内容将相似文档分组,1
7、1 2022 .,Data Mining: Concepts and Techniques,17,知识发现 (KDD) 过程,数据挖掘作为知识发现中的一个步骤,数据清理,数据集成,数据库,数据仓库,知识,任务相关数据,选择,数据挖掘,模式评估,11 2022 .,Data Mining: Concepts and Techniques,18,商业智能中的数据挖掘,对商业决策支持的潜能,最终用户,业务分析者,数据分析者,DBA,决策,数据表达,可视化技术,数据挖掘,知识发现,数据探查,统计摘要, 查询, 报表,数据处理/集成,数据仓库,数据源,纸件, 文件, Web 文档, 科学实验, 数据库系
8、统,数据挖掘依赖的基础,机器学习、人工智能、模式识别、统计学、高效率的计算和数据库传统方法针对数据挖掘问题可能因为以下原因并不适合海量数据高维数据异构的、分布式的数据,数据挖掘与统计学,统计学和数据挖掘有着共同的目标:发现数据中的结构。由于它们的目标相似,一些人认为数据挖掘是统计学的分支。实际上数据挖掘还应用了其它领域的思想、工具和方法,尤其是计算机学科,例如数据库技术和机器学习,而且它所关注的某些领域和统计学家所关注的有很大不同。,数据挖掘与统计学,数据挖掘分析海量数据许多数据库都不适合统计学分析需要,数据挖掘: 发现驱动 (数据驱动) 数据研究统计学: 假设驱动 (人为驱动) 研究数据,区
9、 别 四 个 概 念,数据: 原始的, 未解释的信号或者符号, 如: 1信息: 有一定解释或意义的数据, 如: S.O.S知识: 综合信息形成的观点和普适性的理论智慧: 能够综合知识和经验用以生存计划的 人类思维的结晶,数据挖掘的数据来源,关系数据库数据仓库事务数据库 这些是常用的数据库。,高级数据库,面向对象数据库空间数据库时间数据库和时间序列数据库文本数据库和多媒体数据库数据流WWW,空间数据库,存储与空间相关的信息,包括地图、VLSI芯片、药物、卫星图象等。用途森林和生态环境计划提供公共设施(电话、电缆、管道、污水排放)信息data mining作用回答某一区域的居民分布情况分析气候、交
10、通等因素对城市居民迁移的作用,时间序列数据库,储随时间而变化的信息(例如:股票交易)data mining作用发现对象演化特征和变化趋势银行根据顾客流量调度银行操作股票投资决策,文本数据库,通常是长句和段落,如作者信息、错误报告等大部分高度非结构化(某些WWW网页)某些半结构化(email信息、html/xml网页)data mining作用对象和类的特征描述关键词和内容关联性分析文本对象的聚类,多媒体数据库,存储图象、声音、视频数据用于基于内容的图象检索、语音邮件系统、视频点播系统,WWW和语音识别系统等要解决实时播放问题,图象、声音的连续性问题。,数据挖掘功能,数据挖掘分为定向和非定向两类
11、定向数据挖掘的目的是解释或者分类某个特殊的目标域,如收入或者反馈非定向数据挖掘的目的是在不预设目标域或者确定类的前提下,找出在批量数据间的模式或者相似性,数据挖掘功能,数据挖掘任务有两类:第一类是描述性挖掘任务:刻划数据库中数据的一般特性;第二类是预测性挖掘任务:在当前数据上进行推断,以进行预测。,1.2 数据挖掘解决的商业问题,客户流失分析保持客户的忠诚度,分析哪些客户最可能流失,了解客户流失的原因,改善与客户的关系将客户按价值分类,预测客户的生存周期交叉销售客户在购买某些商品的时候向客户推荐与之相关的产品,增加潜在的销售欺诈检测保险欺诈:在国外有很多例子,市场分析和管理,用于分析的数据从何
12、来?信用卡交易,会员卡,折扣券,用户投诉电话,公众生活方式调查。目标市场找出具有相同特征(兴趣,收入水平,消费习惯等等)的“模式”顾客群。,市场分析和管理,随着时间的推移决定顾客的购买方式从单独银行账户向联合银行账户的转变。例如:结婚交叉市场分析不同产品之间的销售关联关系在此关联信息上进行预测,欺骗检测和管理,应用广泛应用于医疗系统,零售系统,信用卡服务, 电信(电话卡欺骗行为),等等.实现途径利用历史性数据建立欺骗性行为模型并使用数据挖掘帮助识别同类例子,欺骗检测和管理,具体事例汽车保险:检测出那些故意制造车祸而索取保险金的人来路不明钱财的追踪: 发现可疑钱财交易(美国财政部的财政犯罪执行网
13、) 医疗保险: 检测出潜在的病人,呼叫医生,1.2 数据挖掘解决的商业问题,风险管理贷款审核、信用卡发卡审核,项目评估客户细分基于客户细分采取适当的市场策略有的客户对价格很敏感;有的客户会为更好的服务付出更多的费用检测电信活动电话呼叫模式:呼叫目的地,持续时间,每天或每周的次数。分析与预期标准相背离的模式,客户定位和客户心理,周围的邻居不是开宝马就是开奔驰 你要是开一日本车呀 你都不好意思跟人家打招呼 你说这样的公寓,一平米你得卖多少钱 我觉得怎么着也得两千美金吧 两千美金 那是成本 四千美金起 你别嫌贵 还不打折 你得研究业主的购物心理 愿意掏两千美金买房的业主 根本不在乎再多掏两千,什么叫
14、成功人士 你知道吗? 成功人士就是买什么东西 都买最贵的 不买最好的 所以,我们做房地产的口号是 不求最好 但求最贵,钱多到一定程度,就只是一堆数字了!,1.2 数据挖掘解决的商业问题,广告定位个性化广告,研究客户心理、兴趣、和消费习惯Google?销售预测,数据挖掘的应用,电信 :流失银行:聚类(细分), 交叉销售百货公司/超市:购物篮分析 (关联规则)保险:细分,交叉销售,流失(原因分析)信用卡:欺诈探测,细分电子商务:网站日志分析税务部门:偷漏税行为探测警察机关:犯罪行为分析医学:医疗保健,1.3 数据挖掘的任务,1.3.1 分类分类包括考察一类新出现的对象的特征,并归类到一定义类中分类
15、工作首先要有一个清晰定义的类,还要有一系列已分类实例分类过程实际上是先建立某种模型,再将其用于未分类数据进行分类表示形式:决策树,分类规则,神经网络。,1.3.1 分类,分类问题举例将信用卡申请者分为低、中、高风险确定哪些电话号码与传真机相连发现欺骗性理赔申请 临床诊断将网上的每一篇文章按关键词分在不同组与传真机相连的电话号码带有什么有价值信息?,1.3.2 聚类,聚类是把各不相同的个体分割为有更多相似性的子集合的工作。聚类生成的子集合称为簇(Cluster)。聚类就是要让生成的簇内部的任意两个对象之间具有较高的相似度,而属于不同簇的两个对象间具有较高的相异度。聚类与分类的区别在于聚类不依赖于
16、预先定义的类,没有预定义的类和样本聚类是一种无监督的数据挖掘任务,1.3.2 聚类,聚类通常作为其他数据挖掘或建模的前奏。例如,聚类可以作为市场划分研究的第一步:不是对“客户对哪些促销反应最好”提出一个统一的适合所有人的标准而是首先将客户划分为有相似购物习惯的人群,然后研究对每个人群用哪种促销最好。数据挖掘领域主要研究面向大型数据库、数据仓库的高效和实用的聚类分析算法。,聚类分析,1.3.3 关联,关联规则分析也叫购物篮分析,任务是确定哪些事物会一起出现,即购物篮或购物车中都是哪些商品零售连锁店利用关联规则分析来安排货架上的商品或商品目录,这样将常常一起买的东西放在一起以方便顾客关联规则还可以
17、被用来分析交叉购物的机会(cross-selling),以设计有吸引力的多种商品和服务的包装与组合。,卖东西,一位顾客到一家商店去买雨伞,店员说对不起,没有了。”顾客失望地离去后,老板对店员说不能对顾客说没有,你应该向顾客推荐其他同类商品。例如,你可以这样说:“对不起,没有雨伞,但我们这里有雨衣”又过了一会,来了一位顾客,问您这里有卫生纸吗?” 这个店员回答道:“对不起,卫生纸刚好卖完了,但我们这里有上等的砂纸!”,1.3.3 关联,关联规则是由数据产生规则的一个简单方法。如果猫粮和小猫窝两种物品经常放在一起,我们可以差生两条关联规则:买猫粮的人购买小猫窝的可能性为P1买小猫窝的人购买猫粮的可
18、能性为P2,1.3.4 回归,回归实际上属于一种估计技术分类给出的结果是离散的:属于或不属于。估计处理连续值结果:输入一组数据,估计给出一个未知连续变量的值,如收入、高度或信用卡的余额估计也常用于分类任务如果一个信用卡公司希望向滑雪靴制造商出售帐单信封封面广告空间,他可能建立的分类模型是把持卡人分为滑雪者和或者非滑雪者两种。,现在超市会在付账的时候打出优惠券,其中的商品是你需要的吗?,1.3.4 回归,另一种方法是建立模型,对每个持卡人给以“滑雪倾向值分”,取值在0到1之间。这样分类任务变为建立阈值得分,任何一位得分超过阈值的人被划为滑雪者,而低于阈值的人被认为是非滑雪者。估计方法的优点是可以
19、建立排序假如滑雪靴制造公司打算投递50万封信件,如果确定有150万滑雪者,使用分类方法,它可能会简单地将广告随机投递给其中的50万位。但是按照持卡人的滑雪倾向值分,公司可以把广告寄给最有可能的50万位候选人,回归是实现估计的一种技术,估计任务的例子估计一个家庭的孩子数目估计一个家庭的总收入估计客户的寿命值估计某人对余额转移诱惑的回应的可能性回归模型和神经网络都非常适合估计任务。,1.3.5 预测,预测与分类和估计的任务一样,但其中记录的分类依据是一些预测的未来行为或者估计的未来值(强调时间性)。在预测任务中,检验分类准确度的唯一方法是等待和观察。,1.3.5 预测,分类和估计技术可以稍加改变后
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 导论 课件 PPT

链接地址:https://www.31ppt.com/p-1625493.html