数据仓库和数据挖掘技术.ppt
《数据仓库和数据挖掘技术.ppt》由会员分享,可在线阅读,更多相关《数据仓库和数据挖掘技术.ppt(89页珍藏版)》请在三一办公上搜索。
1、2023年2月11日星期六,数据仓库与数据挖掘技术,1,数据仓库和数据挖掘技术,什么是数据挖掘?几种主要数据挖掘模型和算法复杂类型数据的挖掘,2023年2月11日星期六,数据仓库与数据挖掘技术,2,数据挖掘都干了些什么?,英国电信需要发布一种新的产品,需要通过直邮的方式向客户推荐这种产品通过数据挖掘的方法使直邮的回应率提高了100GUS日用品零售商店需要准确的预测未来的商品销售量,降低库存成本通过数据挖掘的方法使库存成本比原来减少了3.8%,2023年2月11日星期六,数据仓库与数据挖掘技术,3,美国国防财务部需要从每年上百万比的军火交易中发现可能存在的欺诈现象发现可能存在欺诈的交易,进行深入
2、调查,节约了大量的调查成本汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价值的客户。营销费用减少了30,数据挖掘都干了些什么?,2023年2月11日星期六,数据仓库与数据挖掘技术,4,什么是数据挖掘?,通过采用自动或半自动的手段,在海量数据中发现有意义的行为和规则的探测和分析活动。数据挖掘能够帮助你选择正确,瞄准潜在目标,向现有的客户提供额外的产品,识别那些准备离开的好客户。数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构 数据挖掘大部分的价值在于利用数据挖掘技术改善预言模型,2023年2月11日星期六,数据仓库与数据挖掘技术,5,数据挖掘应用领域,电信:流失银行:
3、聚类(细分),交叉销售百货公司/超市:购物篮分析(关联规则)保险:细分,交叉销售,流失(原因分析)信用卡:欺诈探测,细分电子商务:网站日志分析税务部门:偷漏税行为探测警察机关:犯罪行为分析医学:医疗保健,2023年2月11日星期六,数据仓库与数据挖掘技术,6,(Big Bank&Credit Card Company),目的:发现新客户,数据挖掘效益分析(直邮),2023年2月11日星期六,数据仓库与数据挖掘技术,7,Data Mining:A KDD Process,Data mining:the core of knowledge discovery process.,Data Clean
4、ing,Data Integration,Databases,Data Warehouse,Knowledge,Task-relevant Data,Selection,Data Mining,Pattern Evaluation,2023年2月11日星期六,数据仓库与数据挖掘技术,8,Data Mining:Confluence of Multiple Disciplines,Data Mining,Database Technology,Statistics,OtherDisciplines,InformationScience,MachineLearning(AI),Visualizat
5、ion,2023年2月11日星期六,数据仓库与数据挖掘技术,9,数据仓库和数据挖掘技术,什么是数据仓库(What is a data warehouse)?多维数据模型(A multi-dimensional data model)数据仓库体系结构(Data warehouse architecture)什么是数据挖掘(What is a Data Mining)?几种主要数据挖掘模型和算法复杂类型数据的挖掘,2023年2月11日星期六,数据仓库与数据挖掘技术,10,Data Mining Functionalities(1),Concept description:Characterizat
6、ion and discriminationGeneralize,summarize,and contrast data characteristics,e.g.,dry vs.wet regionsAssociation(correlation and causality)Multi-dimensional vs.single-dimensional association age(X,“20.29”)income(X,“20.29K”)buys(X,“PC”)support=2%,confidence=60%contains(T,“computer”)contains(x,“softwar
7、e”)1%,75%,2023年2月11日星期六,数据仓库与数据挖掘技术,11,Data Mining Functionalities(2),Classification and Prediction Finding models(functions)that describe and distinguish classes or concepts for future predictionPresentation:decision-tree,classification rule,neural networkPrediction:Predict some unknown or missing
8、numerical values Cluster analysisClass label is unknown:Group data to form new classes,e.g.,cluster houses to find distribution patternsClustering based on the principle:maximizing the intra-class similarity and minimizing the interclass similarity,2023年2月11日星期六,数据仓库与数据挖掘技术,12,Data Mining Functional
9、ities(3),Outlier analysisOutlier:a data object that does not comply with the general behavior of the dataIt can be considered as noise or exception but is quite useful in fraud detection,rare events analysisTrend and evolution analysisTrend and deviation:regression analysisSequential pattern mining,
10、periodicity analysisSimilarity-based analysisOther pattern-directed or statistical analyses,2023年2月11日星期六,数据仓库与数据挖掘技术,13,概念描述(Concept Description),产生数据的特征化和比较描述特征化:提供给定数据汇集的简介汇总比较(也称区分):提供两个或多个数据汇集的比较描述,2023年2月11日星期六,数据仓库与数据挖掘技术,14,数据概化和基于汇总的特征化,数据概化是一个过程,它将大的任务相关的数据集从较低的概念层抽象到较高的概念层.概化方法数据立方体(OLAP
11、approach)面向属性的归纳方法,2023年2月11日星期六,数据仓库与数据挖掘技术,15,面向属性的归纳,KDD Workshop(89)中提出方法介绍:使用SQL收集相关数据通过数据移除和数据概化来实现概化聚集通过合并相等的广义元组,并累计他们对应的计数值进行和使用者之间交互式的呈现方式.,基本方法,数据聚焦:选择和当前分析相关的数据,包括维。属性移除:如果某个属性包含大量不同值,但是1)在该属性上没有概化操作,或者2)它的较高层概念用其它属性表示。属性概化:如果某个属性包含大量不同值,同时在该属性上有概化操作符,则运用该操作符进行概化。属性阈值控制:typical 2-8,speci
12、fied/default.概化关系阈值控制:控制最终关系的大小,特征化的一个例子,Prime Generalized Relation,Initial Relation,挖掘类比较,比较:比较两个或者更多类.方法:将相关的数据分成目标类和比较类。将两个类别的数据概化到相同的层次。用相同层次的描述对元组进行比较。对于每个元组展现其描述和两个衡量标准将差异很大的元组特别显示出来相关性分析:发现最能体现类别之间差异的属性.,2023年2月11日星期六,数据仓库与数据挖掘技术,19,例子:分析性比较,Prime generalized relation for the target class:Gra
13、duate students,Prime generalized relation for the contrasting class:Undergraduate students,2023年2月11日星期六,数据仓库与数据挖掘技术,20,从大型数据库中挖掘关联规则,关联规则挖掘:在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构。举例:规则形式:“Body Head support,confidence”.buys(x,“diapers”)buys(x,“beers”)0.5%,60%major(x,“CS”)takes(x,“DB”)
14、grade(x,“A”)1%,75%,2023年2月11日星期六,数据仓库与数据挖掘技术,21,关联规则:基本概念,给定:(1)交易数据库(2)每笔交易是:一个项目列表(消费者一次购买活动中购买的商品)查找:所有描述一个项目集合与其他项目集合相关性的规则应用*护理用品(商店应该怎样提高护理用品的销售?)家用电器*(其他商品的库存有什么影响?)在产品直销中使用附加邮寄,2023年2月11日星期六,数据仓库与数据挖掘技术,22,Transactions Example,ITEMS:A=milkB=breadC=cerealD=sugarE=eggs,Instances=Transactions,2
15、023年2月11日星期六,数据仓库与数据挖掘技术,23,Definitions,Item:attribute=value pair or simply valueusually attributes are converted to binary flags for each value,e.g.product=“A”is written as“A”Itemset I:a subset of possible itemsExample:I=A,B,E(order unimportant)Transaction:(TID,itemset)TID is transaction ID,2023年2月
16、11日星期六,数据仓库与数据挖掘技术,24,Support and Frequent Itemsets,Support of an itemset sup(I)=no.of transactions t that support(i.e.contain)IIn example database:sup(A,B,E)=2,sup(B,C)=4 Frequent itemset I is one with at least the minimum support count sup(I)=minsup,2023年2月11日星期六,数据仓库与数据挖掘技术,25,Association Rules,A
17、ssociation rule R:Itemset1=Itemset2Itemset1,2 are disjoint and Itemset2 is non-emptymeaning:if transaction includes Itemset1 then it also has Itemset2ExamplesA,B=E,CA=B,C,2023年2月11日星期六,数据仓库与数据挖掘技术,26,From Frequent Itemsets to Association Rules,Q:Given frequent set A,B,E,what are possible association
18、 rules?A=B,EA,B=EA,E=BB=A,EB,E=AE=A,B _=A,B,E(empty rule),or true=A,B,E,2023年2月11日星期六,数据仓库与数据挖掘技术,27,规则度量:支持度与可信度,查找所有的规则 X&Y Z 具有最小支持度和可信度支持度,s,一次交易中包含X、Y、Z的可能性可信度,c,包含X、Y的交易中也包含Z的条件概率,设最小支持度为50%,最小可信度为 50%,则可得到A C(50%,66.6%)C A(50%,100%),买尿布的客户,二者都买的客户,买啤酒的客户,2023年2月11日星期六,数据仓库与数据挖掘技术,28,Associati
19、on Rules Example:,Q:Given frequent set A,B,E,what association rules have minsup=2 and minconf=50%?A,B=E:conf=2/4=50%A,E=B:conf=2/2=100%B,E=A:conf=2/2=100%E=A,B:conf=2/2=100%Dont qualify A=B,E:conf=2/6=33%A,E:conf=2/7=28%A,B,E:conf:2/9=22%50%,2023年2月11日星期六,数据仓库与数据挖掘技术,29,Find Strong Association Rules
20、,A rule has the parameters minsup and minconf:sup(R)=minsup and conf(R)=minconfProblem:Find all association rules with given minsup and minconfFirst,find all frequent itemsets,2023年2月11日星期六,数据仓库与数据挖掘技术,30,Finding itemsets:next level,Apriori algorithm(Agrawal&Srikant)Idea:use one-item sets to generat
21、e two-item sets,two-item sets to generate three-item sets,If(A B)is a frequent item set,then(A)and(B)have to be frequent item sets as well!In general:if X is frequent k-item set,then all(k-1)-item subsets of X are also frequentCompute k-item set by merging(k-1)-item sets,2023年2月11日星期六,数据仓库与数据挖掘技术,31
22、,An example,Given:five three-item sets(A B C),(A B D),(A C D),(A C E),(B C D)Lexicographic order improves efficiencyCandidate four-item sets:(A B C D)Q:OK?A:yes,because all 3-item subsets are frequent(A C D E)Q:OK?A:No,because(C D E)is not frequent,2023年2月11日星期六,数据仓库与数据挖掘技术,32,Generating Association
23、 Rules,Two stage process:Determine frequent itemsets e.g.with the Apriori algorithm.For each frequent item set I for each subset J of Idetermine all association rules of the form:I-J=JMain idea used in both stages:subset property,2023年2月11日星期六,数据仓库与数据挖掘技术,33,Apriori算法 例子,数据库 D,扫描 D,C1,L1,L2,C2,C2,扫描
24、 D,C3,L3,扫描 D,2023年2月11日星期六,数据仓库与数据挖掘技术,34,如何计算候选集的支持度,计算支持度为什么会成为一个问题?候选集的个数非常巨大 一笔交易可能包含多个候选集方法:用 hash-tree 存放候选集树的叶子节点 of存放项集的列表和支持度内部节点 是一个hash表Subset 函数:找到包含在一笔交易中的所有候选集,2023年2月11日星期六,数据仓库与数据挖掘技术,35,生成候选集的例子,L3=abc,abd,acd,ace,bcd自连接:L3*L3abc 和 abd 得到 abcd acd 和 ace 得到 acde修剪:ade 不在 L3中,删除 acde
25、C4=abcd,2023年2月11日星期六,数据仓库与数据挖掘技术,36,提高Apriori效率的方法,基于Hash的项集计数:如果一个 k-项集在hash-tree的路径上的一个计数值低于阈值,那他本身也不可能是频繁的。减少交易记录:不包含任何频繁k-项集的交易也不可能包含任何大于k的频繁集分割:一个项集要想在整个数据库中是频繁的,那么他至少在数据库的一个分割上是频繁的。采样:在给定数据的子集上挖掘,使用小的支持度+完整性验证方法动态项集计数:在添加一个新的候选集之前,先估计一下是不是他的所有子集都是频繁的。,2023年2月11日星期六,数据仓库与数据挖掘技术,37,Apriori 够快了吗
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 数据 挖掘 技术

链接地址:https://www.31ppt.com/p-2313590.html