《数据分析技术》PPT课件.ppt
《《数据分析技术》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《数据分析技术》PPT课件.ppt(131页珍藏版)》请在三一办公上搜索。
1、数据分析技术,战略信息,企业目标在5年内增加15%的客户在3年内抢占15%的市场在2年内投放3种新产品提高前5%的产品质量在东北市场提高15%的销售额所需信息全面深入地了解公司运营了解关键因素及其相互作用检测这些因素如何随时间变化将公司运营状况和对手以及行业标准做比较,战略信息系统,SIS:Strategic Information Systems能够支援和改变组织战略行为,使得组织具有竞争力的信息系统,决策支持系统,正确决策企业的竞争优势,错、错、错在错误的时间、错误的地点、同错误的对手打了一场错误的战争,噬脐何及,合九州六十四县铁,不能铸成此大错也,苍天如圆盖大地如棋局世间分楚汉荣辱争天下
2、,博弈,博弈,博弈,博弈,纳什均衡一个博弈可能有多个纳什均衡每个参与者把其他参与人的策略当作是给定的允许了不可置信的威胁的存在,博弈,博弈,博弈,博弈,阿里巴巴:芝麻开门,哪些客户对我们最有利?如何拓展与他们的联系?哪些客户给我们提供利润?哪些客户使我们遭受损失?根据他们经常光顾的商店,最好的客户居住在哪里?哪些产品和服务能被最有效的进行交叉销售,销售对象是谁?哪些市场营销案例是最成功的?为什么?哪些销售渠道对于哪些产品是最有效的?如何才能改善我们用户的总体经历?,We are drowning in data but starved of information,商务智能,商务智能的需求有巨
3、量的商业数据日常数据:订单、存货、帐单、外部数据:客户信息、对手信息、政策每2到3年商业数据变会翻番有93%的数据没有在决策过程中使用到!商务智能的目的使人能更快捷、更容易地做出更好的商业决策终极目标3w-win,win,win,商务智能,Business Intelligence is a process of turning data into knowledge and knowledgeinto action for business gain,Business Intelligence is the process oftransforming data into informati
4、on andthrough iterative discovery transforming information into knowledge,elevate,从数据到知识,垂拱而治,CEO:统计一下购买我们的产品及竞争对手产品的用户信息计算机:,垂拱而治,CEO:怎样会使得用户购买我们的产品?计算机:刺激销售(如中奖销售、打折优惠)会吸引他们购物CEO:促销的成本是多少?促销的最佳时机是什么时候?它会吸引多少新用户?计算机:,“三拍”而治,管理活动的层次结构,管理活动各层次中信息的特征,不同层次的信息处理需求,事务处理需求不同的事务处理子系统采购子系统:订单、订单细则、供应商销售子系统:
5、顾客、销售库存子系统:出库领料单、进料入库单、库存台帐人事子系统:员工、部门各种事务处理需求一笔订购、一笔销售、一次进料、一次出料要求强调多用户并发环境,数据的一致性、完整性,不同层次的信息处理需求,分析处理需求今年销售量下降的因素(时间、地区、商品、销售部门)某种商品今年的销售情况与以往相比,有怎样的变化?每年的第一季度商品销售在各类商品上的分布情况怎样?要求多个子系统中的数据(数据集成)历史数据汇总、综合的数据,DSS早期演化阶段,1960,1965,1970,1975,1980,主文件报表,太多主文件,数据库-所有处理的单一数据源,联机高性能事务处理,单一数据库既用于事务处理,又用于DS
6、S,DSS早期演化阶段,抽取程序搜索整个文件和数据库,使用某些标准选取合乎限制的数据,并把数据传到其他文件或数据库中优点将数据从事务处理应用中转移出来,在进行数据分析时不会与事务处理发生冲突当将数据从事务处理应用中抽取出来之后,数据的控制方式发生了转变,最终用户可以拥有抽取出来的数据,抽取程序,DSS早期演化阶段,蜘蛛网,数据缺乏可信性生产率低,从数据库到数据仓库,事务处理与分析处理的性能特性不同事务处理环境数据存取操作频率高每次操作处理的时间短占用系统资源少系统可以允许多个用户按分时方式使用资源,保持较短的响应时间分析处理环境运行时间长消耗大量系统资源事务与分析应用不宜放在同一中环境中,从数
7、据库到数据仓库,数据集成问题事务处理目的是使业务自动化只关注与本部门业务相关的当前数据事务处理应用的分散:企业内部各事务处理应用间相互独立DSS需要集成的数据(内部各部门数据、外部数据、竞争对手数据)DSS需要对分散在各个事务处理应用中的相关数据进行集成,以向分析人员提供统一的数据视图,数据仓库的定义,数据仓库是一个面向主题的(Subject Oriented),集成的(Integrated),相对稳定的(Nonvolatile),反映历史变化的(time Variant)数据集合。用于支持管理决策,数据粒度,粒度数据综合程度高低的一个度量粒度越小,越细节,综合程度越低,回答查询种类越多,数据
8、量大,性能低,数据粒度,细节级一个月内客户的每个电话记录每月200个记录,40000个字节,综合级一个月内客户电话汇总(电话次数、平均通话时间、长途电话次数)每月1个记录,200个字节,能回答,不能回答,上周张三给他在上海的女朋友打电话了吗?,能回答,能回答 性能低,上月人们从华盛顿打出的长途电话平均次数?,数据分割,分割将数据分散到各自的物理单元中去,以便能分别独立处理,灵活地访问数据,提高效率实际需要分析往往对某种相关性的数据集合进行某一时段的数据某一地区的数据某特定业务领域的数据某一时段某特定业务领域的数据日期往往是自然而均匀的分割,数据分割,健康保险 人寿保险 意外伤亡保险1988 分
9、片1分片2分片31989 分片4分片5分片61990 分片7分片8分片9,数据仓库的体系结构,信息集成,信息集成的定义information integration把存储在两个或多个信息源中的数据提取出来,建立一个包含所有这些信息源的信息的大数据库(该数据库可以是虚拟的)信息集成的方式联邦数据库(federal database)数据仓库(data warehouse)协调器(mediator),信息集成中的问题,汽车公司有1000位代理商,想创建一个集成数据库,各个代理商使用不同的数据库模式代理商1:Cars(serialNo,model,color,autotrans,cdPlayer,)
10、代理商2:Autos(serial,model,color),Options(serial,option)问题数据类型不同取值不同语义不同数据丢失,联邦数据库,DB1,DB2,DB3,DB4,问题:编写n(n-1)个组件来相互翻译查询,联邦数据库,代理商1询问代理商2是否有自己所需要的汽车,for(each tuple(:m,:c,:a)in NeededCarsif(:a=true)select serial from Autos,Optionswhere Autos.serial=Options.serial and Autos.model=:m and Autos.color=:cels
11、eselect serial from Autos where Autos.model=:m and Autos.color=:c not exists(select*from Optionswhere serial=Autos.serial and option=autoTrans),NeededCars(model,color,autoTrans),数据仓库,查询,结果,数据仓库是个实视图,数据仓库,insert into AutosWhse(serialNo,model,color,autotrans,dealer)select serialNo,model,color,autotran
12、s,dealer1from Cars,导入代理商1,代理商1:Cars(serialNo,model,color,autotrans,cdPlayer,)代理商2:Autos(serial,model,color),Options(serial,option)数据仓库:AutosWhse(serialNo,model,color,autotrans,dealer)dealer指拥有该车的代理商,数据仓库,insert into AutosWhse(serialNo,model,color,autotrans,dealer)select serialNo,model,color,yes,deal
13、er2from Autos,Optionswhere Autos.serial=Options.serialand option=autoTrans,insert into AutosWhse(serialNo,model,color,autotrans,dealer)select serialNo,model,color,no,dealer2from Autoswhere not exists(select*from Options where Autos.serial=Options.serial and option=autoTrans),导入代理商2,协调器,协调器是个虚视图,协调器,
14、协调器:AutosMed(serialNo,model,color,autotrans,dealer),询问协调器关于红色汽车的信息select serialNo,modelfrom autosMedwhere color=red,代理商1的包装器select serialNo,modelfrom Carswhere color=red,代理商2的包装器select serialNo,modelfrom Autoswhere color=red,协调器,询问协调器是否存在Gobi型号的蓝色汽车,询问代理商1是否存在Gobi型号的蓝色汽车,询问代理商2是否存在Gobi型号的蓝色汽车,返回,是,否
15、,包装器,包装器从协调器接受各种查询,然后将查询翻译成数据源的术语,并将结果传送给协调器如何设计包装器?将协调器可能使用的查询进行分类,成为模板模板是带有代表常数的参数的查询协调器提供常数,包装器执行给定好常数的查询用T=S表示包装器将查询模板T变成对数据源的查询S,包装器生成器,类似YACC,将翻译好之后的查询模板和对应的源查询存储到表中,接受来自协调器的查询在表中查找与查询匹配的模板找到,则传递查询中参数,实例化模板没找到,拒绝协调器源查询发送到数据源将数据源的答复返回给协调器,包装器模板,协调器:AutosMed(serialNo,model,color,autotrans,dealer
16、),代理商1:Cars(serialNo,model,color,autotrans,cdPlayer,),select*from AutosMedwhere color=$c=select serialNo,model,color,autotrans,dealer1from Carswhere color=$c,查询给定颜色的汽车,模板1,包装器模板,select*from AutosMedwhere color=$c and model=$m=select serialNo,model,color,autotrans,dealer1from Carswhere color=$c and m
17、odel=$m,查询给定颜色和型号的汽车,模板2,过滤器,为避免太多的查询模板,只给包装器指定少量模板,它返回查询所需结果的超集,然后再由包装器过滤向数据源所提供的结果,询问协调器关于红色BMW汽车的信息select serialNo,modelfrom autosMedwhere color=red and model=BMW执行模板1,令$c=red将结果保存在临时表TempAutos中(实际中,可以是流水方式)执行查询select*from TempAutos where model=Gobi,问题:如何确定一个协调器查询是某个包装器模板查询结果的子集,过滤器,查询代理商和型号,代理商有
18、两辆同型号的红色汽车,一辆是自动的,另一辆不是,针对协调器的查询select A1.model,A1.dealerfrom autosMed A1,autosMed A2where A1.model=A2.model and A1.color=red and A2.color=red and A1.autoTrans=no and A2.autoTrans=yes,过滤器,执行模板1,令$c=red将结果保存在临时表RedAutos中接着执行:select A1.model,A1.dealerfrom RedAutos A1,RedAutos A2where A1.model=A2.model
19、 and A1.autoTrans=no and A2.autoTrans=yes,数据分析流程,Spread Sheet,Table,Extracting+Visualizing,计算 Vs 可视化,关系系统计算数据立方体可视化系统显示数据立方体,一些分析需求,用户想使用直方图用户想在不同粒度上运用聚集函数roll up&drill down用户想使用交叉表,F()G()H(),Red Brick的扩展,N-tile将所有元组按值大小分为n个连续区间,每个区间的元组个数相同,返回每个区间的平均值select percentile,avg(salary)from EMPgroupby N_ti
20、le(salary,10)as percentileRatio_To_Total计算每个分组的和在总和中的比例Rank返回值在所有列值中的序号,TOP,select top n percent with ties select_list,select top 5 title_id,price,typefrom titlesselect top 5 title_id,price,typefrom titlesorder by price descselect top 5 WITH TIES title_id,price,typefrom titlesorder by price descsele
21、ct top 30 PERCENT title_id,price,typefrom titlesorder by price desc,我要的不多只需要n个,直方图,(select 1,avg(*)from EMPwhere salary=(select max(salary)from EMP)*2/3union(select 2,avg(*)from EMPwhere salary=(select max(salary)from EMP)/3union(select 3,avg(*)from EMPwhere salary(select max(salary)from EMP)/3,rank
22、,select T1.S#,GRADE,(select count(distinct T2.GRADE)from SC AS T2 where T1.GRADE=T2.GRADE)as rankfromSC as T1whereGRADE is not nullorder by rank,中位数,declare temp INT,median INTset temp=(select count(*)from sc)/2declare my_curs cursor for selectGRADEfromSCorder by GRADEopen my_curswhile(temp0)begin f
23、etch my_curstemp=temp 1endfetch my_curs into median,给出成绩排在最中间的学生的成绩,落差,create view rankgrade(GRADE,graderank)asselect GRADE,(select count(distinct GRADE)from SC as T1 where T1.GRADE=T2.GRADE)as rankfrom SC AS T2 select G1=V1.GRADE,G2=V2.GRADE,DIFF=(V2.GRADE-V1.GRADE)from rankgrade as V1 left outer j
24、oin rankgrade as V2on(V2.graderank=V1.graderank+1),给出所有相邻两个成绩之间的差,Skyline:问题的引入,找一个便宜并且离海滩近的旅馆系统无法决定哪些是最好的,但它会提供所有的备选(interesting)旅馆,也即它们不会在两个维上都比其他任何旅馆差,称其为Skyline,Skyline:问题的引入,称点x统治(dominate)点y,如果x在所有维上都不比y差,并且至少在一个维上好过y旅馆(price=50,distance=0.8)统治(price=100,distance=1.0),Skyline:更高、更靠近河流的建筑,东食西宿:
25、更英俊、更有钱,Skyline的性质,一个集合M,一个单调计分函数R,如果pM使得R最大,那么p一定在M的Skyline中不管你如何偏好旅馆的价格和距离,你最中意的旅馆总是在Skyline中对Skyline中的任意一点p,总存在一个单调计分函数,p使得它最大,也即Skyline不会包含不是任何人偏好的旅馆统治满足传递性,也即如果p统治q,q统治r,则p统治r,带Skyline的SQL扩展,SELECTFROMWHEREGROUP BYHAVINGSKYLINE OF DISTINCT d1 MIN|MAX|DIFF,dn MIN|MAX|DIFF TOP ORDER BY,SKYLINE OF
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据分析技术 数据 分析 技术 PPT 课件
链接地址:https://www.31ppt.com/p-5519443.html