欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    数据分析科学的过去现在未来.ppt

    • 资源ID:5356542       资源大小:18.40MB        全文页数:81页
    • 资源格式: PPT        下载积分:10金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要10金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    数据分析科学的过去现在未来.ppt

    数据分析科学的过去、现在、未来-统计是数据科学,谢邦昌 教授1 朱建平教授21.辅仁大学统计资 讯学系暨应用统计所教授 首都经贸大学统计学院&中央财经大学统计学院博导 厦门大学计划统计系&西南财经大学统计学院客座教授 中华数据挖掘协会理事长2.厦门大学计划统计系,统计学的发展,是根据数据的型态和问题的本质来改变的,不是因为我们会做他背后的数学而发展的。不要因为(统计的)问题困难而去做它;也不要因为它难而不做。(贺吉士J.L.Hodges,Jr.,1922-2000)统计学的味道,来自她的数据,因为这是她的本质。,统计是数据科学数学是数理统计的基础,统计科学还是统计工业,工业意味着不断改进的、有市场的产品和日益增加的就业人口。如果统计只是在大学里或者研究单位里面存在的话,那么这个行业的萧条,也是可以预期的。工业的另一个意涵是不再有单兵作战。工业化的结果,除了世俗化之外,还暗示着有更高的附加价值。化工厂里满墙的屏幕:每一个都在监测某一重要生产环节的状况和反应;企业里开始有数据价值发展部的编制。将某些统计工作专业化,不断地加上新的价值,什么是数据挖掘?,数据挖掘是计算机应用领域的新名词。然而当人类还在茹毛饮血的上古时代早已进行着数据挖掘的行为为了快速并准确捕获猎物,人类的祖先必须细心观察猎物的习性,并预测猎物的行为,才能战胜猎物、存活下去同样的,在讲究实时、竞争激烈的网络时代,如果能事先破解消费者的行为模式,将会是赢得电子商务的关键因素之一,It is New,资源与信息共享Information DeliveryData mining(DM)是一个当红的专题,也是蛮新的一个专题多半的人,并不知道它能做甚么。但是不能太晚上车。(中研院 赵民德),瞎子摸象?找Pattern?Trend?Relationship?,林共进 教授 提供,什么是数据挖掘?,定义William Frawley&Gregory Piatetsky Shapiro,1991从现有的大量数据中,撷取不明显的、之前未知的、可能有用的信息目标建立起决策模型哪一类的用户对我的产品有兴趣?根据过去的行动来预测未来的行为,10,什么是数据挖掘?,从数据库中萃取出有效益,且隐藏在数据当中的信息数据挖掘是属于KDD的其中最重要的一环Fayyad(1996):The nontrivial process of identifying valid、novel、potentially useful,and ultimately understandable pattern in data.,什么是数据挖掘?,大量的资料,型态或规则,里面要有矿!,信用卡消费资料:假设每人平均有1.5张信用卡,每月平均消费10笔,该行约有150万的客户。就资料量而言,每月约有2,250万笔消费记录,每年约有2亿7千万笔消费记录,客户的消费型态或规则,你不能不知的十大创新技术,根据TECHNOLOGY REVIEW杂志(麻省理工学院2002年1月出刊)提出改变未来的十大创新技术机器与人脑的界面塑料晶体管资料採礦(Data mining)数字权利管理生物测定學(Biometrics)语言识别处理微光学技術(Microphotonics)解开程式碼(Untangling code)机器人设计微应用流体學(Microfluidics),PC ArchitectureDOS,SpreadsheetsWord Processors,PCMid 80s,InternetMid 90s,ApplicationsLate 80s-Mid 90s,Web AppsMid 00s-.,Today,Speech/Writing,XML/SOAPHTTP/HTMLSMTP,Email ClientsWeb Browsers,Wi-Fi/Broadband,Devices,Web Services,Rights Management,Trusted Computing Hardware,MouseGUILANs,智能提炼,让数据为您开启智识大门,15,Intelligence Refining Process,数据挖掘方法概述,1.Classification2.Prediction3.Segmentation4.Association5.Sequence,Data Mining兴起的原因,数据大量产生资料仓储形成计算机软件配合发展,The Evolution of Data Mining,Data Mining进行步骤,理解数据与进行的工作获取相关知识与技术(Acquisition)融合与查核资料(Integration and checking)去除错误或不一致的数据(Data cleaning)发展模式与假设(Model and hypothesis development)实际数据挖掘工作测试与检核所挖掘的数据(Testing and verification)解释与使用数据(Interpretation and use),数据挖掘,贝叶斯网络,RBF网络,统计分析 数据挖掘 数据分析流程,报表展现,数据导入,数据处理,统计分析数据挖掘,建模结果,数据分析流程,数据挖掘 统计分析平台,数据挖掘平台,部分挖掘平台分析结果作案方式分析,如果:选择部位 属于 宿舍那么:进入方式 撬门,决策预警,DataMining进行步骤之产业标准,CRISP-DM(Cross-Industry Standard Process For Data Mining)SAS-SEMMA,数据挖掘功能,分类(Classification)预测(Forecasting)推估(Estimation)关联分组(Affinity Grouping)集群化(Clustering),数据挖掘方法论,Association RuleClusteringDecision TreeLinear RegressionLogistic RegressionNave BayesianNeural NetworkSequence ClusteringTime Series,DATA MINING 运行时间,定义企业问题,资料检视,资料准备,模型的建立,模型的评估,布属与应用,资料源,DATA MINING处理流程,数据挖掘产业标准CRISP-DM,Data Mining的商业价值,商 业 价 值,数据源:Microsoft Taiwan,数据挖掘应用Data Mining在各产业的应用,金融服务业客户贡献度分析、信用评分、风险评估、客户区隔、交叉营销等。保险业顾客贡献度分析、信用评分、风险评估、客户区隔、交叉营销、客 户流失分析和诈欺侦测等。电信业 顾客贡献度分析、信用评分、客户区隔、交叉营销、客户流失分析、销售预测和诈欺侦测等。,Data Mining在各产业的应用,制造业客户贡献度分析、质量管理、营销绩效分析、生产分析和存货分析等。零售业客户忠诚度、客户区隔、购物篮分析、定价分析、交叉营销和销售预测等。生物科技、医疗保健、航天空业、环境、法律等,数据挖掘无处不在,商业智慧的核心,如何收集资料营运数据,市场调查资料,固定Panel追踪如何管理数据ETL,Data warehousing如何从数据中获取智能Data Mining,OLAP,Statistics如何应用智能营销策略,主管决策,互动化CRM机制,商业智慧之整合运用,不论是营销或服务部门,如何将分析所得到的信息,进一步转换成经营管理可资利用的材料,并且在实际联机操作环境中,将整个响应机制完全自动化,充分运用这些信息。将数据分析所得的结果回馈入企业资源规划系统(ERP),客户关系管理(CRM)以及电子商务(EC)等系统中,藉此快速地提升在这些系统上所花费大量支出的投资报酬率(return on investment,ROI),透过提供企业所有成员商业洞察力,以提升企业组织能够更快速、更正确的产生营运决策,完整且高度整合的商业智能解决方案 可透過MicrosoftOffice传递商业智能讯息 符合预算考虑的企业级解决方案,Microsoft商业智慧远景 与 策略,完整的算法,決策树,群集,时间序列,时序群集,关联规则,贝氏机率分类,类神经网络,SQL Server 2000已提供,罗吉斯回归,线性回归,文字数据挖掘,完整商业智能的工具,强化的功能新一代Business Scorecard Manager 2005整合Office“2007”,SQL Server 2005关连式的资料仓储,分割数据表与分割索引强化高规模与同时存取的功能简单化数据管理在线索引作业数据库镜像与快照隔离等级读取动作不等待写入动作写入动作不干扰读取动作新增与数据加载强化T-SQL强化,Data Warehouse Ready,整合Office“2007”,利用Excel分析数据建立企业分析数据文件,整合电子表格与文件到SharePoint,直接在应用程序中进行 Office文件的使用,直接在入口网站进行数据存取检视,整合SQL,从各种数据源取得资料整合与转换数据,从商业逻辑的角度呈现与分析数据以Data Mining预测与分析,发布与呈现资料简单易用Report Builder,整合,分析,报表,Decision ReadyBusiness Intelligence,加速企业决策效能商业智慧,CATI背景,计算机辅助电话调查系统(Computer-Assisted Telephone Interviewing System),简称CATI系统,也称为电脑辅助电话调查系统,是利用计算机辅助电话调查而开发的调查访问作业系统。CATI系统通常的工作形式是:访员坐在计算机前,面对屏幕上的问卷,向电话对面的被访者读出问题,并将受访者的回答结果通过鼠标或键盘记录到计算机中去;督导在另一台计算机前对整个访问工作进行现场监控。通过该系统调查者可以以更短的时间,更少的费用,得到更加优质的访问数据。所得数据可被各种统计软件直接使用。,CATI电话调查系统,CATI电话调查系统访问端,CAPI 抽样方案-*客户(面访),CATI面访,CAWI 抽样方案-*客户(网络调查),雅典娜网络调查系统,*客户满意度指数模型,CATI CAPI CAWI+Data Mining 方案的优越性,集成CATI,CAPI(面访和数据录入),Web访问,入户调查,问卷调查(CAPI),Data WarehouseManagement,Metadata,Database,电话调查(CATI),网络调查(Web),Data Mining,Comprehensive Approach to BI,One-Page Dashboard,One-Page Dashboard,What-if Analysis,MAP(Graphic)Integration,Simulation,Interactive Tool,Mobile Device Application,Drill-Down Tool,Integration Dashboard,Source database management(Ex.ERP system)Data mining Data warehouse maintenance Business Information display Data security management,DataMining未来趋势-Text Mining,有90%地信息以非结构性文件储存TextMining主要是用来处理这些非结构化信息,以找出规则与结构可应用在专利文件、病例、论文研究、文件分类、知识管理、信用评等.市场上工具:SQL 2005 SSIS/ASIBM Intelligent Miner for TextSAS Enterprise Miner for TextSPSS Clementine for Text,数据源:Microsoft Taiwan,新增文字数据挖掘功能,Term Extract,Term Lookup目前仅支持英语可撷取单字或是词组可列举排除关键词Fuzzy lookup,Fuzzy Grouping容错指标Error-Tolerant Index可应用在专利文件、病例、论文研究、文件分类、知识管理、信用评等.,数据源:Microsoft Taiwan,关联与法则,议题关联相关,议题法则,法则推论,相似分析/相依原理,法则逻辑推论,样本数据推论分析-知识脉络,Age&Abortion,Age&Hrt,专家与决策,知识群组,知识呈现,Comprehensive Approach to BI,TOOLS&APPLICATIONS,PLATFORM,Trusted platform Data warehousingDeveloper-readyEnterprise scalability,Collaborative BIPervasive reachPerformance mgmtSearch,Content mgmt,PerformancePoint Solution Overview,Enterprise Data,Analyst,Contributor/Approver,Administrator,Report Consumer,Functional Overview of PerformancePoint Architecture,SQL Server 2005,PerformancePoint(PPS)Application Server,PPS Models,PPS Dimensions,PPS Associations,Business definitions for data views,workflow,and security,PPS Forms&Reports,Predefined business and financial intelligence,SAP,Oracle,PeopleSoft,Siebel,MBS,Custom,PPSModeler,PPSExcel AddIn,PPSDashboard,PerformancePoint Client(PPS),User Defined Business Rules and Formulas,Office SharePoint Server 2007,SQL Server 2005 RDBMS,SQL Server 2005 Integration Services,SQL Server 2005 Reporting Services,BIPlatform,Performance ManagementApplications,Microsoft BI All-up,Office Business Scorecard Manager 2005,ProClarity Analytics 6,Office PerformancePoint Server 2007,Strategy,Better Execute on Strategy,Continuous business improvement,not just an annual exercise,数据挖掘的挑战,数据挖掘软件繁多:软件商正在为非统计学专业人士们开发一些更加自动化的数据挖掘应用软件,让科学技术更加实用化。迎合市场需求,数据挖掘简单化操作:过分简单将会使結果出现偏差,使执行者基于错误的推理作出定价和盘货决定。,統計-各个领域的好帮手Useful Analysis Tool,峨眉山金顶,法身无去无来 住寂光而不动,德相非空非有 应随机以恒周,現在是統計人的年代-統計越來越重要 What are you waiting for?,结语,鱼要有水,统计要数据。水若污染,鱼会死,因为它改变自己不够快。统计要能存活,或者,一个统计人想要存活,不要只守着一亩三分地,只做自己或者别人方法论的推广,更不能甚么问题都套上同样的三斧头。,科学的发展,使得现在更是一个充满数据的时代。搜集它们都有一点目的,有些数据来之不易,成本甚高,他们背后的目的更大。数据的蒐集-不出假數 真實可信,数据是时代的大河,千里而来,出海而去,泛滥后的土更为肥沃。统计的长远发展,要建立在这样的基础上,Q&A,THANKS!,

    注意事项

    本文(数据分析科学的过去现在未来.ppt)为本站会员(sccc)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开