现代统计方法及案例分析.ppt
《现代统计方法及案例分析.ppt》由会员分享,可在线阅读,更多相关《现代统计方法及案例分析.ppt(62页珍藏版)》请在三一办公上搜索。
1、现代统计方法及案例分析 基于数据挖掘的数据准备,报告内容及目的,让大家了解数据挖掘的概念,认识海量数据分析时所遇到的问题,在此基础上,介绍原始大型数据库的基本表述和特征,了解数据准备的不同技术,比较去除丢失值的不同方法,构造时间相关数据的统一表述方法,实现一些数据预处理技术。其目的是让大家从中领悟现代统计方法的基本思想。,现代统计方法及案例分析,一、数据挖掘的定义 二、数据挖掘与知识发现 三、海量数据分析中遇到的问题 四、数据准备 1、数据选择 2、数据预处理 3、数据变换,What are these numbers trying to Tell me?,Matrix Codes:,舅舅:不
2、要吃酒,吃酒误事,吃了二两酒,不是动怒,就是动武,.。吃酒要被酒杀死,一点酒也不要吃。,What Are These Numbers Trying to Tell Us?,What Are These Numbers Trying to Tell Us?,7 2 2x3 40 6 二四六八 0000 1 1=1 10002=100100100 7/8,不三不四 接二連三 陸續不斷 無獨有偶 掛萬漏一 一成不變 千方百計 七上八下,一、数据挖掘的技术定义与商业定义,什么是数据挖掘(Data Mining)?关于定义取决于定义者的观点和背景,各人的说法不一.Friedman,J.H.在技术报告Da
3、ta Mining and Statistics:Whats The Connection?中总结出了多家关于数据挖掘的定义(也有对知识发现而言的):Fayyad提出数据挖掘是一个确定数据中有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程.,Zekulin的说法是数据挖掘是一个从大型数据库中提取以前未知的、可理解的、可执行的信息,并用它来进行关键的商业决策的过程.Ferruzza给出数据挖掘是用在知识发现过程,来辩识存在于数据中的未知关系和模式的一些方法.Jonn提到数据挖掘是发现数据中有益模式的过程.Parsaye定义数据挖掘是我们为那些未知的信息模式而研究大型数据集的一个决策支
4、持过程.这些表达方式虽然不同,但从各自的角度描述出了对数据挖掘的理解.这里我们主要从技术和商业的角度给出数据挖掘的定义.,1、数据挖掘的技术定义,从技术角度,数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程.它是涉及机器学习、模式识别、统计学、人工智能、数据库管理及数据可视化等学科的边缘学科.,这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;这些知识是相对的,是有特定前提和约束条件的,在特定领域中具有实际应用价
5、值.,什么是知识呢?从广义上理解,数据、信息是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识.人们把数据看作是形成知识的源泉,好像从矿石中采矿或淘金一样.,2、数据挖掘的商业定义,从商业应用角度看,数据挖掘是一种新的商业信息处理技术。数据挖掘也可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,且进一步将其模型化的数据处理方法.,二、数据挖掘与知识发现(DM&KDD),1、知识发现(Knowledge Discovery in Database)过程 知识发现过程可以粗略的理解为三部曲:数据准备(data preparati
6、on)数据挖掘(data mining)结果的解释评估(interpretation and evaluation),知识发现过程示意图,数据准备又可分为三个子步骤:数据选取、数据预处理和数据变换.数据挖掘阶段主要是确定开采的任务,如数据总结、分类、聚类、关联规则发现或序列模式发现等.结果解释和评价主要是数据挖掘阶段发现出的模式,经过用户和机器的评价,可能存在冗余或无关的模式,这时需要将其剔除。如果有的模式不满足用户要求,需要将整个发现过程退回到发现阶段之前。,2、数据挖掘的地位,KDD是一种知识发现的一连串程序,数据挖掘只是KDD的一个重要程序.数据挖掘主要是利用某些特定的知识发现算法,在一
7、定的运算效率的限制内,从数据中发现有关的知识,即隐藏的模式.数据挖掘是KDD中最重要的一步,在KDD的全过程中起到了至关重要的作用.因此,人们往往不加区别地使用数据挖掘和KDD.,親愛的齊:我們的感情,在組織的親切關懷下、在領導的過問下,一年來正沿著健康的道路蓬勃發展。這主要表現在:(一)我們共通信121封,平均3.01天一封。其中你給我的信51封,占42.1%我給你的信70封,占57.9%。每封信平均1502字,最長的達5215字,最短的也有624字。,我们不能这样简单的理解统计,三、海量数据分析中遇到的问题,(二)約會共98次,平均3.7天一次。其中你主動約我38次,占38.7%我主動約你
8、60次,占61.3%。每次約會平均3.8小時,最長達6.4小時,最短的也有1.6小時。(三)我到你家看望你父母38次,平均每9.4天一次,你到我家看望我父母36次,平均10天一次。以上充分証明一年來的交往我們已形成了戀愛的共識,我們愛情的主流是互相了解、互相關心、互相幫助,是平等互利的。,當然,任何事物都是一分為二的,缺點的存在是不可避免的。我們二人雖然都是積極的,但從以上的數據看,發展還不太平衡,積極性還存在一定的差距,這是前進中的缺點。相信在新的一年里,我們一定會發揚成績、克服缺點、攜手前進,開創我們愛情的新局面。,因此,我提出三點意見供你參考:(一)要圍繞一個愛字,(二)要狠抓一個親字,
9、(三)要落實一個合字。讓我們弘揚團結拼搏的精神,共同振興我們的愛情,爭取達到一個新高度,登上一個新台階。本著我們的婚事我們辦,辦好婚事為我們的精神,共創輝煌!你的小惠,Given 7 2 5 8 11 1 6What is the mean?What is the median?What is the first quartile?What is the third quartile?,Introductory Statistics,Mean,Put in order 1 2 5 6 7 8 11 Q1 Median Q3,Given x1,x2,x3,xnWhat is the mean?W
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 现代 统计 方法 案例 分析
链接地址:https://www.31ppt.com/p-6228878.html