数据描述性分析.ppt
《数据描述性分析.ppt》由会员分享,可在线阅读,更多相关《数据描述性分析.ppt(182页珍藏版)》请在三一办公上搜索。
1、第一章 数据描述性分析,学习目的及重难点提示,本章学习目的:学会利用数据的描述性分析对数据的各种特性作初步了解,尤其是结合软件学会数据分布的拟合检验。重难点提示:检验p-值 SAS等许多软件对假设检验均以检验p-值作为其输出结果,检验p-值是本章的一个重要概念。p-值越小,拒绝原假设的理由越充分。,1.1 数据的数字特征,数据分析研究的对象是数据,它们是 个观测值:如果这 个观测值就是所要研究对象的全体,那么数据分析的任务就是提取数据中包含的有用信息。如果数据是从总体中抽出的样本,就要分析推断样本中包含的总体的信息。,1.1.1 均值、方差等数字特征,一元数据的数字特征主要是以下几种。设 个观
2、测值为其中 称为样本容量。1 均值(mean value):即是 的平均数:均值表示数据的集中位置。,均值、方差等数字特征,2 方差var.(variance)、标准差SD(standard deviation)与变异系数C.V.(coefficient of variation)方差是描述数据取值分散性的一个度量,是数据相对于均值的偏差平方的平均 其量纲是数据量纲的平方。标准差,均值、方差等数字特征,变异系数:刻画数据相对分散性的度量 CV 校正平方和 CSS 未校平方和 USS,变异系数用来比较不同总体数据分布的离散程度,刻画数据的相对分散。例甲乙企业职工的年均收入分别为2W元和5W元,收
3、入的标准差分别为3K和5K元,哪家企业职工的收入差距小一些?分析 不同企业的年均收入不同,不能直接比较标准差,只能比较标准差系数。甲:3K/2W=15%乙:5K/5W=10%结论 乙企业职工收入差距小于甲企业。,偏度与峰度,3 偏度(skewness)与峰度(kurtosis)偏度与峰度是刻画数据的偏态、尾重程度的度量。它们与数据的矩有关。数据的矩分为原点矩与中心矩。k阶原点矩 k阶中心矩,偏度(Skewness)其中s是标准差。偏度是刻画数据对称性的指标。关于均值对称的数据其偏度为0,右侧更分散的数据偏度为正,左侧更分散的数据偏度为负。,偏度,峰度,峰度(Kurtosis)当数据的总体分布为
4、正态分布时,峰度近似为0;当分布较正态分布的尾部更为分散时,峰度为正,否则峰度为负。当峰度为正时,两侧极端数据较多;当峰度为负时,两侧极端数据较少。,总体的数据特征,设观测数据是由总体X中取出的样本,总体的分布函数是。当X为离散分布时,总体的分布可由概率分布列刻画:总体为连续分布时,总体的分布可由概率密度 刻画。连续分布中最重要的是正态分布,它的概率密度 及分布函数 分别为,总体的数据特征,具有正态分布的总体成为正态总体。,总体的数据特征,与样本数字特征对应的是总体的数字特征 总体均值 总体方差 总体标准差 总体变异系数,总体的数据特征,总体原点矩(k阶)总体中心矩(k阶)总体偏度总体峰度,总
5、体偏度,总体偏度是度量总体分布是否偏向某一侧的指标。若总体分布在右侧更为扩展,偏度为正;若分布在左侧更为扩展,偏度为负。,细尾,峰度为负,两侧极端数据较少,正态分布,总体峰度为0,粗尾,峰度为正,极端数值分布范围较广,总体峰度,总体峰度是以同方差的正态分布为标准,比较总体分布尾部分散性的指标。,总体数字特征和样本数字特征,根据统计学的结果,样本数字特征是相应的总体数字特征的矩估计。当总体数字特征存在时,相应的样本数字特征是总体数字特征的相合估计,从而当n较大时,有,总体数字特征和样本数字特征,当观测数据 是所要研究对象的全体时,数据的分布即总体分布,我们认为取得每一个观测数据 是等可能性的,即
6、为;总体分布是离散均匀分布:对这种情况,数据数字特征即总体数字特征“让数据本身说话”。,例1.1,从19个杆塔上的普通盘形绝缘子测得该层电导率()的数据如下:9.89 8.00 6.40 6.17 5.39 7.27 9.08 10.40 11.20 8.75 6.45 11.90 10.30 9.58 9.24 7.75 6.20 8.95 8.33 计算均值、方差、标准差、变异系数、偏度、峰度。,通过计算,得 8.487,3.406,1.845,CV21.745,0.035,0.852,的绝对值比较小,可以认为是来自正态总体的数据。,SAS软件介绍,随着信息技术的迅速发展-特别是数据仓库技
7、术的广泛应用,企业拥有的数据量急剧增大,在这大量的数据信息中,隐藏着企业运作的利弊得失,若能够对这种海量的数据与信息进行快速有效地深入分析和处理,就能从中找出规律和模式,获取企业决策所需知识,帮助企业进行迅速有效的运筹决策。,SAS软件介绍,由于统计分析方法处理数据一般计算量非常大,所以在计算机普及以前,这些方法大多都是停留在理论研究上。随着计算机及各种高级编程语言的普及,这些方法越来越多地被应用到实际中。统计分析软件如SAS 及SPSS等的开发和普及,大大减少了对计算机编程的要求。,SAS软件介绍,SAS(Statistical Analysis Systems)系统于1966年开始研制,1
8、976年由美国SAS公司实现商业化,1985年推出SAS/PC版本,目前已推出Windows系统支持的8.02版和9.0版,是目前国际上公认的著名的数据统计分析软件系统之一。,SAS软件介绍,SAS系统最大的特点是将数据管理和统计分析融为一体。Windows版的SAS系统软件操作简单,它提供一种交互方式运行SAS程序。SAS系统的基础是SAS语言,SAS语言是一种近似自然语言的非过程语言(第四代语言),用户不用告诉SAS“怎样做”,只需告诉它你想“做什么”。,SAS软件,在数据处理与统计分析领域,SAS系统已成为国际上流行标准企业管理软件。美国财富杂志评选的500家最大公司中的90%以上的企业
9、都在应用SAS软件。在北美,SAS被广泛地应用于所有的金融公司,医药研发机构和政府调查和监管部门。特别是在加拿大的金融中心-多伦多,每年更是需要大量熟练掌握和运用SAS的科技人员。,SAS软件,SAS系统应用范围广,包括统计学、心理学、经济学、生物学、商业、金融、医药卫生、图形显示、数据输入、数据检索、报表生成、统计计算、市场研究、销售管理、调查分析、建立预测模型等方面。,SAS软件,SAS的宗旨是为所有需要进行数据处理、数据分析的非计算机工作人员提供一种易学易用、完整可靠的软件系统。SAS语言本身是一种非过程语言(第四代语言),类似于C语言,且综合了各种高级语言的功能和灵活的格式,将数据处理
10、和统计分析融合于一体。,SAS中国,SAS中国,SAS中国,SAS中国,SAS系统的启动和退出,启动 1 双击桌面图标;2 执行开始菜单中程序菜单项。退出 1 选择关闭按钮;2 执行菜单命令【File】【Exit.】;3 在命令框执行BYE或ENDSAS命令。,菜单栏,程序编辑窗口,F5,输出记录窗口,F7,运行记录窗口,F6,工具栏,三个最重要的窗口,Editor程序编辑窗口,用于编辑SAS源程序文件,支持全窗口编辑功能。当用户输入的字串不正确时,对应的颜色不对,警告使用者发生错误。Log运行记录窗口,用于显示和记录SAS程序的运行情况,说明程序运行成功或存在错误。Output输出记录窗口,
11、分页显示SAS程序运行所产生的文本型输出结果。,其他窗口,SAS V8 系统在主界面增加了Explorer窗口与Results窗口。Explorer窗口用于显示SAS库及其数据集。Results窗口用于显示SAS程序运行成功时输出结果的目录。通过它可以方便地查找到要看的结果。,SAS系统,SAS由基本部分和外加模块组成,其中主要部分包含的功能如下:基本部分 BASE SAS 部分统计分析计算部分 SAS/STAT绘图部分 SAS/GRAPH矩阵运算部分 SAS/IML运筹学和线性规划 SAS/OR经济预测和时间序列分析 SAS/ETS,SAS系统,BASE SAS是SAS系统的核心平台;提供3
12、1个初等SAS过程,按照用途归为4类:简单统计计算:means过程、univariate 过程、freq过程等。报表生成:table过程、chart过程、plot过程等。得分方法:standard过程、rank过程等。实用方法:sort过程、format过程、dbf 过程、dif过程等。,SAS系统,SAS/STAT是SAS系统的精华,是用来解决实际问题的主要部分。包括:回归分析、方差分析、属性数据分析、多变量分析、判别分析、聚类分析、得分分析、残存分析共8类26个过程。,SAS模块,SAS8.02的完整版本包含数十个模块。常用的模块有base,graph,stat,insight,assis
13、t,analyst模块等,分别执行基本数据处理、绘图、统计分析、数据探索、可视化数据处理等功能。,例1.1的SAS程序,/*program 电导率*/DATA diandaolv;(数据步)/*建立一个临时SAS数据集*/Input x;/*指明数据集中的变量名称*/Cards;/*表明后面将给出数据*/,例1.1的SAS程序,9.89 8.00.8.33;/*结束符*/Proc means mean var CV skew kurt;(过程步)run;,SAS程序的一些语法规定,SAS程序由语句组成,每个语句用西文状态下的分号“;”作为结束符(注:不能使用中文的“;”)。程序命令使用的英文单
14、词一般不区分大小写字母(在作为数据的字符串中系统区分大小写字母)。SAS V8版中提供了智能编辑窗口,SAS程序中的关键字、语句名、数据都由不同颜色显示,当输入错误时颜色显示不正确,可以方便查找改正。,SAS程序由两类“操作步”构成,一种叫数据步(data step),一种叫过程步(proc step);数据步以DATA语句开始,过程步以PROC语句开始。每个“操作步”由若干个语句构成,一条语句可以占多个程序行,多条语句也可以写在一个程序行内,在语法上只要保证每个语句以分号作为结束符即可。每个SAS过程一般以Run语句结束。有些过程需要使用Quit语句结束过程的运行。,SAS系统基本操作及基本
15、概念,数据集(dataset)和库 统计学的操作都是针对数据的,SAS中容纳数据的文件称为数据集,数据集又包含在不同的库(暂且理解为数据库吧)中。SAS中的库分为永久性和临时性两种。顾名思义,存在于永久库中的数据集是永久存在的(只要你不去删除它),临时库中的数据集则在你退出SAS后自动被删除。至于SAS中库的概念,最简单的理解就是一个目录,一个存放数据集的目录。,SAS系统基本操作及基本概念,SAS程序概述 SAS程序包括多个步骤和一些控制语句,一般情况下均包括一个或多个数据步或过程步,它们之间任何形式的组合均可成为一段SAS程序,只要能完成一个完整的功能。通常情况下SAS程序还包括一些全程语
16、句,用以控制贯穿整个SAS程序的某些选项、变量或程序运行的环境。,SAS系统基本操作及基本概念,SAS程序概述 SAS程序的语句一般以关键字开始,以一个分号结束,一条语句可占多行;SAS语句对字母的大小写不敏感,你可以根据个人习惯决定字母的大写或小写。一个SAS语句有两个重要特征:1、它通常由SAS关键词(keyword)开始 2、它总是以分号“;”结束,SAS语句是自由格式的,也就是说 1 它们可以在任一列开始和结束;2 一个语句可以由几行组成;3 几个语句可以在同一行内;SAS语句中的词(words)之间用空格或特殊符号分隔。,SAS程序概述,库名(库标记)的定义 为了保存数据和方便操作起
17、见,习惯于指定自己的库名及其路径(目录),因为SAS系统中已有的永久库(SASUSER)无论库名还是其对应的路径都太过繁琐,使用太不方便。程序中用到的数据,都可以永久的保存于该路径下,保证以后可以重复使用。指定库名的语句为全程语句,其格式如下:Libname 库名 路径;,例如:我们指定的库名为“a”,路径为:“d:data”,SAS语句如下:libname a d:data;,SAS程序概述,数据步 SAS的数据步以data语句开始,用于创建和处理数据集。data语句以关键字“data”开始,格式如下:data 数据集名;例如:data a.case;将创建在库a中名为case的SAS数据集
18、,语句执行后你可在与库a对应的目录下看到刚刚建立的数据集文件case。,data语句所指定的数据集,一般都是以“库名.数据集名”的格式出现的,也可以单独的“数据集名”出现,此时的数据集系统默认为是临时库中的数据集,退出系统后将会被删除。,data语句有两个重要的功能,标志数据步的开始和命名将要创建的SAS数据集。除data语句外,数据步一般情况下还包括infile语句、input语句以及datalines语句等。在不同的数据输入方式下对于它们的使用方式也不一样。,SAS程序概述,SAS程序有两种常见的数据输入方式,即从外部文件读入和直接输入两种方式。(1)外部文件读入方式 数据若已经包含在某个
19、外部文件(文本文件或数据文件)中,可用此方法输入数据到数据集文件中。在以上介绍的data语句后,写入以下语句:infile 外部文件的所在位置及名称 选项;input 变量名1 变量名2 变量名n;,infile语句用于从外部文件读入数据,必须出现在input语句之前。它的功能是指定一个包含原始数据的外部文件。input语句用于向系统表明如何读入每一条数据记录。它的主要功能有:读入由语句指定的数据列,为相应的数据域定义变量名,确定变量的读入模式。,SAS中变量的命名,最多8个字符长,第一个字符必须是字母或者下划线,不能有空格。特殊字符(如$,#)也不允许在SAS名中使用。合法变量名如:A A1
20、 abc name age SAS系统保留的特殊变量名,以下划线开始和结尾。如:_N_和_ERROR_等。,例,libname a d:data;data a.student;infile d:datastudent.txt;input name$height weight;以上程序将目录“d:data”下的文本文件“student.txt”中的数据输入数据集student中,该数据集存放于目录“d:data”下。,SAS程序概述,(2)直接输入方式 数据量较少时采用此种输入方式,在data语句之后写入如下语句:input 变量名1 变量名2 变量名n;datalines;(在以前的版本下为c
21、ards,新版本下两者可通用)(数据行)(数据行);,例,libname a d:data;data a.student;input name$height weight;(name后面的$符号表示变量name为字符型变量)datalines;Linda 171 51 Mary 168 50 Selina 169 49;以上程序将直接建立数据集文件student,该数据集文件存放于目录“d:data”下。,MEANS过程,PROC MEANS 选择项(options)VAR 变量名表;指定需求计算的数值变量及次序;BY 变量名表;按其取值形成多个观测组,然 后计算对应的描述性统计量(要求对By
22、变量已排序)CLASS 变量名表;与By类似,但不要求事前排序,结果以单表形式输出 FREQ 变量名表;输入数据系频数表资料时才使用 OUTPUT OUT=SAS 数据集 统计量关键词变量名表;,SAS中可以计算的描述性统计量部分关键字及其含义,SAS中可以计算的描述性统计量部分关键字及其含义,例1.2,某厂的某种悬式绝缘子机电破坏负荷试验数据(单位:吨)分组表示如表,计算这批分组数据的均值、方差、标准差、变异系数、偏度、峰度。,例 1.3,某克山区病测得11例克山病患者与13名健康人的血磷值(nmol/L)如表,试求两组的平均血磷值和标准差。患者组 0.84 1.05 1.20 1.20 1
23、.39 1.53 1.67 1.80 1.87 2.07 2.11 健康组 0.54 0.64 0.64 0.75 0.76 0.81 1.16 1.20 1.34 1.35 1.48 1.58 1.87,例 1.3,SAS程序为 data p9;do g=1 to 2;input n;do i=1 to n;input x;output;end;end;Cards;11 0.84 1.05 1.20 1.20 1.39 1.53 1.67 1.80 1.87 2.07 2.11 13 0.54 0.64 0.64 0.75 0.76 0.81 1.16 1.20 1.34 1.35 1.48
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 描述 分析

链接地址:https://www.31ppt.com/p-5270423.html