数据分析方法第一章.ppt
《数据分析方法第一章.ppt》由会员分享,可在线阅读,更多相关《数据分析方法第一章.ppt(111页珍藏版)》请在三一办公上搜索。
1、1,第一章 概述,第一章 数据描述性分析,数据的描述性分析即从数据出发概括数据特征,主要包括数据的位置特性、分散性、关联性等数字特征和反映数据整体结构的分布特征,它是数据分析的第一步,也进一步分析的基础。,1.1 一维数据的数字特征1.2 数据的分布2.3 多维数据的数字特征与相关分析,2,第一章 概述,1.1.1 表示位置的数字特征1.1.2 表示分散性的数字特征1.1.3 表示分布形状的数字特征,1.1 一维数据的数字特征,设有一维数据:x1,x2,xn是研究对象的样本观测值,数据分析的任务是对样本观测值进行分析,提取数据中所包含的有用的信息,进一步对总体的信息做出推断;首先用某些简单的量
2、概括它的主要信息或特征数字特征:数据的集中位置、分散程度、数据分布的形状特征等等。,3,第一章 概述,1.1.1 表示位置的数字特征(统计量)如果要用简单的数字来概括一组观测数据x1,.,xn,可以使用“位置统计量”来作为数据的总体代表,常见的位置统计量有:均值、中位数、分位数、众数等。1.均值(Mean):是所有观测值的平均值,是描述数据取值中心位置的一个度量:,均值能够概括反映所有各项数据的平均水平。有许多的优良的统计性质,但当数据中存在异常值时,它则缺乏抗扰性(稳健性)易受异常值的影响而使其值有较大变化。,4,第一章 概述,设x1,.,xn是n个观测值,它们的次序统计量为x(1),x(2
3、),x(n),即 x(1)x(2)x(n)x(1)为最小次序统计量,x(n)为最大次序统计量,,5,第一章 概述,2.中位数(Median或Med)表示一组数据按照大小的顺序排列时中间位置的数值中位数是描述观测值数据中心位置的统计量,大体上比中位数大(小)的数据为观测值的一半。中位数的一个优点具有稳健性。计算方法是:首先将数据从小到大排序为:x(1),.,x(n),然后计算,6,第一章 概述,3.分位数(Percentile)根据变量值由小到大的顺序排列分割成若干等分,其分界位置上的各个数值实际上是一种分割值。分位数也是描述数据分布和位置的统计量。对0p1,数据x1,.,xn的p分位数是,0.
4、5分位数就是中位数,0.75分位数和0.25分位数又分别称为上、下四分位数,并分别记为Q3=M0.75和Q1=M0.25。,4.三均值,各数字特征从不同侧重点反映了数据的位置特征,结合应用可以研究数据某些更本质的特性,如利用中位数与各分位数可以考察数据的对称性,7,第一章 概述,设数据是总体X的样本,总体的分布函数是F(x),设总体的均值为=E(X),由大数定律,当n较大时,样本均值可以作为总体均值的估计:,设总体分布F(x)是连续分布,0p1,称满足的p为总体分布F(x)的p分位数,当总体p分位数为唯一的情况时,在一定条件下,样本的p分位数M p是总体分位数p相合估计,即当n充分大时,p M
5、 p,8,第一章 概述,1.1.2 表示分散性的数字特征1.方差(Variance或Var):是由各观测值到均值距离的平方和除以观测量组数减1,是数据对于均值的偏差平方和的平均,方差的量纲是原变量的平方;方差的开方称为标准差(Standard deviation或Std Dev):标准差的量纲与原变量一致。,9,第一章 概述,变异系数(Coefficient of Variation或CV):是将标准差表示为均值的百分数,是观测数据相对分散性的一个度量,它在比较用不同单位测量的数据的分散性时是有用的,无量纲量:变异系数的值越大,说明数据集中相对于均值的变化就越大。,2.极差(Range)与半极
6、差(Interquartile range)极差就是数据中的最大值和最小值之间的差:极差=x(n)-x(1)=maxxi minxi上、下四分位数之差R3=Q3 Q1称为四分位极差或半极差,它描述了中间半数观测值的散布情况,具有抗扰性稳健性;极差有许多特殊的应用,如质量控制图中的极差图,提供证券市场行情等。,10,第一章 概述,设数据是总体X的样本,则数据的方差s2、标准差s、变异系数CV分别是总体方差2=Var(X)、总体标准差、总体变异系数r=/的相合估计:即当样本容量n充分大时,有2 s2,s,rCV 正态总体N(,2)的上、下四位数分别为 0.75=+0.6745,0.25=-0.67
7、45 总体的四分位极差为r1=0.75-0.25=1.349,则有=r1/1.349,总体标准差的一个抗扰性的估计四分位数标准差:,11,第一章 概述,3.上、下截断点:用来判断异常值的简便方法:Q3+1.5 R1,Q1-1.5 R1大于上截断点的数据为特大值,小于下截断点的数据为特小值,都视为异常值。总体为正态分布N(,2)时,上、下截断点分别为 0.75+1.5 r1=-2.698,0.25-1.5 r1=-2.698 数据落在上、下截断点之外的概率为0.00698,即对容量n较大的数据,异常值的比率约为0.00698,12,第一章 概述,1.1.3 表示数据分布形状的统计量 偏度和峰度是
8、描述数据分布形状的指标。1.偏度(skewness):偏度是刻画数据对称性的指标。偏度的计算公式为:关于均值对称的数据其偏度为g1=0;左侧更为分散的数据,其偏度为负(g10),称为右偏。,13,第一章 概述,2.峰度kurtosis:峰度描述数据向分布尾端散布的趋势 利用峰度研究数据分布的形状是以正态分布为标准(假定正态分布的方差与所研究分布的方差相等)比较两端极端数据的分布情况,若1 近似于标准正态分布,则峰度接近于零;2 尾部较正态分布更分散,则峰度为正,称为轻尾;3 尾部较正态分布更集中,则峰度为负,称为厚尾。,14,第一章 概述,15,第一章 概述,设x1,.,xn是总体X的样本,3
9、、4分别表示总体X的3、4阶中心矩,即 3=E(X-)3,4=E(X-)3其中=E(X),则 总体偏度为:G 1=3/3 总体峰度为:G 2=(4/4)-3且数据的偏度g1和峰度g2分别是总体偏度G 1和总体峰度G 2 的相合估计,即当n充分大时,有 G 1 g1,G 2 g2总体偏度是度量总体分布是否偏向某一侧的指标;总体峰度是以同方斋戒的正态分布为标准,比较总体分布尾部分散性的指标;结论与数据偏度与峰度相同,16,第一章 概述,在SAS中计算一维数据的数字特征1 PROC MEANS过程2 PROC UNIVARIATE过程,17,第一章 概述,1.MEANS过程(1)MEANS过程的一般
10、格式:PROC MEANS 选择项 统计量关键字列表;VAR 变量表;要分析的变量名列BY 变量表;按变量名列分组统计,要求数据集已按变量名列排序CLASS 变量表;按变量名列分组统计,不要求数据集排序FREQ 变量表;表明该变量为分析变量的频数WEIGHT 变量表;表明分析变量在统计时要按该变量权重ID 变量表;输出时加上该变量作为索引OUTPUT OUT=数据集 统计关键字=变量名;指定统计量的输出数据集名关键字=.;指定统计量对应的新变量名,18,第一章 概述,二、选择项说明 DATA=SAS数据集 将计算出的统计量输出到一个数据集。所有PROC MEANS语句中可用统计量均可在此指定。
11、NOPRINT 说明不输出任何描述性统计值。MAXDEC=n 指出MEANS用于输出结果的最大小数位(0),缺省值为7。FW=n n为输出统计量时的字段宽度,缺省值为12。VARDEF=N|DF|WGT|WDF 指定方差计算所用的分母。N表示观察值的总数;WGT表示权重和WDF表示权重和减1;DF表示自由度N-1MISSING 指定MEANS过程将缺失值视为一个特殊分组处理,否则缺失值将被剔除。统计量 用来指定进行计算的描述性统计量。缺省统计量选择项时,只输出N、MIN、MAX、MEAN、STD。,19,第一章 概述,三、MEANS过程中常用的统计量关键字有:l基本统计量 N MEAN STD
12、 CV SUM VAR RANG MIN MAX USS CSSl与假设检验有关的统计量 STDERR(标准误)T PRT(与t对应的p值)LCLM(可信区间下限)UCLM(可信区间上限),四、PROC MEANS过程中的其他语句 lVAR语句:列入变量表的数据集变量将被MEANS过程分析、若无次句,则计算输入数据集中除BY、ID、CLASS、FREQ、WEIGHT语句中的变量之外的所有变量的统计量。l BY语句:指定变量进行分组处理。(事先必须按BY语句指定的变量将输入数据集按升序排序),20,第一章 概述,可以计算的描述性统计量关键字及其含义见下表。,21,第一章 概述,(3)使用CLAS
13、S语句和BY语句 使用CLASS语句和BY语句可以分组计算分析变量的描述统计量值,由CLASS语句和BY语句指定的变量在分析中起分组(类)的作用,被称为分类变量。两个语句的区别是:使用BY语句时要求数据集须按BY变量排序,使用CLASS语句无此要求。使用BY语句时输出按BY变量的每个值分别提供一个表,使用CLASS语句则将所有结果排列在一个表之中。,22,第一章 概述,使用BY语句之前先排序,如下代码可以在上例中按变量R_Id分组统计:proc sort data=mylib.sryzc;by R_Id;run;proc means data=mylib.sryzc n mean median
14、 p1 p5 p95 p99 q1 q3 max min;var Income;by R_Id;run;,23,第一章 概述,使用CLASS语句分组较为简单,如下代码也可以在上例中按变量R_Id分组统计:proc means data=mylib.sryzc n mean median p1 p5 p95 p99 q1 q3 max min;var Income;class R_Id;RUN;,24,第一章 概述,l FREQ语句:指定某一变量,表示同一观察的出现次数。l OUTPUT OUT=数据集:将MEANS过程的结果输出给指定的数据集中。,八、缺失数据处理 1VAR变量:MEANS过程
15、在开始计算某一变量的描述性统计之前,先将那些在变量上有缺失的数据的观察删除。被删除的观察若在其它变量上没有缺失数据,则会纳入其它变量的计算过程中。2变量:若观察在BY变量上有缺失数据,则MEANS过程会为这些观察另形成一个分组,同样进行计算分析。,25,第一章 概述,3.UNIVARIATE过程 UNIVARIATE过程与MEANS的功能大同小异,他们都可以可对数值变量进行一般性的统计描述,但UNIVARIATE过程还给出变量的峰度、偏度、众数、中位数、四分位数、数据分布的正态性检验、符号秩检验等统计量。而且UNIVARIATE过程中具有绘图功能。其中,HISTOGRAM语句用来指示SAS对其
16、后所指定的变量绘制直方图,其后的选项用来指示SAS添加不同类型的拟合图形(如正态分布的分布密度曲线),26,第一章 概述,UNIVARIATE过程的一般格式为:PROC UNIVARIATE 选择项;VAR 变量表;指定要分析的变量名列BY 变量表;按变量名列分组统计,要求数据集已按该变量名列排序FREQ 变量;表明该变量为分析变量的频数WEIGHT 变量;表明分析变量在统计时要按该变量权重ID 变量表;输出时加上该变量作为索引OUTPUT OUT=SAS数据集 关键字=名称;指定统计量的输出数据集名关键字=.指定统计量对应的新变量名PCTLPTS=PCTLPRE=;指定所需百分位数对应的输出
17、变量名,27,第一章 概述,二、选择项说明DATA=数据集 该选择项指定PROC UNIVARIATE使用的SAS数据集。缺省值为最新建立的数据集。NOPRINT 指定抑制产生报表。PLOT 指定给出三幅数据图:茎叶图(或水平棒图)、盒状图和正态概率图。FREQ 该选择项给出变量值、频数、百分数、累计百分数组成的频数表。,28,第一章 概述,NORMAL 指定假设输入数据来自正态分布总体,然后给出统计检验量,并输出统计检验量的端值。正态检验:若在过程中指定NORMAL选择项时,过程将数据视作取自正态分布的随机样本并给出一个统计检验。当样本量小于2000时,计算Shapiro-Wilk统计量W,
18、W值在0与1之间,W值越小越拒绝H0假设;当样本容量n大于6时,W的显著水平由Royston近似正态变换获得;当样本量大于2000时,计算Kolomogorov统计量。W值越大越表示数据来自正态分布。PrW给出了概率(0P1)值P,P值越接近0,则表示越拒绝数据来自正态分布的假设。,29,第一章 概述,PCDLDEF=1|2|3|4|5 指定计算百分位数的方法。缺省此项,则PCDLDEF=4。VARDEF=DF|N|WEIGHT或WGT|WDF 指定计算方差时的分母。DF是以自由度N-1做分母;N是以观察值数N做分母;WGT是以权重和做分母;WDF是以权重和减1做分母。缺省值为VARDEF=D
19、F。ROUND=舍入单位。,30,第一章 概述,三、过程中常用的统计量关键字SAS中用关键字来指定所需要的统计量,事实上结果输出中用的就是各种关键字,常用的关键字有:基本统计量 N MEAN STD(标准误)CV SUM VAR(方差)RANG 等百分位数描述 MIN P1 P5 P10 Q1 MEDIAN Q3 P90 P95 P99 MAX 与假设检验有关的统计量 STD MEAN(标准误)T,31,第一章 概述,输出包括五个部分。第一部分是矩统计量,各统计量已在前面作了介绍。第二部分为基本的位置和分散程度统计量,位置统计量包括均值、中位数、众数,分散程度统计量包括标准差、方差、极差、四分
20、位间距 第三部分为关于均值等于零的三种检验的结果,包括t检验、符号检验和符号秩检验。第四部分为各个重要的分位数。第五部分是观测数据的五个最低值和五个最高值。,32,第一章 概述,data examp1_1;input x;cards;74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.579.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.075.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.073.5 75.0 72.0 64.3 75.8 80.3 69.7 7
21、4.3 73.5 73.575.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 70.4 68.070.4 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.373.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 72.7 72.767.2 76.5 72.7 70.4 77.2 68.8 67.3 67.3 67.3 72.775.8 73.5 75.0 72.7 73.5 73.5 72.7 81.6 70.3 74.373.5 79.5 70.4 76.5 72.7 77.2 84.3 75.0 76
22、.5 70.4;,例1.1,33,第一章 概述,proc univariate data=examp1_1 noprint;var x;output out=out mean=mean median=median Q1=Q1 Q3=Q3 p99=p99 p95=p95 p90=p90 p10=p10 p5=p5 p1=p1;proc print data=out;run;data a;set out;Q=0.25*Q1+0.25*Q3+0.5*Median;run;proc print data=a;var Q;*只输出Q;没有输出所有的arun;,34,第一章 概述,proc univari
23、ate data=examp1_1 noprint;var x;Output out=out mean=mean Median=Median Q1=Q1 Q3=Q3 p99=p99 p95=p95 p90=p90 p10=p10 p5=p5 p1=p1 var=var std=stdcv=cv QRANGE=QRANGE;proc print data=out;run;,例1.2,35,第一章 概述,data a;set out;Q=0.25*Q1+0.25*Q3+0.5*Median;D=Q1-1.5*QRANGE;U=Q3+1.5*QRANGE;sigma=QRANGE/1.349;run
24、;proc print data=a;run;data b;set examp1_1;if 64.3=x82.7 then delete;run;proc print data=b;run;,36,第一章 概述,proc univariate data=examp1_3 noprint;var x x1 x2 x3;output out=out mean=mean1 mean2 mean3 mean4var=var1 var2 var3 var4 std=std1 std2 std3 std4Median=M1 M2 M3 M4 RANGE=RANGE1 RANGE2 RANGE3 RANGE
25、4Q1=Q11 Q12 Q13 Q14 Q3=Q31 Q32 Q33 Q34 QRANGE=QRANGE1 QRANGE2 QRANGE3 QRANGE4Skewness=SKEWNSS1 SKEWNSS2 SKEWNSS3 SKEWNSS4KURTOSIS=KURTOSIS1 KURTOSIS2 KURTOSIS3 KURTOSIS4;proc print data=out;,例1.3,37,第一章 概述,data a;set out;Q111=0.25*Q11+0.25*Q31+0.5*M1;Q112=0.25*Q12+0.25*Q32+0.5*M2;Q113=0.25*Q13+0.25*
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 方法 第一章
链接地址:https://www.31ppt.com/p-6166766.html