欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    描述性统计分析课件.ppt

    • 资源ID:1564403       资源大小:757.50KB        全文页数:45页
    • 资源格式: PPT        下载积分:16金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要16金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    描述性统计分析课件.ppt

    描述性统计分析,武汉大学计算中心,LOGO,统计分析的基本概念,武汉大学计算中心,LOGO,进行数据分析首先应:,明确分析的目的明确分析的对象确定是否需要抽样在一些问题中,要考查整个总体往往是不可能的,因为要耗费太多的时间和资源确定需要记录的数据项目,武汉大学计算中心,LOGO,1. 总体和样本,总体(population)是所研究的指标测量值的集合。,总体,样本,抽样(sampling)是指从总体中抽取部分的做法。样本(sample)通过抽样得到的总体的一个子集。,武汉大学计算中心,LOGO,抽样方法,简单随机抽样:在抽样的过程中,任何一个样本被选中的机会都相同。利用计算机产生的随机数(对于有限总体),可模拟简单随机抽样,如对学生的学号用随机数进行抽样对于无限总体不能进行标号,抽样过程不能用随机数,难于实施分层抽样:按数据的层次进行抽样。如小学生的身高,按每年级分为一个层,武汉大学计算中心,LOGO,分层抽样的优点,抽取的样本在总体中分布得更均匀,更合理个层内单位之间差异程度相对减小,使在该层内抽取的样本对该层的代表性得到提高层内成员差异小,而层间成员差异较大时,分层抽样可以提高估计的精度,武汉大学计算中心,LOGO,2. 参数和统计量,对总体概括度量值和对样本概括度量值所用的方法及名称是不同的。总体的度量值称为参数(parameters),样本的度量值称为统计量(statistics)。通常,总体参数是未知的,SAS系统给出的描述统计量适用于样本。,武汉大学计算中心,LOGO,2. 参数和统计量,参数(parameters):总体的度量值。统计量(statistics):样本的度量值。一般总体参数用希腊字母表示:均值方差标准差总体2样本Xs2s,武汉大学计算中心,LOGO,3. 自由度,自由度是某一统计量中,变量可以自由取值的个数用df表示自由度。例变量X有n个取值, df=n;若它们受到k(kn)个条件制约,则df=n-k,武汉大学计算中心,LOGO,4. 表示数据位置的统计量,均值(Mean):所有观测值的平均值。,中位数(Median或Med):用以描述数据取值的中心位置。中位数的计算方法:先将数据从小到大排序,x1,x2,xn然后计算:,中位数的优点是它不受个别极端数据的影响,具有稳健性,武汉大学计算中心,LOGO,4. 表示数据位置的统计量,众数(Mode):观测值中出现最多的数。百分位数(Percentile): 描述数据分布和位置的统计量。0.5分位数就是中位数,0.75分位数和0.25分位数分别称为上、下四分位数,记为Q3和Q1。一般地,k百分位数(k-percentile),即约有k%的观测值小于它。,武汉大学计算中心,LOGO,5. 表示数据分散程度的统计量,极差(Range):数据中最大值和最小值之差。,方差(Variance)以变量取值相对于均值的偏差平方平均来度量(又称均方MS)。,武汉大学计算中心,LOGO,例SAS计算样本方差的步骤,计算样本均值计算每个观测值同均值的差值把这些差值分别平方再求这些平方的和把平方和除以n-1,n为差值的个数(样本容量)假设样本值分别为10,11,12,15,均值为12,样本容量为4,方差按下式计算:s2=(10-12)2+(12-12) 2+(11-12) 2+(15-12) 2)/(4-1)=4.67,武汉大学计算中心,LOGO,5. 表示数据分散程度的统计量,标准差(Standard deviation或Std Dev):方差的开平方。标准差的量纲与原变量一致。方差和标准差所反映的是数据对其均值的某种离散程度。标准差(或方差)较小的观测数据一定是比较集中在均值附近,反之则是比较离散的。变异系数(Coefficient of Variation或CV)变异系数是将标准差表示为均值的百分数,是观测数据分散性的一个度量,它在比较用不同单位测量的数据的分散性时是有用的。,武汉大学计算中心,LOGO,5. 表示数据分布形状的统计量,偏度(Skewness):描述数据对称性的指标。,在SAS中,均值对称的数据,其偏度为0;左侧更为分散的数据,其偏度为负,称为左偏;右侧更为分散的数据,其偏度为正,称为右偏。峰度(Kurtosis):描述数据向分布尾段散布的趋势,利用峰度研究数据分布形状是以正态分布为标准,比较两端极端数据的分布情况,若近似于标准正态分布,峰度接近于零;尾部较正态分布更分散,则峰度为正;尾部较正态分布更集中,则峰度为负,武汉大学计算中心,LOGO,正态分布,如果数据来自正态分布总体,则:68%的值落在距均值1个标准差的范围之内95%的值落在距均值2个标准差的范围之内99%的值落在距均值3个标准差的范围之内,例如:由12岁女孩体重组成一个总体,这个总体服从均值为39公斤,标准差4.5公斤,则: 68%的值落在34.543.5公斤之间 95%的值落在3048公斤之间 99%的值落在25.552.5公斤之间,武汉大学计算中心,LOGO,概率P(probability) 概率是度量某随机事件发生可能性大小的一个数量。概率的取值范围在01之间。若某一事件必然不发生,P=0;某一事件必然发生,P=1概率论是数理统计的基础,统计分析的许多结论,都是建立在概率大小的基础之上的。,武汉大学计算中心,LOGO,统计的过程如下:,描述:描述样本的各主要特征推断:扩大所收集信息的使用范围,用样本的特征来推断总体的特征。,武汉大学计算中心,LOGO,例儿童体检数据如下,刘明3男0.9413.5950.4蔡行3男0.9114.250李敏4女1.3916.1551.6李涛4男1.0215.4451.9夏天4男1.0615.351郭红5女1.0115.0451.9胡月5女1.0215.0752.7程彬6女1.0717.0453.7杨兵6男1.1218.0954.1刘进6男1.1418.853.5王苗苗 7女1.1619.9355.5张思凡 7女1.1518.251.4试用作描述性统计分析,武汉大学计算中心,LOGO,二、用SAS/ASSIST进行描述统计,选择解决方案/ASSIST,并在欢迎窗口中点击按钮选择Cascading Menu为新的ASSIST工作模式;选择Block Menu为ASSIST 6的菜单工作模式。选择Data Analysis/Elementary/Summary Statistics 打开数据统计分析的操作窗口 。,武汉大学计算中心,LOGO,点击Table按钮,确定要操作的数据集 点击Columns按钮,确定要分析的变量点击Class按钮,确定分组变量 点击Output Table按钮可将本次分析的结果数据输出到一个数据集中作为原始数保存起来 Summary Statistic窗口的下方,确定所求的统计量 ,可以根据需要选择一项或多项,武汉大学计算中心,LOGO,所求的统计量,Number of nonmissing values 包括分析变量缺项值的观测数Number of missing values 不包括分析变量缺项值的观测数Minimum最小值Maximum最大值Range全距,极差Sum和Mean(平)均值Variance方差Standard Deviation标准差Standard error of the mean均数的标准误Coefficient of variation变异系数Skewness偏度Kurtosis峰度,武汉大学计算中心,LOGO,三、用SAS/INSIGHT进行数据描述,1. 用INSIGHT作直方图选择解决方案/分析/交互式数据分析 命令启动SAS/INSIGHT软件 确定数据所在的数据集(CLASS)选择分析 /直方图/条形图(y)项绘制某变量的柱状图/直方图 将WEIGHT选为Y 再点击确定若单独考察女生的年龄分布,可在既存的图下作如下操作 编辑/窗口/动画,在弹出的对话框中选SEX中的G即可,若再点击”应用”则以动态的方式交替显示不同性别的直方图,拖动”速度”处的游标可以调节交替的速度,武汉大学计算中心,LOGO,2、用SAS/INSIGHT进行分布检验,选择解决方案/分析/交互式数据分析命令启动SAS/INSIGHT软件 确定数据所在的数据集选择分析 /分布(Y)项绘制某连续变量的盒状图和分布图 在分布(Y)对话框右侧的列表框中选择WEIGHT变量,单击按钮 单击按钮,选累积分布 在”分布检验”下方选择”正态”在置信带下选95%置信水平依次点击,武汉大学计算中心,LOGO,2、用SAS/INSIGHT进行分布检验,在显示的图形中,中间是经验分布曲线,两侧的是置信限 。置信水平可用鼠标拖动改变。检验结果汇总在下方的分布检验表中 并提供了统计量的数值及相应的检验概率值:原假设为总体分布为正态的。本例相应的p值0.150.05=。所以无法拒绝原假设,可以接受总体分布为正态的,武汉大学计算中心,LOGO,用分析家作频数统计,选择”解决方案/分析/分析家”进入分析家环境点击”文件/按SAS名称打开”打开数据集点击”统计/描述性统计/频数统计”,在弹出的对话框中:AGE=Frequencies,Sex=Frequencies点击OK,武汉大学计算中心,LOGO,SAS提供有多个不同的过程来实现统计量的计算,它们在功能范围上有许多的重复,下面介绍用FREQ、MEANS和UNIVARIATE这三个过程来计算简单的描述统计量。 FREQ过程常用来计算分类变量取值的频数,而MEANS和UNIVARIATE过程则对数值型变量计算均值、标准差等统计量。,用程序作基本统计分析,武汉大学计算中心,LOGO,用程序作基本统计分析,Proc freq data=数据集名 选项;tables 变量名列表/选项;Run;Tables语句中的选项:nocum不要累计的频数和百分数 nopercent-不要百分数和累计的百分数Proc freq语句中的选项:order=internal-按变量值排序freq-按频数降序排序data-按数据集中的值的次序排序formatted-按变量格式化的值排序,武汉大学计算中心,LOGO,例,Proc freq data=temp.class order=freq;tables age;Run;,2,Proc freq data=temp.class order=freq;tables w;Run;可见,数据的统计意义不大.但是若将体重数据分组显示频数,是有意义的,1,武汉大学计算中心,LOGO,2. MEANS过程(1) 语法格式 MEANS过程的一般格式:PROC MEANS DATA=; VAR ; BY ; CLASS ;RUN;,武汉大学计算中心,LOGO,PROC MEANS语句后的选项主要用来指定所要计算的统计量,默认情况下,MEANS过程会给出频数、均数、标准差、最大值和最小值等,其余统计量的计算均需要在选项中指定。 VAR语句引导所要进行分析的所有变量的列表,SAS将对VAR语句所引导的所有变量分别进行描述性统计分析。 BY语句与CLASS语句所指定的分类变量用来进行分组统计,但输出格式不同。,武汉大学计算中心,LOGO,如对数据集class中的hight变量计算简单统计量,只要用如下MEANS过程:proc means data = class; var hight;run;,武汉大学计算中心,LOGO,(2) 使用统计量关键字列表 在PROC MEANS语句中使用统计量关键字列表:proc means data = class n mean median p1 p5 p95 p99 q1 q3 max min; var hight;run;,武汉大学计算中心,LOGO,可以计算的描述性统计量关键字及其含义见下表。,武汉大学计算中心,LOGO,(3) 使用CLASS语句和BY语句 使用CLASS语句和BY语句可以分组计算分析变量的描述统计量值,由CLASS语句和BY语句指定的变量在分析中起分组(类)的作用,被称为分类变量。两个语句的区别是: 使用BY语句时要求数据集须按BY变量排序,使用CLASS语句无此要求。 使用BY语句时输出按BY变量的每个值分别提供一个表,使用CLASS语句则将所有结果排列在一个表之中。,武汉大学计算中心,LOGO,使用BY语句之前先排序,如下代码可以在上例中按变量sex分组统计:proc sort data = class; by sex;run;proc means data = class n mean median p1 p5 p95 p99 q1 q3 max min; var hight; by sex;run;,武汉大学计算中心,LOGO,使用CLASS语句分组较为简单,如下代码也可以在上例中按变量sex分组统计:proc means data = class n mean median p1 p5 p95 p99 q1 q3 max min; var hight; class sex;RUN;,武汉大学计算中心,LOGO,3. UNIVARIATE过程 UNIVARIATE过程的一般格式为:PROC UNIVARIATE DATA = ; VAR ; BY | CLASS ; HISTOGRAM /; OUTPUT OUT = = ;RUN;,武汉大学计算中心,LOGO,UNIVARIATE过程和MEANS过程的格式非常相似,相同的语句和选项其含义也相同,所不同的是某些统计量只能在UNIVARIATE过程中计算(如众数),而且UNIVARIATE过程中具有绘图功能。 其中,HISTOGRAM语句用来指示SAS对其后所指定的变量绘制直方图,其后的选项用来指示SAS添加不同类型的拟合图形(如正态分布的分布密度曲线)。,武汉大学计算中心,LOGO,输出包括五个部分。 第一部分是各统计量。 第二部分为基本的位置和分散程度统计量,位置统计量包括均值、中位数、众数,分散程度统计量包括标准差、方差、极差、四分位间距 第三部分为关于均值等于零的三种检验的结果,包括t检验、符号检验和符号秩检验。 第四部分为各个重要的分位数。 第五部分是观测数据的五个最低值和五个最高值。,武汉大学计算中心,LOGO,六、FORMAT过程,FORMAT过程用于定义变量的输出格式.定义:PROC FORMAT;VALUE 格式变量名 分组形式;RUN;其中:格式变量名由用户命名,在其他在其他过程中可以引用该格式名.引用:PROC 过程名 DATA=数据集名;过程语句;FORMAT 数据集中的变量名 格式名.;RUN;,武汉大学计算中心,LOGO,例,Proc format;Value wfmt low-32=24-32 32-40=32-40 40-48=40-4848-56=48-56 56-64=56-64 64-72=64-72 72-high=72-;Run;Proc print data=temp.class;Format w wfmt.; 若没有该语句,数据集中的W数据仍按原始显示Run;,4,Proc freq data=temp.class order=freq;tables w;Format w wfmt.;Run;,3,武汉大学计算中心,LOGO,上机作业,1下列数据为两个不同地区居民家庭收入和支出情况的抽样调查(单位:元),试分别统计收入和支出情况。将表中数据通过Excel导入到SAS数据集MyDATA中,4个变量名分别为:ID、R_ID、Income和Outgo,相应的标签名为家庭编号、地区编号、家庭总收入和家庭总支出。并将数据集MyDATA存到你的磁盘中.,武汉大学计算中心,LOGO,家庭收支情况,武汉大学计算中心,LOGO,2用INSIGHT检验家庭收入的分布是否为正态,将INSIGHT的累积分布图,以Distribution为名保存到你的磁盘中.3.用“分析家”软件计算统基本计量,将输出结果以summary文件名保存到你的磁盘中.,

    注意事项

    本文(描述性统计分析课件.ppt)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开