SAS统计分析基础.ppt
《SAS统计分析基础.ppt》由会员分享,可在线阅读,更多相关《SAS统计分析基础.ppt(78页珍藏版)》请在三一办公上搜索。
1、现代统计分析与SAS入门,学习目标,1、了解SAS系统的功能特点;2、熟悉SAS系统的操作环境;3、掌握SAS系统的有关概念;4、学会使用DADA Step(数据步)建立数据集,能对现有数据集进行读入、修改、拼接及合并;5、学会使用PROC Step(过程步)的几个重要过程对数据集进行常规的统计分析和显示;6、学会自己查看系统帮助;7、能够利用SAS系统处理常见的研究数据。,基本内容,1、SAS概述;2、SAS显示管理系统;3、SAS编程基础:SAS语句;SAS表达式;SAS常量;SAS变量;SAS算符;SAS函数;4、DADA Step(数据步);5、PROC Step(过程步);6、常用统
2、计分析模块。,第一章 SAS系统简介,1、SAS的含义 Statistical Analysis System2、SAS系统数据处理和统计分析领域的国际标准软件世界领先的数据分析和信息系统3、SAS软件的发展SAS系统于1966年由美国North Carolina州立大学开始研制,1976年成立美国SAS软件研究所公司。1998年已推出适用于多种操作系统的版本SAS6.12,现在最新版本是SAS9.1。目前,世界上有120多个国家和地区的31 000多个机构在使用SAS系统,直接用户超过3 500 000。SAS系统在世界范围内被广泛地应用于政府、科研、教育、生产和商业等不同领域,发挥着积极的
3、作用。,4、SAS系统的特点,SAS系统是用于数据分析与决策支持的大型集成式模块化软件包,是一种组合软件系统。核心部分是Base SAS软件,其它可选模块有:SAS/STAT软件、SAS/GRAPH软件、SAS/IML软件、SAS/OR软件、SAS/ETS软件等30多个。1、操作简便 SAS的宗旨是为所有需要进行数据处理、数据分析的非计算机专业人员提供一种易学易用、完整可靠的软件系统。用户把要解决的问题用SAS语言(近乎自然英语的非过程语言)表达出来,组成SAS程序,提交给SAS系统就可以解决所提出的问题。2、SAS系统将数据管理与统计分析溶为一体 SAS程序的结构由两个基本步骤任意组合而成。
4、DATA步用于对数据的加工处理;PROC步用于分析数据和编写报告。SAS系统克服了通常软件或偏重于数据管理功能或偏重于统计分析的弊病,把数据管理与统计分析有机地结合在一起。3、适用性强、应用面广 SAS系统适用于任何经验的人员(初学者或有经验的用户);适用于任何类型的数据;适用于几乎是任何应用的需要;适用于任何计算机环境;扩展性能强。,5、SAS软件的启动:,用如下方法可以进入SAS 系统的窗口运行环境:菜单方式:依次点击“开始”-“程序”-“The SAS System”-“The SAS System for Windows v6.12”即可。快捷方式:在Windows桌面系统下双击 SA
5、S图标;,6、SAS工作界面,程序编辑窗口,运行记录窗口,结果输出窗口,命令窗口,Results窗口,在命令窗口输入“keys”后情况,命令行,命令窗(条),7、SAS显示管理系统,SAS显示管理窗口可分为两大类:基本窗口和其它窗口。基本窗口(三个):PROGRAM EDITOR窗口(程序编辑窗,缩写为PGM);LOG窗口(登录窗或日志窗);OUTPUT窗口(输出窗);,PGM窗口:输入和编辑文本,包括SAS语句;提交SAS语句;拷贝一个外部文件到PGM窗口,或拷贝窗口内容到外部文件上;LOG窗口 LOG窗口包含SAS日志,它是当前SAS会话的记录。一个典型的记录显示:在当前会话中发布的SAS
6、语句;注释、警告和出错信(红色-错误 兰色-正常 绿色-警告)OUTPUT窗口:这个窗口也称为LISTING窗口,它包含由大多数SAS过程产生的输出。在SAS会话期间相继产生的输出都附加到OUTPUT窗口内容中。其它窗口:除了三个基本窗口以外,显示管理包含很多其它窗口。各个窗口均可在任何一个窗口的命令行键入相应的命令来打开。下面按字母顺序列出包括三个基本窗口在内的主要显示管理窗口,并给出简单描述。,LOG窗,OUTPUT窗,PGM窗,常用显示管理窗口及调用命令,8、显示管理命令,SAS显示管理系统包括众多的命令让用户完成各种任务。根据发布命令的位置可将其分为命令行命令和行命令。显示管理命令按习
7、惯是从命令行command=输入相应的命令发布的,因此称这些命令为命令行命令;而一些文本编辑命令按习惯是从显示的行号上发布的,因此这些命令称为行命令(Windows环境下较少应用)。几个重要的命令行命令:1)窗口切换命令:PGM|F5:切换到PGM窗口 LOG|F6:切换到LOG窗口 OUTPUT|F7:切换到OUTPUT窗口2)编辑命令:CLEAR|Ctr+E:清除当前工作窗口的所有信息 RECALL|F4:将运行过的程序调回到PGM窗口 SUBMIT|F8:将PGM窗中的所有程序提交运行 HOME:将光标移到命令行,保存文件:方法1(命令法):FILE命令:将当前工作窗口的内容写到外部文件
8、中。例如:FILE D:Myfile.SAS 回车后将信息写到D盘根目录下一个名为Myfile.SAS的文件上。方法2(菜单法):“File”“Save As”,输入文件名“Myfile”点“保存”即可。打开文件:方法1(命令法):INCLUDE|INC:将指定的外部文件调入PGM窗。例如:INC D:Myfile.SAS 回车后将D盘根目录下一个名为 Myfile.SAS的外部文件调入PGM窗。注1:该命令只能在PGM窗使用;如果PGM窗已有文本,则该命令将指定的外部文件调入窗口文本的后面。方法2(菜单法):“File”“Open”,找到相应的文件,点“打开”即可。,9、文件的保存与打开,上
9、机练习题,1、SAS常用的窗口有哪三个?请在三个基本窗口之间切换并记住这些命令。2、请在PGM窗口中输入如下几行程序,提交系统执行,并查看OUTPUT窗和LOG窗中内容,注意不同颜色的含义;并根据日志窗中的信息修改完善程序。,dats ex1;inputt name$age sex;cards;xiaomin 19 1 lidong 20 1 nana 18 2;prod pront dats=ex1;run;proc print dats=ex1;Var name age sex;run;,3、在D:盘根目录下建立一个文件夹,取名为:SASEX2004。将上题(题2)修改好的程序、输出结果及
10、日志窗中的内容保存在前面建立的文件夹中。,上机练习题(Cont.),第一章结束,第二章 SAS编程语言基础,同其它计算机语言一样,SAS语言也有它自己的语法:关键词和连结关键词与其它辅助信息的规则。用户使用SAS语言来定义数据和规定对数据怎样做统计分析的问题。由SAS语句组成的序列称为SAS程序。1、SAS语句一.SAS语句的含义 我们先来看一个实例:,例1:我校2001级某班16名学生4门功课成绩表如下,试计算这16名学生英语、生理的平均得分。,DATA score;INPUT no x1 x2 x3 x4$;CARDS;RUN;,2001087368 71 65良好2001087474 6
11、1 68良好2001087573 75 46良好2001087679 80 79优秀2001087775 71 68良好2001088485 85 87优秀2001088578 79 75优秀2001088680 76 79优秀2001088785 80 82良好2001088877 71 75良好2001088967 73 71优秀2001089075 81 70良好2001111870 54 75及格2001089370 66 84及格2001089462 73 65及格2001090982 70 79优秀,PROC PRINT Data=score;VAR no x1 x2 x3 x4;
12、RUN;PROC MEANS Data=score;VAR x2 x3;RUN;,data ex1;input name$age sex;cards;xiaomin 19 1 lidong 20 1 nana 18 2;proc print data=ex1;run;proc print data=ex1;Var name age sex;run;第一章练习题,在这个例子中,我们看到:DATA,INPUT,CARDS,PROC,VAR,RUN是关键词;score是数据集名;no,x1,x2,x3,x4是变量名;MEANS是过程名;Data=是MEANS语句中的选项。现在,我们给出SAS语句的定
13、义:SAS语句是由关键词、SAS名、特殊字符或运算符组成并以分号结尾的字符串。,The MEANS Procedure Variable N Mean Std Dev Minimum Maximum-x2 16 72.8750000 7.8729495 54.0000000 85.0000000 x3 16 73.0000000 9.7911525 46.0000000 87.0000000-,二.几个概念1.SAS关键词 位于句首的用以说明语句类型和功能的单词称为SAS语句的关键词。它是SAS语句的主要成份。如:PROC、DATA、VAR、RUN等。2.SAS名 SAS语句中出现的SAS名有
14、很多种类,如变量名、SAS数据集名等。SAS命名规则:1)由1至8个字符组成;2)由三种字符构成:英文字母A-Z,a-z,下划线_,数字0-9;3)每个名字的第一个字符不能为数字;4)SAS系统保留了一些名字作为特殊的变量名,这些变量名的开头和结尾都用特殊字符下划线表示(如_N_、_ERROR_等)。,3.特殊字符和运算符特殊字符包括:圆括号()、单引号、双引号“、美圆符号$、列指针控制符、行指针控制符#、冒号:、句号.、分号;等;运算符包括:加号+、减号-、乘号*、除号/、乘方*等,等号=、不等号=、小于号、小于等于号=等。三.语句格式 SAS语句的基本格式是:KEYWORD Parmete
15、r item|item|item options;关键词 参数 选项1 选项2 选项3 选择值关键词:用以说明语句类型和功能的单词;参数:要求用户提供的信息。不用括号,不是任选项。,例如:INPUT x y z;其中:INPUT是关键词,它说明要把数据提供给哪些变量。后面跟的变量名x、y、z 都是参数,即要求用户提供的信息。表示参数可以不止一个。选项1|选项2|选项3 中的竖线“|”用来分隔各选择项,表示其中任选一个;方括号内的信息是可以选择的。例如:PROC MEANS data=store maxdec=3;其中:PROC是语句的关键词,它说明本语句是过程语句;MEANS是过程名,它说明要
16、调用的过程名称;data=、maxdec=都是选项的关键词,等号后面是用户提供的选择信息。,一系列SAS语句组成一段SAS程序。SAS程序中的语句可分为两类步骤:DATA步和PROC步。这两类步骤是所有SAS程序的模块。通常用DATA步产生SAS数据集而用PROC步对SAS数据集内的数据进行分析处理并输出结果。一段SAS程序可由一个DATA步或一个PROC步组成;或者由DATA步和PROC步两部分组成;也可由多个DATA步和多PROC步组成。,2、SAS程序,DATA步包括:创建一个或几个新的SAS数据集的语句和创建数据集所必须的运算操作语句。每个DATA步以DATA语句开头,可以包含任意多个
17、SAS程序语句。一个DATA步的基本语句有:DATA语句:表示创建SAS数据集;INPUT语句:对SAS数据集中的变量进行描述;CARDS语句:用来指示数据行的开始;语句:表示数据行的结束。请看如下的例子:,1.DATA步(数据步),DATA score;INPUT no x1 x2 x3 x4$;CARDS;RUN;,2001087368 71 65良好2001087474 61 68良好2001087573 75 46良好2001087679 80 79优秀2001087775 71 68良好2001088485 85 87优秀2001088578 79 75优秀2001088680 76
18、 79优秀2001088785 80 82良好2001088877 71 75良好2001088967 73 71优秀2001089075 81 70良好2001111870 54 75及格2001089370 66 84及格2001089462 73 65及格2001090982 70 79优秀,DATA关键词告诉系统,要创建一个SAS数据集,命名为score,INPUT关键词告诉系统,数据在程序流中,并且指明数据所对应的变量名及类型。$符号说明它前面的一个变量为字符型。,CARDS关键词告诉系统,其后紧随着的便是数据。,数据行,数据源中不能有分号(;)。,;表示数据行的结束,PROC步要求
19、SAS系统从过程库中调出一个过程模块并执行它。PROC步以PROC语句开始,其后紧跟一个过程名(英文关键字);一个过程步可以包含多个相应的SAS语句。例如:PROC MEANS Data=score;VAR x2 x3;PROC PRINT Data=score;VAR x1 x3 x4;注意:一个完整的SAS程序必须以RUN语句结尾方能提交运行。,2.PROC步(过程步),3、编写SAS程序,DATA score;INPUT no x1 x2 x3 x4$;CARDS;RUN;,2001087368 71 65良好2001087474 61 68良好2001087573 75 46良好200
20、1087679 80 79优秀2001087775 71 68良好2001088485 85 87优秀2001088578 79 75优秀2001088680 76 79优秀2001088785 80 82良好2001088877 71 75良好2001088967 73 71优秀2001089075 81 70良好2001111870 54 75及格2001089370 66 84及格2001089462 73 65及格2001090982 70 79优秀,PROC PRINT Data=score;VAR no x1 x2 x3 x4;RUN;PROC MEANS Data=score;V
21、AR x1 x2 x3;RUN;,以上一个DATA步和两个PROC步就构成了一个SAS程序。,上面SAS程序的输出结果如下:,The SAS System 09:22 Monday,August 16,2004 10 Obs no x1 x2 x3 x4 1 20010873 68 71 65 良好 2 20010874 74 61 68 良好 3 20010875 73 75 46 良好 4 20010876 79 80 79 优秀 5 20010877 75 71 68 良好 6 20010884 85 85 87 优秀 7 20010885 78 79 75 优秀 8 20010886
22、80 76 79 优秀 9 20010887 85 80 82 良好 10 20010888 77 71 75 良好 11 20010889 67 73 71 优秀 12 20010890 75 81 70 良好 13 20011118 70 54 75 及格 14 20010893 70 66 84 及格 15 20010894 62 73 65 及格 16 20010909 82 70 79 优秀 The MEANS Procedure Variable N Mean Std Dev Minimum Maximum-x2 16 72.8750000 7.8729495 54.0000000
23、 85.0000000 x3 16 73.0000000 9.7911525 46.0000000 87.0000000-,(1)书写格式SAS语句可以从一行上的任意位置开始;几个SAS语句可以写在同一行上;一个语句也可以写成几行,只要语句中的单词不被断开即可;在一个语句中各项之间至少要有一个空格;一些特殊符号(如等号=,加号+)可以占据空格的位置,如:total=a+10;与 total=a+10;是等价的;SAS语句用大写字母、小写字母或大、小写混合书写均可。(2)注释 SAS语句中有一个注释语句,形式为:/*注释内容*/凡是空格可以出现的地方,以上形式的注释语句也能出现。例如:PROC
24、SORT/*对数据集排序*/;就是一个合法的语句。,1.SAS程序的书写方法,(3)变量的缩写 变量在数据集中的实际位置按它们第一次出现的次序被定义。例如:前面的例子的INPUT语句中,no被定义为第一个变量,接着是x1,x2,x3,x4。在一些SAS语句中,需要对变量进行集中处理,SAS采用如下的方式来解决这个问题:形如x1,x2,x3.xn的带序号的变量名,缩写为x1-xn;形如x1,a,b,x2,x3,d的不带序号的变量名,缩写为x1-d;特殊的SAS变量,_numeric_ 表示所有数值变量;_character_ 表示所有字符变量;_all_ 表示所有变量。,请看上面的数据集,这些变
25、量在数据集中的位置是:no x1 age x2 x3 x4 x5下面以VAR语句为例说明SAS变量缩写引用中-与-区别:,VAR x1-x5;表示只引用变量x1 x2 x3 x4 x5,与VAR x1 x2 x3 x4 x5;语句等价。,VAR x1-x5;表示引用在位置上从x1到x5之间的所有变量x1 age x2 x3 x4 x5,与 VAR x1 age x2 x3 x4 x5;语句等价。,程序的执行 当我们在PGM窗口将程序输入完毕,检查修改后就可以提交给SAS系统执行。在LOG窗口显示程序执行中记录的信息,它包括:执行哪些语句;生成的数据集中变量个数及观测个数是多少;程序执行所消耗的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SAS 统计分析 基础
链接地址:https://www.31ppt.com/p-5447401.html