SAS培训班讲义.ppt
《SAS培训班讲义.ppt》由会员分享,可在线阅读,更多相关《SAS培训班讲义.ppt(151页珍藏版)》请在三一办公上搜索。
1、1,课程名称:SAS培训班讲义讲师:赵坚毅网址:,2,第一部分 课程介绍,培训内容:使学员掌握SAS的界面使用和基本编程使用,为学习和应用SAS的其他专业功能奠定坚实的基础。使用SAS进行数据分析和处理,3,推荐教材,1 SAS系统的帮助以及在线文档,都是学习SAS的很好的工具。2 SAS系统Base SAS 软件使用手册 高惠璇等编译,中国统计出版社1997 3.SAS 系统SAS/STAT软件使用手册高惠璇等编译,中国统计出版社1997 4.实用统计方法与SAS系统高惠璇 北京大学出版社 2001,4,数据类型,a.横截面数据集(cross-sectional data set):即给定时
2、点对个人、家庭、企业、国家或一系列其他单位采集的样本所构成的数据集(应该忽略细小的时间差别)名词术语1、数据集:数据的集合,由样本(行)和变量(列)组成,5,数据类型,b.时间序列数据集(time series data set):是由一个或几个变量在不同时间的观测值所构成的。c.混合横截面数据集(pooled cross section data set):有些数据既有横截面数据的特点又有时间序列的特点,但每一时点的样本不同。,6,数据类型,d.综列数据集(panel data set):由横截面数据集中每个样本的一个时间序列组成。(定点长期调查)其他专门数据类型:1、离散数据(discre
3、te data):通常在考察个人、家庭或企业的决策行为时,通过问卷调查获得,由此发展出“离散选择模型”。定量数据与定性数据,7,数据集类型,2、持续数据(survival data):用于考察变量从开始到结束或调查终止前所经过的时间长度,如失业持续时间、罢工持续时间,股市牛熊市持续时间,8,使用SAS进行数据处理的应用实例,商场应用:在美国大型超市WalMart(沃尔玛)发生的实例:在星期四,年轻夫妇为准备周末通常同时购买尿布和啤酒,因此把尿布和啤酒放在一起会提高效率。,9,数据处理的应用,天文学(skicat系统处理天文数据发现类星体)生物学(人类基因组计划处理人体数据研究基因)市场营销(货
4、篮分析)公司财务的处理(记流水帐)经济论文写作中的实证部分,10,数据处理的应用,“今天,我们不得不生存在全球化和信息革命影响下的世界,我们只有两个选择:适应它,或者被它抛弃。”英特尔公司主席安德鲁格鲁夫1995年尼葛洛庞帝的数字化生存一书指明了即将到来的数字时代,而在未来一长段时间,数字化生存仍将是人类的主要生存方式,在经济学领域也不外如是。,11,第二部分 SAS系统入门SAS系统概况,大型集成、跨平台软件系统 完备的数据访问(Access)、管理(manage)、分析(analyze)和呈现(present)及应用开发(develop)的功能 在数据处理、统计分析和IT应用领域,SAS系
5、统已经成为国际上的标准软件系统。,12,SAS的发展历程一,1966年由美国北卡罗来纳州(NorthCarolina)州立大学开始研制 1976年成立美国SAS软件研究所,并开始对SAS系统进行维护、开发、销售和培训等工作 1985年推出了SAS/PC(6.02)版本,13,SAS发展历程二,1989年推出SAS/PC(6.04)版本 1997年下半年推出适用于多种操作系统的6.12版本 2000年2月又正式推出SAS系统8版本 2002年推出全新的SAS9版本,14,SAS在中国的发展,SAS公司于1989年在北京成立了办事处 1997年,SAS软件研究所正式宣布成立大中国区 1999年3月
6、在国内设立独资公司赛仕软件(上海)有限公司。,15,SAS的成绩,全球十大独立软件开发商之一 世界六大洲近50个国家或地区设有分公司及分支机构 应用遍及120多个国家和地区(包括中国)的31000多个机构中 全球100家最大公司中的90多家都在应用SAS系统。,16,SAS模块介绍,Base SAS:1、数据管理功能2、基础统计计算功能 3、报表生成和图形显示功能,17,SAS/STAT 统计分析SAS/INSIGHT 数据探索SAS/ASSIST 面向任务的易学易用模块SAS/ETS 时间序列处理SAS/OR 运筹学和工程管理SAS/QC 质量控制SAS/IML 矩阵运算SAS/GRAPH
7、绘图SAS/AF 面向对象编程(OOP)的应用开发工具,拓展SAS的功能,18,SAS/EIS 面向对象编程的开发工具,用于开发企业信息系统SAS/ACCESS 数据访问 SAS/TOOLKIT 扩充工具,把用其他软件编写的程序转化成SAS的组成部分SAS/Warehouse Administrator 数据仓库管理SAS/Enterprise Miner 数据挖掘SAS/Text Miner 文本挖掘SAS/SHARE 数据库的并发式控制专门软件SAS/CONNECT 使各平台SAS系统进行分布式处理,从而有效利用各平台机器资源,19,SAS/GIS 地理信息系统与空间数据的显示分析SAS/
8、SPECTRAVIEW 数据可视化分析工具,用几何成像的方式来分析多维数据SAS/Intrnet 提供构建基于SAS的企业内部网络支持SAS/FSP 快速数据处理的交互式菜单系统SAS/CALC 功能完善的多维电子表格软件SAS/ENGLISH 提供利用自然英语获取信息的能力,20,SAS/SECURE 网络传输加密SAS/OLAP SERVER 多维数据存储及汇总结果呈现SAS/GENETICS:SAS公司的第一个科学研究应用软件,应用于遗传学,有5个分析过程SAS/High-Performance Forecasting:提供快速高效的预测结果SAS/C,SAS/C+针对IBM大型机的开发
9、工具SAS/LAB 向导式的数据分析软件,特别针对day-to-day类型数据,21,SAS工作空间,程序窗口(PROGRAM EDITOR)运行记录窗口(LOG)输出窗口(OUTPUT),22,SAS程序第一例,SAS/HelloWorld.sas注:以后程序文件省略后缀,直接简记为文件名称,如此例简记为HelloWorld,需要说明文件类型时才标明后缀。,23,SAS/Insight模块,1、界面介绍2、Fill values 功能3、Extract 功能4、Edit/windows/tool菜单使数据探索色彩缤纷(注意选项设置)5、打开分布、拟合、多元等的窗口之后主菜单Tables、Gr
10、aphs、Curves菜单才被开放。Fly,insurance数据集示例,24,Insight模块,其他功能:1、分布(输出大多数常用的统计量)2、拟合(回归分析)3、多元(方差分析),25,SAS程序的书写格式,1、SAS程序由语句组成,语句用分号结束。2、SAS语句可以从某一行的任意位置开始;3、几个SAS语句可以写在同一行上,但每句要使用分号,26,SAS程序的书写格式,4、一个语句也可以写成几行,只要语句中的单词不被断开就可以。在一个语句中各个单词之间至少要有一个空格。5、SAS程序中一般不区分大小写(字符串中要区分大小写)6、用/*注释的内容*/来对程序进行注释,27,SAS程序的结
11、构,SAS数据集样本(观测、记录)、变量(字段、域)、表(数据集)、数据库许多SAS语句都是以关键词开始并用它识别语句的类型(如data、input、proc)绝大部分的SAS语句都可分为两步:DATA步和PROC步,28,SAS的变量及格式,变量属性(名称、类型、长度、输入格式、输出格式、标签)类型:数字型、字符串型输入格式:数据被SAS读取的格式输出格式:数据呈现给人们的格式,29,SAS程序第二例,SAS/orange.sas输入数据-形成数据集-排序-打印显示,30,SAS文件及命名,1、SAS数据集文件(后缀为sas7bdat)2、SAS程序文件(后缀为sas)3、SAS日志文件(后
12、缀为log)4、SAS输出文件(后缀为list),31,SAS文件及命名,临时数据集和永久数据集SAS文件的2级命名方式:目录.文件名work目录和其他目录使用Libname语句创建永久数据集,libname 自建目录名 目录地址;libname例,32,建立SAS数据集的5种方法,1、data步自己输入数据建立。Orange例2、data步利用set 语句建立。Set例3、从外部调入。Infile例4、利用“导入数据”功能建立。Id.xls例、data.txt例5、利用EFI(external file interface)功能导入。Column.dat例、tests.dat例、comma.
13、dat例,Analyst分析家模块,1、界面介绍2、浏览与编辑模式3、生成示例数据与抽样4、程序清单5、假设检验,33,34,SAS运算符(operator例),算术运算符:*/*比较算符:=(EQ)=(NE)(GT)=(GE)(最大值)|(!)(连接),35,字符的比较(operator_char例),1、按机器使用的字符排列次序(ASC或Unicode)从左到右被比较。2、两个不等长的字符串被比较时,系统在较短的字符串后自动添上空格3、在比较符后加冒号,则只比较首字母,36,运算次序一,在括弧里的表达式先计算第一级:*()前缀第二级:*/第三级:第四级:|第五级:其余比较算符第六级:第七级
14、:,37,运算次序二,对于相同优先级的算符,左边的运算先做。但有两个例外:1.对最高优先级,右边的运算先做2.当两个比较算符围着一个量时,这个表达式看成是有一个and 出现一样被计算。如:12age 20,等价于:12age&age20,38,SAS函数一(部分),数学函数:abs()、max()、min()、mod(x,y)、sign(x)、sqrt(x)、sum()、mean()、exp(x)、log(x)、log10(x)、log2(x)、sin(x)、arsin(x)截取函数:ceil(x)、floor(x)、int(x)、round(x,n)字符函数:index(S,S1)、subs
15、tr(S,p,n)、scan(S2,n)、upcase(S)、compress(S,S1),39,SAS函数二(部分),SAS系统存贮日期值为1960年1月1日到指定日期之间的天数SAS存贮时间值为从午夜开始到指定时间的秒数日期时间值存贮为1960年1月1日午夜到指定日期时间之间的秒数日期时间函数:weekday()、day()、month()、qtr()、year(),40,SAS函数三(部分),概率统计函数:probnorm(x)n(of X1-Xn)、nmiss(of X1-Xn),var(of x1-xn)、std(of x1-xn)随机数函数:rannor(seed)、ranuni(
16、seed)Functions例,41,DATA步,文件操作语句运行语句控制语句信息语句,42,DATA步流程,DATA语句标志了数据步开始,并指定了数据步结束时要生成的数据集名字。每次读入一行数据,读入后执行数据步中的其它语句,循环数据步读取整个数据。_N_变量表示DATA步已经执行的次数_error_变量值为1时表示程序出错Flow例,43,DATA步流程(Flow1例)(*),读外部数据时,数据步迭代(即每一次)的开始把变量的值置为缺失值,有几种情况例外:1、retain语句提到的变量2、sum语句中创建的变量3、数组_temporary_中的数据元4、file和infile语句选项中创建
17、的变量5、自动变量读sas数据集时,只在第一次迭代时把变量值置为缺失,以后变量保留其值直至新值写入,44,文件操作语句DATA语句,DATA语句的选项DROP选项(不列出某些变量)KEEP选项(列出某些变量)LABEL选项(给数据集加标签)RENAME选项(重命名变量)Data例,45,DATA语句,数据集名字:(data2例)1、data语句后无数据集名字,则自动生成 data1,data2等为数据集名字,相当于data _data_;2、data _null_;不产生实际的数据集,只是把内容暂存于内存,以供put语句等读取结果,可以节约计算机资源3、data _last_;以最近产生的数据
18、集命名并取代其内容。,46,Input语句,分组格式:input(g1-g5)(3*7.2,2*5.2);input(a b)($5.)input(a b)($,5.)无需分行而按变量连贯读数据固定该数据行;用于需要多个input语句同时读取一行数据。input例,Input例,47,Input语句,利用n+n#n 进行指针控制input1例,48,Input语句,几个特殊符号的用法(:&):读值时第一次遇到分隔符、或是数据行末尾、或是读满列数而结束 字符型输入值可以嵌有一个或几个空格 字符型输入值保留引号(与infile 语句中选项dsd一起使用才有效)Input2例,49,Cards语句,
19、Cards语句与datalines语句可以通用如果输入数据中含有分号,可用cards4语句或datalines4语句,同时,数据结尾用4个分号表示数据输入结束Cards4例,50,Put 语句,Put语句负责在log窗口输出一些结果,file print选项可把输出转移到output窗口Put _infile_(输出最新的数据行到SAS log 窗口)Put _all_(输出所有变量的值)Put _page_(输出新页)Put例、put1例,51,File 语句,File print 把put语句产生的输出结果转移到output窗口Put例,52,By 语句,在DATA步中,SAS系统对每个B
20、Y组创建两个临时变量:First.variableLast.variable它们用来区别每个BY组的第一个和最后一个观测By例,53,Set语句,使用set语句复制数据集Point选项指明要读入的记录序号set 数据集 point=指针变量;可用于抽样,一般与output语句连用Nobs选项创建一个临时变量用来存储数据集的观测总数见set例,point例,54,Set语句,Set语句可以串接多个数据集,形式如下Data 数据集;set 数据集A 数据集B;Run;Rename选项负责改名;in选项产生变量负责记录观测来自该数据集;见set2例,55,Merge语句,使用Merge语句并接多个数
21、据集,形式如下Data 数据集;merge 数据集1 数据集2;by 变量;run;见merge例,56,Update 语句,Update语句用一个升级数据集中的观测来修改一个主数据集。Update语句一定要与BY语句一起使用,BY语句给出了合并观测时共同变量的名字主数据集中的共同变量必须是单值的,即不能有两个或两个以上的观测其共同变量值相同Update例,57,Infile语句,Delimiter(DLM)选项:规定一个字符替代空格作为分隔符。Firstobs选项:不是从文件的第一个记录开始,而是从指定行开始读取记录Obs选项:规定用户想从输入文件中连续读取的最后一个记录号Infile(dl
22、m)例、Infile(obs)例,58,Infile语句,DSD选项:1、使最外层引号括起的内容当成整个字符串输入,并去除最外层引号2、默认分隔符为逗号3、两个相邻的分隔符意味着前一个分隔符后的字段为缺失值Infile(dsd)例(回顾input2例),59,Infile语句,当行末尾数据宽度少于规定宽度时Flowover:默认选项,将下一条记录读入Missover:将变量置为缺失Truncover:将数据直接读入,不管宽度是否少于规定宽度Stopover:系统终止数据步执行,报告出错Missover例,60,Infile语句,Lrecl=n选项:设定源数据文件行的物理长度,缺省为256,最大
23、可设为32767Pad|Nopad选项:pad选项指当宽度少于规定宽度时,在后面填充空格至Lrecl=n规定的行长度,缺省为nopadMissover例,61,运行(算)语句赋值语句和累加语句,赋值Variable=expression例:x=a+b;累加 Variable+expression例:if x=5 then n+1;例:n+(-1)累加语句中的变量必须是数值型变量,初始值为0,62,Delete和lostcard(*)语句,Delete语句告诉SAS系统停止处理当前的观测,并且返回到这个Data步的开头处理其他观测当SAS系统遇到用几个记录表示一个观测的时候,数据中有丢失记录时,
24、使用Lostcard语句来重新对准输入数据delete例,lostcard例,63,Stop和abort语句,用stop语句来停止处理data步,正被处理的那个观测没有添加到SAS数据集中,stop语句不影响后面的任意data步或proc步的执行用abort语句来中止SAS系统执行当前DATA步,return选项关闭SAS并返回操作系统。Stop与abort的区别在于abort语句置_error_变量为1Abort例,64,Where 语句,从已存在的SAS数据集选择子集,在把观测读入之前规定数据必须满足一个条件Where 语句与if语句相比在读取数据时更为高效,因其在移动所有观测到子集之前先
25、选择数据。Where语句丰富的表达式where例,65,Output语句,DATA步的每次迭代,后台自动使用output语句,但如果程序中主动加上output语句,即相当于取消自动output语句,变成在条件符合时输出。output例,66,Output语句,用到output语句其他情况:output123例1.从一个输入的数据文件中,创建几个SAS数据集2.从输入的每个数据行中,创建二个或更多个观测3.把几个输入观测组合并成为一个观测后面接名字表示输出到指定数据集,但名字必须也在DATA后出现,67,Call语句,调用其他子程序call routine(parameter-1)如SAS提供一
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SAS 培训班 讲义
链接地址:https://www.31ppt.com/p-5447382.html