SAS软件与数学建模.ppt
《SAS软件与数学建模.ppt》由会员分享,可在线阅读,更多相关《SAS软件与数学建模.ppt(129页珍藏版)》请在三一办公上搜索。
1、SAS软件与数学建模,鲜思东重庆邮电大学Email:,统计,生物,物理,化学,经济,保险,心理,教育,管理,内容简介,模块简介,SAS与Excel的通讯,常用过程,SAS的学习,曲线拟合,非线性规划,神经网络,多元统计,矩阵运算,回归分析,模块简介,SAS系统的组成,SAS数据库部分:其模块为SAS/BASE。它也是其它模块的基础,即其它模块是建立在其基础之上的,SAS分析核心:这一部分包括了许多模块:,SAS/STAT:统计分析模块:回归分析、方差分析、属性数据分析、多变量分析、判别和聚类分析、残存分析、心理测验分析和非参数分析等8类40多个过程。SAS/ETS:经济预测或时间序列分析模块。
2、如实用预测(逐步回归、指数平滑等)序列相关校正回归、分布滞后回归、ARIMA模型、状态空间方法、谱分析和互谱分析等。SAS/OR:运筹学和工程管理模块:可进行线性和非线性规划,还包括项目管理,时间安排和资源分配等问题的一整套方法。SAS/QC:质量控制和试验设计模块。SAS/IML:矩阵运算模块。SAS/LAB:菜单驱动的面向任务的解释引导式数据分析模块。SAS/INSIGHT:可视化数据探索工具模块。SAS/SPECTRAVIEW:多维数据观测、分析、研究的交互式立体可视化工具模块,模块简介,SAS系统的组成,SAS开发及呈现工具:SAS/AF:应用开发工具。采用面向对象的技术,开发用户自己
3、的图形用户界面(GUI)的应用系统。SAS/EIS:行政管理系统或个人的信息系统 SAS/GRAPH:图形软件包 SAS/GIS:集地理信息系统功能与空间数据的显示分析于一体的软件,SAS对分布处理模式的支持及其数据仓库设计:SAS/ACCESS:与外部数据库文件的接口模块。SAS/CONNECT:在网络环境下,使各平台上的SAS系统建立内在联系模块。实现分布处理,从而有效地利用各平台数据和机器资源 SAS/SHARE:实行SAS系统中数据库的并发控制的模块,SAS与Excel的通讯,SAS中数据,Excel,SAS系统基础,1 概述1.1 SAS显示管理系统1.2 SAS数据库与数据集2 S
4、AS编程基础2.1 一个简单SAS程序2.2 SAS变量2.3 SAS表达式2.4 SAS函数2.4.1 SAS函数概述2.4.2 常用SAS函数,3 DATA步3.1 DATA步流程3.2 INPUT语句3.3 数据集的整理3.4 数据集的连接与合并3.5 SAS与外部数据的交换,Statistical Analysis System(缩写为SAS):是用于数据分析与决策支持的大型集成式模块化软件系统,在数据处理和统计分析领域,SAS系统被誉为国际上的标准软件系统,四大任务:,数据访问访问任何形式和来源的数据,数据管理将数据转变为可用形式,数据呈现以文字、图形和表格的形式展现数据信息,数据分
5、析获取有意义的信息,1.SAS显示管理系统,SAS系统的启动 点击图标,启动SAS系统,命令窗口,菜单栏,工具栏,LOG窗,程序编辑窗,状态栏,结果窗,资源管理器,结果输出窗,演示,2.SAS数据库与数据集,SAS数据库:主要用于存放数据集和目录.,SAS系统库,操作系统文件夹,2.SAS数据库与数据集,SAS数据库:主要用于存放数据集和目录.,临时库(WORK):SAS系统的临时工作目录,退出系统时,其中的内容全部删除,永久库:与临时库相反.SAS提供SASUSER,SASHELP,2.SAS数据库与数据集,SAS数据库:主要用于存放数据集和目录.,创建用户永久库,用操作系统中的资源管理器,
6、建立一文件夹,程序方式:libname 库名 文件夹所在路径,菜单方式:点击图标,然后按要求操作.,在SAS系统中建库,2.SAS数据库与数据集,SAS数据库:主要用于存放数据集和目录.,创建用户永久库,例:在SAS中先用程序方式建立一名为COURSE的用户库;再用菜单方式建立一名为COURSE1的用户库。,操作,2.SAS数据库与数据集,SAS数据集:主要用于存放数据文件。它一般由描述部分和数据部分组成,也有一些数据集包含索引部分。数据部分是存放数据的地方,它组织成一张二维表,其列表示变量,行表示观测。描述部分说明了数据集的一般信息,如数据集的名字和成员类型;建立的日期和时间;观测数以及变量
7、个数、属性等。,2.SAS数据库与数据集,SAS数据集:数据部分是存放数据的地方,它组织成一张二维表,其列表示变量,行表示观测。,观测,变量,2.SAS数据库与数据集,SAS数据集的引用:,库名数据集名,园点连接符,Data bodyfat;inPUt sex$fatpct;fat=fatpct/100;cards;M 13.3 F 22 M 19 F 26 M 20 F 16 M 8 F 12 M 18 F 21.7M 22 F 23.2 M 20 F 21 M 31 F 28 M 21 F 30 M 12 F 23M 16 M 12 M 24RUN;PROC means data=body
8、fat;var fatpct;run;,DATA步,程序步,1、一个简单SAS程序,该程序的结构包括两部分:以关键词DATA开始的DATA步;主要创建数据集,如此例中的bodyfat,同时也可以产生一些描述性统计和报表输出;以关键词PROC开头PROC步。PROC步则是系统预先写好的执行特殊任务的SAS子程序,如此例中的means过程,它主要是承担数据的分析,同时也可产生相关的数据集。,1、一个简单SAS程序,从该程序可以看出SAS程序的特点:SAS程序是由SAS关键词、SAS名字、特殊字符(如例子中的$号)和运算符组成的字符串,并以分号(;)结尾的SAS语句组成,它要求SAS系统执行一种操作
9、或给SAS系统提供信息。SAS程序不区分大小写,语句位置任意,一条语句的书写既可起始于任何行、列,也可跨越多行,同时也可以将多条语句写在一行。不过一个好的习惯是;DATA步和PROC步顶格书写,在每个步骤内的语句以缩进的方式书写,这样阅读和理解起来方便。,1、一个简单SAS程序,操作,SAS变量的命名:第一个字符必须是字母或下划线(_);后面可跟1至32个字符(数字、字母或下划线)变量的属性:类型(type):数值型、字符型(定义时变量后带$)长度(length):存储该变量所用的字节数(缺省为8)输入格式(informat)/输出格式(format):标签(label):对变量的作用给予描述
10、。,2、SAS变量,输入/输出格式:类型:字符型:用于字符变量的现成格式 数值型:用于一般数值型变量的现成格式 日期时间型:用于日期和时间的现成格式 用户定义:用于用户自定义格式,2、SAS变量,输入/输出格式:一般形式:格式名.,2、SAS变量,字符型变量,宽度,小数点后数值位数,输入/输出格式:字符格式:$w.$CHARw.,2、SAS变量,其含义是读入或显示字符变量的前w个字节。其缺省值均为变量的长度。当变量的长度未定时,$CHARw.格式宽度的缺省值为8;对$w.作为输出格式时缺省宽度为1,作为输入格式时,必须提供w的值。二者作为输出格式时,均保留字符串前的空格;但作为输入格式时,$C
11、HARw.保留字符串前的空格,而$w.则删除字符前的空格。,输入/输出格式:数值输入格式:w.d 数值输出格式:BESTw.,2、SAS变量,BESTw.是缺省输出格式。W的缺省值为12,最大可取32。含义为将数值在规定的宽度下用最为精确有效的方式显示。若用定点方式表示可提供更多的有效数字就使用定点方式;否则自动使用浮点数。,如:数据集中数值 输出格式 输出表示1257000 best6.1.26E61257000 best3.1E6,输入/输出格式:数值输入格式:COMMAw.d,2、SAS变量,如:原始数据 输入格式 记入数值$1,2345,6789 comma12.2 1234567.8
12、9$1234,5678.9 comma12.2 12345678.9($1,2345,6789)comma14.2-1234567.89,输入/输出格式:数值输出格式:COMMAw.d&DOLLARw.d,2、SAS变量,如:原始数据 输出格式 输出表示123456.7 comma12.2 123,456.70-123456.7 comma12.2-123,456.70123456.7 dollar12.2$123,456.70-123456.7 dollar12.2-123,456.70,输入/输出格式(日期):日期、时间的处理:将日期和时间值均作为数值变量存储以1960年1月1日为0点,其
13、它日期值为该日期值与1960年1月1日相差的天数。时间以1960年1月1日0时0分0秒为起点(0点),其余时间为与其的差值。,2、SAS变量,输入/输出格式(日期):输入格式:YYMMDDw.输出格式:YYMMDDxw.源数据日期 输入格式 SAS日期值 输出格式 输出表示99-10-15 yymmdd8.14532 yymmddd10.1999-10-1599/10/15 ddmmyy8.14532 yymmdds10.1999/10/1510-15-99 mmddyy8.14532 ddmmyyn8.15101999,2、SAS变量,其中输出格式中的x的取值为:x:B C D N P S含
14、义 空格:-无./,输入/输出格式(日期):输入输出格式:DATEw.源数据日期 输入格式 SAS日期值 输出格式 输出表示15OCT99 date7.14532 date9.15OCT1999,2、SAS变量,输入/输出格式(时间):输入格式:TIMEw.和输出格式:TIMEw.d hh:mm:ss.ss(时:分:秒.百分秒)源数据日期 输入格式 SAS日期值 输出格式 输出表示13:40:35.37 time11.49235.37 time11.2 13:40:35.3713 40 35.37 time11.49235.37 Time2.1313/40/35.37 time11.49235
15、.37 Time5.13:4013-40-35.37 time11.49235.37 Time8.13:40:351 40 35.37 PM time14.49235.37 Timeampm13.2 1:40:35.37 PM,2、SAS变量,输入/输出格式(日期时间):输入格式:DATETIMEw.ddmmmyy hh:mm:ss.ss 或 ddmmmyyyy hh:mm:ss.ss 输出格式:DATETIMEw.d ddmmmyy:hh:mm:ss.ss 或 ddmmmyyyy:hh:mm:ss.ss,2、SAS变量,变量列表:x1 x2 x3 xn 简写为x1-xn A B C D 简写
16、为A-D V X TD UP JPP 简写为V-JPP,2、SAS变量,表达式是由运算符和运算对象形成的指令集,3、SAS表达式,1.SAS常数 数值常数:110-0.35 1.8E3 0.5E-10 字符常数:Smith 23 John Smith 日期,时间和日期时间常数:13JUL2001d 22:23t 13JUL2001:22:23:25DT,2.SAS运算符:算术运算符:*(乘方)*/+-比较运算符:=(eq)=(ne)(gt)=(ge)(取大)|(连接),表达式是由运算符和运算对象形成的指令集,3、SAS表达式,3.运算次序:括号内的表达式先算优先级(见下面)相同优选级别的算符,
17、按顺序,先左后右,表达式是由运算符和运算对象形成的指令集,3、SAS表达式,优先级,第一级*乘方+仅作前缀时(取正)-仅作前缀时(取负)非最大第二级*乘/除第三级+加-减第四级|连接第五级=,第六级&与第七级|,1.SAS函数的调用:functionname(argument,)-括号不能少 自变量的表示形式有两种:如x,y,z的和 sum(x,y,z)或 sum(of x y z)sum(of x-z)A=sum(x,y,z)B=min(sum(of x y z),1000),4、SAS函数,2.SAS函数的返回值:返回值为:数值型 字符型 其返回值的类型一般可通过自变量的类型加以判断(但有
18、个别有例外,如PUT函数,总是输出字符型),4、SAS函数,3.SAS函数的分类:SAS函数分为十七类:算术函数、数组函数、截取函数、数学函数、三角和双曲函数、概率函数、分位数函数、非中心函数、样本统计函数、随机数函数、财政金融函数、逐位逻辑操作函数、数字函数、字符函数、日期和时间函数、洲和Zip码换算函数和特殊函数。,4.与统计有关的SAS函数,4、SAS函数,1.概率函数:SAS系统提供了10个常见分布的概率函数,其定义为:在下面的函数均表示求这些分布函数的值。其中DF表示自由度,NC表示非中心参数值,NDF表示分子自由度,DDF表示分母自由度,其余参数为相关分布的参数项。,4.与统计有关
19、的SAS函数,4、SAS函数,1.概率函数:标准正态分布函数 PROBNORM(X)计算PU0贝塔分布函数 PROBBETA(X,a,b)X(0,1),a,b0F分布函数 PROBF(X,NDF,DDF,NC)t分布函数 PROBT(X,DF,NC)二项分布的概率分布函数 PROBBNML(P,N,M)波松分布 POISSON(,N)负二项分布 PROBNEGB(P,N,M)超几何分布 PROBHYPR(NN,K,N,X,OR)表示NN件产品,其中有K件不合格品,随机地从NN件中抽取N件,这N件中不合格品的个数服从该分布.该函数给出N件品中不合格品的个数=X的概率.参数OR是不匀率.K=0是有
20、效的值(即NN件产品中没有不合格品),由此导出X=0,不管其它参数取什么值,该函数获得值1.如果省略OR,就认为其值为1.如:X=PROBHYPR(10,5,3,2,1.5)OR=1.5表示抽到不合格品的概率是抽到合格品概率的1.5倍.,4.与统计有关的SAS函数,4、SAS函数,1.概率函数:举例:DATA DD;p=PROBCHI(5.6,4);/*求自由度为4的2分布不超过5.6的概率值p*/T=1-2*(1-PROBT(2.4,8);/*求自由度为8的P|t|2.4*/RUN;在SAS系统中操作,4.与统计有关的SAS函数,4、SAS函数,2.分位数函数:2分布的分位数 CINV(p,
21、df,nc)nc0)Beta分布的分位数 BETAINV(p,a,b)F分布的分位数 FINV(p,ndf,ddf,nc)T分布的分位数 TINV(p,df,nc)正态分布的分位数 PROBIT(p)标准正态分布的分位数,其结果在-5和5之间.Gamma分布的分位数 GAMINV(p,a),4.与统计有关的SAS函数,4、SAS函数,2.分位数函数:举例:DATA A;Q1=FINV(0.025,2,10);/*求自由度为(2,10)的F分布的2.5%分位数Q1*/Q2=FINV(0.975,2,10);/*求自由度为(2,10)的F分布的97.5%分位数Q2*/Q3=FINV(0.95,2,
22、10,3.2);/*非中心值为3.2的F分布的95%的分位数,其自由度为(2,10)*/RUN;,演示,4.与统计有关的SAS函数,4、SAS函数,3.随机数函数:,均匀分布随机数 UNIFORM(seed)其乘子为16807,模为231的乘同余发生器和一个64位数的搅乱表形成的组合发生器,seed必须是常数,它或是0或5位,6位,7位的奇数。RANUNI(seed)其乘子为397204094,模为231-1的素数发生器,seed必须是小于模231-1任何常数。标准正态分布随机数 NORMAL(seed)RANNOR(seed)一般正态分布N(,2)可由如下变换得到:,4.与统计有关的SAS函
23、数,4、SAS函数,3.随机数函数:,指数分布随机数 RANEXP(seed)产生=1的指数分布的随机数.Y=RANEXP(seed)/,则产生一般指数分布随机数 若Y=-*LOG(RANEXP(seed),则Y为具有位置参数 和尺度参数为的极值分布随机变量 若Y=FLOOR(-RANEXP(seed)/LOG(p),则Y为具有参数p的几何分布变量,4.与统计有关的SAS函数,4、SAS函数,3.随机数函数:,伽马分布随机数 RANGAM(seed,).它用组合法产生参数为非整数的GAMMA随机数.非整数可表示为整数部分和小数部分的和:=+(-).用逆变换方法产生参数为整数的GAMMA随机数X
24、1,用舍选法产生参数为小数(-)的GAMMA随机数X2,那么X1+X2即为参数为的GAMMA随机数 设X=RANGAM(seed,),则Y=X/为形状参数为,尺度参数为的GAMMA分布随机数;若2*为整数,且Y=2*X,则Y是具有自由度为2*的卡方分布随机数;若=n(正整数)且Y=X/,那么Y是Erlang(厄兰)分布随机数.它是n个独立的均值为的指数分布变量的和;若Y1=RANGAM(seed,),Y2=RANGAM(seed,),则Y=Y1/(Y1+Y2)是参数为和的贝塔分布随机数,4.与统计有关的SAS函数,4、SAS函数,3.随机数函数:,三角分布随机数 RANTRI(seed,h)0
25、h1 其密度函数为:的三角分布随机数.对一般区间a,b上的三角形分布随机数Y,可由0,1区间上三角形分布的随机数的线性变换得到.即:Y=(b-a)*RANTRI(seed,h)+a h=(c-a)/(b-a)ca,b,4.与统计有关的SAS函数,4、SAS函数,3.随机数函数:,柯西分布随机数 RANCAU(seed)用舍选法产生 Y=+*RANCAU(seed),则Y是位置参数为,尺度参数为的一般柯西分布随机数二项分布随机数 RANBIN(seed,n,p)波松分布随机数 RANPOI(seed,)离散分布随机数 RANTBL(seed,p1,p2,pn)此函数产生一个由p1到pn定义的概率
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SAS 软件 数学 建模
链接地址:https://www.31ppt.com/p-5447415.html