欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    SAS简介与基本数据操作.ppt

    • 资源ID:6518461       资源大小:452.50KB        全文页数:53页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    SAS简介与基本数据操作.ppt

    SAS简介与基本数据操作,统计软件简介,统计软件的发展历史大约可分为几个阶段:(1)20世纪50年代70年代:统计软件包的初期研究阶段.比如最早产生软件包的思想是在1955年,统计工作者把程序放在一起形成一个程序库,用于科学计算.1961年形成第一个软件包BMD,以后发展成为有名的统计分析软件包BMDP.这一时期的重点是内容的选择和计算方法的改进.代表软件有BMDP(生物医学通用统计软件包),IMSL(国际数学统计库).,统计软件简介,(2)20世纪70年代 统计软件包大发展的阶段.最有代表的:社会科学统计软件包SPSS:1966年由美国斯坦福大学研制出SPSS软件包,1971年由美国SPSS软件公司实现商品化.1989年推出在PC机(DOS环境)上运行的SPSS/PC+,以后版本不断更新,目前使用的在Windows环境下的版本已发展为SPSS第16版.,SAS:统计软件界的巨无霸,SAS(Statistical Analysis System)系统是用于数据分析和决策支持的大型集成式模块化软件包历史:最早由北卡罗来纳大学的两位生物统计学研究生编制,并于1976年成立了SAS软件研究所,正式推出了SAS软件。在数据处理和统计分析领域,SAS系统被誉为国际上的标准软件系统,并在9697年度被评选为建立数据库的首选产品。用户:全世界120多个国家和地区的近三万家机构所采用,直接用户则超过三百万人,遍及金融、医药卫生、生产、运输、通讯、政府和教育科研等领域。,统计软件简介,SAS系统的版本更新很迅速.1985年推出在PC机(DOS环境)上运行的SAS 6.02版;1988年推出SAS/PC 6.03版,并系统地出版了使用手册;1989年推出SAS/PC 6.04版;1993年推出Windows的SAS系统6.08版;1996年推出Windows的SAS系统6.11版;1997年推出Windows的SAS系统6.12版;2000年2月推出Windows的SAS系统8.0版;版本不断再更新,目前使用的是在Windows环境下的版本SAS 9.1.3(部分汉化).,统计软件简介,STATISTICA(大型专业统计与图表 分析软件包)1984年美国俄克拉荷马州(Oklahoma)的StatSoft软件公司成立,初期产品是Psychostat-2 和Psychostat-3.1988年推出STATISTICA 0版;1993年推出Windows下的STATISTICA 4.5版;1999年推出STATISTICA 5.5版;目前使用的是Windows环境下的STATISTICA 6.0版.,统计软件简介,STATISTICA 是在SPSS,SAS之后推出的,它汇集了SPSS,SAS,BMDP等软件的长处,在原来软件基础上增加很多统计分析与图表分析功能,也是当今国际上最新的Windows版本的统计分析与图表分析软件之一.该公司目前在深圳设有办事处.,统计软件简介,国际上几个著名的通用软件包的比较:SAS,Gauss 语言交互会话式 SPSS,NISAN 命令交互会话式 BMDP 批处理式的通用软件包 IMSL,CUMSS 库结构(大型数学统计库),命令交互会话式使用方便,由统计命令、数据文件管理命令、辅助和运行命令三类命令进行操作.但功能稍差些.调用子程序库虽功能很强,但使用不方便.,统计软件简介,SAS属语言会话式,克服以上两类软件的缺点,即使用方便、又有强大的功能.SAS系统在较早时期(DOS环境下)就提供了用菜单系统完成基本统计分析功能的模块SAS/ASSIST,以后推出的SAS/INSIGHT提供了高度灵活的交互操作界面,完全免去了编程,随时将数据结果和图形一起展现给用户,特别适用于进行数据探索和挖掘.当前使用的Windows环境下的SAS系统,又增加很多菜单系统,完成常用统计分析基本上都可以使用相应的菜单系统.,统计软件简介,SAS系统的特点有:使用灵活方便,功能齐全;数据处理与统计分析溶为一体;SAS语言编程能力强且简洁;适用性强,应用面广(适合于任何经验的用户,适合于任何类型的数据,适合于任何计算机环境,适用于今日和未来);扩展性强没有上限的软件系统;SAS系统是用户唯一需要的最经济的软件系统.,SAS系统简介,SAS系统是用于数据分析与决策支持的大型集成式模块化软件系统。其早期的名称为统计分析系统-Statistical Analysis System(缩写为SAS)在数据处理和统计分析领域,SAS系统被誉为国际上的标准软件系统.,SAS系统是用于决策支持 的大型集成信息系统,SAS系统主要完成以数据为中心的四大任务:数据访问 数据管理数据分析数据呈现,数据仓库技术,传统分析+数据挖掘,网上发布,SAS系统是一个可由几个到 三十多个工具模块及面向行业的子系统组成的可伸缩系统。其模块按功能大体有四类:数据库部分:Base SAS,FSP,ACCESS,.分析核心:STAT,ETS,QC,OR,INSIGHT,开发呈现工具:AF,EIS,GRAPH,.分布处理与数据仓库:CONNECT,WA,.,SAS系统由模块构成,SAS8与SAS9,现在普遍用SAS8或SAS9,但SAS9太大了。SAS9使用“SAS 开放式元数据结构”可以创建元数据储存库、设置元数据服务器并编写可使用、存储或管理元数据的应用程序(客户端程序)。SAS9的SAS Management Console 是一个 Java 应用程序,它提供了对 SAS 元数据管理的单点控制。该应用程序通过使用插件,提供了灵活的管理环境。,SAS9新功能,新的多线程功能,改进了 SORT、SQL、MEANS、TABULATE 和 REPORT 过程的处理时间。新的 DOCUMENT 过程,可用于定制或修改输出层次,并将输出重新显示到不同的目标而无需重新运行 PROC 或 DATA 步。使用 TEMPLATE 过程的增强功能,您可以为输出定制或创建自己的标记语言。Base SAS 过程的其他增强功能改进了 ODS 格式设置,使用这些功能可以导入和导出 Microsoft Excel 2002 电子表格和 Microsoft Access 2002 表,支持输出格式和输入格式的长名称,列出和比较 SAS 注册表并增强统计处理以及打印机定义。,SAS9新功能,新的语言元素实现了对应用程序事务和性能的监视功能以及利用线程技术的并行处理,提供了对文件的“安全套接字层(SSL)”访问以及使用目录服务的文件访问,还提高了数据的搜索和处理功能,而且提供了新的统计和数学函数。新的引擎实现了对更广泛范围的 XML 文档的使用,提供了对“SAS 元数据储存库”中元数据的访问,并利用多 CPU 读取 SAS 数据而改进性能。在“输出交付系统”中,SAS 9 和 9.1 提供了包括 HTML4 和 XML 的一系列标记语言。新的 ODS GRAPHICS 语句(试用)现在可用于生成图形输出。新的 ODS DOCUMENT 目标可用于进一步控制输出的结构和层次。,SAS8的安装,下载了一个SAS8.1,300多M。安装时将系统时间改在2000年5月10日以前(SAS过期时间)。安装过程中会提示有一个文件找不到,忽略过去。安装完成后应用Crack,然后把系统时间改回来。,SAS8的启动,SAS数据集与SAS数据库,文件-目录视角:SAS数据集=文件,SAS数据库=目录RDBS视角:SAS数据集=表,SAS数据库=数据库,创建SAS数据集的方法,用程序创建SAS数据集从外部文件导入数据,来创建SAS数据集:1.excel表格2.逗号分隔的csv文件3.制表符分隔的txt文件4.从数据库导入数据5.其它数据形式,销售数据,创建数据集的例子,用程序创建数据集,data sale;input name$sales region$type$;cards;staler9664eastsmyoung22969eastsmstride27253eastsmtopin86432eastcspark99210eastcvetter38928westceurei21531westsmmarco79345westcgreco18523westsmryan82915westsmromas42169westsmrhalman91320southcmoore25718southsmallen61700southcsteam27631southsmfarlow32719northsmsmith38712northsmwilson97214northcrun;,数据量小,可以用程序创建数据集,如果数据量很大。,从excel表格创建数据集,第一行是变量名工作表只留一个,正确选择excel表格保存的类型,用来导入excel表格的SAS程序:PROC IMPORT OUT=WORK.SALE DATAFILE=D:SASworksale_data.xls DBMS=EXCEL2000 REPLACE;RANGE=SALE$;GETNAMES=YES;RUN;,用来导出excel表格的SAS程序:PROC EXPORT DATA=WORK.SALE OUTFILE=D:SASworksale_data.xls DBMS=EXCEL2000 REPLACE;RUN;,name,sales,region,typestaler,9664,east,smyoung,22969,east,smstride,27253,east,smtopin,86432,east,cspark,99210,east,cvetter,38928,west,ceurei,21531,west,smmarco,79345,west,cgreco,18523,west,smryan,82915,west,smromas,42169,west,smrhalman,91320,south,cmoore,25718,south,smallen,61700,south,csteam,27631,south,smfarlow,32719,north,smsmith,38712,north,smwilson,97214,north,c,从csv格式的文件创建数据集,第一行是变量名,用来导入csv文件的SAS程序:PROC IMPORT OUT=WORK.SALE DATAFILE=D:SASworksale_data.csv DBMS=CSV REPLACE;GETNAMES=YES;DATAROW=2;RUN;,用来导出csv文件的SAS程序:PROC EXPORT DATA=WORK.SALE OUTFILE=D:SASworksale_data.csv DBMS=CSV REPLACE;RUN;,namesalesregiontypestaler9664eastsmyoung22969eastsmstride27253eastsmtopin86432eastcspark99210eastcvetter38928westceurei21531westsmmarco79345westcgreco18523westsmryan82915westsmromas42169westsmrhalman91320southcmoore25718southsmallen61700southcsteam27631southsmfarlow32719northsmsmith38712northsmwilson97214northc,从制表符分格的txt文件创建数据集,第一行是变量名,用来导入制表符分格的txt文件的SAS程序:PROC IMPORT OUT=WORK.SALE DATAFILE=D:SASworksale_data.txt DBMS=TAB REPLACE;GETNAMES=YES;DATAROW=2;RUN;,用来导出制表符分格的txt文件的SAS程序:PROC EXPORT DATA=Work.Sale OUTFILE=D:SASworksale_data.txt DBMS=TAB REPLACE;RUN;,用菜单项从外部数据导入来创建数据集,以上创建的SAS数据集都在默认的work数据库中,而work数据库创建于windows的临时文件夹。,创建我们自己的固定数据库,数据集一次创建,以后可以反复使用。,创建固定的SAS数据库,在目录d:temp创建名为mylib的SAS数据库,创建数据集的程序,现在为:,data mylib.sale;input name$sales region$type$;cards;staler9664eastsmyoung22969eastsm wilson97214northcrun;,如何进行简单的统计分析,如计算均值、方差、置信区间、T检验。,计算均值、方差、标准差。,proc means data=mylib.sale MEAN VAR STD CLM ALPHA=0.05;var sales;run;,MEAN:变量的平均数 STD:变量的标准差 VAR:变量的方差 CLM:总体均值置信区间的上限和下限 LCLM:置信区间的下限 UCLM:置信区间的上限 ALPHA=0.05:1-置信水平,MEANS过程还可以计算,N:输入的观测值个数 NMISS:每个变量所含缺失值的个数MIN:变量的最小值 MAX:变量的最大值 RANGE:变量的极差(范围)SUM:变量所有值的和 USS:每一变量原始数据的平方和(未校正平方和)CSS:每一变量的离均差平方和(校正平方和),CV:变异系数,变异系数(coefficient of variation,简记为CV):是指标准差与平均数的百分比率。即 CV s 100%,极差(range):一组数据中的最大值与最小值之差为极差。,MEANS过程还可以计算,STDERR:每一变量的标准误差(平均数的标准差)T:在Ho:=0时的t值 PRT:在Ho:=0的假设下,统计量t大于t分位数绝对值的概率.SKEWNESS:偏斜度 KURTOSIS:峭度,偏度:Skewness是以正态分布为标准来描述样本数据对称性的统计量。Skewness=正态分布的偏度为0;右偏分布的偏度为正数;左偏分布的偏度为负数。,峰度:Kurtosis 是以正态分布为标准来描述样本数据分布密度偏离正态分布曲线的程度的统计量。Kurtosis=正态分布的峰度度为0,两侧的极端数据较少,呈尖峰式分布,峰度度为负数;两侧的极端数据较多,呈偏平式分布,峰度度为正数。,T值:是未知的正态分布的均值的假设检验所用的统计量。T=这个统计量满足t(n-1)分布,销售数据,我们的数据为:,如果我们想对east、west、south、north地区分别计算均值、方差、置信区间、T值呢?,如果想对east、west、south、north地区分别计算,proc means data=mylib.sale MEAN VAR STD CLM ALPHA=0.05 T PRT;var sales;class region;run;,上机练习1:对east、west、south、north地区分别计算均值,上机练习2:计算下表的中人均收入、居住面积的样本均值、样本标准差、总体均值的95%置信区间,省(市,区)人口增长文盲率 负担系数科技人员人均国民人均居住 编号率()()()比重()收入(元)面积(2)1 1.10 14.96 52.2 13.6316616.2 2 1.20 17.20 56.6 10.1415235.0 3 1.70 29.55 75.54.31 5145.6 4 1.90 24.35 81.55.86 7605.6 5 2.51 31.08 81.06.95 4856.0 6 1.60 16.58 65.88.26 9694.6 7 2.00 21.78 75.98.14 6455.0 8 2.70 22.17 77.99.20 8044.0 9 0.50 16.70 50.2 10.6628325.410 1.72 24.63 71.95.22 7506.111 1.80 31.20 72.14.57 6936.212 2.61 46.23 89.93.86 4337.213 2.44 37.15 89.75.19 4816.014 2.60 32.12 99.84.95 4145.015 1.64 36.76 77.54.35 6265.216 2.20 39.96 89.53.98 4005.217 1.96 31.12 80.95.21 6025.418 2.10 23.87 83.94.09 4466.719 2.15 22.90 85.04.78 6445.620 2.54 24.96 95.73.68 3375.021 2.10 31.96 84.53.74 3995.222 2.90 47.88105.03.62 3224.823 2.61 49.26 99.73.72 3656.624 1.89 48.81 95.67.32 4626.325 1.90 33.21 79.35.80 4104.726 2.46 48.05 85.54.39 4124.927 3.40 48.81 95.67.32 4855.228 3.47 48.04 99.46.02 4506.529 3.30 30.72 95.18.10 5535.3,绘制简单的统计图表,绘制柱状图。,proc gchart data=mylib.sale;vbar sales;run;,绘制离散型数据的柱状图(条状图),可以用 GCHART 过程,如果需要水平条状图,只须将 vbar 改为 hbar 即可。,绘制连续型数据的柱状图,可以用 CAPABILITY 过程,proc capability data=mylib.sale graphics noprint;var sales;histogram;run;,上述的 GRAPHICS 和 NOPRINT 分别表示打印出高分辨率的图像和不打出概括性统计量表。,直方图的组距是程序自动选定的,组距的大小可以通过改变中值来调整。若组距定为,可以加进选项”midpoint=5000 to 95000 by 10000”。以上所得到的是频率直方图,若要得到频数直方图,还须加入选项。“vscale=count”。,proc capability data=mylib.sale graphics noprint;var sales;histogram;Histogram/midpoint=5000 to 95000 by 10000,vscale=count;run;,我们介绍了means过程,希望大家自学UNIVARIATE、TTEST过程,简单的统计分析、图表绘制,都可以通过SAS/INSIGHT与SAS/ASSIST来完成,希望你能自学。,SAS/INSIGHT与SAS/ASSIST,启动SAS/INSIGHT在菜单中选择Solutions-Analysis“InteractiveData Analysis”启动SAS/ASSIST在菜单中选择Solutions-ASSIST,

    注意事项

    本文(SAS简介与基本数据操作.ppt)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开