SAS课件-第01讲SAS概述.ppt
1,统计分析系统SAS软件,2,SAS概述,SAS含义:Statistical Analysis SystemSAS是美国使用最为广泛的三大著名统计分析软件(SAS、SPSS和SYSTAT)之一,是目前国际上最为流行的一种大型统计分析系统,被誉为统计分析的标准软件。,3,4,在众多的统计软件中,SAS以运行稳定、功能强大而著称。近20年来,SAS一直占据着统计软件的高端市场,用户遍及金融、医药卫生、生产、运输、通讯、政府和教育科研等领域。在数据处理和统计分析领域,SAS系统被誉为国际上的标准软件,堪称统计软件界的巨无霸。在国际学术界有条不成文的规定,凡是用SAS统计分析的结果,在国际学术交流中可以不必说明算法,由此可见其权威性和信誉度。,5,SAS的广泛应用,电信(运用SAS软件产品进行网络运营分析和管理)金融(SAS帮我们发现有竞争力的商机)保险制造(SAS软件帮助日本富士通集团了解客户的需求,上海宝钢利用SAS软件改善产品质量和运输过程)证券公共事业(香港选择SAS来做2001年的人口普查)SAS银行个人住房贷款评分卡解决方案。,6,谁在用SAS?,7,为什么要学习SAS,用什么样的态度来学习SAS?,SAS是非常有用的软件工具,SAS为经济管理、社会科学、生物医学、质量控制、风险管理等领域的众多用户所采用,是公认的较完善、全面的软件包。目前还没有其它软件可以超越SAS对大型数据进行综合处理能力。SAS本身还提供了很多开发工具,这就使得我们可以用他灵活地来解决很多问题。SAS最具优势的模块是BASE,STAT,ETS,IML,和其他的开发模块。,8,你们一直想知道SAS在那些具体的工作中会有应用,我想这是一个对学习SAS的误区,SAS作为一个现代社会发展需要的数据处理与统计分析工具,在国外,掌握SAS技能可以找到很好的工作,也许可以作为一个职业。但对于我们统计专业的学生,SAS绝不是一个具体的职业,只能是辅助我们工作的一个强有力工具。就像我现在问你,以后哪些工作中会较多的使用word一样,这是很难回答的,如果一定要回答的话就是你的数据处理、计算、统计分析方面的活都可以用SAS很方便的来解决。把SAS说成是学习统计专业的人的工具绝不过分,它真的很方便,尽管一开始学起来会比较难,一旦学好,它有无比的优势,如,一些东西如果用其他软件来算的话可能要一个月,修改一个数据再算一次又要一个月,可是用SAS可能就一上午的事,且保留的SAS程序更方便你以后的修改与计算。确实是,差距真的可以这么大的。这么一个高效的工具做为我们学统计的人一定是要学的。学统计的人只有理论是不够的,必须要能解决实际问题,但统计领域的实际问题哪些不和数据打交道?必须要强调SAS只是工具,我们统计专业的学生,以后绝对不会去当程序员,去专门的搞SAS技术,首先,那需要其他一些关于计算机的专业知识,要下一番功夫的,再者,我们有自己统计专业的优势,当然要作统计的主流业务。我们学习SAS是要以为运用统计理论解决实际问题服务的,千万不能搞混了主次。,9,会使用SAS对即将工作的同学来说将会是很大的优势,国外是很认这个的,如果有SAS的水平认证的话,对于想出国的同学或进入外国企业的同学来说是一个优势。尽管国内同在SAS还没有普及,但是有这样一个现象,就是越好的公司SAS用的越多,实力越强的机构用的越多。SAS的普及应该是一个大的趋势,学好了一定会有用的。,10,SAS的版本介绍 SAS是在1960年代末期由两位北卡州立大学(North Carolina State University)统计系的教授开发第一版的SAS只含一般线性模型的分析法,而且只适用于IBM的主机;1976年成立SAS公司负责软件的发展、维护并提供相关服务PC版本的SAS于1987年推出(V6.02),1989年推出SAS/PC(V6.04)版本;1997年下半年推出适用于多种操作系统的V6.12版本(Windows版);2000年2月又推出SAS系统V8版本,2001年推出SAS系统V8.2版本;目前SAS最新版本为V9.2,11,操作系统,UNIXWINDOWSDOS,12,SAS系统的功能,数据访问访问任何形式和来源的数据,数据管理将数据转变为可用形式,数据呈现以文字、图形和表格的形式展现数据信息,数据分析获取有意义的信息,13,SAS系统的支持技术,在当今的信息时代中,如何有效地利用业务高度自动化所产生的巨量宝贵数据,挖掘出对预测和决策有用的信息,就成为掌握竞争主导权的关键因素。因此,SAS系统始终致力于应用先进的信息技术和计算机技术对业务和历史数据进行更深层次的加工。经过二十多年的发展,SAS系统现在是以下三种技术的主要提供者:,14,数据仓库技术(Data Warehouse)数据仓库是用于支持管理决策过程的面向主题的、集成的、随时间而变化的、持久的(非易失的)数据集合。通俗地说,可以将数据仓库理解为“将多个生产数据源中的数据按一定规则统一集中起来,并提供灵活的观察分析数据手段,从而为企业制定决策提供事实数据的支持”。数据仓库最大的用途是能够提供给用户一种全新的方式从宏观或微观的角度来观察多年积累的数据,从而使用户可以迅速地掌握自己企业的经营运转状况、运营成本、利润分布、市场占有率、发展趋势等对企业发展和决策有重要意义的信息,使用户能制定更加准确科学的决策迅速对市场做出反应。利用数据仓库技术可以使大企业运作的像小企业一样灵活,也可以使小企业像大企业一样规范。从目前情况来看,许多企业和机构已经建立了相对完善的生产数据库系统。随着时间的推移,这些系统中积累了大量的历史数据,其中蕴含了许多重要的信息。利用数据仓库技术对这些历史数据进行分析和综合处理,可以找到那些对企业发展至关重要的业务信息,从而帮助有关主管和业务部门做出更加合理的决策。,15,数据挖掘技术(Data Mining)数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。还有很多和这一术语相近似的术语,如从数据库中发现知识(KDD)、数据分析、数据融合(Data Fusion)以及决策支持等。数据挖掘是一门很广义的交叉学科,它汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。DMKD的研究主要有3个技术支柱,即数据库、人工智能和数理统计。,16,决策支持技术(Decision Support System)决策支持系统通过结合个人的智力资源和计算机的能力来改进决策的质量。它是一个基于计算机的支持系统,服务于处理半结构化问题的管理决策制定者。管理的核心是“决策”。全球经济一体化的进程以及信息技术的发展,消除了许多流通壁垒。企业比以往任何时候都面临着更为复杂的生存环境,更难以形成并维护其竞争壁垒。竞争的压力对企业制定决策的质量、速度都有更高要求。决策支持系统作为一种新兴的信息技术,能够为企业提供各种决策信息以及许多商业问题的解决方案,从而减轻了管理者从事低层次信息处理和分析的负担,使得他们专注于最需要决策智慧和经验的工作,因此提高了决策的质量和效率。,17,SAS系统的主要模块,SAS是数据管理和分析软件包,能够完成各种统计分析,矩阵运算和绘图等。SAS的各项功能由功能模块完成。其中BASE模块为必需模块,其它模块可任选。供选择的模块包括统计(STAT),矩阵运算(IML),绘图(GRAPH)和全屏幕操作(FSP)等20余个。,18,基础模块(SAS/BASE)初步的统计分析 进行数据存储,调入,追加,拷贝和文件处理;编写报告,打印图表;进行数据排序,分类等操作;完成一些基本统计数计算(如平均数和相关系数);与一些软件包(dBASE,LOTUS等)及大型机进行数据交换和通讯。BASE模块为SAS系统的核心模块统计模块(SAS/STAT)广泛的统计分析 提供一些高度可靠,完整的统计分析过程。主要有方差分析(包括一元,多元的单因素及多因素实验设计的方差分析),线性相关和回归分析(包括聚类分析,主成份分析,因子分析,典范相关分析)以及非参数测验等,共计26个过程。每个过程还提供多种不同算法和选项,从而SAS系统成为一个全面,细致,科学的统计分析方法集。STAT模块为SAS系统的核心和精华。,19,矩阵运算模块(SAS/IML)是一种交互式矩阵语言。可直接进行矩阵运算(加法,乘法,求逆,计算特征值和特征向量等),适用于高级统计,工程运算和数学分析。绘图模块(SAS/GRAPH)能在微机的绘图设备上绘制图形。可制作三维图形,地图和幻灯等全屏幕操作模块(SAS/FSP)为一交互式全屏幕软件。利用他可以建立,修改和浏览SAS数据集中的观察值,定义用户屏幕等。SAS/QC(质量控制)质量管理方面的专门分析计算;SAS/OR(规划)运筹决策方面的专门分析计算;SAS/ETS(预测)计量经济的时间序列方面的专门分析计算;,20,SAS/ACCESS(外部数据库接口)提供了与大多数流行数据库管理系统的方便接口并自身也能进行数据管理;SAS/ASSIST(面向任务的通用菜单驱动界面)方便用户以菜单方式进行操作;SAS/AF(面向对象编程的应用开发工具)另外SAS系统还将许多常用的统计方法分别集成为两个模块LAB和INSIGHT,供用户利用图形界面和菜单直接对数据进行统计分析,21,SAS的功能模块 SAS系统由三十几个模块组成,其分析功能散布在几乎所有的模块之中,较为集中的具有统计分析功能的是SAS/BASE、SAS/STAT、SAS/QC、SAS/INSIGHT、SAS/ETS等一些模块,通过编程可以调用各种分析功能。对于常用的一些统计分析方法,SAS系统中的如下三种方法可以达到同样的目的:INSIGHT(“交互式数据分析”)Analyst(“分析家”)直接编程,22,SAS的特点,功能强大,统计方法齐,全,新使用简便,操作灵活提供联机帮助功能,23,适用人群,具有不同水平与经验的用户初学者可以较快掌握其基本操作熟练者可用于完成各种复杂的数据处理(科研工作者和统计学家),24,统计分析,常用统计分析多变量分析试验设计参数的假设检验非参数的假设检验,25,常用统计分析,描述性统计统计推断方差分析线性相关和回归分析协方差分析非线性回归分析,26,多变量分析,多元方差分析主成份分析因子分析聚类分析典范相关分析,27,SAS中文自学书目推荐,统计软件教程-SAS系统与S语言,李东风,人民邮电出版社,2006.11SAS V8基础教程,汪嘉冈,中国统计出版社,2003.12实用统计方法与SAS系统,高惠璇,北京大学出版社,2001.10SAS统计分析,沈其君,东南大学出版社,2001.4SAS软件与应用统计,王吉利、张尧庭,中国统计出版社,2000.1SAS编程技术教程,朱世武,清华大学出版社,2007.10,28,SAS相关网站,官方网站 SAS中文论坛 SAS爱好者 中国统计网 人大经济论坛-SAS专版,29,一个简单例子,例1.1(中学生数据的简单分析)数据集SASHELP.CLASS中收集了19名中学生年龄(AGE),性别(SEX),身高(HEIGHT)和体重(WEIGHT)的数据.试求年龄,身高,体重的平均值,最大值和最小值;.分别求男女二组中学生身高的平均值和方差;.试问男女中学生的平均体重是否有显蓍差异?,30,用编程方式运行一个简单的SAS程序,解题步骤(用基本的编程方式):启动SAS系统(使用最简单的快捷方式);告诉SAS系统您要做什么-在程序编辑窗口(或V8以上版本的强化编辑窗)中键入程序(BASE11.SAS):,data class;input name$sex$age height weight;cards;Mary F 15 66.5 112.0Sharon F 15 62.5 112.5Robert M 12 64.8 128.0Thomas M 11 57.5 85.0;,31,用编程方式运行一个简单的SAS程序,*(1);proc means data=class mean max min;var age height weight;run;*(2);proc sort data=class;by sex;run;proc means data=class mean var;by sex;var height;run;,32,用编程方式运行一个简单的SAS程序,*(3);proc ttest data=class;class sex;var weight;run;,SAS系统按要求完成分析计算-提交程序(SUBMIT);由日志(LOG)窗口查看程序执行的信息;,33,用编程方式运行一个简单的SAS程序,返回SAS程序编辑窗口(当用强化编辑窗时)或重调已提交的SAS程序(RECALL),修改后再次提交;在输出(OUTPUT)窗口查看输出结果(V8以上版本可在结果(Result)窗口查看SAS程序的各个输出项);存储有用的信息(SAS程序或计算结果).,(转到SAS系统运行 BASE11.SAS),34,用菜单系统Analyst,解题步骤(用菜单系统Analyst(分析家):1.启动SAS系统=进入分析家=打开CLASS数据集=在菜单栏选 统计(Statistics)=描述统计(Descriptive)=汇总统计量(Summary Statistics)=在弹出的窗口由左边变量框选中分析变量Age,Height,Weight后点击Analysis键=按Statistics键,由弹出的统计量窗口选Mean,Maximun,Minimun=OK=OK=显示结果.,35,用菜单系统Analyst,2.在 Summary Statistics窗口指定SEX(性别)为分组变量及 Height为分析变量,按Statistics键,由弹出的窗口选Mean,Variance=OK=OK=显示结果.3.在菜单栏选 统计(Statistics)=假设检验(Hypothesis Tests)=两样本均值的t检验(Two-Sample t-test for Means)=指定Dependent(因)变量为Weight和Group(分组)变量为Sex=OK=OK=显示结果.,36,生成SAS例子数据库,生成SAS/Analyst例子数据库的步骤:1.启动Analyst:解决方案(Solutions)=分析(Analysis)=分析家(Analyst);2.进入“分析家”(或“分析员应用”),然后选:工具(Tools)=样本数据(Sample Data);3.在出现的对话框中选择SAS库(如sasuser)选中所需的数据集或选中Select all=OK,即可生成用于分析家的例子数据;4.退出Analyst.,37,生成SAS例子数据库,生成SAS/ASSIST例子数据库的步骤:1.启动ASSIST,在弹出的窗口中按继续;2.在显示的主菜单中点击Setup项,在弹出的菜单中选 File Management,又在弹出菜单中选Sample tables;3.在弹出的菜单中选Create Sample tables;4.在显示的“生成示例表”窗口中选择所需要的例子数据集(在数据集名字前方画勾号),然后按OK,则SAS系统将运行并生成SAS例子数据集;5.退出ASSIST.,38,生成完整的SAS例子数据库,选菜单项 帮助(Help)学习SAS程序弹出 SAS Online Training Sample Data?对话窗,询问用户是否有联机许可,若有,并询问用户是否生成SAS示例数据.按确定(OK),则生成样本数据,否则按取消(Cancel).,39,生成SAS例子数据库,生成SAS/INSIGHT例子数据库的步骤:1.进入SAS/INSIGHT,打开任意一个数据窗口;2.从菜单栏选帮助(Help),并由弹出的下拉菜单选创建示例(Create Samples);3.在出现的“是否在SASUSER中创建示例数据集”对话框中按确定(OK)键即可生成用于INSIGHT软件的例子数据集;退出SAS/INSIGHT.,40,本节的练习题,1.用多种方法启动sas系统;2.在程序编辑(PGM或WPGM)窗口运行 BASE11.SAS,查看日志(log)窗口和输出 结果;3.用菜单系统分析家(Analyst)完成例1.1 对CLASS数据集的分析;4.用多种方法发布进入输出(Output)窗口 的命令;5.用Help(帮助)系统查找Means过程的句法 说明.,