欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    统计分析软件基础教程-Insight的数据探索功能.ppt

    • 资源ID:6599219       资源大小:1.95MB        全文页数:89页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    统计分析软件基础教程-Insight的数据探索功能.ppt

    SAS/Insight的数据探索功能,Page2,掌握 SAS/Insight的操作掌握SAS/Insight的数据管理掌握SAS/Insight的数据探索,内容与要求,Page3,SAS菜单系统简介,1,Insight的数据管理功能,2,Insight的其他功能,4,Insight的数据探索功能,3,Page4,SAS菜单系统简介,在SAS系统统计分析功能的使用中,除通过编程方式外,对常用的分析功能SAS还提供简便的菜单系统,使得用户不用编程就可以方便地享用SAS的许多深入的统计分析功能.目前已提供的菜单系统有:SAS/Insight:是一个进行探索性的交互式数据分析的菜单系统.SAS/STATAnalyst Application:是一个为分析员设计的菜单系统.SAS/STATMarketing Research(市场调查):是一个为市场调查数据进行较深入的分析而开发的一个菜单系统.,Page5,SAS/QC SQC:(质量控制):是为企业使用各种质量控制方法而提供的菜单系统.SAS/QC(X)ADX:是为安排各种试验和获得数据后进行分析的菜单系统.SAS/ETS 时间序列预报系统(FORECAST):是在运用时间序列分析中为各种建模和预测功能而开发的菜单系统.与统计分析有关的菜单系统还有 向导式数据分析(LAB);投资分析;企业数据挖掘;排队仿真等等,Page6,SAS/Insight是一个交互式的数据探索和分析的工具。它将统计方法与交互式的图形显示结合在一起,随时为用户提供数据、图形和分析结果三方面的内容,便于用户发现异常数据及包含在数据中的模式或规律,探索性地使用各种统计分析方法并观察分析结果。它为用户提供一种全新的使用统计分析方法的环境。,Insight的数据管理功能,Page7,进入SAS/Insight的几种方法:(1)在命令框键入命令 Insight,(2)用下拉菜单 解决方案(Solutions)分析(Analysis)交互式数据分析(Interactive Data Analysis),(3)提交 Proc Insight;(4)建立Insight的图标,用图标启动.,进入SAS/Insight,Page8,Page9,Insight软件提供数据探索和分析中很广泛的一些方法.在Insight环境下的主菜单包括文件File,编辑Edit,分析Analyze,表Tables,图形Graphs,曲线Curves,变量Vars和帮助Help栏目,这些栏目提供Insight的功能.File栏目下提供打开数据集,存贮数据集、分析结果的表格和图形的管理.Edit栏目下提供对打开数据集中的变量、观测进行增删,设定数据显示格式和窗口管理 功能.,SAS/Insight的功能,Page10,Analyze栏目下提供分析和作图的功能.分析功能包括分布的拟合检验、线性模型(含回归分析、方差分析Logistic回归等)、多变量分析三大类.Tables栏目下提供显示分析结果的各种表格功能.Graphs栏目下提供生成与分析有关的各种图形,包括直方图、盒形图、马赛克(mosaic)图、线图和三维旋转图等.Curves栏目下提供与分析有关的各种曲线.包括拟合的分布密度函数和经验累计分布函数图、分位数-分位数图(Q-Q图)等.Vars栏目下提供由分析结果形成新的变量.,Page11,SAS/Insight的帮助信息提供十分广泛的内容.用户可以通过Help系统来得到帮助信息.Help(帮助)的下拉菜单(见左下图)如下:,选定对象的帮助(Help on Selection)/:提供与加亮区或内容有关的帮助信息.介绍(Introduction):学习 SAS/Insight软件的导引.技巧(Techniques):学习如何执行一项特殊任务,比如数据输入、坐标轴和标尺调整等.,SAS/Insight的功能-帮助信息,Page12,参考(Reference):可以浏览由下拉菜单列出与SAS/Insight系统有关的详细信息.索引(Index):可快速查看SAS/Insight专题的索引.SAS系统(SAS System):查看SAS系统专题的一般索引.创建样本(Create Samples):在SASUSER库中建立样本数据集(即本使用手册所涉及的),执行过程的有关信息可从LOG窗查看.,Page13,在SAS/Insight中,可对SAS数据集进行:(1)用表格方式输入数据生成数据集并浏览;(2)增加变量和观测;(3)修改测量水平;(4)移动变量的显示次序(在数据窗口移动列);(5)创建新的变量;(6)按某个变量的值对数据集进行排序;(7)选取子集;(8)存贮数据.,对数据集的操作,Page14,使用下拉菜单进入SAS/Insight后,则显示以下打开数据集的对话窗.,输入数据或打开数据集,Page15,如果所要分析的数据还没有生成SAS数据集,则在对话窗中选择新建(New)(即用鼠标单击在新建按钮上),系统将打开一个供用户输入数据的新数据窗口,用户可在该窗口中方便地输入数据.,Page16,如果数据已生成SAS数据集,则从逻辑库(Library)下选中存放数据集的库名字,再从数据集(Data Set)下选中数据集名字(如CLASS),然后按打开(Open)即打开数据窗口,显示该数据集的数值表.,数据窗口的左上角给出变量个数和观测个数;每个观测有一个观测序号,序号前的符号及颜色表示该观测在作图时使用的符号和颜色;数据表上方除了给变量名外,还标明每个变量的类型是区间型(Int)或是名义型(Nom);及每个变量的作用(角色).,Page17,第二章,变量名,观测个数,变量个数,数据窗菜单,观测序号,绘图符号和颜色,变量类型,变量的作用,Page18,点击数据窗口左上角的,弹出的菜单项为用户编辑数据表(如移动行或列的位置、增加变量和观测、定义变量、对观测排序等)提供许多选项.菜单项如下:,1.查找下一个(Find Next):翻卷数据窗口到下一个被选中的观测.若没有被选中的观测,则翻卷到当前的下一个观测.2.移至第一个(Move to First):将选中的观测或变量分别移至数据窗口的第一行或第一列.3.移至最后(Move to Last):将选中的观测或变量分别移至数据窗口的最后一行或最后一列.,窗口菜单浏览数据,Page19,当数据窗口中变量较多时,可以用滚动条滚动窗口内容来查看。如果某个变量比较重要,可以考虑把它放到第一列的位置,这只要先单击该变量的名字选中它,然后在数据窗的菜单中选 移至第一个(Move to First)要把某列移到最后,选中它后用 移至最后(Move to Last),Page20,选中一列只要单击其变量名。如果要选中多个列,在选中一个后按住Ctrl键单击其它列的名字可以添加选中的其它变量。选中一个变量后按住Shift单击另一个变量名则表示选中这两个变量及它们之间的所有变量。选中的多个列也可以用移至第一个(Move to First)和移至最后(Move to Last)菜单项来移动。要取消所有选中,只要单击某一单元格而不是行、列标题即可。,Page21,要选中一个观测(行),只要单击其观测序号(行号)。选多个观测可以用Ctrl单击或Shift单击的方法。选中的观测也可以用移至第一个(Move to First)和移至最后(Move to Last)移动到最前或最后。还可以选中某些列同时选中某些行。只要在后续的选中操作时用添加选中(Shift单击或Ctrl单击)即可。用鼠标在数据窗口数值显示部分拖出一个方框也可以选定一部分数值。选定了列或者行以后,用 编辑(Edit)=删除(Delete)菜单可以删除选定的列或行。,窗口菜单整理数据,Page22,通过使用手动工具(hand tool),用户可以把某变量(或某个行)移到不同的位置上(不一定是第一列或最后一列)。步骤如下:选择编辑(Edit)窗口(Windows)工具(Tool),浏览数据手动工具,Page23,则显示一工具窗口(见右图)。用鼠标单击在工具窗口上方的“手动”工具项上。这时光标变成一只手的形状。移动这只手到变量(如AGE)名字或某个行的序号(如序号5)上。按下鼠标左键并按住它,这时有一个虚线的矩形作为变量列(或观测行)的轮廓出现。,Page24,拽这个矩形,并把它放到变量NAME(第一个变量)和SEX(第二个变量)之间的分界线上;或某二行(如第10和11行)间的分界线上。释放鼠标左键,则变量AGE变为数据窗口中的第二个变量;或者第5号观测变为第10号观测。用鼠标单击在工具窗口上方的“箭头”工具项上,这时光标还原为原来形状。,Page25,排序(Sort):选定一个或几个变量(列)对观测按上升或下降的顺序进行排序.在选定了一列的情况下,把数据集按此列从小到大排序;在选定了多列的情况下,由选定的变量次序按这些变量综合排序,比如在SASUSER.CLASS窗口中先选定SEX,再按住Ctrl单击另一选定的变量HEIGHT,然后排序,这样的结果是把数据集先按女生、男生分类排序,然后在女生内部和男生内部分别按身高从小到大排序。,窗口菜单数据排序,Page26,如果没有选定任何列,则弹出一个菜单,询问按哪些变量排序,比如说DATA.BCLASS数据集,可以先点SEX,然后单击Y按钮,把性别加入了排序变量中;再选中HEIGHT,单击Y按钮,把身高作为第二排序变量;再单击排序变量中的HEIGHT,单击Asc/Des按钮(这是要求对身高值要由高到低排序),按OK后数据将按性别分组,然后女生、男生内部分别按身高由高到低排列。,Page27,新建观测(New Observations):用于快速插入若干个空数据行,以便输入新观测。弹出一个对话框要求输入添加的观测数,缺省时是100个。添加的空行中字符型数据先置为空值,数值型数据先置为缺失值(用单独的小数点代表)。,新变量(New Variables):用于快速加入空列,以便输入新变量.,定义变量(Define Variables):将显示对话窗(见下页)。,窗口菜单整理数据,Page28,用户可以设置变量类型、缺省时的角色、量测水平、名字和标签.在这一对话窗内,用户可以改变一个变量或几个变量的名字等属性.,Page29,填充值(Fill Value):修改该数据窗口中某个选中变量或观测的数据值,它对生成常数或以常数为增量的等差数列变量值是特别方便的.,先选定一个数值型变量,用此命令,将弹出一个对话框要求输入起始值(Value)和增量(Increment),比如起始值填1,增量填10,则此变量的在各观测中的值分别填入为1,11,21,。,Page30,抽取(Extract):从已存在的数据窗口抽取某些列(变量)或行(观测)的数据子集来生成新的数据窗口.,此项功能很强,它可以把选定的部分行,部分列或者部分行和列抽取出来生成另一个新的数据窗口。比如在CLASS中先选定所有男生的观测,再用添加选择(Shift或Ctrl单击)的办法选定NAME,AGE和WEIGHT变量,然后用此命令,可以抽取出一个名为SASUSER.CLASS1的数据窗口,此数据窗口中只有姓名,年龄和体重三列及男生的观测行。,Page31,Page32,可以在主菜单中选 文件(File)保存(Save)数据(Data)把此新数据集保存为SASUSER.CLASS1。这样可以由已有数据集挑选部分列、部分行组成新数据集。,Page33,在数据选项窗口:用户可以选择数据表用变量名或变量的标签显示;还可以选择Enter(回车)的方向(如向下)和Tab的方向(如为向右)。,数据选项(Data Options):设置控制数据窗口外观和操纵的选项.,Page34,在数据窗口中如果需要修改某一个值或几个值,只要直接用鼠标点到其单元格修改,然后按回车键就实现了修改。在单元格之间移动可以用鼠标单击、制表键(Tab)、回车、上下光标键等方法。,Page35,在SAS数据集中,变量分为字符型和数值型.在Insight中,为了区分变量在分析中的不同作用,变量又按其测量水平分为区间型(interval)和名义型或列名型(nominal).对于字符变量系统自动地设置为名义型;而对数值变量系统自动地设置为区间型.如果某个数值变量在分析中将作为分类变量,进行分析之前应先设置该变量为名义型(Nominal).,整理数据设置测量水平,Page36,在SAS/Insight中,变量按其测量水平分为:区间型的(Interval)名义型的(Nominal),数值型 字符型,区间型名义型,以连续变化尺度测量具有可进行分析的数值变量,有数值或字符值用于作分类变量,SAS变量,Page37,设置变量的测量水平有两种方法:(1)在数据窗菜单中用定义变量菜单项在对话框里规定所选中变量的测量水平;(2)在数据窗口所选中变量名字的上方显示该变量默认的测量水平。如果需要修改默认的测量水平,在该处点击鼠标右键,从显示的两种测量水平选中所需要的区间型(interval)或名义型(nominal).,Page38,如果用户想对已打开的数据窗口再创建一些新变量,有以下几种方法:(1)由数据窗菜单的菜单项新变量(New Variables)来插入新变量;(2)通过 编辑(Edit)变量(Variables)由生成新变量的计算公式来创建新变量;(3)在统计分析过程中,如果用户想把分析计算的统计量添加到数据集中,分析计算后通过主菜单项变量(Vars)选择统计量作为数据集的新变量.,整理数据创建新变量,Page39,有时用户想寻找某个变量具有共同特性的观测。例如在CLASS数据集中,为了寻找所有男生。步骤以下(使用CLASS数据集,假定NAME变量放在第一列):选择编辑(Edit)观测(Observations)查找(Find)则显示查找观测(Find Observations)对话窗(见下图)。,整理数据查找观测,Page40,选择变量SEX(记录性别)。用鼠标左键点击查找观测对话窗左边的CLASS集变量列表中的变量SEX,表示选中它。在上图中,对话窗右边的值(Value)列表中列出了变量SEX的所有取值;并用上图对话窗中间检查(Test)的等号(=)来选择SEX等于右边Value表中第二个值(即“M”)的观测。选择SEX的值(Value)为“M”。如果选多个值,可以通过Shift+击或CTRL+击来选择这些值。,Page41,用鼠标击在应用(Apply)按钮上来寻找符合条件的中学生所对应的观测。此时选择观测时并没有关闭查找观测对话窗。当选择符合条件的观测后,若点击在确定(OK)按钮上,则关闭查找观测对话窗。至此,SEX=M的所有观测被加亮。从数据窗菜单上选择查找下一个(Find Next)数据窗口将往下滚动,使得具有SEX=M 的观测移到数据窗口的顶部。,Page42,从数据窗菜单选择移至第一个(Move to First)。允许用户把选择的观测集中在一起查看,即所有选择的观测都移到数据窗口的开始位置。从数据窗菜单选择抽取,可以抽取出一个名为CLASS1的数据窗口,此数据窗口中只有包含男生所的观测行。可把查找后抽取出来的观测存贮为SAS数据集,以备后用。,Page43,在数据窗口,为了存贮输入的数据或修改后的新数据窗口的数据:选文件(File)保存(Save)数据(Data),保存数据,Page44,则显示以下的保存数据(Save Data)窗口.首先选择存贮数据的逻辑库(如WORK),并输入数据集的名字,然后按确定(OK)即完成新数据窗口中数据的保存.,Page45,练 习 题,1、浏览数据表:数据集DST.FITNESS记录了某健身俱乐部客户的基本数据(1)用Insight打开数据集DST.FITNESS,浏览该数据集。该数据集有多少个变量,多少个观测值?变量是否使用标签?,Page46,(2)把变量Age移到数据表的第二列,而变量group移到数据表的第三列;(3)对以下变量确定其类型和测量水平:变量 类型 测量水平 RUNTIME RUNPULSE(4)对变量GROUP加上标签名“客户分组”.,Page47,2、数据集排序:(1)按变量OXYGEN对数据集从大到小重新排序;(2)按变量GROUP和OXYGEN排序,找出各种GROUP中OXYGEN最大的数值。3、建立新变量:创建一个名为RATIO的新变量,其值等于OXYGEN与RUNTIME的比,并在其标签名中注明.4、创建数据集的子集:将数据集中的所有oxygen大于50的客户抽取出来,生成新的数据集,并把它另存为WORK.maxoxygen.,Page48,Insight的数据探索功能,Insight除完成数据管理及基本统计分析的功能外,还有非常强的图形功能,可以绘制如直方图或条形图、盒形图或散布图、连线图、等高线图、旋转图等,进一步地还有分布拟合和检验(Distribution)、线性模型的拟合(Fit)和多变量分析(multivariate).重点介绍用Insight进行数据探索的图形功能.,Page49,数据探索的一维方法直方图或条形图,SAS/Insight提供了十分方便的数据探索功能.对一维数据,可以作直方图、盒形图、马赛克图,对二维数据,可以作散点图、曲线图、散点图矩阵,对三维数据可以作旋转图(三维散点图).在图上可以选定一些观测,这些选择结果会同时反映在数据窗口和其它图中.以SASUSER.CLASS数据集为例.选定变量EIGHT,由 分析(Analyze)直方图/条形图Histogram/Bar Charts(Y))菜单可以打开一个图形窗口生成身高的分布直方图(也称柱状图).,Page50,Page51,直方图的每一个条形代表了绘图变量(HEIGHT)在一个区间范围内的取值情况,比如144到152之间的条形代表身高在144到152厘米的人,条形高度为该组频数,即取值在这一区间内的观测个数,可以看出这一组只有9个学生.单击这一条形选中在此范围的观测,可以发现这时数据窗口的相应观测也被选定了.如果双击某一条形,就可以在选定相应观测的同时弹出一个检查观测窗口,窗口中显示各被选中的观测序号,以及其中一个观测的各变量值.这样可以很方便地检查图中各部分所对应的观测.为取消选定,只要在图中空白处单击即可.,Page52,绘制的图形有一个方框包围.如果想改变图形大小,可以单击方框使其变粗,然后拖动四个角中的一个,就可以把图形放大或缩小.甚至还可以把一个角向其对角方向拖动一直拖过对角,这样可以改变图形的横纵轴方向.拖动边框可以把图形移动到窗口内其它位置.图形中提供了一个设置菜单,可以单击图形边框左下角上的向右箭头()或在图形内单击右键来打开.,Page53,第二章,菜单内容包括刻度(Ticks),可以设置坐标轴的具体刻度;轴(Axes)用来指定画不画坐标轴;观测(Observations)用来指定是否画观测;值(Values)指定是否标出各条形高度值(即频数).,Page54,对连续数据(Int型)作直方图可以反映其分布情况,对离散数据(Nom型)作直方图同样可以反映其分布,即取每一个离散值的频数分布.比如,在绘制身高的直方图后,选定变量AGE,并修改变量AGE的类型为名义型(Nom)后对其作直方图,则结果打开一个新图形窗口作出有6个条形的条形图,分别为年龄从12至17的学生人数.如选中(单击)年龄为15的条形,可以看到数据窗口中所有AGE=15的观测被选定.另外还可以看到已作的身高的直方图也发生了变换,身高的条形中有一部分被选中(颜色变亮),加亮的这一部分表示年龄为15岁在身高中的分布.,Page55,Page56,在用分析(Analyse)菜单中的作图命令作图时如果没有选定的变量则弹出一个对话框提问用哪一个变量作图.如果对身高作图,只要选中 HEIGHT,然后按Y钮即可.,Page57,如果在以上对话窗中还选中SEX作为分组变量,则将分别对男生和女生生成如下并排的直方图.,Page58,数据探索的一维方法盒形图或马赛克图,盒形图是另一种表现数值型变量分布的图形.例如要绘制身高分布的盒形图,选中变量HEIGHT,然后由 分析(Analyze)盒形图/马赛克图(Box Plot/Mosaic Plot(Y)菜单可以打开一个图形窗口生成身高分布的盒形图.,从图形菜单中选值(Values)和均值(Means),则将显示如左图的一个盒形图并在图中标出重要数据值.,Page59,Page60,盒形图的纵轴代表身高的取值范围。盒形的中间有一条粗线,这是变量分布的中位数的位置,盒子上边线是分布的上四分位数,下边线是分布的下四分位数,盒子上下边线包含了分布的中间50%的观测.盒子的长度叫做分布的四分位差,其作用类似于标准差,可以反映数据分布的分散程度.从盒子边线向外画了两条线叫做触须线,最长可以延伸到四分位差的1.5倍,但是如果已经到了数据的最小值或最大值处就不再延伸.如果触须线没有达到数据的极值点,则这些极端的数据点用触须线以外的点画出,一般认为这样的点是异常点.,Page61,从盒形图可以看出数据的偏斜情况,比如我们看到盒子的下半部比上半部长,而且下触须线比上触须线长,说明身高分布略左偏.用盒形图菜单中的均值(Means)选项可以在盒形图上加画一个菱形,菱形的中间代表变量分布的均值,菱形的上端点到下端点间距离为两倍标准差.如果变量是服从正态分布,菱形上下端点之间应该包含大约68%的观测.均值和中位数的比较也能反映变量的偏斜情况,平均值低于中位数可能左偏.单击或双击盒形图的某一部分(盒子上半部或下半部、触须线、极端值)可以选定观测.,Page62,盒形图还可以很直观地比较按某分组变量分组后的分布情况.比如,如果我们想看一看男女的身高分布有何异同,先不选中任何变量,而是由菜单 分析(Analyze)盒形图/马赛克图(Box Plot/Mosaic Plot(Y)在弹出选择变量的对话窗中选身高为Y变量,选性别为X变量,画出的盒形图如下(在同一张图里,便于比较).如果在弹出选择变量的对话窗中选身高为Y变量,而选性别为分组变量,则将绘制出的两张分开的盒形图.,Page63,Page64,图中有两个盒形图,女生一个,男生一个.从图中看出,男生身高普遍高于女生,且女生身高分布左偏较男生严重.这种并排盒形图可以十分直观地比较不同性别身高的分布.绘制盒形图时若指定多个Y变量也可以作出并排的盒形图.比如,同时指定身高和体重作为Y变量作盒形图就可以生成身高和体重的并排的盒形图.,Page65,分析(Analyze)盒形图/马赛克图(Box Plot/Mosaic Plot(Y)对连续型变量作盒形图,而对名义型变量将作出马赛克图.比如,对性别变量作马赛克图后,点击菜单项值(Values)后将标出男女生的人数、百分比.马赛克图一般是对两个名义型变量来作图.比如,先把数据集CLASS中变量AGE的量测水平由Int改为Nom,并取消所有变量的选定,点击盒形图/马赛克图,在弹出的选择变量的对话窗中选SEX为Y变量,AGE为X变量,画出的马赛克图如下(选中值菜单后的结果).,Page66,Page67,数据探索的二维方法线图,SAS/Insight可以作折线图、散点图、散点图矩阵,可以在散点图中刷亮观测.线图要求指定一个取值由小到大的X变量,还有一个或几个Y变量,以X变量为横坐标对Y变量画曲线.为了演示连线图,打开SASUSER.AIR数据集(由 文件(File)打开(Open)菜单),这个数据集收集了德国某城市一周中每小时记录的空气污染情况.变量DATETIME是记录的日期时间,为特殊SAS格式数据,变量DAY为星期几,HOUR为几点钟,CO、O3、SO2、NO、DUST分别为一氧化碳、臭氧、二氧化硫、一氧化氮、粉尘的浓度,WIND为风速.要求绘制一氧化碳随日期时间变化的连线图.步骤如下:可以在未选任何变量的情况下,由分析(Analyse)线图(Line Plot),弹出变量对话框如下图:,Page68,选DATETIME为X变量,CO为Y变量,并选HOUR为标签变量,然后按确定键,即可绘制出CO的时间序列曲线图.,Page69,Page70,单击曲线上某一个点可以显示该观测点的时间是几点(若没有规定标签变量,则显示观测序号),双击某点可以查看该观测的全部资料.由图上可以看出CO的高峰一般在早晨8点和晚上17点21点.用图形菜单(右键或单击向右三角)中的Observations可以画出各个数据点的符号.可以在图上同时画出多条连线图.,Page71,比如,想考察风速对污染的影响,在图形窗口中再由主菜单 编辑(Edit)窗口(Window)重建(Renew),把WIND也作为Y变量,画出的图就有两条不同颜色的连线,单击图形左边变量名WIND可以加亮表示对应的曲线(如下图),以便区分这两条连线.若点击风速最高的点,则将显示时间是11点,而此时间OC浓度很小.注意在一条曲线中被选中时在另一条连线也被选中.从此图可以看出风速对污染有较明显的影响,风大时污染较轻.,Page72,Page73,绘制散点图也要求规定一个X变量和一个Y变量,但不要求X变量有从小到大的次序,画图不用连线而是用散点画出每一对观测点的X、Y坐标的位置.比如对SASUSER.CLASS,我们希望通过画散点图了解身高和体重的关系.在数据窗口中先选定体重(为Y轴变量),再选定身高(为X轴变量),由菜单 分析(Analyze)散点图(Scatter Plot)就可以生成以体重为纵轴以身高为横轴的散点图.从图中可以看出体重与身高有明显的线性相关关系.以下散点图中还借用手动工具改变散点的符号和颜色(男生为蓝色用+号,女生为红色用*号),数据探索的二维方法散点图,Page74,Page75,为了解哪一个点代表哪一个学生,单击一个点可以显示其观测序号,双击可以查看观测的信息.为了在单击时可以显示学生名字而不是观测序号,需要把NAME指定为标签变量.这时先不在数据窗口选X、Y变量,而是直接由菜单 分析(Analyze)散点图(Scatter Plot)弹出变量对话框,在其中选X、Y变量并把NAME指定为标签(Label)变量.这时,如单击散点图中最左下角的那个点可以显示名字.选多个点可以用附加选中的办法(Shift或Ctrl单击).,Page76,为了在散点图中选定多个点,SAS/Insight还提供了一种称为“刷亮(Brushing)”的操作.在图中拖动鼠标光标可以拖出一个小长方形,在这个长方形中的点都被选中,称它为刷子.选中的点在数据窗口也被选中,可以在数据窗口翻页查看,或用数据窗口的查找下一个(Find Next)菜单命令查看,或在数据窗口用 移至第一个(Move to First)菜单命令把选中的点移到最前查看.双击长方形(刷子)可以弹出查看观测窗口,在那里可以逐个查看选中的观测内容.,Page77,拖动刷子的角可以改变其大小.拖动刷子内部可以移动它的刷亮位置,使进入刷子的点被选中,而离开了刷子的点被取消选中.可以同时用附加选中(Ctrl单击)的办法加选不在刷子内的点,这些点还可以显示标签.在拖动刷子时如果同时按住Shift或Ctrl键则为附加选定,即进入刷子的点被选中而离开刷子的点仍保持被选中.可以按住Shift或Ctrl键拖出第二个刷子,这时第一个刷子不再显示但它刷亮的点仍保持刷亮,移动第二个刷子时如果按住Shift或Ctrl键仍可保持已有选定.为了取消所有选定,只要点击图内空白处.,Page78,散点图矩阵绘制多个变量两两间的散点图,用予考察多变量间的关系.以BCLASS为例,比如说我们想了解年龄、身高、体重间的关系.先把年龄的量测水平仍设为连续型(Int),在数据窗口依次选定年龄、身高和体重,由菜单分析(Analyze)散点图(Scatter Plot)就可以生成对角图除外的 6张散图构成的散点图矩阵.,数据探索的二维方法散点图阵,Page79,Page80,散点图矩阵除了可以同时看到多个散点图的优点外主要是在一个散点图中被选中的点在其它散点图和数据窗口中也同时被选中.这样,我们可以在一个图中选中一个极端点,然后查看它在其它图中是否也处于极端位置.在一个散点图中刷亮的点在其它散点图中也同时被刷亮,这样,我们可以观察,年龄和身高都比较小时,体重是否也比较低.可以移动刷子,同时其它散点图中被选中的点也在变化.从以上散点图阵可以看出,年龄由小到大变化时身高、体重一般也变大,但同一年龄的学生的身高、体重差距较大.,Page81,数据探索的三维方法旋转图,SAS/Insight对三维数据可以绘制称为旋转图的三维散点图.比如,要对SASUSER.CLASS 中的学生年龄、身高、体重作三维散点图,在数据窗口依次选定AGE、HEIGHT、WEIGHT,然后由菜单 分析(Analyze)旋转图(Rotating Plot)就可以生成一个三维散点图.以下三维散点图中还借用手动工具改变散点的符号和颜色(男生为蓝色用+号,女生为红色用*号).,Page82,图形的菜单,Page83,这种三维散点图之所以称为旋转图,是因为坐标系可以在三维空间绕原点任意旋转.图形的左侧有一个小工具栏,其中有向上、下、左、右、逆时针、顺时针旋转的图标,再往下有一个滚动条,用它来规定自动旋转的速度.点击左下角向右的小三角形将显示图形的菜单.为了旋转坐标系,单击左侧的旋转方向图标.按住旋转图标可以连续旋转.按住Shift或Ctrl再旋转可以实现自动旋转.当鼠标光标移到图形的四个角的位置时光标形状变成了手的形状,单击可以旋转,拖动可以连续旋转,拖动时“抛出”可以自动旋转.自动旋转中可以随时拖动图形以改变旋转方向.,Page84,旋转图的菜单中:刻度(Ticks)用来调整坐标轴刻度;轴(Axes)可以选坐标轴以数据中心点为原点、以左端点为原点、或不画坐标轴.观测(Observations)指定散点图中包含所有观测点,如果没有选中此项则只画被选中的观测.射线(Rays)从原点向每个散点画射线.立方块(Cube)在散点四周画一个长方体盒子.深度(Depth)可以使离视点近的点画得较大,离视点远的点画得较小.快速绘图(Fast Draw)指定用另一种较快的绘图方法绘图.标记大小(Markers Sizes)选择散点的大小.,Page85,练习题,打开SASUSER.GPA数据集,该数据集收集了224名学生的资料,考察的变量有7个,包括:GPA中学生的平均等级;HSM高中数学平均等级;HSE高中英语平均等级;HSS高中科学平均等级;SATMSTA测验数学部分的得分;SATVSTA测验口语部分的得分;SEX学生的性别.,Page86,试完成以下分析计算:(1)作各变量的直方图,查看其分布情况;(2)画出SATM的盒形图,并简述SATM分布的特点;(3)给男女生观测指定不同颜色.画GPA对SATM的散点图.(4)画各数值型变量的散点图矩阵.(5)画HSM、SATM、SATV的三维散点图.简述各变量间的直观的相互关系.,Page87,Insight的统计分析功能,当点击Insight主菜单的分析(Analyze)栏,由弹出的下拉菜单可以看到Insight的统计分析功能:,如分布的拟合和检验(Distribution),线性模型的拟合(Fit),多变量分析(multivariate).,Page88,Insight的图形功能,SAS/Insight除完成统计分析的功能外,还有非常强的图形,如以上介绍的可以绘制如直方图或条形图、盒形图、线图、散布图、散布图阵、旋转图等图形.关于Insight进一步的图形功能和统计分析功能我们在后面还会陆续介绍.,Page89,第一章,

    注意事项

    本文(统计分析软件基础教程-Insight的数据探索功能.ppt)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开