欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    《频数统计与柱状》PPT课件.ppt

    • 资源ID:4880077       资源大小:322.49KB        全文页数:39页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    《频数统计与柱状》PPT课件.ppt

    Chap2.1,1,第二章 描述性统计量计算,教学要求:使学生掌握描述性统计量计算所需要的 SAS/INSIGHT与分析员应用的菜单系统及编程语句,会用SAS/INSIGHT与分析员应用或编程方法进行频数统计、画条形图/直方图、常用描述性统计量的计算、盒形图和 分布拟合.教学重点:FREQ、UNIVARIATE、MEANS过程步.教学难点:输出结果的解读.教学方法:授课、上机、实例分析教学内容:,数据分析的第一步 通常是频数统计、描述性统计量的计算、作出柱状图或直方图、盒形图来进行初步分析。,Chap2.1,2,教学内容:,第一节 频数统计与柱状图 概述、用INSIGHT作频数统计和条形图、用分析员应用 作频数统计和条形图、用FREQ,GCHART过程步 作频数统计和条形图第二节 常用描述性统计量计算 概述、用INSIGHT计算常用描述性统计量、用分析员应 用计算常用描述性统计量、用UNIVARIATE、MEANS 过程步计算常用描述性统计量第三节 直方图、盒形图和分布拟合 用INSIGHT作分布图形、用分析员应用作分布图形、用 CAPABILITY过程步作分布图形,Chap2.1,3,2.1 频数统计与柱状图,2.1.1 概述2.1.2 用INSIGHT作频数统计和直方图2.1.3 用分析员应用作频数统计和直方图2.1.4 用编程作频数统计和直方图,Chap2.1,4,2.1.1 概述,样本数据集若关心的是总体中每个个体的若干个指标(即SAS数据集中的变量),例如某个学生的姓名(NAME)、性别(SEX)、年龄(AGE)、身高(HIGHT)和体重(WEIGHT)等等,随机抽样后得到一个样本数据集,如表2.1。其中每一行是一个观测,是某个学生的各个指标(变量)的值。把调查数据已存为SAS数据集:exec.Bclass.,表2.1:exec.Bclass纪录的数据,Chap2.1,5,频数统计:用来了解变量都取什么值,取各个值的频数或百分比。,例如,从数据集Bclass中要得到(其中一个变量)年龄的如下统计表:,表2.2:年龄频数表,频数统计给我们的信息:第二列频数表示整个样本数据中,12岁的学生有8个,13岁的学生有7个等等。第三列百分数表示整个样本数据中,12岁的学生占20%,13岁的学生占17.5%等等。85%在12-15岁之间。,Chap2.1,6,柱状图(也称条形图),柱状图常用于两个或多个组某指标(频数或百分数等)大小的比较.在垂直柱状图里,有多个宽度相同的柱并列,对变量取到的每个值,都用一个柱描绘。柱的高度表示频数(或百分数)。从柱的不同高度可以对变量取值的频数分布有一个整体的印象。以下是相应于频数表2.2的柱状图,比频数表更直观。,柱状图,下面通过sas系统的insight,分析员应用及编程三种不同方法作出频数表和柱状图,Chap2.1,7,定义SAS数据库,File Open object Create new library Name:exec(打勾)Enable at startupPath:D:exec OK,以后目录D:exec列为SAS数据库,其中永久SAS数据集在INSIGHT和分析员环境中总是可以直接打开并进行操作。在编辑窗可以不用LIBNAME语句直接利用SAS数据库exec中SAS数据集。例如,Proc print data=exec.bclass;run;,Chap2.1,8,Analyze Distribution(Y),在分布(Distribution(Y)窗中选 AGE Y,SEX Y,Output在弹出的输出(Output)窗中,点击频数表(Frequency Counts)前的小方框使之打勾(表示要输出频数表)OK OK,用INSIGHT作频数统计(p38),2.1.2 用INSIGHT作频数统计和柱状图,计算Bclass中SEX和AGE的频数和百分数.打开数据集后,在下拉菜单选:,希望百分数和频数都是四舍五入的整数时:点击频数表左上角 Format 8.0,Chap2.1,9,SEX和AGE的频数和百分数表,Chap2.1,10,用INSIGHT作柱状图(p36),在INSIGHT环境下打开数据集 exec.Bclass。显示变量SEX(性别)和WEIGHT(体重)的柱状图:,1.Analyze Histogram/Bar Chart(Y);弹出Histogram/Bar Chart(Y)窗2.左侧BCLASS框中选变量SEX Y,WEIGHT Y;3.选左下侧OK.,Chap2.1,11,因为WEIGHT是连续型随机变量,软件自动适当分组后作出柱状图。如要改变分组方式,可点击图框左下角的尖头,并在弹出的菜单中选Ticks,再在弹出的刻度(Ticks)窗口中进行设定。如要改为由28到76,每间隔6为一组?连动功能?改变为水平柱状图?,注:对列名型变量刻度位在条形底边的中间,对区间型变量位在条形底边的左端.,Chap2.1,12,2.1.3 用分析员应用作频数统计和柱状图(p39),用分析员应用作频数统计在分析员应用环境下,要对数据集exec.Bclass统计AGE和SEX的频数。可由以下几步完成:,Statistics Descriptive Frepuency CountsAGE Frequencies,SEX Frequencies.3.OK.,Chap2.1,13,用分析员应用作柱状图(p41),在分析员应用环境下,条形图是频数统计的图形表现。要对数据集exec.Bclass中变量AGE制作水平条形图。可由以下几步完成:Statistics Descriptive Frepuency Count在弹出的单向频数表(1-Way Frequencies)菜单中选:AGE Frequencies.Plots.在弹出菜单的条形图(Bar charts)框中,点击水平(Horizontal)框或垂直框前的方框,使之打勾。OK OK.随即显示的是一份频数统计表。在主画面左侧的树中,点击以Horizontal Bar Chart of AGE(或Vertical Bar Chart of AGE)命名的分支目录立即显示相应的条形图;如点击以Code命名的分支目录立即显示相应的程序。,Chap2.1,14,思考与练习,试用INSIGHT和分析员应用分别输出数据集xuelin中 变量x和group的频数统计表和柱状图.发现了什么问题?,Chap2.1,15,小结,在INSIGHT环境下频数统计菜单过程前两步:Analyze Distribution(Y)在INSIGHT环境下柱状图菜单过程前两步:Analyze Histogram/Bar Chart(Y),在分析员应用环境下频数统计、柱状图菜单过程前三步相同:Statistics Descriptive Frepuency Counts,Chap2.1,16,2.1.4 用编程作频数统计和柱状图(FREQ过程;GCHART过程),FREQ过程(频数过程.可输出频数表,列联表及独立性检验结果):,Proc freq;tables 变量名列;Run;,1.Data=数据集名 若省略,用最近建立的SAS数据集。2.Order=Freq|Data|Internal|Formatted 规定变量水平的记录次序(排列次序)。Order=Freq 表示按频数降序排列,因此最大频数的水 平第一个出现;Order=Data 表示按输入数据集中值的出现次序排列;Order=Internal 表示按变量的值排序;Order=Formatted 表示按变量格式化值的次序。,Proc freq主语句中可使用的选项:,Chap2.1,17,3.Formchar(1,2,7)=字符串,规定用来构造列联表单元的轮廓线和分隔线的字符。字符串的长度为三个字符长,这些字符用来表示(1)垂直线,(2)水平线,(7)水平与垂直的交叉线。若规定 Formchar(1,2,7)=(三个空格)则生成的表格没有轮廓线和分隔线。默认的该选项为 Formchar(1,2,7)=|,4.Page 要求Freq过程每页只输出一张表。,Chap2.1,18,By 语句,使用此语句时,对由BY变量定义的分组观测分别进行频数分析。当使用BY语句时,过程要求数据集已按BY变量排序。,by 变量名;,Proc freq;tables 变量名列;Run;,使用by语句例:对男生和女生分别作年龄的频数表.,Proc sort data=exec.Bclass;by sex;Run;Proc freq data=exec.Bclass;by sex;tables age;Run;,对By变量的每个值作出频数表,即对男生和女生分别作出年龄的频数表,排序过程,Chap2.1,19,-性别=男-The FREQ Procedure 年龄 Cumulative Cumulative AGE Frequency Percent Frequency Percent 12 3 13.64 3 13.64 13 4 18.18 7 31.82 14 7 31.82 14 63.64 15 5 22.73 19 86.36 16 1 4.55 20 90.91 17 2 9.09 22 100.00,-性别=女-The FREQ Procedure 年龄 Cumulative Cumulative AGE Frequency Percent Frequency Percent 12 5 27.78 5 27.78 13 3 16.67 8 44.44 14 5 27.78 13 72.22 15 2 11.11 15 83.33 16 2 11.11 17 94.44 17 1 5.56 18 100.00,频数表(单向表),Chap2.1,20,tables 变量名列;,变量名列:列出要输出频数表的变量名,变量名之间要空格.在PROC FREQ 的一次执行中可以包括任意多个tables语句。如果没有tables语句,FREQ过程对数据集中每个变量都生成一个单向频数表。如果需要两个变量的交叉表(列联表),只要在tables语句中用星号*隔开两个变量名。,例如:作数据集Bclass中性别和年龄的列联表:,Tables 语句,Proc freq data=exec.Bclass Formchar(1,2,7)=|;tables sex*age;Run;,第一个变量的值形成表的行,第二个变量的值形成表的列。,Proc freq;tables 变量名列;Run;,Chap2.1,21,The FREQ Procedure Table of SEX by AGE SEX(性别)AGE(年龄)Frequency|Percent|Row Pct|Col Pct|12|13|14|15|16|17|Total-+-+-+-+-+-+-+男|3|4|7|5|1|2|22|7.50|10.00|17.50|12.50|2.50|5.00|55.00|13.64|18.18|31.82|22.73|4.55|9.09|37.50|57.14|58.33|71.43|33.33|66.67|-+-+-+-+-+-+-+女|5|3|5|2|2|1|18|12.50|7.50|12.50|5.00|5.00|2.50|45.00|27.78|16.67|27.78|11.11|11.11|5.56|62.50|42.86|41.67|28.57|66.67|33.33|-+-+-+-+-+-+-+Total 8 7 12 7 3 3 40 20.00 17.50 30.00 17.50 7.50 7.50 100.00,列联表(双向表),Chap2.1,22,在tables语句的斜杠/后面能使用的选项有三类共24项,其中常用的有:1.规定统计分析的选项 CHISQ不同值取值比率相等检验,独立性的Pearson的检验,对于22表进行Fisher的精确检验2.EXACT对大于22的表进行Fisher的精确检验3.要求进一步信息的选项 EXPECTED在独立性假设下,输出单元频数的期望值4.控制输出的选项 NOCUM不输出单向频数表和列表格式下的累计频数和累计百分数 NOCOL不输出单元列百分数 NOROW 不输出单元行百分数 NOPERCENT 不输出单元百分数,tables 变量名列;,Proc freq;tables 变量名列;Run;,Chap2.1,23,例 输出频数和列联表的例子。,Data one;do i=1 to 1000;x=int(uniform(78997)*3)+1;y=int(uniform(78997)*4)+1;output;end;drop i;Run;,Proc freq data=one;title 没有tables语句;Run;title;,备用数据集:随机产生1至3之间自然数1000个和1至4之间自然数1000个.,(1)输出x和y的频数表(单向表),SAS函数:uniform(seed)产生均匀分布U(0,1)随机数.其中Seed可以是任一大于等于0的整数.如取0,下次重新运行data步发生的随机数值就会与这次不同.Int(x)取x的整数部分.,Chap2.1,24,没有tables语句 Cumulative CumulativeX Frequency Percent Frequency Percent-1 337 33.7 337 33.72 341 34.1 678 67.83 322 32.2 1000 100.0 Cumulative CumulativeY Frequency Percent Frequency Percent-1 253 25.3 253 25.32 240 24.0 493 49.33 264 26.4 757 75.74 243 24.3 1000 100.0,Proc freq data=one;title 没有tables语句;Run;,打印结果:频数表,Chap2.1,25,(2)输出x的频数表,x和y的列联表,2检验结果及期望值.,Proc freq data=one;tables x x*y/chisq expected;Run;,Cumulative CumulativeX Frequency Percent Frequency Percent-1 337 33.7 337 33.72 341 34.1 678 67.83 322 32.2 1000 100.0 Chi-Square Test for Equal Proportions-Statistic=0.602 DF=2 Prob=0.740,输出结果之一:频数表和不同值取值比率相同原假设的2检验值,Chap2.1,26,TABLE OF X BY Y X YFrequency|Expected|Percent|Row Pct|Col Pct|1|2|3|4|Total-+-+-+-+-+1|90|75|90|82|337|85.261|80.88|88.968|81.891|9.00|7.50|9.00|8.20|33.70|26.71|22.26|26.71|24.33|35.57|31.25|34.09|33.74|-+-+-+-+-+2|84|81|98|78|341|86.273|81.84|90.024|82.863|8.40|8.10|9.80|7.80|34.10|24.63|23.75|28.74|22.87|33.20|33.75|37.12|32.10|-+-+-+-+-+3|79|84|76|83|322|81.466|77.28|85.008|78.246|7.90|8.40|7.60|8.30|32.20|24.53|26.09|23.60|25.78|31.23|35.00|28.79|34.16|-+-+-+-+-+Total 253 240 264 243 1000 25.30 24.00 26.40 24.30 100.00,输出结果之二:列联表,包括X与Y独立时期望值,Chap2.1,27,STATISTICS FOR TABLE OF X BY YStatistic DF Value Prob-Chi-Square 6 3.666 0.722Likelihood Ratio Chi-Square 6 3.673 0.721Mantel-Haenszel Chi-Square 1 0.051 0.822Phi Coefficient 0.061Contingency Coefficient 0.060Cramers V 0.043Sample Size=1000,输出结果之三:两变量X与Y独立性检验值,Chap2.1,28,Data one;input decision$defrace$num;Cards;是 白人 19 是 黑人 17 否 白人 141 否 黑人 149;run;proc print;run;Proc freq data=one;tables decision*defrace;weight num;Run;,Weight语句(已知频数时可利用),每个观测代表的不是一个样品,而是多个样品或汇总数。例如右表。通过SAS输出如下的列联表。,decision defraceFrequency|Percent|Row Pct|Col Pct|白人|黑人|Total-+-+-+否|141|149|290|43.25|45.71|88.96|48.62|51.38|88.13|89.76|-+-+-+是|19|17|36|5.83|5.21|11.04|52.78|47.22|11.88|10.24|-+-+-+Total 160 166 326 49.08 50.92 100.00,Chap2.1,29,例输出Bclass中年龄和体重的频数表,Proc freq data=exec.bclass;tables age weight;Run;,对连续型变量(如weight),不同观测的变量值同常不同。因此直接作频数表意义不大。通常按变量取值范围分成若干组后,统计变量在各个组取值的频数等。若要同表2.4的分组:由24公斤至80公斤,每8公斤为一组,常用以下两种程序之一.,Data tmp;set exec.bclass;gweight=int(weight-16)/8);label gweight=体重分组值;Run;,Proc freq data=tmp;tables gweight;Run;,(1)定义一新变量gweight来把体重分组,使体重在24-32时取gweight=1,32-40时gweight=2,等等,Chap2.1,30,(2)也可使用Format过程来分组,Proc format;value wfmt low-32=24-32 32-40=32-40 40-48=40-48 48-56=48-56 56-64=56-64 64-72=64-72 72-high=72-80;Run;Proc freq data=exec.bclass;tables weight;format weight wfmt.;Run;,Proc freq;tables 变量名列;Run;,Chap2.1,31,GCHART过程基本形式:(图表过程),Proc gchart;hbar 变量名;/*水平条形图*/vbar 变量名;/*垂直条形图*/block 变量名;/*区域图*/pie 变量名;/*圆形图(饼图)*/*图案模型*/*每个变量值画一组条形图*/Run;,注意:hbar、vbar、block、pie中至少要写一个语句。,Proc gchart 主语句中可使用的选项1:,1.Data=数据集名 若省略,用最近建立的SAS数据集。2.Gout=数据集名 图形存入数据集名下。比如:Proc gchart data=one gout=two;,Chap2.1,32,1.Discrete:画出不连续、不累积的条形图.(常用于离散型变量)2.Type=Freq|Cfreq|Percent|Cpercent|Sum|Mean 默认为 Freq(输出频数表)。3.Sumvar=变量名:已求和或均值的变量名。4.Midpoints=中点列:指定中点值。例如:Vbar score/Midpoints=80 90;Vbar score/Midpoints=50 to 90 by 10;5.Levels=n:将区间变量的数据分为n组画条图。例如:Vbar score/Levels=3;6.Group=z:给变量z的每个值画一组条形(即分组画条形图)。注:by语句也是分组画条形图,但是每页只画一个组的条形图,而此选项在同一页画出多个组的条形图。7.Space=数值:数值是条与条之间距离。,Hbar 和 Vbar 语句中可使用的选项2:,Chap2.1,33,Block与Hbar中的选项大多数相同。其独有的选项:Blockmax=n:区域图的长方块高度 n个字符高度。Coutline=C:C为长方块前侧表面轮廓的颜色。,Block 语句中可使用的选项3:,PIE 语句中可使用的选项4:,Percent=Arrow|Inside|None|Outside:百分比的标法Slice=Arrow|Inside|None|Outside:各扇区的标法Fill=Solid:使扇区实心,Chap2.1,34,PATTERNn 语句中可使用的选项5:,PATTERNn 语句中 n可以是1-99之间整数.常用选项有:C=颜色:规定图案色彩。V=花纹值:规定图案花纹。花纹值为:E:空的,无花纹.S:实心的,用同一颜色涂满.Ln:向左斜线,n表示线的密度,可取1-5之间一整数.Rn:交叉斜线,n表示线的密度,可取1-5之间一整数.Xn:向右斜线,n表示线的密度,可取1-5之间一整数.,Chap2.1,35,例画出数据集Bclass中年龄(age)的柱状图、饼图和区域图.,Proc gchart data=exec.bclass;vbar age;pie age/percent=inside;block age;Run;,Proc gchart data=exec.bclass;vbar age;by sex;Run;,Proc gchart data=exec.bclass;vbar age/group=sex;Run;,对男女生分组画年龄的柱状图:,在SAS的过程步中,若使用by语句,数据集事先必须按by变量进行排序(sort过程),by语句把不同组柱状图分别输出在不同页上;选项group把不同组柱状图输出在同一页上。,由图观察 人数最多的年龄?男生中最多的年龄?女生中最多的年龄?,Chap2.1,36,例2.1.4.画出柱状图显示各组的产量。已知各组产量(频数):,A组:15个;B组:10个;C组:11个,data one;input yeild group$;cards;15 A 10 B 11 C;run;Proc gchart data=one;vbar group/sumvar=yeild;Run;,Chap2.1,37,2.1 频数统计与柱状图,在INSIGHT环境下频数统计菜单过程前两步:Analyze Distribution(Y)在INSIGHT环境下柱状图菜单过程前两步:Analyze Histogram/Bar Chart(Y),在分析员应用环境下频数统计、柱状图菜单过程前三步相同:Statistics Descriptive Frepuency Counts,Chap2.1,38,画图过程,Proc gchart;hbar 变量名;/*水平条形图*/vbar 变量名;/*垂直条形图*/block 变量名;/*区域图*/pie 变量名;/*圆形图(饼图)*/*图案模型*/*每个变量值画一组条形图*/Run;,频数过程,Proc freq;tables 变量名列;Run;,Chap2.1,39,思考与练习,一.考虑数据集xuelin.用编程方法(1)对变量group输出频数表和柱状图、饼图及区域图,并指出调查数据中患者和健康人所占百分比。(2)对血磷值x 分5个组输出频数表和柱状图及饼图.(3)关于血磷值x对患者和健康人分别输出柱状图(两组柱状图在同一页)和饼图.由图得到的信息?二.在数据集Bclass中对性别和年龄做列联表。14岁的学生有多少人?男生所占百分比?13岁女生在样本总数中所占百分比?在男生中15岁的学生所占百分比?16岁学生中女生所占百分比?,

    注意事项

    本文(《频数统计与柱状》PPT课件.ppt)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开