数理统计之SPSS统计分析.ppt
SPSS 统计分析,SPSS,一、SPSS概述二、SPSS数据创建三、SPSS统计分析1、基本统计分析2、方差分析3、相关分析4、回归分析5、聚类分析,SPSSStatistical Package for the Social Sciences 社会科学统计软件包Statistical Product and Service Solutions 统计产品与服务解决方案1968年开发,1975年成立SPSS公司,2009年IBM收购,目前到IBM SPSS20.0版,一、SPSS概述,1、SPSS简介2、SPSS窗口,1 SPSS简介,大多数操作可通过鼠标拖曳、点击“菜单”、“按钮”和“对话框”来完成。无需掌握统计分析的各种复杂的数学运算过程,只需掌握各种方法的应用,分析结果的解释。功能强大完整的数据输入、编辑、统计分析、报表、图形制作等功能。提供从简单的统计描述到复杂的多因素统计分析方法。能非常方便地与其他软件的数据进行转换图表功能强大,输出结果美观漂亮,2 SPSS窗口,标题栏,菜单栏,观测序号,工具栏,编辑栏,变量名栏,窗口切换标签,2 SPSS窗口,变量序号名称可变,观测序号,变量序号,变量属性名称,二、统计数据创建,数据属性及定义、编辑SPSS数据创建案例:SPSS数据创建,1 数据属性及定义编辑,SPSS数据特点:结构化(数据内容、数据结构)变量名、变量类型、变量名标签、变量值标签、缺失值的定义、度量的尺度、数据的显示属性(显示宽度、列宽度、对齐方式),1.1 变量名(名称),首字符必须是字母或汉字,后面可以是除(!、?*)之外的任意字符。变量名的结尾不能是圆点、句点、下划线变量名必须唯一,并且不区分大小写如不指定变量名,则系统默认变量名以VAR开头后面跟5个数字。如VAR00001、VAR0002等,数据视图,变量视图,1.2 变量类型,变量取值的类型数值型、字符型(不能进行算术运算)、日期型,1.3 标签,标签是对变量名的进一步解释,1.4 值,值是对变量取值含义的进一步解释,1.5 缺失值,缺失值两种情况:数据中存在漏填数据数据中存在明显错误或明显不合理的数据(如年龄130)如果直接进行数据分析,SPSS将把缺失数据作为正常数据,造成非常大的误差缺失数据处理步骤:1、指定缺失数据,指明哪些数据属于缺失数据 空缺数据,首先填一个特定标记数据(如99999,区别于该变量其他非缺失数据)2、统计分析时对缺失数据进行一定处理 选择缺失数据处理方法,2、SPSS数据创建,直接录入1、定义数据属性;2、输入数据打开现有数据(sav、excel、SAS、txt),三、SPSS统计分析,SPSS基本统计分析均值的比较与检验方差分析相关分析线性回归分析聚类分析,1、基本统计分析,基本统计分析,描述性统计分析是统计分析的第一步,做好这第一步是下面进行正确统计推断的先决条件。SPSS的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在描述菜单中,包括:,1.1 频数分析,频数分析目的:基本统计分析往往从频数分析开始。通过频数分析能够了解变量取值的状况,对把握数据的分布特征是非常有用的。基本任务(1)编制频数分布表频数:即变量值落在某个区间(或某个类别)中的次数百分比:即各频数占总样本数的百分比有效百分比:即各频数占有效样本数的百分比,有效样本数总样本缺失样本数累计百分比:即各百分比逐级累加起来的结果。最终取值为100。(2)绘制统计图,1.1 频数分析,频数分析的基本操作,(1)分析描述统计频率(2)将频数分析变量选择到变量框中(3)单击表格按钮选择绘制统计图形,选择饼图,1.1 频数分析,1.2 描述分析,描述分析目的:获取数据的均值、标准差、峰度等数据,进一步把握数据的集中趋势、离散程度和分布形状。基本描述统计量 刻画集中趋势的统计量 刻画离散程度的统计量 刻画分布形态的统计量,1.2 描述分析,刻画集中趋势的统计量集中趋势指一组数据向某一中心值靠拢的倾向。计算刻画集中趋势的统计量正是要寻找能够反应数据一般水平的“代表值”或“中心值”。常用统计量:均值、中位数、众数均值:即算术平均数,是反映某变量所有取值的集中趋势或平均水平的指标。如某企业职工的平均月收入。中位数:即一组数据按升序排序后,处于中间位置上的数据值。众数:即一组数据中出现次数最多的数据值。,1.2 描述分析,刻画离散程度的统计量离散程度是指一组数据远离其“中心值”的程度。如果数据都紧密地集中在“中心值”的周围,数据的离散程度较小,说明这个“中心值”对数据的代表性好;相反,如果数据仅是比较松散地分布在“中心值”的周围,数据的离散程度较大,则此“中心值”说明数据特征是不具有代表性的。常用统计量:全距、方差、标准差全距:也称极差,是数据的最大值与最小值之间的绝对离差。,1.2 描述分析,刻画分布形态的描述统计量数据分布形态主要指数据分布是否对称,偏斜程度如何,分布陡峭程度等。常用统计量:偏度、峰度偏度:描述变量取值分布形态对称性的统计量。当分布为对称分布时,正负总偏差相等,偏度值等于0;当分布为不对称分布时,正负总偏差不相等,偏度值大于0或小于0。偏度值大于0表示正偏差值大,称为正偏或右偏;偏度值小于0表示负偏差值大,称为负偏或左偏。偏度绝对值越大,表示数据分布形态的偏斜程度越大。峰度:描述变量取值分布形态陡峭程度的统计量。当数据分布与标准正态分布的陡峭程度相同时,峰度值等于0;峰度大于0表示数据的分布比标准正态分布更陡峭,为尖峰分布;峰度小于0表示数据的分布比标准正态分布平缓,为平峰分布。,1.2 描述分析,计算基本描述统计量的操作,(1)分析描述统计描述(2)将分析变量选择到变量框中(3)单击选项按钮指定基本统计量,1.2 描述分析,练习例题,某医师收集了80例重症监护病人的有关情况:年龄(岁)、ICU时间(天)APACHEIII评分、手术及预后等指标。试分析年龄及手术的评述分布情况。结果输出:手术方式统计表和APACHEIII评分频数分布图,描述性统计,试对资料中年龄和APACHEIII评分进行简单的描述性分析,探索性分析输出结果,具体操作步骤:打开数据文件,加权个案,具体操作步骤:,三、均值的比较与检验,T 检验是检验差异显著性的十分重要的统计工具,这种差异显著性的检验是样本均值间的比较。因此T 检验也可以称为一种均值比较分析。它包括单样本T检验、独立样本T 检验、配对样本T 检验。来自正态总体的两个样本进行均值比较常使用T 检验的方法。T 检验要求两个被比较的样体来自正态总体。两个样本方差相等与不等时使用的计算t值的公式不同。,1.单样本T检验,检验单个变量的均值是否与给定的常数之间存在差异。样本均数与总体均数之间的差异显著性检验属于单一样本T 检验。,2.两独立样本T检验,进行独立样本T 检验,要求被比较的两个样本彼此独立,即没有配对关系。要求样本均来自正态总体,而且均值对于检验是有意义的描述统计量。独立样本T 检验和配对样本的T 检验均使用T test 过程,但是使用的菜单不同;对于数据文件结构的要求和所使用的命令语句也有区别。,练习题,某克山病区测得11例急性克山病患者与13名健康人的血磷值如下:患者:2.60,3.24,3.73,3.73,4.32,5.18,4.73,5.58,5.78,6.40,6.53健康人:1.67,1.98,1.98,2.33,2.34,2.50,3.60,3.73,4.14,4.17,4.57,4.82,5.78问该地区急性克山病患者与健康人的血鳞值是否不同?,配对样本T检验实际上是先求出每对测量值之差值,对差值求均值。检验配对变量均值之间差异是否显著。其实质检验的假设实际上是差值的均值与零均值之间差异的显著性。如果差值均值与O均值无显著性差异说明配对变量均值之间无显著性差异。,3.配对样本均数T检验,3.配对样本均数T检验,练习题,10例矽肺患者经治疗前后的血红蛋白量见下表,问治疗对血红蛋白量有无作用?,Thanks,