spss描述性统计分析教程.ppt
1,第四章,描述性统计分析,2,主要内容,4.1 基本描述性统计量的定义及计算4.2 频数分析4.3 描述性分析4.4 探索性分析4.5 交叉列联表分析4.6 多选项分析,3,4.1 基本描述性统计量的定义及计算,1描述集中趋势的统计量均值(Mean)众数(Mode)中位数(Median)总和(Sum)百分位数(Percentile Value),4,4.1 基本描述性统计量的定义及计算,2描述离散趋势的统计量样本方差(Variance)样本标准差(Std.deviation)极差(Range)均值标准误差(Standard Error of Mean),5,4.1 基本描述性统计量的定义及计算,3描述总体分布形态的统计量偏度(Skewness)峰度(Kurtosis),6,主要内容,4.1 基本描述性统计量的定义及计算4.2 频数分析4.3 描述性分析4.4 探索性分析4.5 交叉列联表分析4.6 多选项分析,7,4.2 频数分析,1频数分析目的和主要功能 频数就是一个变量在各个变量值上取值的个案数,基本统计分析往往从频数分析开始。通过频数分析能够了解变量取值的状况,对把握数据的分布特征是非常有用的。例如,调查消费者拥有数码产品的数量,首先分析受访者的总人数、家庭收入情况、受教育程度、性别等,获取样本是否具有总体代表性、抽样是否存在系统偏差等信息。这些可以通过频数分析来实现,经过频数分析可以得到如下结果:(1)频数分布表:该表中包含频数、各频数占总样本数的百分比、有效百分比、累计百分比。(2)统计图:用统计图形展示变量的取值状况,频数分析中提供的统计图形可以是条形图、饼图或者直方图。,8,4.2 频数分析,2频数分析过程的操作界面(1)候选变量框列出数据文件中所有的变量(2)Variables框从候选变量框中选择要分析的变量移入此框中,可同时选择多个变量,此时,SPSS就将分别产生多张频数表或统计图形。(3)Display frequency tables复选框此复选框设置是否显示频数表,系统默认选中,表示要显示频数表。,图4-1,9,4.2 频数分析,2频数分析过程的操作界面(4)Statistics按钮单击该按钮会弹出新的对话框,该对话框主要用于确定将要在输出结果中出现的统计量,选中统计量前的复选框表示输出该统计量。(5)Charts按钮用于确定将输出的图形类型和图形取值。(6)Format按钮定义输出频数表的格式,图4-1,10,4.2 频数分析,3实例分析【例4-1】以下是调查问卷中针对被调查人设置的两个问题:1、您的家庭月收入大约是:(请包括所有工资、奖金、津贴等在内,以人民币为单位)单选 500-1000.11000-199922000-299933000-39994 4000-499955000-599966000-699977000-799988000-899999000-99991010000及以上112、您的教育程度:(指您受过的最高或正在接受的教育程度)单选没有受过正式教育/小学.1初中2高中/中专/技校3大专/大学非本科/高职高专4大学本科5研究生及以上.6 从问卷中收集到的数据如表4.1所示,图4-1,11,4.2 频数分析,3实例分析试对收集到的数据进行频数分析,表4.1,12,4.2 频数分析,3实例分析第1步 数据组织;根据表4.1生成SPSS数据文件,建2个变量:“收入”、“教育”,数据文件的格式同表4.1类似。第2步 打开主对话框;选择Analyze Descriptive Statistics Frequencies,打开同图4-1一样的频数分析主对话框。第3步 确定要输出的统计量;单击Statistics按钮,在Statistics子对话框中选择Mode(众数)统计量。第4步 确定要输出的统计图形;单击Charts按钮,在Charts子对话框中选择Histograms(直方图)运行结果及分析。,13,4.2 频数分析,3实例分析运行结果及分析。,图4-2 变量“教育”的直方图,表4.2 变量“教育”的频数分布表,14,主要内容,4.1 基本描述性统计量的定义及计算4.2 频数分析4.3 描述性分析4.4 探索性分析4.5 交叉列联表分析4.6 多选项分析,15,4.3 描述性分析,1描述性分析目的和主要功能 描述性分析主要用于输出变量的各类描述性统计量的值,通过上一节的学习可知,频数分析同样可以做到,都是以计算数值型单变量的统计量为主。描述性统计分析没有图形功能,也不能生成频数表,但描述性分析可以将原始数据转换成标准正态评分值,并以变量形式存入数据文件中,以便后续分析时应用。,16,4.3 描述性分析,2描述性分析的操作界面,列出数据文件中的变量,从中选择要作描述性分析的变量,将需作描述性分析的变量选入此框中,可同时选择多个变量,此时,SPSS就将分别产生多个变量的描述性分析结果,点击Option按钮设置需计算的描述性统计量。,图4-3,17,4.3 描述性分析,3实例分析 书P100【例4-2】选择“身高”变量作描述性分析,选定要计算的统计量后,运算得到表4.3所示的结果表4.3,18,主要内容,4.1 基本描述性统计量的定义及计算4.2 频数分析4.3 描述性分析4.4 探索性分析4.5 交叉列联表分析4.6 多选项分析,19,4.4 探索性分析,1探索性分析目的和主要功能 与前面介绍的两种分析方法相比,探索性分析更加强大,它是对数据的探索和考察,可以对变量进行更为深入详尽的统计分析。在进行统计分析前,通常需要寻求和确定适合所研究的问题的统计方法,SPSS提供的探索性分析是解决此类问题的有效办法。探索性分析提供了很多关于数据的概括分析和图表直观描述的方法,不仅对个案数据有效,而且还可以针对分组个案。在输出常用描述性统计量的基础之上,探索性分析增加了有关数据详细分布特征的文字与图形表述,如茎叶图、箱图等,显得更加详细、完整,还可以以方差齐性为目的的变量交换提供线索,有助于用户制定更进一步分析的方案。,20,4.4 探索性分析,2探索性分析的操作界面,(1)Depend List框选择待分析的变量,可以同时选择多个变量。注意:选择的变量必须是数值型变量,(2)Factor List框选择分组变量,根据该变量的取值不同,分组分析Dependlist框中的变量。可以不选,也可以多选。,(3)statistics按钮:设置输出的统计量;Plots按钮:设置输出的图形;Option按钮:设置缺失值的处理。,图4-4,21,4.4 探索性分析,3实例分析【例4-3】表4.4是2007年各地区人口出生率和死亡率的统计数据,试对其作探索性分析并做是否服从正态分布的检验。表4.4各地区人口自然变动情况,22,4.4 探索性分析,3实例分析第1步 数据组织;根据表4.4生成SPSS数据文件,建2个变量:“出生率”、“死亡率”,数据文件的格式 第2步 打开主对话框;选择Analyze Descriptive Statistics Explore,选择变量“出生率”、“死亡率”移入“Dependent List”文本框中。,23,4.4 探索性分析,3实例分析第3步 确定探索性分析的描述统计量;单击Statistics按钮,在Statistics子对话框(图4-5)中选择Descriptives 复选框、M-estimators复选框,单击Continue返回主对话框。,图4-5,24,4.4 探索性分析,3实例分析第4步 确定探索性分析输出的统计图形;单击Plots按钮,在如图4-6的Plots子对话框中选择“Dependents together”(不同因变量显示在一个箱图中)、“Stem-and-leaf”(茎叶图)、Normality Plots with tests(正态分布检测统计图)。单击Continue返回主对话框。,图4-6,25,4.4 探索性分析,3实例分析结果分析,表4.5 描述性统计量,26,4.4 探索性分析,3实例分析结果分析,表4.6 M估计值,27,4.4 探索性分析,3实例分析结果分析 分别利用Kolmogorov-Smimov检验和Shapiro-Wilk检验两种方法来确定变量是否服从正态分布。其中,Statistic表示检验统计量的值,df代表自由度,Sig.表示显著性水平。一般来说,Sig.0.05则代表接受零假设,即接受变量服从正态分布的假设。本例中,两个变量的两种方法的Sig.值均大于0.05,因此两个变量均服从正态分布。,表4.7 正态检验结果,28,4.4 探索性分析,3实例分析结果分析,图4-7 箱图,29,4.4 探索性分析,3实例分析结果分析,图4-8 出生率QQ趋势图,Q-Q图可以用来检验数据是否服从某种分布,在Q-Q图中,检验数据是否较好地服从给定分布的标准有两个:看Q-Q图上的数据点与直线的重合度;Q-Q趋势图上的点是否关于直线Y=0在较小的范围内上下波动。,30,4.4 探索性分析,3实例分析结果分析,图4-9 出生率QQ图,31,4.4 探索性分析,3实例分析结果分析 茎叶图利用原始数据以图形的形式表现了分布的形状,图中包括频数(Frequency)、茎(Stem)和叶(Leaf)3部分,右图中的下方说明中给出了本图的茎宽为10,每片叶子代表一个数据。对应图中的第一行数据,从左到右依次为:频数为6,茎为0,有6片叶子。也就是指第一组里包含6个数据,其近似值为:6、6、7、7、7、7,图4-10 出生率茎叶图,出生率Stem-and-LeafPlotFrequencyStem&Leaf6.000.6677775.000.999997.001.00111117.001.22223335.001.445551.001.7Stemwidth:10.00 Eachleaf:1case(s),32,主要内容,4.1 基本描述性统计量的定义及计算4.2 频数分析4.3 描述性分析4.4 探索性分析4.5 交叉列联表分析4.6 多选项分析,33,4.5 交叉列联表分析,1交叉列联表分析目的和主要功能 在分析变量之间的关系时,通常分析变量之间的相关程度。对于数值型变量,分析其相关性通常是计算相关系数或进行回归分析,这在后面的章节中有较为详细的介绍。而对于定类型变量,则通常采用交叉列联表进行分析。交叉列联表分析主要用于研究离散变量的定类型有无相关性,给出了多个变量在不同取值下的数据分布。在分析中,可对二维和多维列联表(RC表)资料进行统计描述和检验,并计算相应的百分数指标,另外,还可计算四格表确切概率(Fishers Exact Test)且有单双侧、对数似然比检验(One-Tail、Two-Tail)以及线性关系的Mantel-Haenszel检验,34,4.5 交叉列联表分析,2交叉列联表分析的操作界面,选择列联表的列变量,可多选,列变量必须是数值型或字符型等分类变量,选择列联表的行变量,可多选,同列变量一样,也必须是数值型或字符型等分类变量,选择分层变量,用Previous和Next按钮控制分层的层数,图4-11,35,4.5 交叉列联表分析,2交叉列联表分析的操作界面,图4-12,单击图4-11中的Statistics按钮,弹出如图4-12所示的对话框。在该对话框中可以选择要输出的统计量,卡方检验:选择是否对行变量和列变量的独立性进行卡方检验。,相关系数检验:选择是否计算相关系数,用于检验两个变量的线性相关程度。,Nominal选项组:用于定义分类变量的相关性指标,Ordinal选项组:用于定义有序变量的相关性系数,36,4.5 交叉列联表分析,2交叉列联表分析的操作界面,Counts选项组用于选择交叉表单元格中频数输出格式:实际频数、期望频数,图4-13,Percentage选项组:选择交叉列联表单元格中百分比显示格式。,Residuals选项组:选择交叉列联表单元格中残差显示格式。,Noninteger Weights选项组:当频数因为加权而变成小数时,选择该选项对频数进行调整,37,4.5 交叉列联表分析,3实例分析【例4-4】在设置学生评价实验教学的调查表中,“实验准备”是其中的一项指标,为分析“实验准备”情况与评价结果的关系,建立的SPSS数据文件中的部分数据如图4-14所示,变量值标签如表4.8所示。,图4-14,表4.8,38,4.5 交叉列联表分析,3实例分析对该数据文件中的两个变量进行交叉列联表分析的具体步骤如下:第1步 数据组织;数据文件中建立两个变量:“实验准备”、“评价结果”,并根据 表4.8定义各变量的变量值标签。第2步 打开主对话框;选择Analyze Descriptive Statistics Crosstabs,打开同图4-11一样的交叉列联表分析主对话框,选择“Display clustered bar charts”复选框绘制分组条形图。第3步 确定分析的行、列变量;将变量“实验准备”加入Rows文本框作为交叉表的行变量,选择变量“评价结果”加入columns文本框作为交叉表的列变量。,39,4.5 交叉列联表分析,3实例分析第4步 确定探要输出的统计量;单击Statistics按钮,在同图4-12一样的对话框上选择“Chi-square”复选框,对两变量的独立性作卡方检验。单击Continue按钮返回主对话框,在主对话框中单击OK按钮完成分析。,40,4.5 交叉列联表分析,3实例分析结果分析(1)交叉列联表,41,4.5 交叉列联表分析,3实例分析结果分析(2)卡方检验结果,各种检验方法显著水平都远远小于0.05,所示有理由拒绝实验准备与评价结果是独立的假设,即认为实验准备这个评价指标是同评价结果是相关的,42,4.5 交叉列联表分析,3实例分析结果分析(3)分组条形图,43,主要内容,4.1 基本描述性统计量的定义及计算4.2 频数分析4.3 描述性分析4.4 探索性分析4.5 交叉列联表分析4.6 多选项分析,44,4.6 多选项分析,1多选项分析目的和主要功能 SPSS的多选项分析主要是针对问卷调查中的多选项问题的。多选项问题在问卷调查中普遍存在,要求被调查者从问卷中给出的若干个可选答案中选择一个以上的答案。例如,调查消费者拥有的数码产品的种类,有如下的选项:(1)数码相机(2)数码摄像机(3)MP3(4)DVD机很显然,该问题可选的答案在一个以上,对于此类的多选项问题,通常,在SPSS中处理此类问题的一般步骤为以下两大步骤:(1)将多选项问题分解;(2)利用频数分析或者列联表分组下的频数分析方法进行分析。,45,4.6 多选项分析,2多选项问题的分解方法(1)多选项二分法(Multiple Dichotomies Method);(2)多选项分类法(Multiple Category Method),46,4.6 多选项分析,3实例分析【例4-5】对50个消费者进行调查,拥有的数码产品的种类,有如下的选项:(1)数码相机(2)数码摄像机(3)MP3(4)DVD机可多选,试按性别统计拥有各种数码产品的数量。第1步 分解多选项问题,定义多选项变量集;,47,4.6 多选项分析,3实例分析 第1步 分解多选项问题,定义多选项变量集;(1)分解多选项 按照二分法分解多选项问题,表4.9为此多选项问题的二分法记录表,其中性别1为男性,2为女性,其他数据中的1表示拥有该产品,0表示没有。,表4.9,48,4.6 多选项分析,3实例分析(2)定义多选项变量集,选择Analyze Multiple Response Define Sets,弹出图4-14所示的对话框,在此对话框中定义多选项变量集。从最左边的列表框中选择四种产品对应的变量,添加到Variables in Set文本框中,选择默认的变量分解方法即二分法,并将Dichotomies Counted value设为1,变量集命名为“dp”,变量集标签为“数码产品”。做好以上准备后,Add按钮被激活,单击该按钮,将定义好的数据集添加到Multiple Response Sets列表中,在该列表中出现名为“$dp”的多变量数据集名称。,图4-14,49,4.6 多选项分析,3实例分析第2步 进行多选项交叉分组下的频数分析选择Analyze Multiple Response Crosstabs,图4-15,从“Multiple Response Set”列表框中选择多变量数据集“$dp”,添加到“Column(s)”文本框中,作为列联表的列;选择变量“sex”,添加到“Row(s)”列表框中作为列联表的行,再单击Define Ranges按钮定义范围,在弹出的对话框中设定最小值(Minimum)为1,最大值(Maximum)为2。,50,4.6 多选项分析,3实例分析结果分析 下表是按性别统计拥有的各种数码产品的数量,即为多选项分析的结果,51,The End,