社会经济统计软件应用-SPSS应用.ppt
社会经济统计软件应用SPSS应用,第3章 基本统计分析功能,基本统计分析是进行其他更深入的统计分析的前提,通过基本统计分析,用户可以对分析数据的总体特征有比较准确的把握,从而选择更为深入的分析方法对分析对象进行研究。基本统计分析指的是Analyze菜单下的报告分析(Report)和描述性统计分析(Descriptive Statistics)两项功能。,SPSS的许多模块均可完成统计描述的任务,除各种用于统计推断的过程会附带进行相关的统计描述外,SPSS还专门提供了几个用于连续变量统计描述的过程,它们均集中在Descriptive Statistics子菜单中,主要包括:Frequencies 频数分析Descriptives 描述性分析Explore 探索性分析Crosstabs 列联表分析,1.基本统计量的定义及计算2.描述性分析(Descriptives)3.频数分析(Frequencies)4.探索性分析(Explore),1.基本统计量的定义及计算,数据的特征,1.1 描述集中趋势的统计量,集中趋势是数据分布的一个特征,反映各变量值向其中心值聚集的程度。主要指标均值(Mean)中位数(Median)众数(Mode)截尾均数几何均数调和均数,均值(Mean),均值(Mean)又称为“算术平均值”,指一组数的平均值,其数学定义为:特点:最常用的测度值均值利用了全体数据易受数据中极端值的影响(如去掉最高、最低分)用于数值型数据,而不能用于定类数据和定序数据,中位数(Median),中位数(Median)是一组数据按大小排序后,处于中间位置上的数值。个数为奇数取中间数为偶数,取中间两数的平均值特点:不受极端值的影响主要用于定序数据,也可用于数值型数据,但不能用于分类数据。,众数(Mode),众数(Mode)是样本中出现次数(频数)最多的数值。特点:不受极端值的影响可能没有众数或有几个众数(不唯一性)主要用于分类数据,也可用于顺序数据或数值型数据,其它,截尾均数由于均数较易受极端值的影响,因此可以考虑将数据进行排序后,按照一定比例去掉最两端的数据,只使用中部的数据来求均数。常用的截尾均数有5截尾均数,即两端各去掉5的数据。在SPSS 中Explore过程可以自动计算5截尾均数。,几何均数几何均数适用于原始数据分布不对称,但经过对数转换后呈对称分布的资料。样本几何均数常用G表示,其计算公式为:调和均数调和均数用符号H表示,是观察值倒数之均数的倒数,其计算公式为:,1.2 描述离散程度的统计量,数据的离散程度就是各数据远离其中心值的程度,反映数据的波动情况,因此也称为离中趋势。主要指标方差(Variance)标准差(Stddeviation)极差(全距)(Range)离散系数(Coefficient of Variation)百分位数、四分位数与四分位数间距,方差(Variance),方差(Variance)是各变量值与其均值离差(deviation about the mean)平方的平均数。总体方差(Population Variance)用2表示:样本方差(Sample Variance)用S2表示:特点:最常用的离散程度的统计量,方差越大,表明样本偏移样本平均值的程度就越大,标准差(Stddeviation),标准差(Stddeviation)是方差开方后的统计量总体标准差用表示:样本标准差用S表示:特点:标准差与原始数据具有相同的量纲标准差和方差一样,也是度量离散程度的重要统计量比方差更常用,均值标准误差(Standard Error of Mean),均值标准误差(Standard Error of Mean)是样本均值的标准差。特点:反映均值的离散程度,极差(全距)(Range),极差(全距)(Range)是一组数据的最大值与最小值之差。是最简单的测度离散程度的指标。特点:极差易受极端值(最大值和最小值)的影响由于极差只利用了数据两端的信息,没有反映中间数据的离散状况,因而不能准确描述数据的离散程度,离散系数(Coefficient of Variation),离散系数(Coefficient of Variation)又称标准差系数,是标准差与相应均值之比。特点:用于测量相对离散程度离散系数消除了数据水平高低和计量单位的影响,用于对不同组别离散程度进行比较,百分位数、四分位数与四分位数间距,百分位数(Percentile Value)是一种位置指标,用Px表示。将样本数据按升序排列后,排在前面x的数据的右端点值称为样本的x分位数。P50中位数四分位数(Quartiles)实际上是三个数值的总称,分别是P25、P50和P75分位数。这三个分位数正好是能够将全部总体单位按标志值的大小等分为四部分的三个数值,符号分别记为Ql、Q2和Q3。在许多统计书籍中,也将第一个四分位数P25称为“下四分位数”;第三个四分位数P75称为“上四分位数”,分别用符号。QL和QU表示。四分位数间距是指上、下四分位数的差值。,1.3 描述总体分布形态的统计量,偏度(Skewness)是描述取值分布形态对称性的统计量。样本的偏度系数记为:偏度系数等于0的时候属于正态分布。偏度系数大于0为正偏或右偏。长尾巴拖在右边(表明较小的值占多数)。偏度系数小于0为负偏或左偏。长尾巴拖在左边(表明较大的值占多数)。,峰度(Kutosis)是描述变量取值分布形态扁平程度的统计量。样本的峰度系数记为:峰度等于0的时候表示数据分布的扁平程度适中,即正态分布。峰度小于0的时候表示数据呈扁平分布。峰度大于0表明数据呈尖峰分布。,2.描述性分析(Descriptives),描述性分析(Descriptives)可对变量计算均值、标准差、全距和均值标准误差等统计量,并可将原始数据转换成Z分值。【例】以“学生体检数据.sav”数据文件为例,对某校3个班级中16名学生的体检数据进行描述性分析,以班级为单位列表计算年龄、体重、身高的统计量,要求包括极差、最小值、最大值、均值、标准差和方差等统计量。,首先,在打开数据文件后,在主菜单栏的Data菜单中选择Split Files命令,按“班级”变量对数据进行分组。在菜单栏中选择Analyze|Descriptives Statistics|Descriptives命令,如选中此框,将对Variables框中选择的变量进行标准化,产生相应的Z分值,并作为新变量保存到数据窗口,其变量名为“z+原变量名”。标准化计算公式如下:其中,Xi为变量x的第i个观测值,X为变量x的平均数,S为标准差。,实验题1,3.频数分析(Frequencies),频数分析(Frequencies)可对数据按组进行归类整理,形成变量不同水平的频数分布表和图形,对数据的分布趋势进行初步分析。【例】本例是一次实际调查的部分问卷数据,调查对象为上海部分大专院校的大学生,文件名为student.sav。后面的5个变量是从前面的相应变量中,经过Recode Into Different Variables变换而来。要求对性别和血型变量进行频数分析。在打开数据文件后,在菜单栏中选择Analyze|Descriptives Statistics|Frequencies命令,Statistics对话框,Charts对话框,Format对话框,4.探索性分析(Explore),探索性分析(Explore)可以对变量进行更为深入详尽的统计分析,该过程可以检查数据是否有错误、考查样本分布特征。探索性分析过程将提供在分组和不分组的情况下常用的统计量与图形。探索性分析的因变量通常是定距型变量,分组变量是分类型变量。【例】本例是一次实际调查的部分问卷数据,调查对象为上海部分大专院校的大学生,文件名为student.sav。后面的5 个变量是从前面的相应变量中,经过Recode Into Different Variables变换而来。要求对男性和女性身高数据进行探索性分析。在打开数据文件后,在菜单栏中选择Analyze|Descriptives Statistics|Explore命令,选择一个或多个变量进入Dependent框作为因变量(要进行分析的变量),该框中的变量作为标识符,在输出诸如异常值时,用该变量进行标识,只允许有一个标识符。,此作为分组变量,可以是字符变量,对因变量的分析将按该变量的观测值进行分组分析。可有多个分组变量,这时会按多个变量的交叉组合进行分组。,Statistics对话框,输出基本统计量,均值的置信区间,可键入199%的任意值,根据该值算出置信区间的上下限。,给出中心趋势的最大拟然比的4种稳健估计量,当数据分布均匀,且两尾较长,或当数据中存在极端值时,可给出比均值或中位数更合理的估计。,输出最大和最小的5个数,且在输出窗口中加以标明。,输出5%、10%、25%、50%、75%、90%和95%的百分位数。,Plots对话框,Boxplots(箱图)选项组用于设置所显示的箱图的参数的选择项,Descriptive选项组用于设置描述图形选项,系统默认生成茎叶图;Histogram复选框表示生成直方图。,Normality plots with tests复选框表示输出正态概率和离散正态概率图,同时输出KS统计量中的Liliefors显著水平检验,如果观测数目不超过20,将用WS统计量代替KS统计量。,Options对话框,因变量或分组变量中带有缺失值的观测量都将在分析过程中被剔除。,在分析过程中根据分组变量产生的组中带缺失值的观测量都将被剔除。,分组变量的缺失值被单独分为一组,输出频数时将标出缺失组。,输出结果分析,Case Processing Summary(观测量摘要表)Descriptives(描述性统计量)M-Estimators(M均值估计量)Percentiles(分位点表)Extreme Values(极值表)Histograms(直方图),Descriptives,