vip课件-spss与统计分析.ppt
《vip课件-spss与统计分析.ppt》由会员分享,可在线阅读,更多相关《vip课件-spss与统计分析.ppt(186页珍藏版)》请在三一办公上搜索。
1、SPSS与统计分析,刘广臣,内容概况,4.补充内容,以下以问题为线索举例讲解,3.高级统计(多元统计为主),常见10类统计问题(以教育统计为例),1)一般性统计频数、频率、均值、方差等;例如:抽样调查某地区家庭义务教育支出,其中问卷调查项目有家庭人口、父母受教育年限、子女人数、上学人数、家庭人均收入、家庭人均支出、教育支出、少数民族比例。要对整个抽样做统计,说明此地区上述指标情况,就要作出一般性统计。2)两总体间某类特征数据的差异显著性;例如:研究我国重点与非重点两类大学毕业生收入有无差异问题。3)多总体间某类特征数据的差异显著性;例如:研究具有博士学位、硕士学位和学士学位毕业生期望收入有无差
2、异问题。4)一个or多个因素对结果影响的显著性;例如:不同性别、不同地区、不同家庭背景的学生接受高等教育情况有无差异;教学手段与课外科研活动是否对学生学习成绩有影响。5)两个特征变量数据的相关性大小;例如:个人受教育年限与个人收入关系密切程度。,6)一变量vs另一or多个变量间的近似函数关系;例如:一个地区人均教育支出与人均GDP总值近似函数关系。7)某变量是否服从特定分布;例如:某校学生月生活费支出是否服从正态分布。8)如何将多个研究对象分类;例如:将我国31个省市按人均教育经费多少分为五大类。9)如何将多指标数据简化(降维);例如:影响小学辍学率的因素有很多,比如人均国内生产总值、人均教育
3、经费、农民人均收入、当地文盲率等十几个因素,能否简化为几个综合因素(因子)。10)如何对研究对象综合排序。例如:衡量一个地区教育现代化水平有多个指标,而且这些指标量纲都不一样,现有几个地区,按教育现代化水平排序,如何进行?,SPSS VS 统计问题,a 定类(Category Scale):只能计次 例:按照性别将人口分为男、女两类,按肤色分为白种人、黄种人、棕种人、黑种人四类 b 定序(Ordinal Scale):计次、排序 例:人可以根据年龄分为幼年、少年、青年、中年、壮年、老年等类。满意程度可分为非常满意、比较满意、没有不满、不满意、很不满意几类。c 定距(Interval Scale
4、):计次、排序、加减 最常见,如身高、体重等通常使用自然或物理单位作为计量尺度 级别逐渐增高!,预备知识1:度量尺度(Measure),统计学依据数据的度量尺度将数据划分为三大类:,定类数据名义级定序数据序次级定距数据间距级定比数据,定性数据,定量数据,注:SPSS中只区分三种测量尺度,即定类、定序和定距,定比尺度的分析技术和定距一般不再做严格区分,数据编辑窗口中的一行称为一个个案或记录(Case),所有个案组成SPSS数据文件的内容。数据编辑窗口的一列称为一个变量(Variable),每个变量都有一个名字,称为变量名,它是访问和分析SPSS每个变量的唯一标志。SPSS数据文件的结构就是对每个
5、变量及相关特征的描述。,SPSS数据的组织方式,案例:住房状况调查.sav,预备知识2:SPSS基础,数据建立与存储建立 直接录入(先定义数据结构,再录入数据),示例 间接导入Excel格式 注意要关闭源文件 示例1 data1.xls txt 注意第2步中是否有表头 示例2 data1.txt特别注意导入后数据类型的核对!存储格式(.sav,.xls)示例 住房状况调查.sav,第1类问题-描述统计,一般性统计频数、频率、均值、方差等;例如:抽样调查某地区家庭义务教育支出,其中问卷调查项目有家庭人口、父母受教育年限、子女人数、上学人数、家庭人均收入、家庭人均支出、教育支出、少数民族比例。要对
6、整个抽样做统计,说明此地区上述指标情况,就要作出一般性统计。,描述性统计分析是统计分析的第一步,做好这第一步是下面进行正确统计推断的先决条件。SPSS的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在Analyze/Descriptive Statistics菜单中,包括:Frequencies:频数分析过程,特色是产生频数表(主要针对分类变量)及绘制统计图平均数、中位数、众数、方差、百分位、频数、峰度、偏度例:住房状况调查.sav,对不同性别进行频数分析Descriptives:数据描述过程,进行一般性的统计描述(主要针对数值型变量)(下页例题),描述统计示例论文2,详参:
7、补充资料2-SPSS基本统计分析,SPSS中实现描述统计过程,研究问题 10个学生在某次数学、语文、化学考试中成绩如表3-6所示,试求学生在3门课程上的频数分布。,12,表3-6学生成绩,13,Data3.sav,变异系数(补充),又称差异系数(coefficient of variation,CV)CV=标准差/均值(可手工计算)应用:比较测量单位不同的事物的差异程度;比较测量单位相同,均数相差悬殊数据的差异程度判断班内学习分化的情况,详细参见变异系数 教育统计学与SPSS(范晓玲),练习,数据“data0.sav”中存放了某公司职工数据,请完成下列问题:1)试对该公司员工“当前薪金”进行描
8、述统计分析,即计算其平均值、中位数、众数、极差、最大值、最小值、标准差、方差。2)画出“当前薪金”的频数直方图,观察是否服从正态分布;,方法:均值检验例如:研究我国重点与非重点两类大学毕业生收入有无差异问题。在正态或近似正态分布的计量资料中,经常在使用统计描述过程分析后,还要进行组与组之间平均水平的比较。本节介绍的T检验方法,主要应用在两个样本间比较。如果需要比较两组以上样本均数的差别,这时就不能使用上述的T检验方法作两两间的比较。对于两组以上的均数比较,可以使用第下节中介绍的方差分析方法。,第2类问题-两总体间某类特征数据的差异显著性,统计方法,描述统计,推断统计,估计,参数检验,非参数检验
9、,假设检验的基本思想,1.事先对总体参数或分布形式作出某种假设,然后利用样本信息来判断原假设是否成立;2.采用逻辑上的反证法,依据统计上的小概率原理。,假设检验的步骤提出原假设(零假设)H0;确定适当的检验统计量;计算检验统计量的值发生的概率(P值);给定显著性水平(软件默认0.05);作出统计决策。P值(如0.05),接受原假设,务必熟记,20,Analyze-Compare Means”可用于均值检验,其子菜单中“One-sample T test”用于单一样本T检验“Independent-samples T test”用于两独立样本T检验“Baired-samples T test”用
10、于两配对样本T检验。,2.1 单一样本T检验,2.1.1 统计学上的定义和计算公式,定义:SPSS单样本T检验是检验某个变量的总体均值和某指定值之间是否存在显著差异。统计的前提样本总体服从正态分布。也就是说单样本本身无法比较,进行的是其均数与已知总体均数间的比较。,21,计算公式如下。单样本T检验的零假设为H0总体均值和指定检验值之间不存在显著差异。即H0:0采用T检验方法,按照下面公式计算T统计量:,22,23,2.1.2 SPSS中实现过程,研究问题 分析某班级学生的某次考试数学成绩和全校的平均成绩75之间是否存在显著性差异(或是否可以认为本班成绩与全校平均成绩(75分)相同?)。数据存于
11、data9.sav。,24,实现步骤,图4-4“One-Sample T Test”设置框,25,4.1.3 结果和讨论,26,由于P=0.5890.05,接受原假设,可以认为本班成绩与全校平均成绩不存在显著差异。,2.2 两独立样本T检验,2.2.1 统计学上的定义和计算公式,定义:所谓独立样本是指两个样本之间彼此独立没有任何关联,两个独立样本各自接受相同的测量,研究者的主要目的是了解两个样本之间是否有显著差异存在。这个检验的前提如下。,27,两个样本应是互相独立的,即从一总体中抽取一批样本对从另一总体中抽取一批样本没有任何影响,两组样本个案数目可以不同,个案顺序可以随意调整。样本来自的两个
12、总体应该服从正态分布。,28,两独立样本T检验的零假设H0:两总体均值之间不存在显著差异 即H0:1 2 在具体的计算中需要通过两步来完成:第一,利用F检验判断两总体的方差是否相同;第二,根据第一步的结果,决定T统计量和自由度计算公式,进而对T检验的结论作出判断。,29,1判断两个总体的方差是否相同,SPSS采用Levene F方法检验两总体方差是否相同。,30,SPSS自动检验,2根据第一步的结果,决定T统计量和自由度计算公式,(1)两总体方差未知且相同情况下,T统计量计算公式为,31,(2)两总体方差未知且不同情况下,T统计量计算公式为 T统计仍然服从T分布,但自由度采用修正的自由度,公式
13、为,32,从两种情况下的T统计量计算公式可以看出,如果待检验的两样本均值差异较小,t值较小,则说明两个样本的均值不存在显著差异;相反,t值越大,说明两样本的均值存在显著差异。,33,2.2.2 SPSS中实现过程,研究问题 对12名来自城市的学生与14名来自农村的学生进行心理素质测验,试分析城市学生与农村学生心理素质有无显著差别。,34,数据存于data10.sav,其中1城市学生,2农村学生;p测验得分。,图4-6“Independent-Samples T Test”对话框,35,实现步骤,图4-7“Define Groups”对话框,36,2.2.3 结果和讨论,37,方差齐性检验中,p
14、=0.7910.05,接受原假设,可以认为方差相等(具有齐性),可以做t检验。t检验结果,p=0.017农村3.4350,可见城市学生好于农村。,如果方差检验不具有齐性,建议改用非参数检验,练习,研究问题 分析A、B两所高校大一学生的高考数学成绩之间是否存在显著性差异。,38,表4-2两所学校学生的高考数学成绩表,请仿照独立样本T检验操作,2.3.1 统计学上的定义和计算公式,2.3 两配对样本T检验,定义:两配对样本T检验是根据样本数据对样本来自的两配对总体的均值是否有显著性差异进行推断。一般用于同一研究对象(或两配对对象)分别给予两种不同处理的效果比较,以及同一研究对象(或两配对对象)处理
15、前后的效果比较。前者推断两种效果有无差别,后者推断某种处理是否有效。,39,两配对样本T检验的前提要求如下。两个样本应是配对的。在应用领域中,主要的配对资料包括:具有年龄、性别、体重、病况等非处理因素相同或相似者。首先两个样本的观察数目相同,其次两样本的观察值顺序不能随意改变。样本来自的两个总体应服从正态分布。,40,两配对样本T检验的零假设H0:两总体均值之间不存在显著差异。即 H0:1-2 0 首先求出每对观察值的差值,得到差值序列;然后对差值求均值;最后检验差值序列的均值,即平均差是否与零有显著差异。如果平均差和零有显著差异,则认为两总体均值间存在显著差异;否则,认为两总体均值间不存在显
16、著差异。,41,42,SPSS将自动计算T值,由于该统计量服从n1个自由度的T分布,SPSS将根据T分布表给出t值对应的相伴概率值。如果相伴概率值小于或等于用户设想的显著性水平,则拒绝H0,认为两总体均值之间存在显著差异。相反,相伴概率大于显著性水平,则不拒绝H0,可以认为两总体均值之间不存在显著差异。,43,2.3.2 SPSS中实现过程,研究问题 研究一个班同学在参加了暑期数学、化学培训班后,学习成绩是否有显著变化。数据如表4-3所示。,44,data11.sav,表4-3培训前后的成绩变化,45,实现步骤,图4-8“Pared-Samples T Test”对话框,46,2.3.3 结果
17、和讨论,47,表3中,双侧配对T检验结果,p=0.0460.05,拒绝原假设,差异显著,即参加数学辅导班前后学习成绩有显著差异,由均值看出,参加辅导班后成绩有所提升。,化学照办,练习,试通过比较引用减肥茶前后数据,判断该减肥茶的效果。减肥茶数据.sav,第3类问题-多总体间某类特征数据的差异显著性,方法:定性数据交叉列联表分析;定量数据方差分析例如:吸烟与肺癌关系研究具有博士学位、硕士学位和学士学位毕业生期望收入有无差异问题。,交叉分组下的频数分析,目的 了解不同变量在不同水平下的数据分布情况 例:学习成绩与性别有关联吗?(两变量)例:职业、性别、爱逛商店有关联吗?(三变量)分析的主要步骤产生
18、交叉列联表分析列联表中变量间的关系,交叉分组下的频数分析,检验的零假设是:行和列变量之间彼此独立,不存在显著的相关关系。SPSS将自动给出检验的相伴概率,如果相伴概率小于显著性水平0.05,那么应拒绝零假设,认为行列变量之间彼此相关。,实例:某医院色觉就诊情况如下表:试分析色盲与性别有关联吗,设置三个变量:是否色盲、性别、人数注意层次,重要!示例,定性数据-列联表分析,列联表.sav,实现步骤-设置权重变量!Data-Weight cases,图3-38“Weight Cases”对话框,53,注意:设置成功后,会在数据窗口右下角状态栏中显示“weight on”,图3-39 在菜单中选择“C
19、rosstabs”命令,54,图3-40“Crosstabs”对话框,55,结果和讨论,(1)先输出如下个案处理摘要表。,56,(2)下面所示表格是“色盲”变量和“性别”变量的交叉列联表结果表格。,57,(3)输出卡方统计结果表。,58,卡方检验中的Pearson 卡方值0.376,对应的p值0.540.05,接受原假设,即认为色盲与性别没有显著的关系(可以认为二者是相互独立的)。,练习,研究问题 探讨吸烟与肺癌的关系。,59,3.1相关概念 1、影响因素的分类:在所有的影响因素中根据是否可以人为控制可以分为两类,一类是人为可以控制的因素,称为控制因素或控制变量,如种子品种的选定,施肥量的多少
20、;另一类因素是认为很难控制的因素,称为随机因素或随机变量,如气候和地域等影响因素。在很多情况下随机因素指的是实验过程中的抽样误差。2、控制变量的不同水平:控制变量的不同取值或水平,称为控制变量的不同水平。如甲品种、乙品种;10公斤化肥、20公斤化肥、30公斤化肥等。3、观测变量:受控制变量和随机变量影响的变量称为观测变量,如农作物的产量等。方差分析就是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量以及对观测变量有显著影响的各个控制变量其不同水平以及各水平的交互搭配是如何影响观测变量的一种分析方法。,定量数据-方差分析,3.2方差分析的原理 方差分析认为,如果控制变
21、量的不同水平对观测变量产生了显著影响,那么它和随机变量共同作用必然使得观测变量值显著变动;反之,如果控制变量的不同水平没有对观测变量产生显著影响,那么观测变量值的变动就不明显,其变动可以归结为随机变量影响造成的。建立在观测变量各总体服从正态分布和同方差的假设之上,方差分析的问题就转化为在控制变量不同水平上的观测变量均值是否存在显著差异的推断问题了。综上所述,方差分析从对观测变量的方差分解入手,通过推断控制变量各水平下各观测变量的均值是否存在显著差异,分析控制变量是否给观测变量带来了显著影响,进而再对控制变量各个水平对观测变量影响的程度进行剖析。根据控制变量的个数可将方差分析分为单因素方差分析、
22、多因素方差分析;根据观测变量的个数可将方差分析分为一元方差分析(单因变量方差分析)和多元方差分析(多因变量方差分析)。,3.3单因素方差分析的基本思想 1、定义:单因素方差分析用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。例如:分析不同施肥量是否给农作物的产量产生显著影响;研究不同学历是否对工资收入产生显著影响等。2、观测变量方差的分解 将观测变量总的离差平方和分解为组间离差平方和和组内离差平方和两部分,分别表示为:其中,SST为观测变量的总离差平方和;SSA为组间离差平方和,是由控制变量不同水平造成的观测变量的变差;SSE为组内平方和,是由抽样误差引起的观测变量的变差。,其中:
23、,3、比较观测变量总离差平方和各部分的比例 在观测变量总离差平方和中,如果组间离差平方和所占比例较大,则说明观测变量的变动主要是由于控制变量引起的,可以主要由控制变量来解释,即控制变量给观测变量带来了显著影响。这里我们用F统计量来表示这种比例关系,如果控制变量的不同水平对观测变量造成了显著影响,那么观测变量总变差中控制变量所占的比例较大,则F值就比较大;反之,如果控制变量的不同水平对观测变量没有造成显著影响,那么观测变量总变差中控制变量所占的比例较小,则F值就比较小。,3.4 单因素方差分析的基本步骤提出原假设:控制变量不同水平下观测变量各总体的均值无显著差异原假设成立,即H0:1 2 3 4
24、备择假设成立,即H1:i(i=1,2,3,4)不全相等计算检验统计量和概率P值 给定显著性水平与p值做比较:如果p值小于显著性水平,则应该拒绝原假设,反之就不能拒绝原假设。,3.5单因素方差分析的基本操作步骤 在利用SPSS进行单因素方差分析时,应注意数据的组织形式。SPSS要求定义两个变量分别存放观测变量值和控制变量的水平值。基本操作步骤如下:1、选择菜单AnalyzeCompare meansOne-Way ANOVA,出现窗口,2、将观测变量选择到Dependent List框。3、将控制变量选择到Factor框。控制变量有几个不同的取值表示控制变量有几个水平。4、Option选项(非常
25、重要)Option选项用来对方差分析的前提条件进行检验。Homogeneity of variance test选项实现方差齐性检验;(要选中)其零假设是各水平下观测变量总体方差无显著性差异5、Post Hoc选项(当方差分析结果为存在显著差异时用)Post Hoc选项用来实现多重比较检验。在方差分析中,由于其前提所限,应用中多采用Equal Variances Assumed框中的方法(尽量不用方差不等时的情况,不完善!)。常用 LSD方法和S-N-K方法 至此,SPSS便自动分解观测变量的方差,计算组间方差、组内方差、F统计量以及对应的概率p值,完成单因素方差分析的相关计算,并将结果显示到
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- vip 课件 spss 统计分析
链接地址:https://www.31ppt.com/p-5452288.html