欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    SPSS统计软件的操作与应用.ppt

    • 资源ID:5449300       资源大小:2.79MB        全文页数:131页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    SPSS统计软件的操作与应用.ppt

    SPSS社会统计软件学习,MARKETING INVESTIGATION,李彬彬 王亮,统计学基本知识,统计学定义:它是关于收集分析表述和解释统计数据的方法论科学统计的功能:主要是信息咨询和监督现代统计学分科:描述统计学与推断统计学(统计方法构成)理论统计学与应用统计学(方法研究与应用)基本概念 统计总体:是指客观存在的,在同一性质基础上结合起来的许多个别单位 的整体,如上海地区的人口总数 样本总体:在统计总体里,按照一定抽样方法抽取的部分个体,这些个体客 观地反映总体的特征,如合理抽样100个学生样本进行相关统计 指 标:反映现象总体数量特征的概念,如样本平均数 变 量:统计总体个单位所具有的共同特征。如年龄,性别,一 基本概念,二 统计数据分布特征的描述,1 统计变量集中趋势的测定2 统计变量离散程度的测定3 变量分布偏度与峰度的描述,1 统计变量集中趋势的测定 定义:统计数据的集中趋势是指数据向其中心值靠近或集中的趋势 测定集中趋势的作用 1)反映总体各单位变量分布的集中趋势和一般水平 2)比较同类现象在不同单位的发展水平 3)比较同类现象在不同时期的发展变化趋势或规律 4)分析现象之间的依存关系 测量集中趋势的度量:位置平均数和数值平均数,位置平均数 众数(Mode):总体中出现次数最多的那个变量值,众数在描述数据集中趋势方面有一定的意义。例如,制鞋厂可以根据消费者所需鞋的尺码的众数来安排生产。求某医院当天出生新生儿的体重的众数,数据如表1-1所示。,中位数(Median):将总体中的数据按顺序排列后,处于数列中点位置上的那个数据或变量值。它是一种位置代表值,所以不会受到极端数值的影响,具有较高的稳健性。如果N为奇数,那么该数列的中位数就是位置 上的数;如果N为偶数,中位数则是该数列中第 与第+1位置上两个数值的平均数 求某班级学生身高的中位数,数据如表1-2所示。,四分位数:将一组个案由小到大(或由大到小)排序后,用3个点将全部数据分为四等份,与3个点上相对应的变量称为四分位数,分别记为Q1(第一四分位数)、Q2(第二四分位数)、Q3(第三四分位数)。其中,Q3到Q1之间的距离的一半又称为四分位差,记为Q。四分位差越小,说明中间的数据越集中;四分位差越大,则意味着中间部分的数据越分散。,频数(Frequency):一个变量在各个变量值上取值的个案数。如要了解学生某次考试的成绩情况,需要计算出学生所有分数取值,以及每个分数取值有多少个人,这就需要用到频数分析。变量的频数分析正是实现上述分析的最好手段,它可以使人们非常清楚地了解变量取值的分布情况。例子 10个学生在某次数学、语文、化学考试中成绩如表1-3所示,试求学生在3门课程上的频数分布。,数值平均数 算术平均数(mean):是表现数据的集中趋势和代表性水品,基本形式为总体标志总量比上总体单位总数。例如,学生某门学科的平均成绩、公司员工的平均收入、某班级学生的平均身高等。加权算术平均数(weighted mean):主要用于数据已经分组,并编制出次数分布的条件下,这时必须先将各组标志值乘以相应的次数,得到各组的标志总量,然后再相加得到总体标志总量。,三个常用描述性度量比较,2 统计变量离散程度的测定 集中趋势是统计总体数据特征之一,但由于个体的差异性,总体中的各数据还呈现相分散的离中趋势,因此对数据的统计分析,除了要反映其分布的集中趋势外,还要反映数据的离散程度,以到达对数据变动规律的全面描述。定义:离散程度是度量统计分布离中趋势的指标,同时反映了总体中各个单位标志值的变异程度和平均数的代表水平。测定变量离散程度的作用 1)反映现象总体中变量分布的离中趋势 2)衡量均值的代表性 3)测定现象变动的均匀性或稳定性程度 测量离中趋势的度量:极差平均差四分位差方差标准差离散系数等,极差(range):又称全距,离散程度的最简单测度值,是最大和最小变量值之间的距离在相同样本容量情况下的两组数据,全距大的一组数据要比全距小的一组数据更为分散。例子,某地农民人均年收入最高是8000元,最地是2600元一年,则该地区农民收入的极差是8000-2600等于5400元。,方差(variance):所有变量值与平均数偏差平方的平均值,它是测定离散程度最常用的指标,离散程度最灵敏的指标。标准差(standard deviation):它是方差的平方根。它表示了一组数据关于平均数的平均离散程度。方差和标准差越大,说明变量值之间的差异越大,距离平均数这个“中心”的离散趋势越大。,四分位差(quartile deviation):分位差是极差的一种改进,四分位差是在数列中剔除最大和最小各四分之一的数据,是第一和第三个分位数之间距离的二分之一,表明中位数到这两个四分位数的平均距离,是说明中位数代表性高低的测量值。平均差(mean absolute deviation):是分配数列中各单位标志值与其计算平均数之间离差绝对值的平均数。离散系数:适用于比较不同现象或不同水平数据的变异程度的情况。,3 变量分布偏度与峰度的描述 集中趋势和离中趋势是数据分布的两个重要特征,但是要全面了解数据分布的特点,还要知道数据分布的形态特征。偏度:指分布不对称的方向和程度。偏度指标为,=0 数列分布为正态分布 0数列分布正(右)偏分布 0数列分布负(左)偏分布,峰度:指分布图形的尖峭程度或峰凸程度。峰度是分布集中趋势高峰的形状。用表示 当=0时,频率分布的峰度为正态分布的峰度 当0时,频率分布的峰度比正态分布的峰度要高尖态峰,表明集中趋势显著,离中趋势低 当0时,频率分布的峰度比正态分布的峰度要低平坦峰,表明离中趋势显著,集中趋势低,小结 本节主要介绍平均数、中位数、众数、方差、百分位、频数、峰度、偏度等统计学相关基本知识,基本统计知识是进行SPSS统计分析的基础和前提。通过基本统计方法的学习,可以对要分析数据的总体特征有比较准确的把握,从而有助于选择其他更为深入的统计分析方法。,希望大家课后多查阅相关资料书籍,以更好的运用SPSS社会学统计软件!,欢迎你进入SPSS学习,SPSS简介,一SPSS的产生、发展和应用领域 二SPSS13.0的安装、启动和退出 三SPSS的窗口简介 四SPSS13.0的Help系统,一 SPSS的产生、发展和应用领域,社会科学统计软件包(Statistical Package for the Social Science,SPSS)是世界著名的统计分析软件之一。1968年,3位美国斯坦福大学的学生开发了最早的SPSS系统,并基于这一系统于1975年在芝加哥合伙成立了SPSS公司。SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等。经近40年的发展,在全球已拥有大量的用户,SPSS主要应用于农业、工业、商业、医学、交通运输、公检法、社会学、市场分析、股市行情、军事地理、旅游业等多个领域和行业,是世界上应用最广泛的专业统计软件。SPSS的最新版本为19.0,主要开发为vista使用系统,SPSS13.0的经典版,稳定性比较高。总之,可以这么说,有需要数据分析的地方,就可以用到SPSS,同学们要认真学。,请见演示,二 SPSS13.0的安装、启动和退出,三 SPSS的窗口简介,SPSS主界面主要有两个,一个是SPSS数据编辑窗口,另一个是SPSS输出窗口。数据编辑窗口由标题栏、菜单栏、工具栏、编辑栏、变量名栏、内容区、窗口切换标签页和状态栏组成,见下图。,数据编辑窗口,1、菜单介绍 File:“文件”菜单用于新建SPSS 各种类型文件,打开一个已存在的文件,从文本文件或其它数据源读入数据。Edit:“编辑”菜单用于撤消操作、剪切、复制、粘贴、查找、改变SPSS 默认设置等。View:运用“视图”菜单显示或隐藏状态行、工具栏、网络线、值标签和改变字体。Data:运用“数据”菜单对SPSS 数据文件进行全局变化,例如定义变量,合并文件,转置变量和记录,或产生分析的观测值子集等。Transform:“转换”菜单在数据文件中对所选择的变量进行变换,并在已有变量值的基础上计算新的变量。,Analyze:“分析”菜单在以前版本中为“统计(Statistics)”,可进行各种统计分析,包括各种统计过程(Procedure),如回归分析、相关分析、因子分析等等。Graphs:“图表”菜单产生条形图、饼图、直方图、散点图和其它全颜色、高分辨率的图形,以及动态的交互式图形。有些统计过程也产生图形,所有的图形都可以编辑。Utilities:“工具”菜单可以显示数据文件和变量的信息,定义子集,运行脚本程序,自定义SPSS 菜单等。Window:“窗口”菜单用于选择不同窗口和最小化所有窗口。Help:“帮助”菜单包含SPSS 帮助主题、SPSS 教程、SPSS 公司主页、统计教练等菜单项。,该窗口下方有两个标签:“Data View”(数据视图)和“Variable View”(变量视图)。,(1)一个列对应一个变量,即每一列代表一个变量(Variable)或一个被观测量的特征。例如问卷上的每一项就是一个变量。(2)行是观测,即每一行代表一个个体、一个观测、一个样品,在SPSS中称为事件(Case)。例如,问卷上的每一个人就是一个观测。,SPSS结果输出窗口名为Viewer,它是显示和管理SPSS统计分析结果、报表及图形的窗口。,SPSS结果输出窗口,用鼠标双击结果输出窗口中的图形,进入图形编辑窗口,可以对图形进行定义编辑,图形编辑窗口,四 SPSS13.0的Help系统,在运行SPSS的任何时候,单击“Help”菜单中的“topics”命令,会弹出帮助主题窗口。在其中选择相关的命令,即可得到所需的各种帮助。Help系统可以为不同级别的用户提供不同阶段的指导,有如入门级用户的tutorial”命令,实例学习“Case studies”过程,还有手把手的“Statistics Coach”的过程,小结 SPSS是在当前社会经济分析中应用最广泛的软件之一。继SPSS13.0之后,SPSS公司推出了最新的SPSS19.0,这是一个功能强大、设计人性化的统计学软件。SPSS的主界面有两个,一个是SPSS数据编辑窗口,一个是SPSS结果输出窗口,例外还有一个图形编辑窗口。,下面让我们进入主题吧!,数据输入和整理,一 定义变量,SPSS对数据的处理是以变量为前提的,因此本节主要介绍定义变量、输入数据和数据整理。,输入数据前首先要定义变量。定义变量即要定义变量名、变量类型、变量长度(小数位数)、变量标签(或值标签)和变量的格式。单击数据编辑窗口左下方的“Variable View”标签或双击列的题头(Var),进入如下图所示的变量定义视图窗口,在此窗口中即可定义变量。,在上图所示的窗口中每一行表示一个变量的定义信息,包括Name、Type、Width、Decimal、Label、Values、Missing、Columns、Align、Measure等。,1定义变量名(Name)SPSS默认的变量为Var00001、Var00002等,用户也可以根据自己的需要来命名变量。SPSS变量的命名和一般的编程语言一样,有一定的命名规则,具体内容如下。,变量名必须以字母、汉字或字符开头,其他字符可以是任何字母、数字或_、#、$等符号。变量最后一个字符不能是句号。变量名总长度不能超过8个字符(即4个汉字)。不能使用空白字符或其他特殊字符(如“!”、“?”等)。变量命名必须惟一,不能有两个相同的变量名。在SPSS中不区分大小写。例如,HXH、hxh或Hxh对SPSS而言,均为同一变量名称。图2-3 定义变量类型对话框 SPSS的保留字(Reserved Keywords)不能作为变量的名称,如ALL、AND、WITH、OR等。,2定义变量类型(Type),单击Type相应单元中的按钮,弹出如图2-3所示的对话框,在对话框中选择合适的变量类型并单击“OK”按钮,即可定义变量类型。,SPSS的主要变量类型如下。Numeric Comma(带逗点的数值型)整数部分每三位数加一逗号,1,200,000 Dot(逗点作小数点的数值型)可定义小数,12345显示12.345,00 Scientific notation(科学记数法)定义width为10,decimal places为 3,则1234567.89显示为1.235+E006 Date Dollar Custom currency String,3变量长度(Width)设置变量的长度,当变量为日期型时无效。,4变量小数点位数(Decimal)变量小数点位数设置数值变量的小数点位数,当变量为日期型时无效。,5变量标签(Label)变量标签是对变量名的进一步描述,变量标签可长达120 个字符,变量标签对大小写敏感,显示时与输入值完全一样,需要时可用变量标签对变量名的含义加以解释。,6变量值标签(Values)变量值标签是对变量的每一个可能取值的进一步描述,当变量是定类或定序变量时,这是非常有用的。,7缺失值的定义方式(Missing)SPSS有两类缺失值:系统缺失值和用户缺失值。单击Missing相应单元中的按钮,在弹出的如下图所示的对话框中可改变缺失值的定义方式,在SPSS中有两种定义缺失值的方式。可以定义3个单独的缺失值。可以定义一个缺失值范围和一个单独的缺失值。默认值为None,8变量的显示宽度(Columns)输入变量的显示宽度,默认为8。,9变量显示的对齐方式(Align)选择变量值显示时的对齐方式:Left(左对齐)、Right(右对齐)、Center(居中对齐)。默认是右对齐。,10变量的测量尺度(Measure)变量为定距变量或定比变量,则在Scale相应单元的下拉列表中选择Scale;如果变量为定序变量,则选择Ordinal;如果变量为定类变量,则选择Nominal,Scale的测量水平最高,能加减乘除,Ordinal能进行排序测量,只能比较大小或顺序,Nominal只是一种类别代表,如性别,测量尺度和变量类型一样,都是对变量进行更准确的定义,其在数据分析中不是很明显。变量按测量精度可以分为(1)定性变量。(2)定序变量。(3)定距变量。(4)定比变量。,问卷录入时注意的几个问题,(1)注意定义不同的数据类型Type 各色各样的问卷题目的类型大致可以分为单选、多选、排序、开放题目四种类型,他们的变量的定义和处理的方法各有不同,我们详细举例介绍如下:,定义了所有变量后,单击“Data View”标签,即可在出现的数据视图(编辑)窗中输入数据。数据录入时可以逐行录入,也可以逐列。注意:在录入带有变量值标签的数据时,用户手工输入的是实际的变量值,而屏幕上显示的是与该变量对应的变量值标签。,二 数据的录入和保存,在录入数据时,应及时保存数据,防止数据的丢失,以便再次使用该数据。用户确定盘符、路径、文件名以及文件格式后单击“Save”按钮,即可保存为指定类型的数据文件。SPSS支持的常见的数据文件,一般默认格式SPSS(*.sav),三 SPSS数据文件的整理,在建立和输入好数据文件以后,往往还需要进行数据文件的加工、整理,经过 整理以后的文件才能更好地满足数据分析的要求。包括观测量排序、数据文件转置、数据文件合并、数据分类汇总、变量计算变量值排序等。一般在菜单Data和Transform中进行操作。由于课程时间原因,这里就不赘述了,大家课下查阅相关资料自学。,变量名(Name),变量类型(Type),变量长度(Width),变量小数点位数(Decimal),变量标签(Label),变量值标签(Values),缺失值的定义(Missing),变量的显示宽度(Columns),变量的测量尺度(Measure),小结一下!,下一节,是我们的重点。,常用数据分析方法,一 SPSS的统计图形绘制二 常用SPSS数据分析方法,一 SPSS的统计图形绘制,统计图是数据最直观的表示,统计工作的服务对象多是非专业的人士。非专业人士通常不明白什么是相关分析、什么是回归分析、什么是因子分析,等等。下面我们先来介绍一下统计图的绘制,主要包括:条形图、线图、面积图、饼图、高低图、箱图、直方图、P-P图、Q-Q图、散点图等。,1条形图:利用宽度相同的条形的长短或高低来表现统计数据大小或变动情况的统计图。条形图分为简单条图、分组条图、分段条图,分组条图-性别对牛奶品牌的选择,分段条图-不同年龄对牛奶品牌的选择,简单条图主要针对观测量的描述,分组条图更侧重于刻画各组之间的比较关系,而分段条图则侧重于刻画各段与整体的关系。,2线图:用线段的升降来说明现象变动情况的一种统计图。比较线线图对话框和条图非常相似,都是由定义图形类型和定义图形数据描述方式两部分组成,其实不仅仅是条图和线图对话框类似,在SPSS中几乎所有的图形第一个对话框都是这样的!线图分为简单线图,复式线图,垂线图。,3面积图:用线段下的阴影面积来强调现象变化的统计图。,4饼图:是以整个圆的面积代表被研究现象的总体,按各组成部分占总体比重的大小把圆面积分割成若干扇形,用以表示现象的部分对总体的比例关系的统计图。即饼图表示部分与整体的关系。,5直方图:是常用的描述观测数据频数分布的统计图形,它由一组无间的矩形组成,每一矩形条的宽度表示数据范围的间隔,其高度则表示落入给定间隔内的观测数据频数,利用直方图可以直观反映观测变量的统计分布。,6 P-P图和 Q-Q图:用来检验数据是否服从某种分布。,在P-P图中检验数据是否服从某种分布标准有两个:第一,看P-P图上的数据点和直线的重合度第二,看P-P去势图的点是否关于直线Y=0在较小的范围上波动,7 散点图:用来表示两个或两个以上变量之间的相互关系的图形。在统计数据分析中,要选择恰当的统计方法,通常都离不开散点图,1描述性统计分析(单变量描述和均值差异比较)2相关分析与回归分析(变量间的统计关系研究)3其他数据分析方法,二 常用SPSS数据分析方法,1 变量描述性统计分析,描述性统计分析是基础的统计分析过程。对于整理好的数据,通过描述性统计分析,可以挖掘出很多统计量的特征。常用的描述性统计方法主要包括如下:频数分布表分析(Frequencies过程)最基础的统计量分析(Descriptive过程)探索性分析(Explore过程)列联表分析(Crosstabs过程),频数分布表分析(Frequencies过程)产生变量值的频数分布表,并可计算描述性统计量和绘制相对应的统计图。来获得变量分布的直观特征,为进一步的复杂分析提供重要参考,最基础的统计量分析(Descriptive过程)主要用于输出变量的各类描述性统计量的值,如要描述一个班级学生的身高,描述被试的收入情况。,显示次序是多个变量输入结果的排列顺序,探索性分析(Explore过程)定义:可对变量进行更为深入详尽的描述性统计分析,它在一般描述性统计指标的基础上,增加有关数据其他特征的文字与图形描述,显得更加细致与全面,有助于用户思考对数据进行进一步分析的方案。主要包括:(1)提供观测数据可能存在的异常值。(2)输出观测数据的描述统计量表与统计图形。(3)进行观测数据的分布正态性检验。,20名10岁少儿的身高(cm)资料,数据如下表所示,试作探索性分析。,在结果输出窗口中将看到如下统计数据。(1)首先输出如下个案观察量摘要表,如下表所示。,(3)接着输出如下4个不同权重下作中心趋势的粗略最大似然确定数,,(4)再接着输出百分位数,也是分组后的百分位数,如下表所示。,(5)分别输出两个组中的最大5个数和最小5个数,并且包括这些值对应的ID,如下表所示。,(6)输出方差齐次性检验结果。,(7)系统还进行数据的茎叶情形描述。,(8)系统输出箱图,如下图。,(10)输出身高正态概率图(Normal Q-Q Plot of身高),如下图。,(11)输出离散正态概率图(Detrended Normal Q-Q Plot of身高),男孩身高和女孩身高如图所示。横坐标是身高,纵坐标是和正态分布的偏离。,列联表分析(Crosstabs过程)常用来作变量间交叉分组下的频数分析,用以揭示变量间是否具有独立性或具有一定的相关性。如想分析吸烟习惯和患病率的关系。,频数分析注意的几个问题,1 频数分析:Frequencies过程可以做单变量的频数分布图;显示数据文件中由用户指定的变量的特定值发生的频数;获得描述性统计量和描述性数值范围的统计量。适用范围:单选题,排序题,多选题2 描述分析:可以计算单变量的描述统计量,这些统计量有平均值,算术和,标准差,最大值,最小值,方差等。适用范围:选择并排序题,开放性数值题,3 多响应频数分析:也是一种描述性统计方法适用范围:多选题的二分法实现:第一步在Multiple ResponseDefines Set 把一道多选题定义了的所有变量集合在一起,给新的变量取名,在Dichotomies Counted 中输入1。第二步在Multiple Response.Frequencies中作频数分析。,4 交叉频数分析:解决多变量的各水平组合的频数分析的问题。适用范围:用于两个或两个以上变量进行交叉分类形成的列联表,对变量之间的关联性进行分析。比如要知道不同工作性质的人上班适用交通工具的情况,可以通过交叉分析得到的一个二维频数表则一目了然。实现:第一步根据分析的目的来确定交叉分析的选项,确定控制变量和解释变量(如上面的例子中不同工作的人是控制变量,适用交通工具是解释变量。第二步选择Descriptive statisticsCrosstabs,均值描述:计算各类描述性统计量,并且分析方差分析结果。,1-2均值比较与方差分析,单样本T检验(one-Sample T Test)单样本T检验是比较样本均值和总体均值的T检验,如某一个钢铁含铁量服从4.53的正态分布,试检验样本是否服从4.53。,独立两样本的T检验Independent-sample T Test 单样本T检验是检验样本均值和总体均值是否相当,二独立两样本的T检验是检验两个独立样本的均值是否相当。如甲乙两种药的治疗效果比较。,方差分析(ANOVA过程)两组的均值比较用T检验,为了进行两组以上均数的比较,通常可以使用方差分析方法。在科学实验和生产过程中,影响一事物的因素是多方面的。比如农作物的产量受到品种、肥料、水份、气候等影响,这些因素有的对产量的影响大,有的影响小。方差分析就是采用数理统计方法对所有的结果进行分析,以鉴别各个因素对研究对象的某些特征值影响大小的一种有效方法。,单因素方差分析(One-way ANOVA过程)单因素方差分析只考虑一个因素对研究对象的影响,此时其他因素都不变或者控制在一定范围内。,小结,描述性统计主要有频数分析、最基础的统计量分析、探索性分析、列联表分析、均值描述、T检验和方差分析等,均值描述和T检验是解决两样本均值的比较,方差分析是多个变量均值的比较。描述性统计是进行其他统计分析的基础和前提。利用这些基本统计方法,可以对要分析数据的总体特征有比较准确的把握,同时也为更深入的分析提供了依据。,2相关分析与回归分析(变量间的统计关系研究),在实际统计中,常常要研究两个及两个以上变量的,比如,医学统计中研究青少年年龄与身高的关系,经济学中研究利率与股票价格的关系等,研究这些关系主要通过相关分析和回归分析。变量和变量之间的关系可以分为确定关系和不确定关系。所谓确定关系是指变量之间可以用精确的函数来描述,而不精确关系是已知变量之间存在着某种关系,但是这种关系不能用函数来表示。相关分析就是研究变量之间的相互关系的密切程度和变化趋势,并通过适当的统计指标描述。回归分析是把变量之间的关系用函数关系表示出来。,2-1相关分析 相关分析主要分为:两变量相关分析、偏相关分析、距离分析两变量相关分析:两个连续变量之间的相关和两个等级变量之间的秩相关。偏相关分析:当两个变量的取值受其他变量的影响,则采用偏相关分析的方法控制其他变量的影响,研究两个变量之间的相关关系。距离分析:主要分析同一变量内观测值之间或者多个变量之间的相似或不相似程度。,相关系数,相关系数的取值范围在1和+1之间,即1r+1。其中:若0r1,表明变量之间存在正相关关系,即两个变量的相随变动方向相同;若1r0,表明变量之间存在负相关关系,即两个变量的相随变动方向相反;,对于定距变量的数据,常通过Pearson相关系数值和相关系数的Sig的值来验证。对于定类变量和等级变量的数据,通常使用Spearman和Kendall系数来表示。0.01Sig0.05,相关系数用“*”标记,表示相关性显著,Sig0.01,相关系数用“*”标记,表示相关性高度显著。,两变量相关分析,偏相关分析 在实际问题中,两变量的相关关系往往还要受到其他因素的影响,这些影响有时候会使相关分析的结果变得不那么可靠了,偏相关分析是指研究两个变量之间的相关关系时,将与这两个变量有联系的其他变量控制不变的统计方法。根据控制变量的个数,分为零阶相关分析、一阶相关分析、二阶相关分析。零阶相关分析指没有相关变量的相关分析。一阶相关分析是指有一个控制变量的相关分析。,例子:分析品牌倾向与教育程度的偏相关关系,选择职业为控制变量,距离分析:前面介绍的两个样本相关分析和偏相关分析都是研究两样本之间的相关关系。对于两个变量,研究两个变量的近似程度也十分重要。距离分析就是研究变量是否近似的一种相关分析方法。例如,分析各个城市的日照数是否相似。这里不在介绍,感兴趣的同学自己查资料研究。,2-2回归分析 定义:用一变量作为自变量,另一个变量作为因变量,建立两者之间的数学表达式,从自变量去估计因变量的取值,这个过程叫着回归分析。回归分析和相关分析的区别:相关分析只能大概描述出两个变量之间的相关系数,如正相关或负相关,而回归分析能够通过数学表达式来定量描述变量之间的关系。回归分析的应用:一般在生物统计和医学统计上,如估计各类微量元素的摄入量对人体血红蛋白含量的影响。回归分析能够求出自变量和因变量之间的经验公式,所以回归分析在数据挖掘上有预测和控制功能,譬如在商品流通领域,经常使用回归分析商品价格和商品需要量之间的关系,以便对商品的价格和需求量进行控制。,回归分析的应用:一般在生物统计和医学统计上,如估计各类微量元素的摄入量对人体血红蛋白含量的影响。回归分析能够求出自变量和因变量之间的经验公式,所以回归分析在数据挖掘上有预测和控制功能,譬如在商品流通领域,经常使用回归分析商品价格和商品需要量之间的关系,以便对商品的价格和需求量进行控制。分类:线性回归、曲线拟合、二类变量Logistic回归、非线性回归 本课程里我们主要探讨线性回归,它主要包括一元线性回归和多元线性回 归,其他作为了解。,回归分析的步骤:1 对数据进行预处理,找到合适的变量进行分析,如研究某地区的商品房价格,则与之相关的变量有面积,地段,住宅风格等 2 做散点图,观察变量间的趋势,初步选择回归分析方法 3 进行回归分析,拟合自变量和因变量之间的公式 4 检验,线性回归分析 根据自变量的个数,将线性回归分为一元线性回归和多元线性回归。一元线性回归:是回归分析中处理两个变量线性相关关系最简单的数学模型。设变量Y与X有下述关系:y=a+bx+c,一元线性回归的操作,多元线性回归的操作,除了上面的描述性分析和相关分析,SPSS强大的功能还可以对问卷进行深入的分析,比较常用的有聚类分析、因子分析与对应分析、非参数检验等,由于涉及到很专业的统计学知识,下面只对概念做个简单的介绍。,3其他数据分析方法,聚类分析:就是把没有分类的信息的资料按照相似程度归类,并对这些分类进行比例分析,从而明确调研关心的全体,如按消费特征对被调查者进行聚类。因子分析:用于将具有错综复杂关系的变量综合为数量较少的几个因子,以再现原始变量和因子之间的相互关系,同时还可以对变量进行分类。非参数检验:在实际的调研活动中,人们对数据的总体分布和统计模型很难准确获悉,这种不假定数据总体分布的具体情况,尽量从数据本书获得所需要的信息,通过推断方法而获得结构关系,并逐步建立对事物的数学描述和统计模型的方法,叫做非参数检验方法,比如检验学生的体重分布是否为正态分布。,关于信度,信度定义信度是测量数据(资料)与结论的可靠性程度,即测量工具是否稳定地测量到它所要测量的事项的程度。也就是说信度主要反应的是测量的“稳定性”和“一致性”。信度系数大部分信度指标都以相关系数(r)表示,即用同一样本所得到的两组资料的相关系数作为测量一致性的指标,成为信度系数。信度系数高表明测量的一致性程度高,测量误差少。理想的状态是:r=1。一般来说,信度系大于等于0.8,即可认为该测量是达到了足够的信度。,信度类型 一、再测信度 同一种试验,对同一群受试者,前后测试两次,再根据受试者两次测验分数计算其相关系数,即得出再测信度。例:某空间性向测验有20题单选题,分别在十月与第二年四月施测同一组10名学生,以下是测验结果,请计算信度。,再测信度spss操作:步骤一 按【Analyze】【Correlate】【Bivariate】,步骤二 会出现下面的对话框,将左边两变项选入右边Variables内,在Correlation Coefficients方盒内选取Pearson;在Test of Significance方盒内选取Two-tailed;勾选最下面的Flag significant correlations,之后按 OK 键。,输出结果,我们可以看到,r=0.972,这个信度系数还是比较高的。,二、复本信度如果一套测验有两种以上的复本,则可交替使用,根据一个受试者接受两种复本测验的得分计算其相关系数,即可得复本信度。复本类似于考试中得A、B卷,如果一个人在A卷和B卷的得分相同,就说明考题具有信度;如果两者差异很大,则缺乏信度。,某自我概念量表,有20题是非题,题本A与B 分别施测同一组10个人,分数愈高表示愈具有正向自我概念,以下是施测结果,请计算信度。,例:,做法与再测信度相同,关于问卷的效度 问卷的效度是指问卷测量结果的有效性或正确性,即一个问卷能够测量出研究者想要测量的概念或者特性的程度。根据问卷调查的目的和效度的评估方法将效度分为3类,即内容效度(Content Validity)、效标效度(Criterion Validity)和构念效度(Construct Validity)。,一般来说,问卷调查容易产生误差的原因,来自研究者的因素包括:测量内容不当、情景以及研究者本身的疏忽。来自受访者的因素则可能是由于其年龄、性格、教育程度、社会阶层等,而影响其答题的正确性。研究者透过信度与效度的检验,可以了解问卷本身是否优良,以作为改变修正的根据,避免做出错误的判断。,THE END!THANK YOU!,

    注意事项

    本文(SPSS统计软件的操作与应用.ppt)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开