资料的统计分析.ppt
广东省社会科学院 张桂金参考书:社会科学研究方法新解 唐盛明 上海社会科学出版社社会统计学 卢淑桦 北京大学出版社社会研究方法教程 北京大学出版社应用回归分析 何晓群 刘文卿 中国人民大学出版社,社会统计方法,第二部分 多元分析,1、详析模式与多元分析2、相关分析3、多元方差分析4、多元线性回归分析5、路径分析6、聚类分析7、因素分析,第一部分 卡方检验,第三部分 非线性回归分析,第一部分:参数检验 非参数检验,一、参数检验二、非参数检验三、卡方检验,一、参数检验,参数检验即对于总体参数的检验。常用的参数检验方法有三种:Z检验、t检验和F检验。1、Z检验:条件一是样本必须是随机抽取的,二是变量必须是定距层次的变量,三是应呈正态分布。Z检验适用于大样本(n30)以下情况适用于Z检验:(1)大样本的总体均值、总体成数,大样本的总体均值差、成数差检验,G相关系数的检验。,2、t 检验 要求一是被检验总体成正态分布,二是样本必须是随机抽取的,三是变量应为定距尺度的变量。,适用于小样本的总体均值、均值差检验,配对样本的比较。配对T检验,3、F检验,是检验一个定类变量和一个定距变量关系存在与否的方法,它要求一是样本必须是随机抽取的,二是有一个变量是定距变量,三是要求各子总体为正态分布并具有相等的方差,一般适用于(1)方差分析的检验(2)对两个总体或多个总体的差异的检验(3)r相关系数与回归系数的检验,二、非参数检验,适用于定序变量(顺序衡量)的分析。介绍曼惠特尼U检验方法。其它方法参照卢淑桦社会统计学(第三版)第十四章 P415-439)虚无假设:对相比较的变量而言,样本所代表的两个总体不相一致。,其中、分别为第一个、第二个样本所有顺序的总和。经简化可知,在实际应用中,必须比较U与U值的大小,并选其中的较小值。曼惠特尼U所使用的推断统计方法是Z检验。,其中U为U或U的较小值,最后一步比较Z的计算值与Z的临界值。,左边例子关于男女两组学生关于早恋问题的数据(z的临界值为1.96):得出U=78,U=43 因为U比U小,所以在Z检验中采用43.其它数值计算略Z1.15因为Z的绝对值1.15小于Z的临界值1.96,因此无法排除虚无假设。,卡方检验与T检验和方差分析不同,它对总体的形态分布没有特殊要求。卡方检验的目的在于发现两个名称衡量或顺序衡量等级的变量在总体中是否相关。研究的是两个变量在总体中相关。卡方检验的计算以实测频数与期望频数的比较为基础卡方检验的先决条件有两条:1)样本通过独立的随机取样获得 2)自变量与应变量都是分隔变量,三、卡方检验,工资,总计,高,中,低,男,女,性别,总计,期望频数的计算公式:,列子:实测频数与期望频数(见下表),工资,总计,高,中,低,男,女,性别,总计,卡方值的计算:,自由度Df(r-1)(c-1),当概率水平设在0.05时,卡方检验(自由度为2)的临界值为5.991,如果卡方检验计算值大于临界值,那么我们就可以排除虚无假设,作出两个变量之间互相关联的决定;反之,无法排除虚无假设,即检验的结果为两个变量在总体中互不相关。,第二部分 多元分析,第一章、详析模式,一、详析模式,(一)、两变量的交互分类 资料分析的第一步就是检验这些假设所预言的这种关系是否存在,如果存在或不存在,第二步就是要分析为什么。对两变量间关系进行描述的最基本方法是“交互分类”法,又称列联表。(见下表),(二)、引入检验因素,为了解释和检验两变量之间的真实关系,常引入第三变量的方法。这种引入新变量对两变量间原有关系进行检验,以确定或解释真实关系的过程,称为分析的详析化。被引入的变量称作检验因素或控制变量 检验的具体作法是采用分表法。,由上例,引进和控制家庭经济条件这一变量后。,“分表法”的具体做法:1.首先描述变量X与Y的关系(如上表一),这时的关系称为原关系;2.将检验因素分成不同层次或类型,然后在每一类别中做X与Y的分列联表(如上表二),分表中X与Y的关系为部分关系;3.对各分表中X与Y的关系(即部分关系)进行考察,若X与Y的原关系在各分表中均消失了,证明原关系主要由检验因素引起;若X与Y间的原关系在各分表中存在,说明其不受检验因素的影响。,(三)详析范式,1、复证:它指的是引入控制变量后,原有的两变量关系并没有改变。这也就进一步加强了原关系为真的信心。2、辨明:两变量之间的初始关系被证实是虚假的因为引入控制变量后原关系消失了这样一种详析模式结果。(控制先导变量后一组净关系降至零。3、阐明:它表示的研究结果是说控制变量是原初相关关系的中间变量,也就是说,自变量通过影响控制变量和影响因变量。(控制中介变量后一组净关系降至零)4、标明:它表示的是详析结果是说引入控制变量后,两变量之间的初始关系在某些子群中继续存在,而在另外一些子群中则不复存在。这个事后,我们就要标明初始关系存在的条件。比如,存在与男性中间,而不存在在女性之间。,(四)范式的调整,两个概念:1、抑制变量:在详析模式中,使得初始关系不能显现的检验变量。2、曲解变量:在详析模式中,颠倒零阶关系的方向的变量。,(三)详析的一般程序,1.首先确定两变量间关系的类型。2.确定关系的真伪。3.将两变量关系具体化。4.寻找两变量间的因果链。5.检验是否存在条件关系,以帮助解释、澄清、说明变量间的关系。,(五)、详析模式的作用,详析模式的一个主要作用是使调查研究可分享实验设计的一些优点。它可以充分利用统计调查资料将分析引向深入。一方面它可对变量关系作出精确的描述,另 一方面它还可以揭示两变量关系的真伪、存在的条件和存在的原因等。详析在解释上的贡献很大,是建立理论的重要工具。,第二章、多元方差分析,一、方差分析的概念,1、方差分析,就其内容来说,是分析或者检验总体间的均值是否有所不同,而不是方差是否有所不同。但就其检验所用的方法或手段来说,则是通过方差来进行的。故有人建议改成“均值差分析”。2、方差分析分一元方差分析以及多元方差分析3、方差分析条件:(1)样本通过独立的随机取样获得(2)自变量为分隔变量(定类或定序变量),应变量为定距或定比变量。(3)总体的分布形态为正态分布(4)总体的方差相等。,1、定义,定义:一元方差分析测试某一个控制变量的不同水平是否给观察变量造成了显著差异和变动。自变量只有一个定类变量,因变量为定距变量。例如,培训是否给学生成绩造成了显著影响;不同地区的考生成绩是否有显著的差异等。,二、一元方差分析,2、计算公式:采用的统计推断方法是计算F统计量,进行F检验。总的变异平方和记为SST,分解为两个部分:一部分是由控制变量引起的离差,记为SSB(组间Between Groups离差平方和);另一部分随机变量引起的SSW(组内Within Groups离差平方和)。于是有:SST=SSB+SSW,其中,组内平方和组际平方和,F统计量是平均组间平方和与平均组内平方和的比,计算公式为,F(K-1,N-K),3、谢菲检验,上一节的单因素分析中,虚无假设为u1=u2=u3。替换假设用下列3个式子表述:由于F的计算值小于F的临界值,因此我们无法排除虚无假设。一般而言,如果无法排除虚无假设,即可以直接得出报告结论;但是,如果虚无假设得到排除,我们就要进行进一步的检验。有必要确定究竟是哪一对,或者哪几对的差异具有真正的统计意义。,统计计算公式:,1、计算统计值C。其中:MSw为方差分析中的组内平均方差。2、计算C的临界值。3、比较C与C的临界值的大小。,SPSS中实现过程,表3-1三组学生的数学成绩,1、定义和计算公式,定义:多因素方差分析中的控制变量在两个或两个以上,它的研究目的是要分析多个控制变量的作用、多个控制变量的交互作用以及其他随机变量是否对结果产生了显著影响。例如,在本章开始讲述的例子,在获得教学效果的时候,不仅单纯考虑教学方法,还要考虑不同风格教材的影响,因此这是两个控制变量交互作用的效果检验。,三、多元方差分析,多因素方差分析不仅需要分析多个控制变量独立作用对观察变量的影响,还要分析多个控制变量交互作用对观察变量的影响,及其他随机变量对结果的影响。因此,它需要将观察变量总的离差平方和分解为3个部分:,多个控制变量单独作用引起的平方和;多个控制变量交互作用引起的离差平方和;其他随机因素引起的离差平方和。,以上F统计量服从F分布。SPSS将自动计算F值,并根据F分布表给出相应的相伴概率值。,SPSS中实现过程,研究问题,表3-2三组不同性别学生的数学成绩,实现步骤,在菜单中选择“Univariate”命令,第3章、相关分析,描述变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程为相关分析。可根据研究的目的不同,或变量的类型不同,采用不同的相关分析方法。本章介绍常用的相关分析方法:定类变量的相关关系、定距变量的相关分析、定序变量的相关分析、偏相关分析。,4.1 定类变量,入系数 设有rxc列联表例子:入【(40+30)60】I(100-60)=0.25,3.2 定距变量的相关分析,定义:定距变量的相关分析是指通过计算定距变量间两两相关的相关系数,对两个或两个以上定距变量之间两两相关的程度进行分析。定距变量的取值之间可以比较大小,可以用加减法计算出差异的大小。例如,“年龄”变量、“收入”变量、“成绩”变量等都是典型的定距变量。,Pearson简单相关系数用来衡量定距变量间的线性关系。如衡量国民收入和居民储蓄存款、身高和体重、高中成绩和高考成绩等变量间的线性相关关系。,计算公式如下。Pearson简单相关系数计算公式为,对Pearson简单相关系数的统计检验是计算t统计量,公式为 t统计量服从n2个自由度的t分布。,3.3 定序变量的相关分析,定义:定序变量又称为有序(ordinal)变量、顺序变量,它取值的大小能够表示观测对象的某种顺序关系(等级、方位或大小等),也是基于“质”因素的变量。例如,“最高学历”变量的取值是:1小学及以下、2初中、3高中、中专、技校、4大学专科、5大学本科、6研究生以上。由小到大的取值能够代表学历由低到高。,(1)Gamma等级相关,Gamma系数的检验Ho:总体等级相关为0统计量为Z,Spearman和Kendalls tua-b等级相关系数用以衡量定序变量间的线性相关关系,它们利用的是非参数检验的方法。计算公式如下。Spearman等级相关系数为,(2)斯皮尔曼等级相关系数,对Spearman等级相关系数的统计检验,一般如果个案数n30,将直接利用Spearman等级相关统计量表,SPSS将自动根据该表给出对应的相伴概率值。,二元变量的相关分析在一些情况下无法较为真实准确地反映事物之间的相关关系。例如,在研究某农场春季早稻产量与平均降雨量、平均温度之间的关系时,产量和平均降雨量之间的关系中实际还包含了平均温度对产量的影响。同时平均降雨量对平均温度也会产生影响。在这种情况下,单纯计算简单相关系数,显然不能准确地反映事物之间地相关关系,而需要在剔除其他相关因素影响的条件下计算相关系数。偏相关分析正是用来解决这个问题的。,3.4 偏相关分析,定义:偏相关分析是指当两个变量同时与第三个变量相关时,将第三个变量的影响剔除,只分析另外两个变量之间相关程度的过程。偏相关分析的工具是计算偏相关系数r12,3。,定义和计算公式,表3-1 早稻产量与降雨量和温度之间的关系 求降雨量对产量的偏相关,实现步骤,图6-9 在菜单中选择“Partial”命令,图6-10“Partial Correlations”对话框,图6-11“Partial Correlations:Options”对话框,结果,3.5、复相关分析,复相关分析是一种以一个统计值来简化多个自变量与一个因变量之间关系的统计分析方法。要求所有的变量都是定距以上层次的变量,第四章 回归分析,在数量分析中,经常会看到变量与变量之间存在着一定的联系。要了解变量之间如何发生相互影响的,就需要利用相关分析和回归分析。在上一章讲述了相关分析有关内容。本章介绍回归分析基本概念,线性回归分析的主要类型:一元线性回归分析、多元线性回归分析。,相关分析和回归分析都是研究变量间关系的统计学课题。在应用中,两种分析方法经常相互结合和渗透,但它们研究的侧重点和应用面不同。在回归分析中,变量y称为因变量,处于被解释的特殊地位;而在相关分析中,变量y与变量x处于平等的地位,研究变量y与变量x的密切程度和研究变量x与变量y的密切程度是一样的。,在回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量;而在相关分析中,变量x和变量y都是随机变量。相关分析是测定变量之间的关系密切程度,所使用的工具是相关系数;而回归分析则是侧重于考察变量之间的数量变化规律,并通过一定的数学表达式来描述变量之间的关系,进而确定一个或者几个变量的变化对另一个特定变量的影响程度。,具体地说,回归分析主要解决以下几方面的问题。通过分析大量的样本数据,确定变量之间的数学关系式。对所确定的数学关系式的可信程度进行各种统计检验,并区分出对某一特定变量影响较为显著的变量和影响不显著的变量。利用所确定的数学关系式,根据一个或几个变量的值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确度。,在实际中,根据变量的个数、变量的类型以及变量之间的相关关系,回归分析通常分为一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析和逻辑回归分析等类型。,定义:一元线性回归分析是在排除其他影响因素或假定其他影响因素确定的条件下,分析某一个因素(自变量)是如何影响另一事物(因变量)的过程,所进行的分析是比较理想化的。其实,在现实社会生活中,任何一个事物(因变量)总是受到其他多种事物(多个自变量)的影响。,通过样本数据建立一个回归方程后,不能立即就用于对某个实际问题的预测。因为,应用最小二乘法求得的样本回归直线作为对总体回归直线的近似,这种近似是否合理,必须对其作各种统计检验。一般经常作以下的统计检验。,(1)拟合优度检验 回归方程的拟合优度检验就是要检验样本数据聚集在样本回归直线周围的密集程度,从而判断回归方程对样本数据的代表程度。,回归方程的拟合优度检验一般用判定系数R2实现。该指标是建立在对总离差平方和进行分解的基础之上。,(2)回归方程的显著性检验(F检验)回归方程的显著性检验是对因变量与所有自变量之间的线性关系是否显著的一种假设检验。回归方程的显著性检验一般采用F检验,利用方差分析的方法进行。,(3)回归系数的显著性检验(t检验)所谓回归系数的显著性检验,就是根据样本估计的结果对总体回归系数的有关假设进行检验。之所以对回归系数进行显著性检验,是因为回归方程的显著性检验只能检验所有回归系数是否同时与零有显著性差异,它不能保证回归方程中不包含不能较好解释说明因变量变化的自变量。因此,可以通过回归系数显著性检验对每个回归系数进行考察。,回归参数显著性检验的基本步骤。提出假设 计算回归系数的t统计量值 根据给定的显著水平确定临界值,或者计算t值所对应的p值 作出判断,合成纤维的强度与其拉伸倍数有关,测得试验数据如表4-1所示。求合成纤维的强度与拉伸倍数之间是否存在显著的线性相关关系。表4-1强度与拉伸倍数的试验数据,定义和计算公式,定义:在上一节中讨论的回归问题只涉及了一个自变量,但在实际问题中,影响因变量的因素往往有多个。例如,商品的需求除了受自身价格的影响外,还要受到消费者收入、其他商品的价格、消费者偏好等因素的影响;影响水果产量的外界因素有平均气温、平均日照时数、平均湿度等。,因此,在许多场合,仅仅考虑单个变量是不够的,还需要就一个因变量与多个自变量的联系来进行考察,才能获得比较满意的结果。这就产生了测定多因素之间相关关系的问题。,研究在线性相关条件下,两个或两个以上自变量对一个因变量的数量变化关系,称为多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型。多元线性回归模型是一元线性回归模型的扩展,其基本原理与一元线性回归模型类似,只是在计算上更为复杂,一般需借助计算机来完成。,多变量线性回归的概念模型是:,例子:收入a+b1教育程度+b2工作年限,我们计算出相关系数与标准差,计算坡度(系数)b得出:,切点(截距)a的计算公式如下:,上述例子中自变量都是定距及以上变量。当我们遇到自变量是分隔变量(定类变量、定序变量)上时,当这些变量的类别以数字形式不加处理地直接输入计算机进行回归分析时,计算机就会理所当然会地赋予这些数字以它们本来的意义。这样得出的结果是不正确的。解决这个问题的办法是把分隔变量的值化整为零,建立若干个关于这个分隔变量的新变量。我们把这类新变量称为“德米”变量。德米变量只有两个数值:1与0,1表示某种状况的存在,0表示这种状况的消失。建立的与分隔变量相关的德米变量数量为K-1。spss处理使用的一般是二元logistic 回归或者多项logistic回归分析。,对多元线性回归,也需要测定方程的拟合程度、检验回归方程和回归系数的显著性。(1)拟合优度检验 测定多元线性回归的拟合程度,与一元线性回归中的判定系数类似,使用多重判定系数,其定义为,(2)回归方程的显著性检验(F检验)多元线性回归方程的显著性检验一般采用F检验,利用方差分析的方法进行。,(3)回归系数的显著性检验(t检验)回归系数的显著性检验是检验各自变量x1,x2,对因变量y的影响是否显著,从而找出哪些自变量对y的影响是重要的,哪些是不重要的。与一元线性回归一样,要检验解释变量对因变量y的线性作用是否显著,要使用t检验。,用多元回归分析来分析36个员工多个心理变量值(z1z8)对员工满意度my的预测效果,测得试验数据如表7-2所示。,SPSS中实现过程,表7-2员工多个心理变量值和员工满意度数据,实现步骤,图7-7“Linear Regression”对话框(二),1、自变量与因变量的非线性关系2、非线性关系的回归方程有:(1)二次回归方程(2)倒数回归模型(3)指数回归模型(4)对数回归方程3、对数回归模型:,对数回归模型,与线性回归模型一样,主要的作用也是从自变量的数值对应变量的数值加以预测。当应变量本身是某一种情形发生的可能性是,常规的线性回归模型常常会预测出大于1或者小于0的负数。由于可能性的范围被定义在0与1的范围之内,大于1或者小于0的数值使得计算结果无法被解释。这时我们有必要使用对数模型。,1、可能性比的定义:,1.1我们可以计算知,随着p的增长,可能性之比的增长变得越来越没有规律。即可能性之比不能被直接用在应变量之中。1.2我们采用可能性比的对数logit以后发现,可能性比对数logit具有规律的对称性。从而我们有:,修正后得到:,为了更直观地去理解可能性比的对数这个概念,如可能性的对数等于0.78,我们有必要还原成可能性(百分比)。换算公式如下:,预测的企业成功可能性为68.6%,小 结,一元线性回归只涉及一个自变量的回归问题;多元线性回归用于解决两个或两个以上自变量对一个因变量的数量变化关系问题;非线性回归主要解决在非线性相关条件下,自变量对因变量的数量变化关系补充内容:时间序列的曲线回归用于研究因变量与时间之间的变化关系;当遇到非数量型变量时,通过引入虚拟变量来构造含虚拟变量的回归模型;Logistic回归分析是对定性变量进行的回归分析。,SPSS中“Analyze”/“Regression”菜单可用于回归统计分析。其中,一元线性回归、多元线性回归和含虚拟变量的回归分析可由“Linear”子菜单完成;非线性回归分析、曲线估计和时间序列的曲线估计可由“Curve Estimation”子菜单完成;逻辑回归分析可由“Binary Logistic”子菜单完成。,总结,第五章 路径分析,需要考虑的路径为,第6章 聚类分析,对于一个数据,人们既可以对变量(指标)进行分类(相当于对数据中的列分类),也可以对观测值(事件,样品)来分类(相当于对数据中的行分类)。比如学生成绩数据就可以对学生按照理科或文科成绩(或者综合考虑各科成绩)分类,当然,并不一定事先假定有多少类,完全可以按照数据本身的规律来分类。本章要介绍的分类的方法称为聚类分析(cluster analysis)。对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。这两种聚类在数学上是对称的,没有什么不同。,事先要确定分多少类:k-均值聚类,前面说过,聚类可以走着瞧,不一定事先确定有多少类;但是这里的k-均值聚类(k-means cluster,也叫快速聚类,quick cluster)却要求你先说好要分多少类。看起来有些主观,是吧!假定你说分3类,这个方法还进一步要求你事先确定3个点为“聚类种子”(SPSS软件自动为你选种子);也就是说,把这3个点作为三类中每一类的基石。然后,根据和这三个点的距离远近,把所有点分成三类。再把这三类的中心(均值)作为新的基石或种子(原来的“种子”就没用了),重新按照距离分类。如此叠代下去,直到达到停止叠代的要求(比如,各类最后变化不大了,或者叠代次数太多了)。显然,前面的聚类种子的选择并不必太认真,它们很可能最后还会分到同一类中呢。下面用饮料例的数据来做k-均值聚类。,事先不用确定分多少类:分层聚类,另一种聚类称为分层聚类或系统聚类(hierarchical cluster)。开始时,有多少点就是多少类。它第一步先把最近的两类(点)合并成一类,然后再把剩下的最近的两类合并成一类;这样下去,每次都少一类,直到最后只有一大类为止。显然,越是后来合并的类,距离就越远。再对饮料例子来实施分层聚类。,聚类要注意的问题,聚类结果主要受所选择的变量影响。如果去掉一些变量,或者增加一些变量,结果会很不同。相比之下,聚类方法的选择则不那么重要了。因此,聚类之前一定要目标明确。另外就分成多少类来说,也要有道理。只要你高兴,从分层聚类的计算机结果可以得到任何可能数量的类。但是,聚类的目的是要使各类距离尽可能的远,而类中点的距离尽可能的近,而且分类结果还要有令人信服的解释。这一点就不是数学可以解决的了。,第7章 因素(子)分析,一、因素分析的定义和数学模型二、SPSS中实现过程,因子分析是将现实生活中众多相关、重叠的信息进行合并和综合,将原始的多个变量和指标变成较少的几个综合变量和综合指标,以利于分析判定。本章介绍因子分析的定义、因子分析的数学模型,以及因子分析在SPSS中的实现过程。,因子分析是将现实生活中众多相关、重叠的信息进行合并和综合,将原始的多个变量和指标变成较少的几个综合变量和综合指标,以利于分析判定。本章介绍因子分析的定义、因子分析的数学模型,以及因子分析在SPSS中的实现过程。,1、定义:在社会、政治、经济和医学等领域的研究中往往需要对反映事物的多个变量进行大量的观察,收集大量的数据以便进行分析,寻找规律。在大多数情况下,许多变量之间存在一定的相关关系。因此,有可能用较少的综合指标分析存在于各变量中的各类信息,而各综合指标之间彼此是不相关的,代表各类信息的综合指标称为因子。因子分析就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子反映原资料的大部分信息的统计学方法。,2、因子分析有如下特点:(1)因子变量的数量远少于原有的指标变量的数量,对因子变量的分析能够减少分析中的计算工作量。(2)因子变量不是对原有变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。(3)因子变量之间不存在线性相关关系,对变量的分析比较方便。(4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。,对多变量的平面数据进行最佳综合和简化,即在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理。显然,在一个低维空间解释系统,要比在一个高维系统空间容易得多。,英国统计学家Moser Scott在1961年对英国157个城镇发展水平进行调查时,原始测量的变量有57个,而通过因子分析发现,只需要用5个新的综合变量(它们是原始变量的线性组合),就可以解释95%的原始信息。对问题的研究从57维度降低到5个维度,因此可以进行更容易的分析。,3、数学模型,4、因子分析中的几个概念1因子载荷2变量共同度3公共因子Fj的方差贡献,因子分析有两个核心问题:一是如何构造因子变量;二是如何对因子变量进行命名解释。因子分析有下面4个基本步骤。(1)确定待分析的原有若干变量是否适合于因子分析。(2)构造因子变量。(3)利用旋转使得因子变量更具有可解释性。(4)计算因子变量的得分。,5、因子分析的4个基本步骤,因子分析是从众多的原始变量中构造出少数几个具有代表意义的因子变量,这里面有一个潜在的要求,即原有变量之间要具有比较强的相关性。如果原有变量之间不存在较强的相关关系,那么就无法从中综合出能反映某些变量共同特性的少数公共因子变量来。因此,在因子分析时,需要对原有变量作相关分析。,5.1 确定待分析的原有若干变量是否适合于因子分析,最简单的方法就是计算变量之间的相关系数矩阵。如果相关系数矩阵在进行统计检验中,大部分相关系数都小于0.3,并且未通过统计检验,那么这些变量就不适合于进行因子分析。,因子分析中有多种确定因子变量的方法,如基于主成分模型的主成分分析法和基于因子分析模型的主轴因子法、极大似然法、最小二乘法等。其中基于主成分模型的主成分分析法是使用最多的因子分析方法之一。,5.2 构造因子变量,5.3 因子变量的命名解释,在实际分析工作中,主要是通过对载荷矩阵A的值进行分析,得到因子变量和原变量的关系,从而对新的因子变量进行命名。,计算因子得分是因子分析的最后一步。因子变量确定以后,对每一样本数据,希望得到它们在不同因子上的具体数据值,这些数值就是因子得分,它和原变量的得分相对应。有了因子得分,在以后的研究中,就可以针对维数少的因子得分来进行。,5.4 计算因子得分,二、SPSS中实现过程,SPSS中实现步骤,研究问题 表7-1所示为20名大学生关于价值观的9项测验结果,包括合作性、对分配的看法、行为出发点、工作投入程度、对发展机会的看法、社会地位的看法、权力距离、对职位升迁的态度、以及领导风格的偏好。,主成分分析实例不旋转,使用默认值进行最简单的主成分分析(默认为主成分分析法:Principal components)例子:对美国洛杉矶12个人口调查区的5个经济学变量的数据进行因子分析),洛衫矶对12个人口调查区的数据,编号 总人口 中等学校平均 总雇员数 专业服务 中等房价no pop 校龄School employ 项目数Services house15700 12.8 2500 270 25000 21000 10.9 600 10 10000 33400 8.8 1000 10 9000 43800 13.6 1700 140 2500054000 12.8 1600 140 25000 68200 8.3 2600 6012000 71200 11.4 400 1016000 89100 11.5 3300 6014000 99900 12.5 3400 180 18000109600 13.7 3600 390 25000119600 9.6 3300 80 12000129400 11.4 4000 100 13000,主成分分析实例不旋转,使用默认值进行最简单的主成分分析(默认为主成分分析法:Principal components)例:对美国洛杉矶12个人口调查区的5个经济学变量的数据进行因子分析)菜单:AnalyzeData ReductionFactorVariables:pop,School,employ,Services,house其他使用默认值(主成分分析法Principal components,选取特征值1,不旋转)比较有用的结果:两个主成分(因子)f1,f2及因子载荷矩阵(Component Matrix),根据该表可以写出每个原始变量(标准化值)的因子表达式:Pop0.581f1+0.806f2 School 0.767f1-0.545f2 employ 0.672f1+0.726f2 Services 0.932f1-0.104f2 house 0.791f1-0.558f2每个原始变量都可以是5个因子的线性组合,提取两个因子f1和f2,可以概括原始变量所包含信息的93.4%。f1和f2前的系数表示该因子对变量的影响程度,也称为变量在因子上的载荷。但每个因子(主成分)的系数(载荷)没有很明显的差别,所以不好命名。因此为了对因子进行命名,可以进行旋转,使系数向0和1两极分化,这就要使用选择项。,因子分析实例旋转Rotation,由于系数没有很明显的差别,所以要进行旋转(Rotation:method一般用Varimax方差最大旋转),使系数向0和1两极分化,例子同上菜单:AnalyzeData ReductionFactorVariables:pop,School,employ,Services,houseExtraction:使用默认值(method:Principal components,选取特征值1)Rotation:method选VarimaxScore:Save as variables 和Display factor score Coefficient matrix比较有用的结果:两个主成分(因子)f1,f2及旋转后的因子载荷矩阵(Rotated Component Matrix),根据该表可以写出每个原始变量(标准化值)的因子表达式:Pop 0.01602 f1+0.9946f2 School 0.941f1-0.00882f2 employ 0.137f1+0.98f2 Services 0.825f1+0.447f2 house 0.968f1-0.00605f2第一主因子对中等学校平均校龄,专业服务项目,中等房价有绝对值较大的载荷(代表一般社会福利-福利条件因子);而第二主因子对总人口和总雇员数有较大的载荷(代表人口-人口因子).比较有用的结果:因子得分fac1_1,fac2_1。其计算公式:因子得分系数和原始变量的标准化值的乘积之和。然后可以利用因子得分进行聚类(Analyze-Classify-Hierarchical Cluster)。,小 结,因子分析是由Charles Spearman在1904年首次提出,其在某种程度上可以被看成是主成分分析的推广和扩展。因子分析就是用少量几个因子来描述许多指标或因素之间的联系,以较少的几个因子反应原资料的大部分信息的统计方法。,小 结,因子分析有两个核心问题:一是如何构造变量,二是如何对因子变量命名解释。因子分析的基本步骤有四步:(1)确定带分析的原有若干变量是否适于因子分析;(2)构造因子变量;(3)利用旋转使得因子变量更具有可解释性;(4)计算因子变量得分。,小 结,选中SPSS中“Analyze”/“Data Reduction”/“Factor”子菜单可进行因子分析,应计算相应的因子得分。,谢谢观赏,