《相关测量法》PPT课件.ppt
第三讲 统计相关测量法,一、选择相关测量法需要注意三个问题,第一、变量的测量层次:定类、定序和定距。属于不同测量层次的变量,就要用不同的相关测量法。第二、变量之间关系是对称还是不对称的。有些相关测量法是假定变量与变量之间具有对称关系,有些则假定是不具有对称关系。第三、注意统计值的意义。一般选择具有消减误差比例意义的测量法,即PRE测量法。根据变量层次,有六种相关测量情况:两个定类变量两个定序变量两个定距变量一个定类变量和一个定距变量一个定类变量和一个定序变量 一个定序变量和一个定距变量,二、两个变量的相关测量法,三、两个定类变量的统计相关,1、Lambda相关测量法 Lambda相关测量法的基本逻辑是用一个定类变量来解释或预测另一个定类变量时,以众数作为解释或预测的标准,可以减除多少预测误差。Lambda相关测量法有两种形式。一种是对称形式,即两个变量间的关系是对称的,不分自变量或因变量。另一种是不对称形式,即要求一个是自变量(X),另一个是因变量(Y)。,(对称形式),(非对称形式),其中:My是Y变量的众数次数。Mx是X变量的众数次数。mx是Y变量的每个值(类别)之下X变量的众值次数。my是X变量的每个值(类别)之下X变量的众值次数。n 是全部样本数目。,表1 100名青年的人生志愿与性别的关系,资料表明性别与志愿是非对称关系,性别为自变量,志愿为因变量,二者都是定类变量,故要应用Lambda系数来计算相关情况。根据的系数公式和表1的次数资料,可知M=50,m=40+30=70,n=100,该统计量表明,以X解释或预测Y,可以消减40%的误差。,2、tauY相关测量法,测量方法 tauY系数是属于不对称相关测量法,要求两个定类变量中有一个是自变量(X),另一个是因变量(Y)。系数值在0与1之间,具有消减误差比例的意义。该方法与Lamabda不同在于计算系数时,包括所有的边缘次数和条件次数。,其中:E1为不知道X而预测Y时的全部误差,E2为知道X预测Y时的误差。n为全部个案数目,f为某条件次数,Fy为Y变量的某个边缘次数,Fx为X变量的某个边缘次数。,根据表1的研究资料。全部样本数目(n)是100。性别是自变量(X),边缘次数(Fx)分别是60和40;志愿是因变量(Y),边缘次数(Fy)分别是40、50和10。表内有六个条件次数,每者都代表同属于某项Y值与某项X值的样本数目(f)。,这个数值不但能表示性别与志愿的相关程度,而且可以解释为以性别来预测或估计志愿,能够消减22.4%的误差。由于tau-y测量法是考虑全部次数,故其敏感度高于Lambda测量法。,tauy=(58-45)/58=22.4%,四、两个定序变量的统计相关,计算一个定序变量与另一个定序变量的相关系数,可用Gamma系数,dy 系数,肯得尔的tau系数以及斯皮尔曼的rho系数。1、计算中所用的基本概念(同序对、异序对、同分对)同序对。如果某对样本在两个变量上的相对等级是相同的,则称为同序对(sameordered pair)。异序对。如果某对样本在两个变量上的相对等级是不相同的,则称为异序对(different-ordered pair)。同分对。如果两个样本在某变量上可能是同分(tie),即不能分高低,则称为同分对。,四名学生的成绩等级,A与C是同序对,因为A的数学成绩等级低于C,其英文成绩也低于C同理,B与C也是同序对至于A与B则是异序对,因为A的数学成绩等级低于B,但其英文成绩高于B同理,A与D,B与D,和C与D皆是异序对综合起来,同序对有个,异序对有个 s=2,Nd=4,2、Gamma相关测量法计算公式:Gamma系数不考虑同分对数。公式中的分母,表示在预测或解释任何一个个案的相对等级时可能的最大误差。公式中的分子,表示以一对个案在一个变量上的相对等级来预测其在另一变量上的相对等级所能减少的误差。Gamma属于对称相关测量法。3、d相关测量法 计算公式:其中Ns是同序对数,Nd是异序对数,T是只在因变量Y上同分的对数。d相关测量法属于非对称相关测量法。,G=(Ns-Nd)/(Ns+Nd),D=(Ns-Nd)/(Ns-Nd+Ty),4、肯德尔的tau系数,肯德尔的tau系数可分三种形式,分别称为tau-a,tau-b,tau-c,都是适用于分析对称的关系。其基本逻辑是计算同序对数与异序对数之差在全部可能对数中所占的比例 如何选用这三种系数呢?1、如果在两个变量上都没有同分对,则使用tau-a,该系数值是由-1+1。2、如果有同分对,且在交叉分组表行数与列数相同(即r=c)的情况下,可用tau-b,其系数值是由-1+1。3、tau-c则不考虑是否有同分对,也不考虑行数与列数是否相等,其系数值在-1+1之间。Tau-c系数适合于社会科学研究,因为社会科学研究在问卷的设计时,不一定各个问题的选项都相同,在做交叉分析时,表的大小无一定规则,同时表中常有很多同分对。,其中,Ns是同序对,Nd是异序对,n是全部个案数目,m是交互分类表的行数(r)与列数(c)中的较小者。,5、斯皮尔曼rho系数,斯皮尔曼rho系数也称等级相关系数,其特点是在计算每个个案在两个变量上的等级时,不仅要区别二者的高低差异,而且还要计算二者差异的确切数值。该方法的特点是:1、是对称相关测量法,其统计值在-1+1之间;2、该值具有消减误差比例的意义。,十个乡的经济水平与卫生水平,五、两个定距变量的相关,如果所研究的变量都属于定距测量层次,可以用简单线性回归分析法测算以自变量的数值预测或估计因变量的数值,也可以用积距相关系数来测量两个变量的相关程度。1、简单线性回归分析 简单线性回归分析就是根据一个直线方程式,以一个自变量(X)的数值来预测一个因变量(Y)的数值。这个方程式表示为:Y1=a+bX,由于实际值是Y,则预测误差便是:e=Y-Y1。将全部样本个案的各个e相加起来就是误差总数,但这样做的结果会引起正负值相抵消的问题。为了克服“正负抵消”问题,我们将e的平方值相加起来,再使之最小,这就是所谓的“最小二乘法准则”。,通过求极值得到b解:,r=,2、积距相关测量法 尽管通过b值的作用,使我们能够以X的变化来预测Y的变化。但由于b值没有上限,难以判断变量之间的相关强弱。因此需要应用皮尔逊(pearson)的积距相关系数(r),公式如下:,r系数与b系数的区别,是r系数假定X与Y的关系是对称的,而且r的统计值是由-1至+1,同时r的平方值具有消减误差的意义。这个r值,称为决定系数。,六、定类与定距、定类与定序、定序与定距 变量的相关,1、定类与定距相关比率测量法(Eta)相关比率是测量一个定类变量与一个定距变量相关关系的方法。其中定类变量为自变量(X),定距变量为因变量(Y)。相关比率就是根据自变量的每一个值来预测或估计因变量的均值。Eta系数值是由0到1,其平方值具有消减误差比例的意义。2、定类与定序Lambda,tauy系数3、定序与定距相关比率,例:语文水平与职业的关系,上表是研究20名学生的家庭职业背景(分为干部工人和农民三类对其语文能力(由0至100分)的影响.家庭职业背景是自变量,属于定类测量层次.而语文水平是因变量,属于定距测量层次,故可用Eta统计量.,六、偏相关系数,1、概念 在多元回归分析中,其他变量被固定后,给定的任意两个变量之间的相关系数,叫偏相关系数。在因果分析中,控制第三类变量以后,两个变量的相关系数也称偏相关系数。2、计算公式 偏相关系数属于对称相关测量法的一种,它要求变量间是直线关系,且所有变量都必须是定距变量。假定我们所研究的两个变量X与Y,如果控制一个变量W,则偏相关系数的计算公式如下:,公式1左边的符号表示在控制W变量以后,X与Y的净相关(下标中的小点表示控制),而公式1右边的各个r就是两个变量之间的积矩相关。分子中的第一项表示X与Y的相关程度,第二项分别表示X、Y与控制变量之间的相关关系。公式2、3表示同时控制两个或两个以上的第三变量,X与Y的净相关。如此类推,可以同时控制更多的第三类变量。公式1也称为一阶相关,公式2称为二阶相关,等等。例题4:利用偏相关系数分析27个村工业化程度与人均耕地面积和距离城市远近的关系。,27个村的工业化程度、耕地人口比例和距城远近,从理论上讲,村的工业化程度与耕地面积有较强的负相关性。如果村中人均耕地面积多,就没有迫切的需要和剩余的人力来发展工业,相反,如果地少人多,就具有发展工业的迫切性与可能性。二者的相关关系为-0.64,能够验证理论。如果考虑到村子距城镇距离远近这个因素,上述关系还存在吗?离城越近的村,在信息与市场等要素方面,更具发展工业的条件。因此需要对距城镇远近加以控制,作为进一步考察工业化程度与人均耕地面积的前提条件。计算得偏相关系数为-0.47。这个数与原相关系数比较,明显地减弱了。这说明人均耕地面积与工业化的关系,部分需要由离城远近来解释。,七、其他偏相关测量法,如果是定类变量,需要用偏Lambda或净tau-y系数来测量。该种方法就是依据控制变量的值把样本分组,然后计算各个分组的系数值的加权平均。通常是以每组的个案数目与全部样本个案数目的比例作为权数。如果是定序变量,需要用偏Gamma系数来测量。该种方法是依据控制变量的值将样本分组,然后在每组中计算同序对数(Ns)和异序对数(Nd),再把各组的“Ns-Nd”除以各组的“Ns+Nd”的总和,就是偏Gramma相关系数。例如,研究投票与选民的收入与性别的关系,控制收入因素时性别与投票之间的关系,控制性别因素时收入与投票之间的关系,相关系数与SPSS,