医学统计学两指标间的相关分析.ppt
1/53,两指标间的关系分析,Linear correlation线性相关,2/54,内容,相关关系与确定性关系定量资料的相关定性资料的相关等级资料的相关相关分析的正确应用,3/54,10.1 相关关系与确定性关系,确定性关系:两变量间的函数关系 圆的周长与半径的关系:C2R X与Y的函数关系:Ya+bX 非确定性关系:两变量在宏观上存在关系,但并未精确到可以用函数关系来表达。收入与消费的关系;青少年身高与体重的关系;,4/54,当一个变量增大,另一个也随之增大(或减少),称这种现象为共变,或相关(correlation)。两个变量有共变现象,称为有相关关系。相关关系不一定是因果关系。反映两定量指标间的直线相关关系用 Pearson 相关系数。(Pearson correlation coefficient),10.2 定量资料的相关,5/54,相关关系示意图,6/54,散点图中点的基本情况:1.正相关(positive correlation)Y随X的增加而增加,X随Y的增加而增加;2.负相关(negative correlation)Y随X的增加而减少,X随Y的增加而减少。3.无相关(zero correlation)无论X增加还是减少,Y不受影响,反之,X也不受Y的影响。4.非线性相关(nonlinear correlation),7/54,直线相关系数(coefficient correlation)说明具有直线关系的两个变量间相关相关方向和密切程度的统计量。又称为积差相关系数(coefficient of product-moment correlation),Pearson相关系数。样本来源于正态总体。总体相关系数用希腊字母 表示,而样本相关系数用 r 表示。,8/54,Pearson相关系数的计算,X 的离均差平方和:Y 的离均差平方和:X与Y 间的离均差积和:,10/54,离均差平方和、离均差积和的展开:,11/54,相关系数的特点:(1)相关系数r是一个无量纲的数值,-1r1;(2)符号表示相关的方向:r0为正相关,r0为负相关,r=0为无线性关系;(3)r的绝对值表示相关的密切程度:绝对值越接近于1,相关性越好;绝对值越接近于0,相关性越差。,12/54,例10.1 10名3岁男童体重与体表面积的关系,编号 体重(X,kg)体表面积(Y,103cm2)111.05.283211.85.299312.05.358412.35.292513.15.602613.76.014714.45.830814.96.102915.26.075 1016.06.411 合计133.457.266,13/54,分析步骤,1、散点图2、计算相关系数计算3、相关系数的假设检验,14/54,10名3岁男童体重与体表面积散点图,体重/kg X,体表面积Y/103cm2,15/54,例10.1资料相关系数的计算,16/54,17/54,10.2.2 相关系数的假设检验,H 0:0,体重与体表面积无相关关系;H 1:0,体重与体表面积有相关关系。=0.05t 服从自由度为 n-2 的 t 分布。,18/54,例10.1资料相关系数的假设检验,自由度:v102,P0.001拒绝 H0,接受 H1。可以认为3岁男童体重与体表面积之间有强的 正的 线性的 相关关系。,19/54,10.2.3 总体相关系数的区间估计,相关系数 分布相关系数=0 样本相关系数的分布是对称的,当样本含量较大时,近似正态分布 相关系数不等于0 样本相关系数的分布是偏态,=0,=-0.8,=0.8,z,z,z,21/54,z变换(双曲正切变换),R.A.Fisher(1921)提出的,其反变换,z值 的分布变换值 z 近似服从均数为标准差为 的正态分布将相关系数 r 变换为 z 值,并按正态分布原理估计 z 的 100(1-)%的可信限,然后再进行反变换,求出的可信区间,23/54,以例10.1数据为例,试计算总体相关系数 的95%及99%可信区间,z的95%可信区间:1.91981.960.3780=(1.1789,2.6607)z的99%可信区间:1.91982.580.3780=(0.9446,2.8950),24/54,的95%可信区间:0.82710.9903的99%可信区间:0.73730.9939,25/54,10.2.4 两样本相关系数的比较,例10.3 某医院分别测定正常成年男子12人和正常成年女子12人的心率(X,次/分)与心脏左室电机械收缩时间QS(Y,毫秒)的数据见表10.2,试比较男子和女子的心率(次/分)与心脏左室电机械收缩时间QS(毫秒)的相关是否相同。,表10.2 24名成年男女的心率(X)与收缩时间(Y),27/54,分析思路,分析男、女心率与机械收缩时间是否有关散点图相关系数相关系数假设检验(?)比较两相关系数是否相同,28/54,(1)散点图,男,女,29/54,(2)分别计算两样本相关系数r,男性女性,30/54,(3)对两相关系数进行假设检验,统计量,男女,31/54,=12-2=10,则P10.001,P20.001。故可以认为无论男子和女子,其心率与心脏左室电机械收缩时间均呈负相关关系。,32/54,(4)比较两总体相关系数是否相等,H0:男子心率与心脏左室电机械收缩时间的相关与女子的相等,12;H1:男子心率与心脏左室电机械收缩时间的相关与女子的不等,12。=0.10。,作z变换,然后对z值进行分析,33/54,34/54,35/54,P0.20,故尚不能认为男子和女子的心率与心脏左室电机械收缩时间间的相关系数不等。,36/54,10.3 定性资料的相关,列联系数contingency coefficient,37/54,10.3.1 四格表的列联系数,甲法乙法 a b c d-1 rn+1,38/54,例10.4 两种方法观察舌象结果的相关性,某中医师采用两种方法观察舌象200例,观察结果如下,试分析两种观察方法的结果有无联系?甲法 乙法 84(a)16(b)20(c)80(d),39/54,10.3.2 列联表的列联系数,Cramr修正列联系数 rC:R,C分别是列联表的行数和列数。2是列 联表的2检验的2 值。0 rC 1,40/54,例10.5 两种血型系统的相关性,ABO MN血型 血型 MNMN 合计O4314909021823A3884108001598B4955879502032AB137179325641 合计1451166629776094,某人按两种血型系统统计某地6094人的血型分布,结果见表10.5,问两种血型的分布间有无关系?,41/54,构成比的检验:H0:不同的ABO血型,其MN的血型构成相同;H1:不同的ABO血型,其MN的血型构成不同;自由度(4-1)(3-1)6,P0.1979。,42/54,2为列联表的2。,43/54,列联系数的假设检验,等价于四个表卡方检验和列联表的构成比的假设检验。,44/54,10.4 等级资料的相关(rank correlation),Spearman等级相关将各变量X,Y分别编秩RX,RY;计算RX与RY的Pearson相关;10.12所得结果即为Spearman等级相关rs。-1rs1,45/54,例10.6 抗白指数与临床疗效的关系,某研究所用野百合治疗白血病,并作抗白血病指数(简称抗白指数)及疗效的分析,问抗白指数与临床疗效间有无关系?病例号 抗白指数X 临床疗效Y(1)(2)12+23+39+410+511+630735845955+1070+11881290,RX(3)123456789101112,RY(4)99911.511.53336.56.533,46/54,等级相关的假设检验,H 0:S0,抗白指数与疗效无相关关系;H 1:S0,抗白指数与疗效有相关关系。=0.05。当n50时,用查“等级相关界值表”;当n50时,用 t 检验:t 服从自由度为n-2的 t 分布。,47/54,例10.6资料的假设检验,本例 n=12,查界值表15,得:rs(0.05/2,12)=0.587即,若 H0 成立,则等级相关系数有95%的可能在(-0.587,0.587)之间。现 rs=-0.6894,故 P 0.05。可以认为,抗白指数与疗效有等级相关关系。,48/54,例10.7 母亲文化程度与儿童智商的关系,母亲文化程度 儿童智商等级(Y)合计(X)中下 中等 中上 上等 小学 22 81 30 3 136 初中 57 236 135 26 454高中或中专 11 112 105 17 245大专及以上 1 4 10 7 22 合计 91 433 280 53 857,X的秩次范围,x的平均秩次,1136 68.5137590 363.5591835 713836835 857,rs=0.2261,y的秩次范围 191 92524 525804 805857y的平均秩次 46 308 664.5 831,49/54,大样本时的等级相关检验,本例 n=857,大于50,用 t 检验:P0.01。可以认为,母亲文化程度与儿童智商等级间存在相关关系,母亲文化程度越高,儿童智商等级亦高。,50/54,等级相关的含义,等级相关反映的是两变量等级间的相关,并不反映两变量间的数值关系。,例1 XY1122334455,例2 XY112439416525,例3XY1121.131.241.351.4,例4XY11210310041000510000,51/54,相关分析的正确应用(1),相关关系是一种共变关系,不一定是因果关系;定量资料在进行相关分析(Pearson相关)前,需作散点图,从散点图的趋势判断是否可以作线性相关分析;,52/54,相关分析的正确应用(1),识别离群值;,P,Q,图10.5 离群值对相关的影响,53/54,相关分析的正确应用(2),排除资料的间杂性。,(a),(b),样本甲观察点 样本乙观察点,图10.6 样本的间杂性对相关性的误导,