生物医学研究的统计方法之十七判别分析.ppt
《生物医学研究的统计方法之十七判别分析.ppt》由会员分享,可在线阅读,更多相关《生物医学研究的统计方法之十七判别分析.ppt(67页珍藏版)》请在三一办公上搜索。
1、2023/10/16,厚德载物 自强不息,1,生物医学研究的统计方法之十七判别分析Discriminant Analysis,2023/10/16,厚德载物 自强不息,2,判别分析的基本概念,什么是判别分析判别分析是根据观测到的某些指标对所研究的对象进行分类的一种多元统计分析方法。在医学研究中经常遇到这类问题;例如,临床上常需根据就诊者的各项症状、体征、实验室检查、病理学检查及医学影像学资料等对其作出是否有某种疾病的诊断或对几种可能患有的疾病进行鉴别诊断,有时已初步诊断为某种疾病,还需进一步作出属该类疾病中哪一种或哪一型的判断。,2023/10/16,厚德载物 自强不息,3,(1)有无某种疾病
2、例:计算机用于胃癌普查,用于中风预报。(2)疾病的鉴别诊断例:计算机用于对肺癌,肺结核和肺炎进行鉴别诊断。(3)患有某疾病中的哪一种或哪一型例:鉴别诊断单纯性或绞窄性肠梗阻。鉴别诊断阑尾炎中的卡他性,蜂窝织炎,坏疽性和腹膜炎。,2023/10/16,厚德载物 自强不息,4,用一个实例来说明判别分析的基本思想,2.判别分析步骤 欲用显微分光光度计对病人细胞进行检查以判断病人是否患有癌症。(1)根据研究目的确定研究对象(样本)及所用指标例:110例癌症病人和190例正常人。指标:X1,X2和X3。X1:三倍体的得分,X2:八倍体的得分,X3:非整倍体的得分。(0-10分),2023/10/16,厚
3、德载物 自强不息,5,(2)收集数据,得到训练样本 对于若干已明确诊断为癌症的110个病人和无癌症的190个正常人均用显微分光光度计对细胞进行检测,得到X1,X2和X3的值。这就是训练样本。例号 X1 X2 X3 Y(类别)1 1 2 2 0 2 2 5 6 1。300 3 3 3 0,2023/10/16,厚德载物 自强不息,6,(3)用判别分析方法得到判别函数 根据实测资料(训练样本)用判别分析方法可建立判别函数,本例用Fisher判别分析方法得到:Y=a1X1+a2X2+a3X3,找到界线C,YC为是Y=X1+10X2+10X3 并确定判别准则为:如有某病人的X1,X2,X3实测值,代入
4、上述判别函数可得Y值,Y100则判断为癌症,Y100则判断为非癌症。,2023/10/16,厚德载物 自强不息,7,(4)考核 该判别函数是否有实用价值还需要进行考核;如考核的结果,其诊断符合率达到临床要求则可应用于实践。回顾性考核(组内考核)前瞻性考核(组外考核)得到总符合率,特异性,敏感性,假阳性率和假阴性率。,2023/10/16,厚德载物 自强不息,8,(5)实际应用 未知类别样品的判别归类。如有某病人,用显微分光光度计对其细胞进行检测,得到X1,X2和X3的值。将X1,X2,X3值,代入判别函数 Y=X1+10X2+10X3;可得Y值,Y100则判断为癌症,Y100则判断为非癌症。,
5、2023/10/16,厚德载物 自强不息,9,判别分析的一般步骤,2023/10/16,厚德载物 自强不息,10,判别分析通常都要建立一个判别函数,然后利用此判别函数来进行判别。为了建立判别函数就必须有一个训练样本。判别分析的任务就是向这份样本学习,学出判断类别的规则,并作多方考核。训练样本的质量与数量至为重要。每一个体所属类别必须用“金标准”予以确认;解释变量(简称为变量或指标)X1,X2,Xp必须确实与分类有关;个体的观察值必须准确;个体的数目必须足够多。,2023/10/16,厚德载物 自强不息,11,训练样本的数据内容与符号 解释变量个体号 类别变量(Y)X1 X2 Xj XP 1 X
6、11 X12 X1j X1P y1 2 X22 X22 X2j X2P y2 i Xi1 Xi2 Xij XiP y3 n Xn1 Xn2 Xnj XnP yP,2023/10/16,厚德载物 自强不息,12,判别分析常用方法,(1)最大似然法 该法是建立在概率论中独立事件乘法定律的基础上,适用于各指标是定性的或半定量的情况。(2)Fisher判别分析 用于两类或两类以上间判别,但常用于两类间判别,上例中应用的就是Fisher判别分析方法。(3)Bayes判别分析 用于两类或两类以上间判别,要求各类内指标服从多元正态分布。,2023/10/16,厚德载物 自强不息,13,(4)逐步判别分析 建
7、立在Bayes判别分析基础上,它象逐步回归分析一样,可以在众多指标中挑选一些有显著作用的指标来建立一个判别函数,使方程内的指标都有显著的判别作用而方程外的指标作用都不显著。(5)logistic判别 常用于两类间判别。它不要求多元正态分布的假设,故可用于各指标为两值变量或半定量的情况。,2023/10/16,厚德载物 自强不息,14,判别分析建模的方法,根据自变量(x)资料性质:自变量(x)为计量数据:Fisher判别、Bayes判别(SPSS、SAS统计软件可实现)。自变量(x)为定性数据:最大似然判别法、Bayes公式判别。,2023/10/16,厚德载物 自强不息,15,Fisher判别
8、两类判别,Fisher判别(典则判别 canonical discriminant)用已知类别(A或B)研究对象的x1,x2 xm指标,建立判别方程(z):方程中系数c为判别系数,c1,c2 cm,,2023/10/16,厚德载物 自强不息,16,Fisher判别的原理,正常人,冠心病人,z1,z2,Z,2023/10/16,厚德载物 自强不息,17,Fisher方差分析的思想,准则:寻找组间变异(类间均数)/组内变异的比值最大化.,英国统计学家FisherR A 爵士(18901962),2023/10/16,厚德载物 自强不息,18,通过解下列距阵得到判别系数(c),Sij为第i指标和第j
9、个指标的合并协方差,类间均数差值,2023/10/16,厚德载物 自强不息,19,2.建立判别规则和判别值(Zc),判为A类判为B类判为任意一类,2023/10/16,厚德载物 自强不息,20,两类疾病 22例患者三项指标观察结果,编号 类别(y)x1 x2 x31 A 23 8 0 2 A-1 9-2 3 A-10 5 013 B 9-5 114 B 2-1-1 15 B 17-6-1,2023/10/16,厚德载物 自强不息,21,计算步骤:1.计算各类均数和合并(A、B)的协方差距阵(S),2023/10/16,厚德载物 自强不息,22,变量的合并方差和协方差,2023/10/16,厚德
10、载物 自强不息,23,2.解正规方程得出判别系数C,类间均数差值,2023/10/16,厚德载物 自强不息,24,3.计算判别界值Zc,将各类每个个体的变量值代入判别方程,得到zi,得到zA和zB的均数.,预测:某病人测定了x1、x2、x3值,代入方程z,计算的z-0.004,为A类。,2023/10/16,厚德载物 自强不息,25,例:表18-1两类疾病 22例患者三项指标预测结果,类别 x1 x2 x3 z值 判别结果A 23 8 0 0.19 AA-1 9-2 2.73 AA-10 5 0 1.83 AB 9-5 1-2.07 B B 2-1-1-0.05 AB 17-6-1-2.22
11、B,z-0.004,为A类,2023/10/16,厚德载物 自强不息,26,二、判别效果的评价,用误判率评价:,2023/10/16,厚德载物 自强不息,27,资料回顾性判别效果评价,原分类 判别分类 A B 合计A 10 2 12B 2 8 10合计 12 10 22第A类误判率=2/12=16.6%第B类误判率=2/10=20.0%方程总误判率=4/22=18.2%,2023/10/16,厚德载物 自强不息,28,目前判别分析效果评价方法,1.回顾性评价:将原始数据带入判别方程得误判率评价.2.前瞻性:将原始数据分为0.85(训练样本)建立判别方程和0.15(验证样本).计算误判率(要求例
12、数较多)。3.误判率总误判率低于0.2,认为判别函数可用.,2023/10/16,厚德载物 自强不息,29,例:世界经济统计研究(1995年)人文指数 反映国家综合水平,2023/10/16,厚德载物 自强不息,30,Bayes判别分析,(一).Bayes准则 设有定义明确的g个总体1,2,g,分别为X1,X2,Xp的多元正态分布。对于任何一个个体,若已知p个变量的观察值,要求判断该个体最可能属于哪一个总体。如果我们制订了一个判别分类规则,难免会发生错分现象。把实属第i类的个体错分到第j类的概率记为P(ji),这种错分造成的损失记为C(ji)。Bayes判别准则就是平均损失最小的准则。按照这个
13、准则去找一种判别分类的规则,就是Bayes判别。,2023/10/16,厚德载物 自强不息,31,(二).分类函数(g个类别,p个指标)Bayes准则下判别分析的分类函数形式如下:Y1=C01+C11X1+C21X2+Cp1Xp Y2=C02+C12X1+C22X2+Cp2Xp Yg=C0g+C1gX1+C2gX2+CpgXp,2023/10/16,厚德载物 自强不息,32,即g个线性函数的联立方程,每个线性函数对应于某一类别。其中C0j,C1j,Cpj,(j=1,2,g)为需估计的参数。判别函数建立后通常的判别准则为:如欲判断某样品属于上述g类中的哪一类,可将该样品的各Xi值代上式中的各个方
14、程,分别算出Y1,Y2,Yg等值。其中如Yf为最大则意味着该样品属第f类的概率最大,故判它属于第f类。,2023/10/16,厚德载物 自强不息,33,事前概率(prior probability)又称先验概率。如在所研究的总体中任取一个样品,该样品属于第f类别的概率为q(yf),则称它为类别f的事前概率。例如,阑尾炎病人总体中卡他性占50,蜂窝织炎占30,坏疽性占10,腹膜炎占10;则在该总体中任取一个阑尾炎病人,该病人属于以上四型的概率分别为0.5,0.3,0.1和0.1,它们也分别是这四类的事前概率。,(三).事前概率,2023/10/16,厚德载物 自强不息,34,考虑事前概率时,判别
15、函数如下式:,Y1=C01+C11X1+C21X2+Cp1Xp+ln(q(Y1)Y2=C02+C12X1+C22X2+Cp2Xp+ln(q(Y2)Yg=C0g+C1gX1+C2gX2+CpgXp+ln(q(Yg)差别仅仅在于ln(q(Yj)项,2023/10/16,厚德载物 自强不息,35,考虑事前概率可适当提高判别的敏感性。事前概率可据于文献报道或以往的大样本研究。但是困难在于事前概率往往不容易知道;如果训练样本是从所研究的总体中随机抽取的,则可用训练样本中各类的发生频率Q(Yj)来估计各类别的事前概率q(Yj)。如果事前概率未知,而又不可以用Q(Yj)来估计q(Yj),就只能将事前概率取为
16、相等值,即取q(Yj)=1/g。,2023/10/16,厚德载物 自强不息,36,(四).事后概率,事后概率(posterior probability)又称后验概率。如果已知某样品各个指标Xi的观察值为Si,则在该条件下,样品属于Yj类别的概率P(Yj/S1,S2,SP)称为事后概率。事后概率和指标的值有关。引入事后概率后,可用事后概率来描述某样品属于Yj类别的概率。这就使得判别的可靠性有一个数量的指标。,2023/10/16,厚德载物 自强不息,37,例:A1,A2,A3的事后概率为0.95,0.03和0.02 判为A1类的可靠性好。A1,A2,A3的事后概率为0.40,0.30和0.30
17、 判为A1类的可靠性差。如欲判别某样品属于哪个类别时,可据样品各指标的取值S1,S2,SP代入判别函数,求得各类别之Y值,即Y1,Y2,Yg。,2023/10/16,厚德载物 自强不息,38,事后概率的计算公式为:,2023/10/16,厚德载物 自强不息,39,2023/10/16,厚德载物 自强不息,40,仅凭哪一个事后概率为最大,就判为那一类别有时是不够的。例如某样品属于三个类别的事后概率分别为0.95,0.03,0.02,则判为第一类的可靠性就较大。但如果三个事后概率分别为0.4,0.3,0.3。再判为第一类的可靠性就较差了。与临床上诊断相类似,当对某病员的诊断把握不大时,常定为可疑或
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物医学 研究 统计 方法 十七 判别分析

链接地址:https://www.31ppt.com/p-6316534.html