第十四章判别分析DiscriminantAnalysis.ppt
《第十四章判别分析DiscriminantAnalysis.ppt》由会员分享,可在线阅读,更多相关《第十四章判别分析DiscriminantAnalysis.ppt(46页珍藏版)》请在三一办公上搜索。
1、第十四章 判别分析(Discriminant Analysis),上海第二医科大学生物统计教研室,第一节 判别分析的基本概念,1.什么是判别分析 判别分析是根据观测到的某些指标对所研究的对象进行分类的一种多元统计分析方法。在医学研究中经常遇到这类问题;例如,临床上常需根据就诊者的各项症状、体征、实验室检查、病理学检查及医学影像学资料等对其作出是否有某种疾病的诊断或对几种可能患有的疾病进行鉴别诊断,有时已初步诊断为某种疾病,还需进一步作出属该类疾病中哪一种或哪一型的判断。,(1)有无某种疾病例:计算机用于胃癌普查,用于中风预报。(2)疾病的鉴别诊断例:计算机用于对肺癌,肺结核和肺炎进行鉴别诊断。
2、(3)患有某疾病中的哪一种或哪一型例:鉴别诊断单纯性或绞窄性肠梗阻。鉴别诊断阑尾炎中的卡他性,蜂窝织炎,坏疽性和腹膜炎。,用一个实例来说明判别分析的基本思想,2.判别分析步骤 欲用显微分光光度计对病人细胞进行检查以判断病人是否患有癌症。(1)根据研究目的确定研究对象(样本)及所用指标例:110例癌症病人和190例正常人。指标:X1,X2和X3。X1:三倍体的得分,X2:八倍体的得分,X3:不整倍体的得分。(0-10分),(2)收集数据,得到训练样本 对于若干已明确诊断为癌症的110个病人和无癌症的190个正常人均用显微分光光度计对细胞进行检测,得到X1,X2和X3的值。这就是训练样本。例号 X
3、1 X2 X3 Y(类别)1 1 2 2 0 2 2 5 6 1。300 3 3 3 0,(3)用判别分析方法得到判别函数 根据实测资料(训练样本)用判别分析方法可建立判别函数,本例用Fisher判别分析方法得到:Y=X1+10X2+10X3 并确定判别准则为:如有某病人的X1,X2,X3实测值,代入上述判别函数可得Y值,Y100则判断为癌症,Y100则判断为非癌症。,(4)考核 该判别函数是否有实用价值还需要进行考核;如考核的结果,其诊断符合率达到临床要求则可应用于实践。回顾性考核(组内考核)前瞻性考核(组外考核)得到总符合率,特异性,敏感性,假阳性率和假阴性率。,(5)实际应用 未知类别样
4、品的判别归类。如有某病人,用显微分光光度计对其细胞进行检测,得到X1,X2和X3的值。将X1,X2,X3值,代入判别函数 Y=X1+10X2+10X3;可得Y值,Y100则判断为癌症,Y100则判断为非癌症。,判别分析的一般步骤,判别分析通常都要建立一个判别函数,然后利用此判别函数来进行判别。为了建立判别函数就必须有一个训练样本。判别分析的任务就是向这份样本学习,学出判断类别的规则,并作多方考核。训练样本的质量与数量至为重要。每一个体所属类别必须用“金标准”予以确认;解释变量(简称为变量或指标)X1,X2,Xp必须确实与分类有关;个体的观察值必须准确;个体的数目必须足够多。,训练样本的数据内容
5、与符号 解释变量个体号 类别变量(Y)X1 X2 Xj XP 1 X11 X12 X1j X1P y1 2 X22 X22 X2j X2P y2 i Xi1 Xi2 Xij XiP y3 n Xn1 Xn2 Xnj XnP yP,判别分析常用方法,(1)最大似然法 该法是建立在概率论中独立事件乘法定律的基础上,适用于各指标是定性的或半定量的情况。(2)Fisher判别分析 用于两类或两类以上间判别,但常用于两类间判别,上例中应用的就是Fisher判别分析方法。(3)Bayes判别分析 用于两类或两类以上间判别,要求各类内指标服从多元正态分布。,(4)逐步判别分析 建立在Bayes判别分析基础上
6、,它象逐步回归分析一样,可以在众多指标中挑选一些有显著作用的指标来建立一个判别函数,使方程内的指标都有显著的判别作用而方程外的指标作用都不显著。(5)logistic判别 常用于两类间判别。它不要求多元正态分布的假设,故可用于各指标为两值变量或半定量的情况。,第二节 Bayes判别分析,(一).Bayes准则 设有定义明确的g个总体1,2,g,分别为X1,X2,Xp的多元正态分布。对于任何一个个体,若已知p个变量的观察值,要求判断该个体最可能属于哪一个总体。如果我们制订了一个判别分类规则,难免会发生错分现象。把实属第i类的个体错分到第j类的概率记为P(ji),这种错分造成的损失记为C(ji)。
7、Bayes判别准则就是平均损失最小的准则。按照这个准则去找一种判别分类的规则,就是Bayes判别。,(二).分类函数(g个类别,p个指标)Bayes准则下判别分析的分类函数形式如下:Y1=C01+C11X1+C21X2+Cp1Xp Y2=C02+C12X1+C22X2+Cp2Xp Yg=C0g+C1gX1+C2gX2+CpgXp,即g个线性函数的联立方程,每个线性函数对应于某一类别。其中C0j,C1j,Cpj,(j=1,2,g)为需估计的参数。用SAS的DISCRIM过程可得到这些参数的估计值。判别函数建立后通常的判别准则为:如欲判断某样品属于上述g类中的哪一类,可将该样品的各Xi值代入式(1
8、7.1)中的各个方程,分别算出Y1,Y2,Yg等值。其中如Yf为最大则意味着该样品属第f类的概率最大,故判它属于第f类。,事前概率(prior probability)又称先验概率。如在所研究的总体中任取一个样品,该样品属于第f类别的概率为q(yf),则称它为类别f的事前概率。例如,阑尾炎病人总体中卡他性占50,蜂窝织炎占30,坏疽性占10,腹膜炎占10;则在该总体中任取一个阑尾炎病人,该病人属于以上四型的概率分别为0.5,0.3,0.1和0.1,它们也分别是这四类的事前概率。,(三).事前概率,考虑事前概率时,判别函数如下式:,Y1=C01+C11X1+C21X2+Cp1Xp+ln(q(Y1
9、)Y2=C02+C12X1+C22X2+Cp2Xp+ln(q(Y2)Yg=C0g+C1gX1+C2gX2+CpgXp+ln(q(Yg)差别仅仅在于ln(q(Yj)项,考虑事前概率可适当提高判别的敏感性。事前概率可据于文献报道或以往的大样本研究。但是困难在于事前概率往往不容易知道;如果训练样本是从所研究的总体中随机抽取的,则可用训练样本中各类的发生频率Q(Yj)来估计各类别的事前概率q(Yj)。如果事前概率未知,而又不可以用Q(Yj)来估计q(Yj),就只能将事前概率取为相等值,即取q(Yj)=1/g。,(四).事后概率,事后概率(posterior probability)又称后验概率。如果已
10、知某样品各个指标Xi的观察值为Si,则在该条件下,样品属于Yj类别的概率P(Yj/S1,S2,SP)称为事后概率。事后概率和指标的值有关。引入事后概率后,可用事后概率来描述某样品属于Yj类别的概率。这就使得判别的可靠性有一个数量的指标。,例:A1,A2,A3的事后概率为0.95,0.03和0.02 判为A1类的可靠性好。A1,A2,A3的事后概率为0.40,0.30和0.30 判为A1类的可靠性差。如欲判别某样品属于哪个类别时,可据样品各指标的取值S1,S2,SP代入判别函数,求得各类别之Y值,即Y1,Y2,Yg。,事后概率的计算公式为:,仅凭哪一个事后概率为最大,就判为那一类别有时是不够的。
11、例如某样品属于三个类别的事后概率分别为0.95,0.03,0.02,则判为第一类的可靠性就较大。但如果三个事后概率分别为0.4,0.3,0.3。再判为第一类的可靠性就较差了。与临床上诊断相类似,当对某病员的诊断把握不大时,常定为可疑或待查等。SAS的Discrim过程中可以定义一个事后概率p的临界值,当各类别最大的事后概率大于此值时,就作出判别归类,否则将被判为other类,相当于可疑或待查。,例 某医院眼科研究糖尿病患者的视网膜病变情况,视网膜病变分轻、中、重三型。研究者用年龄(age)、患糖尿病年数(time)、血糖水平(glucose)、视力(vision)、视网膜电图中的a波峰时(at
12、)、a波振幅(av)、b波峰时(bt)、b波振幅(bv)、qp波峰时(qpt)及qp波振幅(qpv)等指标建立判别视网膜病变的分类函数,以判断糖尿病患者的视网膜病变属于轻、中、重中哪一型。,观察131例糖尿病患者,要求其患眼无其他明显眼前段疾患,眼底无明显其他视网膜 疾病和视神经、葡萄膜等疾患,测定了他们的以上各指标值,并根据统一标准诊断其疾患类型,记分类指标名为group。见表14.2。(表中仅列出前5例)。试以此为训练样本,仅取age,vision,at,bv和qpv 5项指标,求分类函数,并根据王的信息:38岁,视力1.0,视网膜电图at=14.25,bv=383.39,qpv=43.1
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第十四 判别分析 DiscriminantAnalysis

链接地址:https://www.31ppt.com/p-4826238.html