数学建模课件-多变量分析.ppt

上传人：小飞机

文档编号：5738359

上传时间：2023-08-15

格式：PPT

页数：117

大小：865KB

《数学建模课件-多变量分析.ppt》由会员分享，可在线阅读，更多相关《数学建模课件-多变量分析.ppt（117页珍藏版）》请在三一办公上搜索。

1、第七章多变量分析,（聚类分析、判别分析）,内容背景,1、拼音输入法的数学原理亚洲语言及所有非罗马的语言的计算机输入原本是个问题。26个字母，10个数字外加一些控制键：自然音节编码-偏傍笔划拆字-自然音节输入（螺旋升华过程）汉字编码=拼音编码+消除歧义性编码香农第一定律：任何编码的长度都不会小于它的信息熵。理论上，输入一个汉字平均敲键1.3次(安装非常大的语言模型)2、新闻分类与定理为了让计算机“算”新闻，要求把文字变成可以计算的一组数字，然后再设计一个算法来算出任意两篇新闻的相似性。词是信息的载体同一类新闻用词都是相似的，不同类新闻用词各不相同。实词TF-IDF值的向量，计算向量间的夹角余弦

2、,第一部分聚类分析,人们认识自然界的一种方法是对事物进行分类。聚类分析起源于分类学。当观察指标较少时，人们主要依靠经验和专业知识来实现分类，但当观察指标较多时，有时仅凭经验和专业知识难以确切地分类，于是人们逐渐把数学工具引入到分类学中，形成了数值分类学。之后又将多元统计分析技术引入数值分类学形成了聚类分析。聚类分析讨论的对象是大量的样品，在没有任何先验知识的情况下，要求能合理地按各自的特性来进行合理的分类。,一、聚类分析的基本概念,聚类分析又称群分析，是根据“物以类聚”的道理，对样品或指标进行分类的一种统计方法。聚类分析根据客观的需要分为两类：Q型：对样品聚类。例如根据疾病的多种临床特点把某

3、病分为轻型、一般型和重型等，这是对病人分类。R型：对变量(观察指标)聚类。例如儿童生长发育研究中把形态指标归为一类，把机能类指标归为一类。,Q型聚类分析的优点,1、综合利用多个信息对样本的进行分类。根据被观测样品的各种特征，将特征相似的样品归并为一类；2、分类结果是直观的。聚类谱系图非常清楚地表现其数值分类结果；3、聚类分析所得到的结果比传统分类方法更细致、全面、合理。,R型聚类分析的主要作用,1、根据被观测的指标之间的相似性，将相似的指标归并为一类；2、根据指标的分类结果以及它们之间的关系，可以选择主要指标进行回归分析或Q型聚类分析。,二、聚类分析中需要的统计量,聚类分析的核心是要提出一种能

4、客观描述研究对象之间相似程度大小的统计量以作为分类的基础，常用的统计量有：1、距离系数：是将每一个样品看做m维空间的点，并在空间定义某种距离，距离较近的点归为一类，距离较远的点应属于不同一类，距离的定义方式有各种各样。常见的距离有：绝对值距离欧氏距离明科夫斯基距离切比雪夫距离 2、相似系数：用某种相似关系来描述样品之间的相关程度，性质越相似的样品归为一类，不怎么相似的样品归为不同一类。,三、距离系数的计算公式,绝对值距离（Block）：欧几里德距离（Euclidean distance）：明科夫斯基距离（Minkowski）：切比雪夫距离（Chebychev）：距离系数的定义直观，容易理

5、解和计算，在实际中应用很广。一般常用于样品的聚类（Q型聚类分析）。,距离系数存在两个缺点：,1.它与各观察指标的量纲有关。受取值大的观察指标影响较大，克服的方法是对原始数据进行变换处理。（）中心变换）标准差标准化 2.由于是直角坐标系上的距离，没有考虑指标之间的相关性。,四、相似系数的计算公式,用某种相似关系来描述样品之间的相关程度，性质越近的样品归为一类，不怎么相似的样品归为不同一类。常用的相似系数有：（）夹角余弦(Cosine)：它是受空间解析几何中向量的启发，它的定义是：（）相关系数(Pearson correlation)：这是回归分析中经常使用的，它的定义是：,五、聚类分析的常用分类

6、方法,本节只介绍较常用的系统聚类法（阶梯聚类法Hierarchical cluster）和动态聚类法（快速聚类法K-Means Cluster），其它聚类方法请见有关参考资料。,1、系统聚类法,基本思想：先将几个样品各自看成一类，选择相似程度最大的（距离系数最小或相关系数最大）样品对作为一类，然后选择相似程度次大的样品对作归类，如此续继，直到所有的样品都成一类为止，将整个聚类过程作成聚类图，按聚类选择适当的分类。,系统聚类法包含以下几个步骤,（1）先把各个分类对象单独视为一类；（2）计算各个分类对象两两之间的距离，得到最初的距离矩阵；（3）根据距离最小的原则，将距离最近（最远）的两类合并为一

7、个新类；（4）计算新类与剩下各类两两之间的距离，若类的个数为1，转到步骤（5），否则回到步骤（3）；（5）画聚类图；（6）决定类的个数和样品所属的类别。,例题1,某小学10名9岁男生六个项目的智力测验得分如下表，用聚类分析方法对这10名小学生按智力状况进行分类。,解：这是一个Q型聚类的问题。我们采用距离系数作为聚类用的统计量，并用系统聚类法进行聚类。由于智力测验各项目之间的数值差别不大，故直接用欧几里德距离进行分类。利用距离公式，计算出各个学生之间的距离系数如下：,表中间部分是样本之间的欧几里德距离系数,类与类之间距离的计算方法,类Gp与类Gq的距离用Dpq表示。(1)最短距离法：(2)最短距

8、离法：(3)中间距离法：新类Gk的距离用Dk表示。(4)重心法：从物理的观点看，一个类用神经质重心作代表比较合理，类与类之间用重心之间的距离来表示。,例题1，用最短距离法计算的类与类之间的距离系数,聚类树枝图,根据实际的应用，把这里10名男学生的智力分为三类似乎比较合理：第一类为智力优异型，包括一个样品（样品7）；第二类为智力发达型，包括8个样品（样品2，1，3，5，6，8，10，9）；第三类为智力欠发达型，包括一个样品（样品4）。,例2：今测得我国27个少数民族16岁男孩身高、坐高、体重、胸围、肩宽与骨盆宽6个指标如下表，今进行种族聚类分析，以探讨我国少数民族儿童体型分类与人类学特征关系。解

9、：本例对各样品聚类，为Q型聚类分析。采用欧氏距离为聚类统计量，新类与另一类之间的类间合并递推计算采用最短距离法。,首先对数据作正态标准化。结果如下表：,采用欧氏距离为聚类统计量，新类与另一类之间的类间合并递推计算采用最短距离法。,聚类的过程用SPSS统计软件处理得到用树枝图(dendrogram),例题3,某医院36个月的六诊人次、出院人数、病床利用率、病床同转次数、平均住院次数、治疗好转率、病死率、诊断符合率、抢救成功率现业务收入共10个指标的原始数据（见表5）。拟进行聚类分析，找出各类的主要指标，进一步探讨各指标与业务收入的关系。,解：本例拟对各指标聚类，为型分析。,聚类统计量用相似系数，

10、而聚类的方法用系统聚类法,根据聚类过程分析，相似系数的变化有3台阶,实例:计算机辅助分析四物汤补血作用配伍机理的研究,引自文献：中国实验方剂学杂志2000年2月第6卷第1期，(袁久荣等)山东中医药大学。观察四物汤及拆方对乙酰苯肼和环磷酰胺所致血虚动物模型的补血作用。根据血常规检验指标及计算机聚类分析结果,各样本药物补血作用,四物汤全方作用最强;当归在方中起主要作用。,四物汤是传统医学补血调血的代表方剂,由当归、熟地、川芎、白芍4味中药组成。临床上用于治疗各种血虚证患者。有关四物汤补血作用配伍机理的研究报道较少,而且也不够全面,与中医理论有一定的差距。本实验用乙酰苯肼和环磷酰胺造成小鼠血虚证模

11、型,以各组动物的血红蛋白、红细胞计数、红细胞压积、白细胞及血小板为主要指标,通过观察四物汤中4味药按不同排列组合构成的15种样本药物对此动物模型补血作用的影响,结合计算机辅助分析,初步探明四物汤补血作用的配伍机理。,1药物制备,由当归、地黄、川芎、白芍各等份进行排列组合得到15种配伍,按传统水煎法制得。每种样本药物的单味生药含量均为0.625g/ml。全方(s-1);地黄、当归、川芎(s-2);当归、川芎(s-9);地黄、当归、白芍(s-3);当归、白芍(s-10);地黄、川芎、白芍(s-4);川芎、白芍(s-11);当归、川芎、白芍(s-5);当归(s-13);地黄、当归(s-6);地黄(-

12、12);地黄、川芎(s-7);川芎(s-14);地黄、白芍(s-8);白芍(s-15);,2方法和实验数据分析,昆明种小鼠200只,雌雄兼用,体重1822g,按照均衡随机原则分为17组:正常对照组(N-C),模型对照组(M-C)及15个药物组,每组11只。各用药组给予相应的药物,两对照组给予等量自来水。各组均于第14d一次性采血做血常规检查,参数见表1。,3聚类分析,根据血常规指标均数,将15个样本进行分类。在聚类分析之前,对原始数据进行标准化处理,然后把研究对象的多种特征综合为一个可供比较研究对象之间的亲疏关系的相似性统计量。采用组间内均值连接法连接样本点群,欧氏距离测量,数据值按顺序用组间

13、内均值连接方法作图得图1。,4 结果,聚类图当距离小于16时,拆方后所得的15种配伍组合分成4类,结合实验指标的排序情况,按照对此血虚动物模型补血作用的强弱,依次分为:四物汤全方为一类;单味药当归、川芎与3味药当归、白芍、川芎为二类;单味药白芍为三类其余各组为四类。由此可对四物汤不同拆方配伍补血作用进行综合简明评价。,我们得到的结论是:对此血虚动物模型的补血作用四物汤全方最好,拆方所得的各种配伍组合均不及四物汤全方。当归在方中起主要作用;两味药配伍中,当归与白芍、当归与熟地作用较好;三味药配伍中,当归、白芍、川芎作用最好。这与以往的实验研究报道有异同之处。分析可能与所选用模型不同有关,但共同点

14、都认为四物汤全方作用最好,可见四物汤配伍是很有道理的。,5讨论,血常规检查可见模型组小鼠血红蛋白、红细胞计数、红细胞压积、白细胞计数明显下降,但是对血小板影响不明显,各样本药物不同程度地阻止上述指标的下降。红细胞计数,血红蛋白,红细胞压积的各组变化有平行趋势,经客观排序后均显示最好的两组是S-1和S-5组,最差的两组是S-12和S-9组。但也有些组在3种指标的排序中位置有较大差别。原因很多,其中之一考虑是本次实验使用是溶血性贫血的模型,溶血后的红细胞碎片可能对红细胞计数有一定的干扰作用,而对血红蛋白的干扰很少,因此血红蛋白可能更能较好地反映模型贫血和药物抗贫血的程度。,对白细胞减少的改善作用总

15、体上不如对红细胞好,而且与红细胞的改善不平行,即对红细胞减少有明显改善的药物对白细胞不一定也有明显改善作用,各样本药物对血小板的作用,由于模型不成功难以评价。,各组死亡率及体重的下降之间没有明显的差异。,2、动态聚类法,用系统聚类法，在聚类过程中需要经过多次合并，计算量一般比较大，克服这个缺点的自然想法是，先给出一个粗糙的初始分类,然后按照某种原则进行修改，直到分类比较合理为止。这种聚类方法称为动态聚类法。,动态聚类法示意图,（1）选择凝聚点,所谓凝聚点就是一批有代表性的点，凝聚点选择的好与不好，直接和初始分类有关。应慎重选择，常用以下方式选择：A、经验法：根据对问题积累的实际经验选择一批有代

16、表的样本作为凝聚点。B、密度法：人为确定两个正数d1,d2(d1d2)，先以每个样本点为球心，以d1为半径，计算落在该球内样本点的个数（密度）。选择最大密度的样本点作为第一凝聚点。若密度次大的样本点与第一凝聚点的距离不小于d2，则该样本点作为第二凝聚点，否则，该点就不作为新的凝聚点，依此类推下去，直到所有样本点都考察完毕。初始凝聚点的数不宜太多，也不宜太少，一般选择d2=2d1为宜。,2、初始分类,考察每个样本点与各凝聚点之间的距离，并把它们分别归到与它们最近的凝聚点那类。,3、修改分类,若初始分类过于粗糙，需要在此基础上修改分类。常采用下列方式：以每类所计算出的重心作为新的凝聚点，再按最近距

17、离归类的原则修改分类。,例：从21个药厂抽了同类产品，每个产品测了两个指标，数据如下，试对各厂的质量情况进行分类。,采用密度法 d1=,d2=2 计算个样本之间的距离（欧氏距离）各样本点密度如下：,选择初始凝聚点x6,x13,x17,按照凝聚点的归类原则得到初始归类,G1=x6,x3,x4,x5,x7,x8,x9,x19G2=x13,x2,x11,x12,x14,x15G3=x17,x18,x16,x19,x20,x21,X1与x6,x13距离完全一样难以归类，修改分类，计算初始分类的重心z1(4.5,2.375)，z2(-2.83,2.33),z3(-0.07,-1.83)作为新凝聚点，重新

18、分类。,G1=x3,x4,x5,x6,x7,x8,x9,x10G2=x1,x2,x11,x12,x13,x14,x15G3=x16,x17,x18,x19,x20,x21,再计算第二次归类的重心m1(4.5,2.375)，m2(-2.43,2.86),m3(-0.67,-1.83)作为新的凝聚点，再按归类原则重新分类，所的分类与第二次分类结果完全一样，因此修改过程结束，最终分类为：,G1=x6,x3,x4,x5,x7,x8,x9,x19G2=x13,x2,x11,x12,x14,x15G3=x17,x18,x16,x19,x20,x21,例题4,某小学10名9岁男生六个项目的智力测验得分如下表

19、，用聚类分析方法对这10名小学生按智力状况进行分类。,判别分析,（两类判别、多类判别）,一、引言,判别分析产生于20世纪30年代，是利用已知类别的样本建立判别模型，为未知类别的样本进行判别怕一种统计方法。判别分析的特点是根据已掌握的类别的样本数据信息，总结出估类的规律性，建立判别公式和判别准则，当遇到新的未知样本时，只要根据判别公式和判别准则，就能判别该样本所属的类别。常用的判别方法主要有距离判别法，Fisher判别法，Bayes判别法，逐步判别法。判别分析有广泛的应用：临床医师需要根据病人的一系列症状、体征及检查结果来诊断该病人所患的是什么疾病（经验越丰富则诊断即判别得越准确）。法医要判断死

20、者是自杀还是他杀等。如何使经验不很丰富的人也能够进行有效的判别，近代统计学已发展了一系列判别分析方法。来指导实际工作者对事物进行正确的判别归类。,判别与聚类,聚类分析可以对样本/指标进行分类，判别分析只对样本进行分类。聚类分析事先不知道事物的类别，也不知道应分几类；判别分析必须事先知道事物的类别，也知道应分几类。聚类分析不需要分类的历史资料，能直接对样本进行分类；判别分析需要历史资料去建立判别函数，然后才能对样本进行分类。,判别分析,其中F isher判别是寻找合适的投影方向,使样本在投影面上类内变异最小,类间变异最大,达到判别的目的。Bayes判别则是以概率为判别依据,使得属于第k 类的样

21、本,在第k 类中取得最大的后验概率。两种判别方法的判别结果是一致的,它们都属于线性判别。,判别分析是将已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,并在此基础上建立判别准则,然后对未知类型的样品进行判别分类的多元统计方法。,第一节判别分析的基本思想,判别分析(discriminant analysis)：设有K个总体，G1，G2，G，Gk，希望建立一个准则，对给定的一个样本x，依据这个准则就能判断它是来自哪个总体。我们要求这种准则在某种意义下是最优的。例如，错判概率最小或判别损失最小等。可根据回代判别的准确率评估它的实用性。,判别函数(discriminant

22、function)：指的是一个关于指标变量的函数。每一个样本在指标变量上的观察值代入判别函数后可以得到一个确定的函数值。判别准则(discriminant rule)：对样本的判别函数值进行分类的法则。,建立判别准则：建立判别函数：其原则是，将所有样本按其判别函数值的大小和事先规定的判别原则分到不同的组里后，能使得分组结果与原样本归属最吻合。回代样本：即计算出每一个样本的判别函数值，并根据判别准则将样本归类。估计回代的错误率：即比较新的分组结果和原分组结果的差别，并以此确定判别函数的效能；判别新的样本：如果判别函数效能较高，可用以对新样本进行归类判别。,判别分析的内容,判别分析的方法,距离判别

23、分析法：以给定样本与个总体距离为准则。Fisher判别分析法采用Fisher判别准则：它使得类间点的距离最大，而类内点的距离最小。适合于两类的判别分析。Bayes判别分析法采用Bayes判别准则：它使得每一类中的每个样本都以最大的概率进入该类。适合于多类的判别分析。,距离判别法,以给定样本与个总体距离为准则。即给定一样本，其应属于与之距离最近的一个总体。由于马尔科夫距离不受量纲的影响，距离判别中，往往使用马氏距离。假设有两个总体G1和G2,如果能够定义点x到它们的距离D(x,G1)和D(x,G2),则如果D(x,G1)D(x,G2)则 xG1如果D(x,G2)D(x,G1)则 xG2如果D(x

24、,G1)=D(x,G2)则待判,第二节 Fisher判别分析法,Fisher判别法是Fisher于1936年提出的。该方法是按类内方差尽量小，类间方差尽量大的准则来建立判别函数。从两个总体中抽取k个指标的样品观测数据x1,x2,xk，根据方差分析的思想构造一个判别函数：,其中，c 1,c 2,c k 是待估计的未知系数。称这个线性函数是Fisher判别函数。,以p=q=k=2 来说明Fisher判别分析法的基本原理和计算方法,根据Fisher判别分析法的基本原理，就是要选择一组适当的系数 c 1,c 2,c k，使得类间差异D最大且类内差异V最小，即，使得下式的值 Q 达到最大。,根据多元函数

25、求极值的原理和方法，使得 Q 取最大值的点是Q 的一阶偏导函数等于0的方程组的解。,令上述方程组的解是：,那么，Fisher判别函数估计式是：,建立Fisher判别准则令判别临界点是：,设y*是某个样本的判别函数值，则，Fisher判别准则是：如果 y*y0，则 y*A类,估计各项指标对判别函数的贡献率,对贡献率很小的指标可以剔除，重新建立只含有重要指标的判别函数。,应用实例,例：医院工作效率和医疗质量的评定是医院管理的一个基本课题，常要寻求用少数几项指标对整个医院工作作出快速可靠的评定。某单位曾对工作质量好、中、差的三类医院的治愈率、病死率、治愈者平均住院天数、临床初步诊断符合率等24项指标

26、作了调查2，现从中抽出质量优的（A类）及差的（B类）共20个医院的三项指标：X1床位使用率，X2治愈率，X3诊断指数进行研究，欲由这三项指标建立判别函数 Y=C1 X1+C2X2+C3X3 用以判别医院工作质量高低。,两类医院的原始观察值,解：第一步，计算各类的各指标均值，根据函数I（C1，C2，C3）取最大值的原则，建立关于C1、C2、Cm的正规方程组。,第二步解此方程组，得C1=0.007440、C2=0.032412、C3=0.048055,故判别函数为 Y0.007440 X1+0.032412X2+0.048055 X3,3、应用实例,例：仍用上节例题，除A、B两类医院外，再加上工

27、作质量中等的医院10个，资料见下表：,解：根据Bayes 判别方法，计算得到判别函数前已算得,若另有一所医院，其三项指标的观测值分别为：X1=80.83，X2=85.69，X3=90.50，如利用上述判别函数，可求得：Y（A）=743.9194（优），Y（B）=738.7728（差），Y（C）=743.7270（中）由于Y（A）最大，故判定该所医院的工作质量为A类（即工作质量优）。,与前面完全一样，最后要进行回顾性效果检验，得结果如下：,用一个实例来说明判别分析的基本思想,例：医院工作效率和医疗质量的评定是医院管理的一个基本课题，常要寻求用少数几项指标对整个医院工作作出快速可靠的评定。某单位曾

28、对工作质量好、中、差的三类医院的治愈率、病死率、治愈者平均住院天数、临床初步诊断符合率等24项指标作了调查2，现从中抽出质量优的（A类）及差的（B类）共20个医院的三项指标：X1床位使用率，X2治愈率，X3诊断指数进行研究，欲由这三项指标建立判别函数 Y=C1 X1+C2X2+C3X3 用以判别医院工作质量高低。,两类医院的原始观察值,判别分析步骤,1、确定判别指标（X1，X2和X3）2、收集数据，得到训练样本3、根据实测资料(训练样本)用判别分析方法可建立判别函数4、考核该判别函数是否有实用价值（回顾性考核，前瞻性考核），其符合率达到要求则可应用于实践。5、实际应用未知类别样品的判别归类。,

29、解：第一步，计算各类的各指标均值，根据函数I（C1，C2，C3）取最大值的原则，建立关于C1、C2、Cm的正规方程组。,第二步解此方程组，得C1=0.007440、C2=0.032412、C3=0.048055,故判别函数为 Y0.007440 X1+0.032412X2+0.048055 X3,第三步确定判别函数的临界值Yc，欲求Yc，需先将A类各样品指标值代入判别函数，求出，再将B类各样品指标值代入，求出,确定适当的Yc，使YYc时，为A类，YYc时为B类。办法有下列三种。,方法1：,方法2,方法3 用移动法也可选择合适的Yc，使正确率尽可能高。,第四步将参考组各样品代入判别函数，求出

30、相应Y，并与Yc相比以判定其类别。进行回顾性检验。,方法1与方法2的回顾性检验效果见下表,只有一个样品（第8号）原为A类，但被判为B类。故A类误判为B类的占有1/11=9.1%；B类误判为A类的占0/9=0%。A类判别正确率为 10/11=90.9%B类判别正确率为9/9=100%总正确率为 19/20=95%,例如，由观测值表的最末列Y（A）、Y（B）值可见全部的Y（A）值皆大于735，而全部的Y（B）值皆小于该值。,不妨取Yc=7.35，此时回代效果最佳，无一错判。所以，利用方法3作分类的判断时，可取Yc=7.35。,当然回顾性检验效果最佳，并不意味着前瞻性亦最佳。,第五步如欲对两类判别

31、的判别函数作假设检验，则需计算F值。,n=20，m=3，用F检验，其检验假设H0：两类来自同一总体，判别函数无意义。经过计算，F=22.3085因为F0.001(m,n-m-1)=F0.001(3,16)=9.01,2230859.01，故 P 0.001即该判别函数在 a=0.001在水准上有显著意义。,有了上述判别函数后，如欲根据这三项指标对其他医院的工作质量高低作出评价时，可将该医院的X1、X2、X3值代入判别函数,Y=0.007440 X1+0.032412 X2+0.048055 X3,算得Y值后，若Y Yc 则医院的工作质量为优。Y Yc 则医院的工件质量为差。Yc 的确定可用上述

32、第三步中的3种方法中任选一种，如取Yc=7.45,如某医院的床位使用率（%）X1=80.83 治愈率 X2=85.69诊断指数 X3=90.5代入判别函数，得Y=7.72777.45故评为工作质量优。,判别分析的一般步骤,判别分析通常都要建立一个判别函数，然后利用此判别函数来进行判别。为了建立判别函数就必须有一个训练样本。判别分析的任务就是向这份样本学习,学出判断类别的规则,并作多方考核。训练样本的质量与数量至为重要。每一个体所属类别必须用“金标准”予以确认;解释变量（简称为变量或指标）X1,X2,Xp必须确实与分类有关;个体的观察值必须准确;个体的数目必须足够多。,训练样本的数据内容与符号

33、解释变量个体号类别变量(Y)X1 X2 Xj XP 1 X11 X12 X1j X1P y1 2 X22 X22 X2j X2P y2 i Xi1 Xi2 Xij XiP y3 n Xn1 Xn2 Xnj XnP yP,判别分析常用方法,（1）最大似然法该法是建立在概率论中独立事件乘法定律的基础上，适用于各指标是定性的或半定量的情况。（2）Fisher判别分析用于两类或两类以上间判别，但常用于两类间判别，上例中应用的就是Fisher判别分析方法。（3）Bayes判别分析用于两类或两类以上间判别，要求各类内指标服从多元正态分布。,（4）逐步判别分析建立在Bayes判别分析基础上，它象逐

34、步回归分析一样,可以在众多指标中挑选一些有显著作用的指标来建立一个判别函数,使方程内的指标都有显著的判别作用而方程外的指标作用都不显著。（5）logistic判别常用于两类间判别。它不要求多元正态分布的假设，故可用于各指标为两值变量或半定量的情况。,一、Fisher准则下的判别分析,下面以两类判别为例，说明Fisher法的原理。设有A，B两类分别含nA，nB个样品，各测得m个指标值，其观察值表达如下：,令欲建立一个判别函数Y=C1 X1+C2X2+.+CmXm 使得该判别函数能据指标X1、X2、Xm之值区分A、B两类。决定有C1、C2、Cm的原则有二个，一为应使A、B两类的Y值有最大的差别，

35、即应使达到最大，也即最大，另一原则为应使同类之间的差异尽可能小。,B类中Y值间的差异的度量可用：,A类中Y值间的差异的度量可用：,综合两个原则 C1、C2、Cm的选择，应使,达最大。由于I是Y的函数，Y又是C1、C2、Cm的函数，I的极大值可据多元函数求极值可求得C1、C2、Cm,最后的要做的事情就是利用X1，X2，Xm 提供的信息，根据判别函数Y值的大小来确定样品应属于A类还是属于B类。即要确定一个Y的临界值Yc，当YYc时，相应的样品属于A类；当YYc时，相应的样品属于B类。,临界值Yc的确定，一般可取A类、B类判别函数均值的加权平均值，即,实际应用上，还可由训练样品中各例求得的Y（A

36、）或Y（B）用移动法求得符合率最高的临界值Yc。,如欲对两类判别进行假设检验，当例数n=n1+n2较大时（通常取n50），则可用x2检验。当n不大时，则用F检验,由上可知，Fisher法则所确定的判别函数，须使两类的判别值满足以下要求：两类均数之差的平方与类内离均差平方和合计值的比值为最大。这样的做法，实质上是选择适当的投影方向，将m维空间中的点投影到低维空间中去，使同类的点尽可能地集中到一起，不同类的点尽可能地分开，这样就到达了分类目的。,第二节 Bayes判别分析,(一).Bayes准则设有定义明确的g个总体1,2,g,分别为X1,X2,Xp的多元正态分布。对于任何一个个体,若已知p个变

37、量的观察值,要求判断该个体最可能属于哪一个总体。如果我们制订了一个判别分类规则,难免会发生错分现象。把实属第i类的个体错分到第j类的概率记为P(ji),这种错分造成的损失记为C(ji)。Bayes判别准则就是平均损失最小的准则。按照这个准则去找一种判别分类的规则,就是Bayes判别。,(二).分类函数（g个类别，p个指标）Bayes准则下判别分析的分类函数形式如下：Y1=C01+C11X1+C21X2+Cp1Xp Y2=C02+C12X1+C22X2+Cp2Xp Yg=C0g+C1gX1+C2gX2+CpgXp,即g个线性函数的联立方程，每个线性函数对应于某一类别。其中C0j，C1j，Cpj，

38、（j=1,2,g）为需估计的参数。用SAS的DISCRIM过程可得到这些参数的估计值。判别函数建立后通常的判别准则为：如欲判断某样品属于上述g类中的哪一类，可将该样品的各Xi值代入式(17.1)中的各个方程，分别算出Y1，Y2，Yg等值。其中如Yf为最大则意味着该样品属第f类的概率最大，故判它属于第f类。,事前概率（prior probability）又称先验概率。如在所研究的总体中任取一个样品，该样品属于第f类别的概率为q(yf)，则称它为类别f的事前概率。例如，阑尾炎病人总体中卡他性占50，蜂窝织炎占30，坏疽性占10，腹膜炎占10;则在该总体中任取一个阑尾炎病人，该病人属于以上四型的概率

39、分别为0.5，0.3，0.1和0.1,它们也分别是这四类的事前概率。,(三).事前概率,考虑事前概率时，判别函数如下式:,Y1=C01+C11X1+C21X2+Cp1Xp+ln(q(Y1)Y2=C02+C12X1+C22X2+Cp2Xp+ln(q(Y2)Yg=C0g+C1gX1+C2gX2+CpgXp+ln(q(Yg)差别仅仅在于ln(q(Yj)项,考虑事前概率可适当提高判别的敏感性。事前概率可据于文献报道或以往的大样本研究。但是困难在于事前概率往往不容易知道；如果训练样本是从所研究的总体中随机抽取的，则可用训练样本中各类的发生频率Q(Yj)来估计各类别的事前概率q(Yj)。如果事前概率未知，

40、而又不可以用Q(Yj)来估计q(Yj)，就只能将事前概率取为相等值，即取q(Yj)=1/g。,(四).事后概率,事后概率（posterior probability）又称后验概率。如果已知某样品各个指标Xi的观察值为Si，则在该条件下，样品属于Yj类别的概率P(Yj/S1,S2,SP)称为事后概率。事后概率和指标的值有关。引入事后概率后，可用事后概率来描述某样品属于Yj类别的概率。这就使得判别的可靠性有一个数量的指标。,例：A1，A2，A3的事后概率为0.95，0.03和0.02 判为A1类的可靠性好。A1，A2，A3的事后概率为0.40，0.30和0.30 判为A1类的可靠性差。如欲判别某样

41、品属于哪个类别时，可据样品各指标的取值S1，S2，SP代入判别函数，求得各类别之Y值，即Y1，Y2，Yg。,事后概率的计算公式为：,仅凭哪一个事后概率为最大，就判为那一类别有时是不够的。例如某样品属于三个类别的事后概率分别为0.95，0.03，0.02，则判为第一类的可靠性就较大。但如果三个事后概率分别为0.4，0.3，0.3。再判为第一类的可靠性就较差了。与临床上诊断相类似，当对某病员的诊断把握不大时，常定为可疑或待查等。SAS的Discrim过程中可以定义一个事后概率p的临界值，当各类别最大的事后概率大于此值时，就作出判别归类，否则将被判为other类,相当于可疑或待查。,例某医院眼科研

42、究糖尿病患者的视网膜病变情况,视网膜病变分轻、中、重三型。研究者用年龄(age)、患糖尿病年数(time)、血糖水平(glucose)、视力(vision)、视网膜电图中的a波峰时（at）、a波振幅(av)、b波峰时(bt)、b波振幅(bv)、qp波峰时(qpt)及qp波振幅(qpv)等指标建立判别视网膜病变的分类函数,以判断糖尿病患者的视网膜病变属于轻、中、重中哪一型。,观察131例糖尿病患者,要求其患眼无其他明显眼前段疾患,眼底无明显其他视网膜疾病和视神经、葡萄膜等疾患,测定了他们的以上各指标值,并根据统一标准诊断其疾患类型,记分类指标名为group。见表14.2。(表中仅列出前5例)。

43、试以此为训练样本,仅取age,vision,at,bv和qpv 5项指标,求分类函数,并根据王的信息:38岁,视力1.0,视网膜电图at=14.25,bv=383.39,qpv=43.18判断其视网膜病变属于哪一型。,131例糖尿病患者各指标实测记录（前5例）例号年龄患病血糖视力 a波 a波 b波 b波 qp波 pq波视网膜年数峰时振幅峰时振幅峰时振幅病变程度 1 49 2.00 191 1.5 12.25 235.40 52.50 417.57 78.5 27.43 A1 2 49 2.00 191 1.2 13.50 225.15 52.00 391.20 78.

44、5 46.69 A1 3 63 4.00 200 1.0 14.25 318.92 53.25 616.35 77.5 35.38 A1 4 63 4.00 200 0.6 14.00 361.90 55.00 723.30 77.0 47.01 A1 5 54 10.00 137 0.6 13.75 269.59 55.50 451.27 78.0 33.70 A2,解假定样本系从总体中随机抽取,则样本中三种疾患类型的样本量可近似地反映先验概率,利用SAS的Discrim过程可得分类函数Y1-181.447+0.473(age)+60.369(vision)+17.708(at)+0.04

45、8(bv)+0.364(qpv)Y2-165.830+0.472(age)+49.782(vision)+17.658(at)+0.034(bv)+0.325(qpv)Y3-189.228+0.178(age)+43.974(vision)+20.447(at)+0.040(bv)+0.265(qpv)以王的观察值代入分类函数,得Y1=-181.447+0.47338+60.3691.0+17.70814.25+0.048383.39+0.36443.18=183.36同样可算得：Y2180.58,Y3179.66其中最大者为Y1,故判断为轻度病变。,由上例见,Y1,Y2,Y3的数值相差不多,

46、单纯凭分类函数值的大小作决策有时易出偏差。这时,分别估计该个体属于各总体的概率却能客观地反映该个体的各种可能归属,而避免武断。令Y*=180,从而有 P(Y1X1,X2,X5)e(183.36-180)/(e(183.36-180)+e(180.58-180)+e(179.66-180)e4.36/(e4.36+e1.58+e0.66)0.9202类似地,可得 P(Y2X1,X2,X5)0.0571 P(Y3X1,X2,X5)0.0227 由此可见王为轻度病变的概率为0.9202，因此把他判断为轻度病变可靠性较大。,第四节回顾性考核和前瞻性考核,分类函数及判别准则建立后必须进行考核。考核就是

47、将样品逐一用所建立的判别准则进行归类,求出其假阳性率、假阴性率及总的错误率。考核可分为回顾性考核与前瞻性考核。回顾性考核也称回代或组内考核(internal validation),即用原来的训练样本进行考核。前瞻性考核也称组外考核,是对新的已知其分类的样品(称为考核样本)进行考核。用前瞻性考核可估计总体中的假阳性率、假阴性率和总的错误率。,除了可用前瞻性考核来估计总体中的错误率外,还可用刀切法(jackknife)交叉考核(cross validation)。其方法如下：设训练样本中共有n个个体,先搁置第一个个体，对其余n-1个个体进行判别分析求出判别函数,用该函数对第一个个体进行考核；然后

48、放回第一个个体,搁置第二个个体，用其余n-1个个体求出判别函数并对第二个个体进行考核每次搁置一个个体,用其余的n-1个个体作出判别函数(注意,这些判别函数可能不相同),对搁置的个体进行考核,一共进行n次,遍历每一个个体;从而求出假阳性率、假阴性率和总的错误率，称为刀切法交叉考核，它们可作为前瞻性考核的辅助信息。,回顾性考核结果判别函数分类原分类合计错误率(%)A1 A2 A3 A1 62 4 2 68 8.82 A2 1 41 1 43 4.65 A3 1 0 19 20 5.00 合计 64 45 22 131 6.87,刀切法考核结果判别分类原分类合计错误率(%)A1 A2 A3 A1 60 6 2 68 11.76 A2 2 40 1 43 6.98 A3 1 0 19 20 5.00 合计 63 46 22 131 9.16,前瞻性考核结果判别分类原分类合计错误率(%)A1 A2 A3 A1 14 1 0 15 6.67 A2 1 9 1 11 18.18 A3 0 0 5 5 0.00 合计 15 10 6 31 9.68,