数学建模课件-多变量分析.ppt
《数学建模课件-多变量分析.ppt》由会员分享,可在线阅读,更多相关《数学建模课件-多变量分析.ppt(117页珍藏版)》请在三一办公上搜索。
1、第七章 多变量分析,(聚类分析、判别分析),内容背景,1、拼音输入法的数学原理亚洲语言及所有非罗马的语言的计算机输入原本是个问题。26个字母,10个数字外加一些控制键:自然音节编码-偏傍笔划拆字-自然音节输入(螺旋升华过程)汉字编码=拼音编码+消除歧义性编码香农第一定律:任何编码的长度都不会小于它的信息熵。理论上,输入一个汉字平均敲键1.3次(安装非常大的语言模型)2、新闻分类与定理为了让计算机“算”新闻,要求把文字变成可以计算的一组数字,然后再设计一个算法来算出任意两篇新闻的相似性。词是信息的载体同一类新闻用词都是相似的,不同类新闻用词各不相同。实词TF-IDF值的向量,计算向量间的夹角余弦
2、,第一部分 聚类分析,人们认识自然界的一种方法是对事物进行分类。聚类分析起源于分类学。当观察指标较少时,人们主要依靠经验和专业知识来实现分类,但当观察指标较多时,有时仅凭经验和专业知识难以确切地分类,于是人们逐渐把数学工具引入到分类学中,形成了数值分类学。之后又将多元统计分析技术引入数值分类学形成了聚类分析。聚类分析讨论的对象是大量的样品,在没有任何先验知识的情况下,要求能合理地按各自的特性来进行合理的分类。,一、聚类分析的基本概念,聚类分析又称群分析,是根据“物以类聚”的道理,对样品或指标进行分类的一种统计方法。聚类分析根据客观的需要分为两类:Q型:对样品聚类。例如根据疾病的多种临床特点把某
3、病分为轻型、一般型和重型等,这是对病人分类。R型:对变量(观察指标)聚类。例如儿童生长发育研究中把形态指标归为一类,把机能类指标归为一类。,Q型聚类分析的优点,1、综合利用多个信息对样本的进行分类。根据被观测样品的各种特征,将特征相似的样品归并为一类;2、分类结果是直观的。聚类谱系图非常清楚地表现其数值分类结果;3、聚类分析所得到的结果比传统分类方法更细致、全面、合理。,R型聚类分析的主要作用,1、根据被观测的指标之间的相似性,将相似的指标归并为一类;2、根据指标的分类结果以及它们之间的关系,可以选择主要指标进行回归分析或Q型聚类分析。,二、聚类分析中需要的统计量,聚类分析的核心是要提出一种能
4、客观描述研究对象之间相似程度大小的统计量以作为分类的基础,常用的统计量有:1、距离系数:是将每一个样品看做m维空间的点,并在空间定义某种距离,距离较近的点归为一类,距离较远的点应属于不同一类,距离的定义方式有各种各样。常见的距离有:绝对值距离 欧氏距离 明科夫斯基距离 切比雪夫距离 2、相似系数:用某种相似关系来描述样品之间的相关程度,性质越相似的样品归为一类,不怎么相似的样品归为不同一类。,三、距离系数的计算公式,绝对值距离(Block):欧几里德距离(Euclidean distance):明科夫斯基距离(Minkowski):切比雪夫距离(Chebychev):距离系数的定义直观,容易理
5、解和计算,在实际中应用很广。一般常用于样品的聚类(Q型聚类分析)。,距离系数存在两个缺点:,1.它与各观察指标的量纲有关。受取值大的观察指标影响较大,克服的方法是对原始数据进行变换处理。()中心变换)标准差标准化 2.由于是直角坐标系上的距离,没有考虑指标之间的相关性。,四、相似系数的计算公式,用某种相似关系来描述样品之间的相关程度,性质越近的样品归为一类,不怎么相似的样品归为不同一类。常用的相似系数有:()夹角余弦(Cosine):它是受空间解析几何中向量的启发,它的定义是:()相关系数(Pearson correlation):这是回归分析中经常使用的,它的定义是:,五、聚类分析的常用分类
6、方法,本节只介绍较常用的系统聚类法(阶梯聚类法Hierarchical cluster)和动态聚类法(快速聚类法K-Means Cluster),其它聚类方法请见有关参考资料。,1、系统聚类法,基本思想:先将几个样品各自看成一类,选择相似程度最大的(距离系数最小或相关系数最大)样品对作为一类,然后选择相似程度次大的样品对作归类,如此续继,直到所有的样品都成一类为止,将整个聚类过程作成聚类图,按聚类选择适当的分类。,系统聚类法包含以下几个步骤,(1)先把各个分类对象单独视为一类;(2)计算各个分类对象两两之间的距离,得 到最初的距离矩阵;(3)根据距离最小的原则,将距离最近(最远)的两类合并为一
7、个新类;(4)计算新类与剩下各类两两之间的距离,若类的个数为1,转到步骤(5),否则回到步骤(3);(5)画聚类图;(6)决定类的个数和样品所属的类别。,例题1,某小学10名9岁男生六个项目的智力测验得分如下表,用聚类分析方法对这10名小学生按智力状况进行分类。,解:这是一个Q型聚类的问题。我们采用距离系数作为聚类用的统计量,并用系统聚类法进行聚类。由于智力测验各项目之间的数值差别不大,故直接用欧几里德距离进行分类。利用距离公式,计算出各个学生之间的距离系数如下:,表中间部分是样本之间的欧几里德距离系数,类与类之间距离的计算方法,类Gp与类Gq的距离用Dpq表示。(1)最短距离法:(2)最短距
8、离法:(3)中间距离法:新类Gk的距离用Dk表示。(4)重心法:从物理的观点看,一个类用神经质重心作代表比较合理,类与类之间用重心之间的距离来表示。,例题1,用最短距离法计算的类与类之间的距离系数,聚类树枝图,根据实际的应用,把这里10名男学生的智力分为三类似乎比较合理:第一类为智力优异型,包括一个样品(样品7);第二类为智力发达型,包括8个样品(样品2,1,3,5,6,8,10,9);第三类为智力欠发达型,包括一个样品(样品4)。,例2:今测得我国27个少数民族16岁男孩身高、坐高、体重、胸围、肩宽与骨盆宽6个指标如下表,今进行种族聚类分析,以探讨我国少数民族儿童体型分类与人类学特征关系。解
9、:本例对各样品聚类,为Q型聚类分析。采用欧氏距离为聚类统计量,新类与另一类之间的类间合并递推计算采用最短距离法。,首先对数据作正态标准化。结果如下表:,采用欧氏距离为聚类统计量,新类与另一类之间的类间合并递推计算采用最短距离法。,聚类的过程用SPSS统计软件处理得到用树枝图(dendrogram),例题3,某医院36个月的六诊人次、出院人数、病床利用率、病床同转次数、平均住院次数、治疗好转率、病死率、诊断符合率、抢救成功率现业务收入共10个指标的原始数据(见表5)。拟进行聚类分析,找出各类的主要指标,进一步探讨各指标与业务收入的关系。,解:本例拟对各指标聚类,为型分析。,聚类统计量用相似系数,
10、而聚类的方法用系统聚类法,根据聚类过程分析,相似系数的变化有3台阶,实例:计算机辅助分析四物汤补血作用配伍机理的研究,引自文献:中国实验方剂学杂志2000年2月第6卷第1期,(袁久荣 等)山东中医药大学。观察四物汤及拆方对乙酰苯肼和环磷酰胺所致血虚动物模型的补血作用。根据血常规检验指标及计算机聚类分析结果,各样本药物补血作用,四物汤全方作用最强;当归在方中起主要作用。,四物汤是传统医学补血调血的代表方剂,由当归、熟地、川芎、白芍4味中药组成。临床上用于治疗各种血虚证患者。有关四物汤补血作用配伍机理的研究报道较少,而且也不够全面,与中医理论有一定的差距。本实验用乙酰苯肼和环磷酰胺造成小鼠血虚证模
11、型,以各组动物的血红蛋白、红细胞计数、红细胞压积、白细胞及血小板为主要指标,通过观察四物汤中4味药按不同排列组合构成的15种样本药物对此动物模型补血作用的影响,结合计算机辅助分析,初步探明四物汤补血作用的配伍机理。,1药物制备,由当归、地黄、川芎、白芍各等份进行排列组合得到15种配伍,按传统水煎法制得。每种样本药物的单味生药含量均为0.625g/ml。全方(s-1);地黄、当归、川芎(s-2);当归、川芎(s-9);地黄、当归、白芍(s-3);当归、白芍(s-10);地黄、川芎、白芍(s-4);川芎、白芍(s-11);当归、川芎、白芍(s-5);当归(s-13);地黄、当归(s-6);地黄(-
12、12);地黄、川芎(s-7);川芎(s-14);地黄、白芍(s-8);白芍(s-15);,2方法和实验数据分析,昆明种小鼠200只,雌雄兼用,体重1822g,按照均衡随机原则分为17组:正常对照组(N-C),模型对照组(M-C)及15个药物组,每组11只。各用药组给予相应的药物,两对照组给予等量自来水。各组均于第14d一次性采血做血常规检查,参数见表1。,3聚类分析,根据血常规指标均数,将15个样本进行分类。在聚类分析之前,对原始数据进行标准化处理,然后把研究对象的多种特征综合为一个可供比较研究对象之间的亲疏关系的相似性统计量。采用组间内均值连接法连接样本点群,欧氏距离测量,数据值按顺序用组间
13、内均值连接方法作图得图1。,4 结果,聚类图当距离小于16时,拆方后所得的15种配伍组合分成4类,结合实验指标的排序情况,按照对此血虚动物模型补血作用的强弱,依次分为:四物汤全方为一类;单味药当归、川芎与3味药当归、白芍、川芎为二类;单味药白芍为三类其余各组为四类。由此可对四物汤不同拆方配伍补血作用进行综合简明评价。,我们得到的结论是:对此血虚动物模型的补血作用四物汤全方最好,拆方所得的各种配伍组合均不及四物汤全方。当归在方中起主要作用;两味药配伍中,当归与白芍、当归与熟地作用较好;三味药配伍中,当归、白芍、川芎作用最好。这与以往的实验研究报道有异同之处。分析可能与所选用模型不同有关,但共同点
14、都认为四物汤全方作用最好,可见四物汤配伍是很有道理的。,5讨论,血常规检查可见模型组小鼠血红蛋白、红细胞计数、红细胞压积、白细胞计数明显下降,但是对血小板影响不明显,各样本药物不同程度地阻止上述指标的下降。红细胞计数,血红蛋白,红细胞压积的各组变化有平行趋势,经客观排序后均显示最好的两组是S-1和S-5组,最差的两组是S-12和S-9组。但也有些组在3种指标的排序中位置有较大差别。原因很多,其中之一考虑是本次实验使用是溶血性贫血的模型,溶血后的红细胞碎片可能对红细胞计数有一定的干扰作用,而对血红蛋白的干扰很少,因此血红蛋白可能更能较好地反映模型贫血和药物抗贫血的程度。,对白细胞减少的改善作用总
15、体上不如对红细胞好,而且与红细胞的改善不平行,即对红细胞减少有明显改善的药物对白细胞不一定也有明显改善作用,各样本药物对血小板的作用,由于模型不成功难以评价。,各组死亡率及体重的下降之间没有明显的差异。,2、动态聚类法,用系统聚类法,在聚类过程中需要经过多次合并,计算量一般比较大,克服这个缺点的自然想法是,先给出一个粗糙的初始分类,然后按照某种原则进行修改,直到分类比较合理为止。这种聚类方法称为动态聚类法。,动态聚类法示意图,(1)选择凝聚点,所谓凝聚点就是一批有代表性的点,凝聚点选择的好与不好,直接和初始分类有关。应慎重选择,常用以下方式选择:A、经验法:根据对问题积累的实际经验选择一批有代
16、表的样本作为凝聚点。B、密度法:人为确定两个正数d1,d2(d1d2),先以每个样本点为球心,以d1为半径,计算落在该球内样本点的个数(密度)。选择最大密度的样本点作为第一凝聚点。若密度次大的样本点与第一凝聚点的距离不小于d2,则该样本点作为第二凝聚点,否则,该点就不作为新的凝聚点,依此类推下去,直到所有样本点都考察完毕。初始凝聚点的数不宜太多,也不宜太少,一般选择d2=2d1为宜。,2、初始分类,考察每个样本点与各凝聚点之间的距离,并把它们分别归到与它们最近的凝聚点那类。,3、修改分类,若初始分类过于粗糙,需要在此基础上修改分类。常采用下列方式:以每类所计算出的重心作为新的凝聚点,再按最近距
17、离归类的原则修改分类。,例:从21个药厂抽了同类产品,每个产品测了两个指标,数据如下,试对各厂的质量情况进行分类。,采用密度法 d1=,d2=2 计算个样本之间的距离(欧氏距离)各样本点密度如下:,选择初始凝聚点x6,x13,x17,按照凝聚点的归类原则得到初始归类,G1=x6,x3,x4,x5,x7,x8,x9,x19G2=x13,x2,x11,x12,x14,x15G3=x17,x18,x16,x19,x20,x21,X1与x6,x13距离完全一样难以归类,修改分类,计算初始分类的重心z1(4.5,2.375),z2(-2.83,2.33),z3(-0.07,-1.83)作为新凝聚点,重新
18、分类。,G1=x3,x4,x5,x6,x7,x8,x9,x10G2=x1,x2,x11,x12,x13,x14,x15G3=x16,x17,x18,x19,x20,x21,再计算第二次归类的重心m1(4.5,2.375),m2(-2.43,2.86),m3(-0.67,-1.83)作为新的凝聚点,再按归类原则重新分类,所的分类与第二次分类结果完全一样,因此修改过程结束,最终分类为:,G1=x6,x3,x4,x5,x7,x8,x9,x19G2=x13,x2,x11,x12,x14,x15G3=x17,x18,x16,x19,x20,x21,例题4,某小学10名9岁男生六个项目的智力测验得分如下表
19、,用聚类分析方法对这10名小学生按智力状况进行分类。,判别分析,(两类判别、多类判别),一、引言,判别分析产生于20世纪30年代,是利用已知类别的样本建立判别模型,为未知类别的样本进行判别怕一种统计方法。判别分析的特点是根据已掌握的类别的样本数据信息,总结出估类的规律性,建立判别公式和判别准则,当遇到新的未知样本时,只要根据判别公式和判别准则,就能判别该样本所属的类别。常用的判别方法主要有距离判别法,Fisher判别法,Bayes判别法,逐步判别法。判别分析有广泛的应用:临床医师需要根据病人的一系列症状、体征及检查结果来诊断该病人所患的是什么疾病(经验越丰富则诊断即判别得越准确)。法医要判断死
20、者是自杀还是他杀等。如何使经验不很丰富的人也能够进行有效的判别,近代统计学已发展了一系列判别分析方法。来指导实际工作者对事物进行正确的判别归类。,判别与聚类,聚类分析可以对样本/指标进行分类,判别分析只对样本进行分类。聚类分析事先 不知道事物的类别,也不知道应分几类;判别分析必须事先知道事物的类别,也知道应分几类。聚类分析不需要分类的历史资料,能直接对样本进行分类;判别分析需要历史资料去建立判别函数,然后才能对样本进行分类。,判别分析,其中F isher判别是寻找合适的投影方向,使样本在投影面上类内变异最小,类间变异最大,达到判别的目的。Bayes判别则是以概率为判别依据,使得属于第k 类的样
21、本,在第k 类中取得最大的后验概率。两种判别方法的判别结果是一致的,它们都属于线性判别。,判别分析是将已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,并在此基础上建立判别准则,然后对未知类型的样品进行判别分类的多元统计方法。,第一节 判别分析的基本思想,判别分析(discriminant analysis):设有K个总体,G1,G2,G,Gk,希望建立一个准则,对给定的一个样本x,依据这个准则就能判断它是来自哪个总体。我们要求这种准则在某种意义下是最优的。例如,错判概率最小或判别损失最小等。可根据回代判别的准确率评估它的实用性。,判别函数(discriminant
22、function):指的是一个关于指标变量的函数。每一个样本在指标变量上的观察值代入判别函数后可以得到一个确定的函数值。判别准则(discriminant rule):对样本的判别函数值进行分类的法则。,建立判别准则:建立判别函数:其原则是,将所有样本按其判别函数值的大小和事先规定的判别原则分到不同的组里后,能使得分组结果与原样本归属最吻合。回代样本:即计算出每一个样本的判别函数值,并根据判别准则将样本归类。估计回代的错误率:即比较新的分组结果和原分组结果的差别,并以此确定判别函数的效能;判别新的样本:如果判别函数效能较高,可用以对新样本进行归类判别。,判别分析的内容,判别分析的方法,距离判别
23、分析法:以给定样本与个总体距离为准则。Fisher判别分析法采用Fisher判别准则:它使得类间点的距离最大,而类内点的距离最小。适合于两类的判别分析。Bayes判别分析法采用Bayes判别准则:它使得每一类中的每个样本都以最大的概率进入该类。适合于多类的判别分析。,距离判别法,以给定样本与个总体距离为准则。即给定一样本,其应属于与之距离最近的一个总体。由于马尔科夫距离不受量纲的影响,距离判别中,往往使用马氏距离。假设有两个总体G1和G2,如果能够定义点x到它们的距离D(x,G1)和D(x,G2),则如果D(x,G1)D(x,G2)则 xG1如果D(x,G2)D(x,G1)则 xG2如果D(x
24、,G1)=D(x,G2)则待判,第二节 Fisher判别分析法,Fisher判别法是Fisher于1936年提出的。该方法是按类内方差尽量小,类间方差尽量大的准则来建立判别函数。从两个总体中抽取k个指标的样品观测数据x1,x2,xk,根据方差分析的思想构造一个判别函数:,其中,c 1,c 2,c k 是待估计的未知系数。称这个线性函数是Fisher判别函数。,以p=q=k=2 来说明Fisher判别分析法的基本原理和计算方法,根据Fisher判别分析法的基本原理,就是要选择一组适当的系数 c 1,c 2,c k,使得类间差异D最大且类内差异V最小,即,使得下式的值 Q 达到最大。,根据多元函数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数学 建模 课件 多变 分析

链接地址:https://www.31ppt.com/p-5738359.html