统计方法建模课件.ppt
统计方法建模,1 相关分析2 多元回归3 曲线回归4 主成份分析5 判别分析6 聚类分析7 模糊聚类分析8 偏最小二乘回归分析,第一节 相关分析,一、相关关系的概念(注意相关关系与函数关系的区别),(一)函数关系,它反映着现象之间存在着严格的依存关系,也就是具有确定性的对应关系,这种关系可用一个数学表达式反映出来。若两个现象x、y有严格的直线依存关系,则其函数关系还可用右图表示。,函数关系的例子,某种商品的销售额(y)与销售量(x)之间的关系可表示为(p 为单价)圆的面积(S)与半径之间的关系可表示为企业的原材料消耗额(y)与产量()、单位产量消耗()、原材料价格()之间的关系可表示为,(二)相关关系,它反映着现象之间的数量上不严格的依存关系,也就是说两者之间不具有确定性的对应关系,这种关系有二个明显特点:,1.现象之间确实存在数量上的依存关系,即某一社会经济现象变化要引起另一社会经济现象的变化;,2.现象之间的这种依存关系是不严格的,即无法用数学公式准确表示。,若现象间的这种不严格的依存关系近似于一种直线关系,则其相关关系的图示如右。,相关关系的例子,商品的消费量(y)与居民收入(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度(x3)之间的关系收入水平(y)与受教育程度(x)之间的关系父亲身高(y)与子女身高(x)之间的关系,商品消费量与居民收入之间,当居民收入发生变动,商品消费量也会随之发生变动。所以,居民收入为自变量X,而商品消费量为因变量Y。,在具有相互依存关系的两个变量中,作为根据的变量称自变量,一般用X表示;发生对应变化的变量称因变量,一般用y表示。,商品价格和商品销售量?(请同学分析),1.按相关关系涉及的因素多少来分,可分为:单相关和复相关。,在实际工作中,如存在多个自变量,可抓住其中主要的自变量,研究其相关关系,而保持另一些因素不变,这时复相关可转化为偏相关。,二因素之间的相关关系称单相关,即只涉及一个自变量和一个因变量。,三个或三个以上因素的相关关系称复相关,或多元相关,即涉及二个或二个以上的自变量和因变量。,二、相关关系的种类,2.按相关关系的性质来分,可分为:正相关和负相关,正相关是指两相关现象变化的方向是一致的。负相关是指两相关现象变化的方向是相反的。,3.按相关关系的形式来分,可分为:直线相关和曲线相关,直线相关是指两个相关现象之间,当自变量X的数值发生变动时,因变量y随之发生近似于固定比例的变动,在相关图上的散点近似地表现为直线形式,因此称其为直线相关关系。,曲线相关是指两个相关现象之间,当自变量X的数值发生变动时,因变量y也随之发生变动,但这种变动在数值上不成固定比例,在相关图上的散点可表现为抛物线、指数曲线、双曲线等形式,因此称其为曲线相关关系。,4.按相关程度分,可分为:完全相关、不完全相关和不相关,完全相关就是相关现象之间的关系是完全确定的关系,因而完全相关关系就是函数关系。不相关是指两现象之间在数量上的变化上各自独立,互不影响。不完全相关就是介于完全相关和不相关之间的一种相关关系。相关分析的对象主要是不完全相关关系。,三、相关分析的任务和内容,(一)相关分析的主要任务,概括起来是两个方面:,一方面,研究现象之间关系的密切程度,即相关分析,这也称狭义的相关分析。另一方面,研究自变量与因变量之间的变动关系,用一个合适的数学模型近似地表达其相关关系,即回归分析。显然,相关分析与回归分析既有区别,也有联系。,相关分析与回归分析的区别,1.在相关分析中,不必确定自变量和因变量;而在回归分析中,必须事先确定哪个为自变量,哪个为因变量,而且只能从自变量去推测因变量,而不能从因变量去推断自变量。2.相关分析不能指出变量间相互关系的具体形式;而回归分析能确切的指出变量之间相互关系的具体形式,它可根据回归模型从已知量估计和预测未知量。3.相关分析所涉及的变量一般都是随机变量,而回归分析中因变量是随机的,自变量则作为研究时给定的非随机变量。,相关分析与回归分析的联系,相关分析和回归分析有着密切的联系,它们不仅具有共同的研究对象,而且在具体应用时,常常必须互相补充。相关分析需要依靠回归分析来表明现象数量相关的具体形式,而回归分析则需要依靠相关分析来表明现象数量变化的相关程度。只有当变量之间存在着高度相关时,进行回归分析寻求其相关的具体形式才有意义。,相关分析是回归分析的基础和前提,回归分析是相关分析的深入和继续。,(二)相关分析的主要内容包括以下五个方面:,1.判断社会经济现象之间是否存在相互依存的关系,是直线相关,还是曲线相关,这是相关分析的出发点;2.确定相关关系的密切程度;3.测定两个变量之间的一般关系值;4.测定因变量估计值和实际值之间的差异,用以反映因变量估计值的可靠程度;5.相关系数的显著性检验。,第二节 简单线性相关分析,定性分析,是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作出判断。,定量分析,在定性分析的基础上,通过编制相关表、绘制相关图、计算相关系数等方法,来判断现象之间相关的方向、形态及密切程度。,一、相关关系的判定,(一)相关表 将自变量x的数值按照从小到大的顺序,并配合因变量y的数值一一对应而平行排列的表。,二、相关表和相关图,简单相关表,分组相关表,单变量分组相关表,双变量分组相关表,又称散点图。将x置于横轴上,y置于纵轴上,将(x,y)绘于坐标图上。用来反映两变量之间相关关系的图形。当有三个变量存在相关关系时,如何用相关图表示呢?,(二)相关图,某市1996年 2003年的工资性现金支出与城镇储蓄存款余额的资料,说明简单相关表和相关图的编制方法。从表可看出,随着工资性现金支出的增加,城镇储蓄存款余额有明显的增长趋势。所以,资料表明(如图)有明显的直线相关趋势。,三、相关系数与应用,相关系数是在直线相关条件下,表明两个现象之间相关关系的方向和密切程度的综合性指标。一般用样本数据计算,记为r;若用总体全部数据计算,则称为总体相关系数,记为。,(一)相关系数定义,(二)相关系数r的测定方法:,1、r的计算,简化后为:,2、对r的解释如下:(即r的特点),(1)r取正值或负值决定于分子协方差;(2)r的绝对值,在0与1之间;(3)r的绝对值大小,可说明现象之间相关关系的紧密程度。,r,用例1的数据计算如下:,三、简单线性相关分析的特点,通过对r的计算方法的讨论,可看出二个明显特点:,2.相关关系中只能计算出一个相关系数r。,1.相关关系中,两个变量不必定出哪个是自变量,哪个是因变量,因此,相关的两个变量都是随机变量;,2 多元回归,一、数学模型二、模型的分析与检验 三、回归方程系数的显著性检验四、回归方程进行预测预报和控制五、最优逐步回归分析,在回归分析中,两个变量之间的回归称为简单回归,两个以上变量之间的回归称为复回归。无论是简单回归还是复回归,数学模型均有线性(直线)回归和非线性(曲线)回归之分。,回归模型的类型,一、直线回归,(一)简单直线回归分析,1、简单直线回归方程的一般形式为:yc=a+bx,yc 因变量的估计值;x 自变量;a 回归直线在y轴上的截距;b 回归直线的斜率,称回归系数,表明x每增加 一个单位,因变量yc的平均变化值 b0,x与y为正相关 b0,x与y为负相关,2、a、b的确定:,在简单直线回归方程中,a、b为待定系数,常用最小平方法来确定,即(y-yc)2=最小值。,3.简单直线回归方程建立的步骤为:,确定自变量x和因变量y;计算x2、xy、x、y、x2、xy;代入公式,先求b,再求a。写出回归方程,4、简单直线回归分析的主要特点:,1.直线回归分析时,要根据研究目的,在两个变量之间确定哪个是自变量,哪个是因变量。,2.在两个现象互为根据的情况下,可以有两个回归方程:yc=a+bx 称y倚x回归直线 xc=c+dy 称x倚y回归直线,多元线性回归分析可以看作是一元线性回归分析的扩展。,一、数学模型,设可控或不可控的自变量;目标函数,已测得的n组数据为:(1.1)其中 是系统的测试数据,相当于如下模型:设多目标系统为:,为简化问题,不妨设该系统为单目标系统,且由函数关系,可以设:(1.2)可得如下线性模型(1.3)为测量误差,相互独立,。令,可得(1.4)(1.4)称为线性回归方程的数学模型。利用最小二乘估计或极大似然估计,令 使 由方程组(1.5)可得系数 的估计。令 阶方阵可逆,由模型可得:即有(1.6)可以证明(1.6)与(1.5)是同解方程组的解,它是最优线性无偏估计量,满足很多良好的性质。,二、模型的分析与检验,设目标函数 的平均值和估计值分别为:则由公式可计算得总偏差平方和,回归和剩余平方和:,假设检验:至少有一个不为零结论是:当 当 被拒绝以后,说明方程(2)中系数不全为零,方程配得合理。否则在被接受以后,说明方程配得不合适,即变量 对目标函数都没有影响,则要从另外因素去考虑该系统。,三、回归方程系数的显著性检验,假设 备选假设 可以证得:(1.8)或者 的对角线元素。,.,在 成立的条件下 或者查F检验临界值 或t检验临界值 当 时,显著不为零,方程(1.2)中 第 j个变量作用显著。若有某一个系数 假设 被接受,则应从方程中剔除第 j个变量。然后从头开始进行一次回归分析工作。,四、回归方程进行预测预报和控制,经过回归分析得到经验回归方程为(1.9)设要在某已知点上进行预测,可得点估计:(1.10)下面对预测值进行区间估计,可以证得其中,得 的预测区间:,以我国19731983年11年手表价格和手表销售量的实际资料为例,拟合一元线性回归方程为:yc=9643-65x此时,回归系数b表明,手表平均价格每降低1元/只,销售量约平均增长65万只。一元线性回归模型只列入了手表平均价格对销售量的影响,而忽略了居民收入这一很重要的因素,因此,现对此资料补入同期居民人均货币收入资料,将原来的一元线性回归模型扩展为二元线性回归模型进行回归分析。,列成计算表如下:,由表中数据有:,b1表明在手表平均价格固定时,人均货币收入每增加元,手表销售量平均增长18.6368万只;b2表明在人均货币收入固定时,手表平均价格每上升元/只,手表销售量平均减少8.0328万只。这里的b2比原一元线性回归模型中的同一回归系数b=-65要大得多,是因为一元线性回归模型只列入了手表平均价格对销售量的影响而忽略了居民收入这一很重要的因素,在手表平均价格的影响中渗入了居民收入的影响。,3 曲线回归,一 曲线的类型与特点二 曲线方程的配置三 多项式回归,曲线回归(curvilinear regression)或非线性回归(non-linear regression):两个变量间呈现曲线关系的回归。曲线回归分析或非线性回归分析:以最小二乘法分析曲线关系资料在数量变化上的特征和规律的方法。,曲线回归分析方法的主要内容有:确定两个变量间数量变化的某种特定的规则或规律;估计表示该种曲线关系特点的一些重要参数,如回归参数、极大值、极小值和渐近值等;为生产预测或试验控制进行内插,或在论据充足时作出理论上的外推。,第一节 曲线的类型与特点,一、指数函数曲线二、对数函数曲线三、幂函数曲线四、双曲函数曲线五、S型曲线,一、指数函数曲线,指数函数方程有两种形式:图11.1方程 的图象,二、对数函数曲线对数函数方程的一般表达式为:图11.2 方程=a+blnx 的图象,三、幂函数曲线幂函数曲线指y是x某次幂的函数曲线,其方程为:图11.3 方程 的图象,四、双曲函数曲线双曲函数因其属于变形双曲线而得名,其曲线方程一般有以下3种形式:图11.4 方程 的图象,五、S型曲线S型曲线主要用于描述动、植物的自然生长过程,故又称生长曲线。Logistic曲线方程为:,第二节 曲线方程的配置,一、曲线回归分析的一般程序二、指数曲线方程 的配置三、幂函数曲线方程的配置四、Logistic曲线方程的配置,一、曲线回归分析的一般程序,曲线方程配置(curve fitting):是指对两个变量资料进行曲线回归分析,获得一个显著的曲线方程的过程。由试验数据配置曲线回归方程,一般包括以下3个基本步骤:,1根据变量X 与Y 之间的确切关系,选择适当的曲线类型。2对选定的曲线类型,在线性化后按最小二乘法原理配置直线回归方程,并作显著性测验。3将直线回归方程转换成相应的曲线回归方程,并对有关统计参数作出推断。,表11.1 常用曲线回归方程的直线化方法,应用上述程序配置曲线方程时,应注意以下3点:(1)若同一资料有多种不同类型的曲线方程配置,需通过判断来选择。统计标准是残差平方和 最小的当选。(2)若转换无法找出显著的直线化方程,可采用多项式逼近,(3)当一些方程无法进行直线化转换,可采用最小二乘法拟合。,二、指数曲线方程 的配置,(111)两边取对数:(112)令,可得直线回归方程:(113)若 与x的线性相关系数:(114),显著,就可进一步计算回归统计数:(115)三、幂函数曲线方程 的配置(116),当 y 和 x 都大于0时可线性化为:(117)若令,即有线性回归方程:(118)若线性相关系数:(119),显著,回归统计数:(1110)四、Logistic曲线方程的配置(a、b、k均0)(1111),K 可由两种方法估计:如果y是累积频率,则显然k=100%;如果y是生长量或繁殖量,则可取3对观察值(x1,y1)、(x2,y2)、和(x3,y3),代入(1111)得:,若令,解得:移项,取自然对数得:,(1113),(1112),令 可得直线回归方程:(1114)和 x 的相关系数:(1115)回归统计数 a 和 b 由下式估计:,(1116),第三节 多项式回归,一、多项式回归方程 二、多项式回归的假设测验,一、多项式回归方程,(一)多项式回归方程式多项式回归(polynomial regression):当两个变量间的曲线关系很难确定时,可以使用多项式去逼近。二次多项式,其方程为:(1117),三次多项式的方程式为:(1118),多项式方程的一般形式为:(1119)(二)多项式方程次数的初步确定多项式回归方程取的次数:散点所表现的曲线趋势的峰数谷数。若散点波动较大或峰谷两侧不对称,可再高一次。,(三)多项式回归系数的计算可采用类似于多元线性回归的方法求解多项式回归系数。令,(1119)可化为:(1120),可采用矩阵方法求解。即由和,求得、和()-1,并由 b=()-1()获得相应的多项式回归统计数。(四)多项式回归方程的估计标准误 y 的总平方和 SSy 可分解为回归和离回归两部分:SSy=Uk+Qk,(1121),k 次多项式的离回归标准误可定义为:即是多项式回归方程的估计标准误。,(1122),(1123),二、多项式回归的假设测验多项式回归的假设测验包括三项内容:总的多项式回归关系是否成立?能否以k-1次多项式代替k次多项式,即是否有必要配到k次式?在一个k次多项式中,X 的一次分量项、二次分量项、k-1次分量项能否被略去(相应的自由度和平方和并入误差)?,(一)多项式回归关系的假设测验多项式回归(Uk)由X的各次分量项的不同所引起,具有:。离回归(Qk):与X 的不同,具有。可测验多项式回归关系的真实性。,(1124),相关指数:,k 次多项式的回归平方 和占Y总平方和的比率的平方根值,可用来表示Y与相应多项式的相关密切程度。决定系数:在Y 的总变异中,可由X 的k 次多项式说明的部分所占的比率。,(1125),(二)k 次多项式必要性的假设测验若k次多项式的k次项不显著,可由(k-1)次方程描述Y 与X 的曲线关系。有必要测验多项式增加一次所用去的1个自由度,对于离回归平方和的减少(或回归平方和的增加)是否“合算”。因此由:,(1127)可测验k 次多项式的适合性。(三)各次分量项的假设测验偏回归平方和:,(1128),此 具有,故由:可测验i次分量是否显著。,(1129),4 主成份分析,一、数学模型,二、主成份分析,三、主成份的贡献率,这是一个将多个指标化为几个少数指标进行统计分析的问题,设有 维总体有 个随机指标构成一个 维随机向量,它的一个实现为;而且这 个指标之间往往相互有影响,是否可以将它们综合成少数几个指标,使它们尽可能充分反映原来的 个指标。例如加工上衣,有袖长、身长、胸围、肩宽、领围、袖口、袖深,等指标,是否可以找出主要几个指标,加工出来就可以了呢?例如主要以衣长、胸宽、型号(肥瘦)这样三个特征。,一、数学模型,设 为 维随机向量,为期望向量,为协方差矩阵,其中 设将 综合成很少几个综合性指标,如,不妨设,则有 要使 尽可能反映原来的指标的作用,则要使 尽可能大,可以利用 乘子法:要对a加以限制 否则加大,增大无意义。令 设 并使,可得方程组(2.1)的解为(2.2)以 左乘(2.2)之两边,得 即 由(2.2)式可得(2.3)要使满足(2.3)的a非零,应有,即入是 的特征根,设 是 的 个特征根,只要取,再由,求出V的属于 的特征向量,在条件 是唯一的 维特征向量。于是得(2.4),二、主成份分析,一般协方差方阵为非负定,对角线上各阶主子式都大于等于零,即特征值有:设前m个都大于零,依次为,相应的特征向量为,则,即为第一,第二,第 个主成份,由线性代数知识可知,不同的特征根对应的不同的特征向量线性无关,由于V是实对称阵则 线性无关变换后的各主成份 相互无关。即对 进行了一次正交变换。,在实际应用中,V阵往往是未知的,需要用V的估计值 来代替,设有 组观测值 则取(2.5)(2.6)其中 是 的 样本方差,的样本协方差。需要求出 的特征值。,由于不同的度量会产生量纲问题,一般建议作如下变换:用标准变量 代替以 前的,即可以运算。此时的协方差矩阵即相关矩阵 从R出发,可求主成份。,三、主成份的贡献率,为了尽可能以少数几个主成份 来代替P个指标,那么要决定取多少个主成份才够呢 由于 则可得 是 的方差,可得 亦是V的全部特征值之和:,由于,则令 表明方差 在全部 方差中所占的比重,称 是第i个主成份的贡献率,显然有,不妨取一个阈值为d(0d1),当 时,即舍去,此时可取 为主成份。以贡献率来决定它的个数。,一、数学模型,二、关于计算中应注意的问题,三、关于误判率及多个总体的判别,5 判别分析,一、数学模型,根据所研究的个体的观察指标来推断个体所属于何种类型的一种统计分析方法,称为判别分析。例如某精神病院有精神病患者256名,诊断结果将它们分成六类(相当于6个总体)设 服从三维联合正态分布 i=1,2,6,其中,为协方差矩阵,一般这六种类型可分为焦虑状、癔病、精神病、强迫观念型、变态人格、正常,若有如下子样:子样 子样 子样,注意到每个子样 都是三维向量。现有一个新的精神病患者前来就医,测得三个指标:,试判断该患者病情属于哪一类。,(一)两点的距离,设 维空间中有两点,则其欧氏距离为:,(3.1),由于数据的量纲不同,不采用欧氏距离,用马氏距离有:定义1:设X,Y是从总体G中抽取的样品,G服从P维正态分布,,定义X,Y两点间的距离为马氏距离:,(3.2),定义2:X与总体G的距离为D(X,G)为,(3.3),(二)距离判别法 设有两个协方差相同的正态总体,且,对于一个新的样品,要判定它来自哪一个总体,有一个很直观的方法:计算,若,(三)线性判别函数 由,令,记,则有:当 时,否则,当 为已知时,令,,可得:,(3.4),称 为线性判别函数,a为判别系数,因为,,即,解线性方程组可得解,此时的判别规则为:,X是新的一个点,将其代入即可判别。,(3.5),二、关于计算中应注意的问题,实际上,均未知,要用样本值的估计公式来计算出,。其方法如下:,设子样,来自总体,子样,来自,可由,(在本节的开头的例子中P=3),得到,(3.6),(3.7),判别函数为,(3.8),判别系数为,三、关于误判率及多个总体的判别,这里提及一个回报的误判率问题。在构造判别函数W(X)时,是依据样本,现在已知,均属于,从道理上来说,经过判别公式(3.8),可得出,但也可能出来某几个不属于,这,便是误判。若有 存在,使得,说明,这就产生了一个误判。所谓误判率,即是出现误判的百分数,我们应该有所控制。当两个总体的协方差不相等时,可用如下方法:,(3.9),(3.10),当,当,未知时,用下列估计代替:,在,个总体,时,均值为,协方差阵为,(,维),设,都已知时,X为样品,计算,选择一个,最小的值例如,则,设,未知,但独立,可以分别以估计值来计算。,当上述 未知,但,亦可以用上述类似方法。上述解决方法中,可以扩展到非正态分布。,时,,6 聚类分析,物以类聚,人以群分,社会发展和科技的进步都要求对于某些物体进行分类。由于早期的定性分类已不能满足需要,于是数值分类学便应运而生。,一、数学模型,二、应用类例,一、数学模型,某种物品有n个:,指标,如何将其分成若干类,基本的思路是把距离较近的点归成一类。这里的距离可分为如下三类:,它有m个数值量化,1.距离,的距离,本文中的距离常用欧氏或马氏距离,公式在前几节中已述,还有一种用绝对距离:,应该提及马氏距离,可以克服数据相关性的困难。,2.数据正规化处理,当,的分量中,大,要经过正规化标准化处理,令,个指标量纲不一致时,相差很,(4.1),其中,(4.2),(4.3),将经过(1)式处理的数据,重新视作,(为记号上的方便),3.相似系数法,的相关系数,(4.4),可以将相关愈密切的归成一类。,4.最短距离聚类法(系统聚类法,逐步并类法),先将n个样本各自为一类,计算它们之间的距离,选择距离小的二个样本归为一个新类,再计算这个新类与其它样本的距离,选择距离小的二个样本(或二个新类)归为一个新类,每次合并缩小一个以上的类,直到所有样本都划为一个类为止。这里规定两点间距离为:,两类间的距离,即,的距离为:,步骤如下:1.数据正规化处理 要视各指标的量纲是否一致,相差是否太大,并选择一种距离计算法,为了方便计,一般都选择欧氏距离法。2.计算各样本间的两两距离,并记在分类距离对称表中,并记为D(0),第0步分类,此时,(每一个样本点为一个类),3.选择表D(0)中的最短距离,设为,则将,合并成一个新类,记为,(4.5),4.计算新类,与其它类之间的距离,定义,(4.6),表示新类,与类,之间的距离。,5.作D(1)表,将D(0)中的第p,q行和p,q列删去,加上第r行,第r列。第r行,第r列与其它类的距离按(4.6)式判断后记上,这样得到一个新的分类距离对称表,并 记为D(1),D(1)表示经过一次聚类后的距离表,要注意的是Dr类是由哪两类聚类得到应在D(1)表下给以说明。6.对D(1)按3,4,5重复类似D(0)的聚类工作,得D(2)。7.一直重复,直到最后只剩下两类为止,并作聚类图。,二、应用类例,现有8个样品,每个样品有2个指标(m=2,2维变量),它们的量纲相同,(否则要经过正规化处理),试用系统聚类方法对这8个样品进行聚类。,解:采用欧氏距离(1)最短距离法,首先用表格形式列出D(0),表示第i个样品,i=1,2,8,在D(0)中,最小值是1.0,相应的距离是D(3.4),与D(6,7)。则,合并为新类,把,合并成,。,(2)把D(0)中去掉,并计算得下表,后两行重算,其余照D(0)照抄。,视D(1)中,最小值为1.4,相应的是D(5,10)将,合并成新类,。,3)同法构造D(2)表,其中,最小值D(1,2)=D(2,9)=2.0,则把,,在D(2)中,其中,D(3)中,最小值D(11,12)=4.1,因此把,,在,(见D(0)第8行),3.把上述聚类过程用聚类图表示:,说明:聚类到一定程度即可结束,一般可以选取一个阈值T,到D(K)中的所有非零元素都大于T,即结束(表中的值T值)设T=2.5:则到D(3)时结束,此时的共聚为三类:,如下图:,7 模糊聚类分析,二、数学模型,一、问题的提出,三、一个实例,一、问题的提出,客观事物分成确定性和不确定性两类,处理不确定性的方法为随机数学方法。在进行随机现象的研究时,所表现的现象是不确定的,但对象事物本身是确定的。例如投一个分币,出现哪一面是随机的,但分币本身是确定的。如果所研究的事物本身是不确定的,这就是模糊数学所研究的范畴。例如,一个人年龄大了,称年老,年小,或年青,但到底什么算年老,什么算年青呢?又如儿子象父亲,什么是象?象多少?再说儿子象父亲,儿子又象母亲(部分象),难道父亲象母亲?1965年由I.A.Zadeh提出模糊数学,它可以广泛地应于图象识别,聚类分析,计算机应用和社会科学。,二、数学模型,设E为分明集(集合)1.定义:称为隶属度函数(分得很清楚)要末是,要末不是,对A为不分明集,可以取0到1之间的任意一个实数值.当 愈接近于1.则 的程度愈大.愈接近于0.则 的程度愈小.,2.模糊数学的运算法则 如A和B为不分明集,则有:并,记为,交,记,补,记为,3.模糊聚类 模糊聚类同于一般聚类法(相似系数法或最小距离法)以相似系数(相关系数)法为例:思路:先算相似系数矩阵(相似矩阵)将相似矩阵改造成模糊矩阵:即将原相似矩 阵的元素压缩到0,1之间 改造成模糊等价矩阵,取不同的标准,可以得 到不同的聚类标准.,计算步骤:第一步:计算相似的系数 先将 数据 标准化 令得到标准化的数据为 显然(标准化数据的平均值一定为0)得标准化后比数据的相关系数为,相似矩阵 第二步:将相似系数压缩到0,1之间 令 建立模糊矩阵,第三步:建立模糊等价矩阵 由于上述模糊矩阵不具有传递性:即要通过褶积将模糊矩阵改造成模糊等价矩阵:矩阵的褶积与矩阵乘法类似,只是将数的加.乘运算改成并 和交:则褶积为:,于是有:于是有:一直到 为止此时 即满足模糊等价矩阵,具有传递性 此时记它为:CR第四步:进行聚类:将矩阵CR的元素 依大小次序排列,从1开始,沿着 自大到小依次取 值,定义:可以得到若干个0,1元素构成的CR 矩阵,其中值为1的表示这二个样本划为一类,三、一个实例 预报对象:华北五站(北京、天津、营口、太原、石家庄)7-8月降水量,仅用61-67年 7年的资料(略)第一步:计算相似系数 经过标准化计算相似系数矩阵R,第二步:建立模糊矩阵 将相似系数压缩到0,1之间 得 第三步:建立模糊等价矩阵 按上式计算:例如,得到,发现,当 取0.92时:将,当 取0.65时有:,又将 合并成一类,当 取0.64时,有 此时将1,3,再与4,6并为一类,可分成三类 再取=0.63时 这次再将,只有二类:,聚类图:,说明:(1)当=0.65时,共分成四类:(2)当=0.64时,共分成三类:(3)当=0.63时,共分成二类:这是以按年份为基本类的分类图,0.64,0.65,0.92,0.99,0.63,8 偏最小二乘回归分析,回归分析中尤其重要的是所谓“线性回归模型”,用矩阵表示的线性回归模型为其中 是 阶的观测值向量,是 阶的设计矩阵,是 阶的回归系数向量,是 阶的随机误差向量。在线性回归分析中,我们的任务就是估计上式中的未知参数,并对回归函数做出统计推断。通常使用的参数估计方法是最小二乘法。根据最小二乘法的原理可得,回归系数的估计值为,最小二乘估计是无偏估计,而且在满足高斯马尔可夫条件下最小二乘估计在所有线性无偏估计量中具有最小的方差。在多元回归分析应用中,变量间常存在多重相关性。此时,如果仍然采用最小二乘法拟合回归模型,则模型的精确性、可靠性都不再能得以保证。在实际工作中,当自变量具有多重相关性时,回归结果会出现许多反常现象。,这是因为在最小二乘法下,回归系数的估计值是:,当 中的变量完全相关时,是不可逆矩阵。因此,用此公式无法求得回归系数。当 中变量高度相关时,行列式 接近于零,这时求 会含有严重的舍入误差。因此,回归系数容易受较大舍入误差的影响,而增加了其估计值的抽样变异性。在实际工作中,当自变量具有多重相关性时,回归结果会出现许多反常现象,因而使缺乏经验的分析人员感到十分困惑。,另一个使用普通多元线性回归分析受到的限制是样本点数量不宜太少。然而,在一些工程试验中,常常会有许多必须考虑的重要变量,但由于经费、时间等条件的限制,所能得到的样本点数量却少于变量的个数。这是普通多元线性回归不能解决的问题。为消除系统中的多重共线性,常采用主成分分析的方法,但采用主成分分析提取的主成分,虽然能较好地概括自变量系统中的信息,但往往带进了很多无用的噪声,从而对因变量缺乏解释能力。,近年来发展起来的偏最小二乘(PLS)是伍德(S.Wold)和阿巴诺(C.Albino)等人于1983年首次提出的,它是一种新型的多元数据分析方法,研究的焦点是多因变量对多自变量的回归建模。偏最小二乘回归能在自变量之间存在多重共线性条件下进行建模,更易于辨识系统信息与噪声,对因变量也有较强的解释能力。近十几年来,它在理论方法和应用方面都得到了迅速发展。,偏最小二乘回归具有普通最小二乘回归所无法比拟的优点,它可以实现多种数据分析方法的综合应用,集多元线性回归分析和主成分分析的基本功能为一体。但是,偏最小二乘回归方法所选择的主成分中仍包含所有的自变量,没有完全解决变量间存在的严重多重相关性,特别是在自变量个数多,样本容量小的情况下。因此进行回归分析前应先对变量做选择。,偏最小二乘回归可以进行多因变量对多自变量的回归,下面介绍偏最小二乘回归分析的建模方法。设有 个因变量 和 个自变量。为了研究因变量与自变量的统计关系,我们观测了 个样本点,由此构成了自变量与因变量的数据表 和,为了数学推导方便起见,首先将数据做标准化处理。数据表 和 经标准化处理后的数据矩阵分别记为 和。偏最小二乘回归分别在 与 中提取成分 和,在提取这两个成分时,为了回归分析的需要,有下列两个要求:(1)和 尽可能大的携带它们各自数据表中的变异信息;(2)与 的相关程度最大。,在第一个成分 和 被提取后,偏最小二乘回归分别实施 对 的回归和 对 的回归。如果此时回归方程已经达到满意的精度,则算法停止;否则,将利用 被 解释后的残余信息以及 被 解释后的残余信息进行第二个成分的提取。如此反复,直到能达到一个较满意的精度为止。若最终对 共提取了 个成分 其中,偏最小二乘回归分析将分别施行 和 对 的回归。(2.10)(2.11)由于 都是 的线性组合,因此,式(2.11)还可以还原成 关于 的回归方程,即(2.12),是残差矩阵 的第 列。又由 其中,和 分别为 和 的样本均值;和 分别为 和 的样本均方差。,因此回归方程还可以还原成关于原始变量的偏最小二乘回归方程:,交叉有效性原则记 为原始数据,是在偏最小二乘回归过程中提取的成分,是使用全部样本点并取 个成分进行回归建模后,第 个样本点的拟合值。是在建模时删去第 个样本点,取 个成分回归建模后,第 个样本点的拟合值。记(2.14)当 时,引进新的成分 会对模型的预测能力有明显的改善作用。这就是交叉有效性原则。,