回归与拟合分析课件.ppt

上传人：牧羊曲112

文档编号：4000344

上传时间：2023-03-31

格式：PPT

页数：68

大小：883KB

《回归与拟合分析课件.ppt》由会员分享，可在线阅读，更多相关《回归与拟合分析课件.ppt（68页珍藏版）》请在三一办公上搜索。

1、第二章回归与拟合分析,提纲,1.线性回归分析2.逐步回归分析3.非线性回归分析4.SCGM多点分析,1.1 线性回归概念,经典的线性回归分析法仍广泛应用于变形测量数据处理中。它是研究一个变量（因变量）与多个因子（自变量）之间非确定关系（相关关系）的最基本方法。该方法通过分析所观测的效应量（如变形）和原因（如荷载）之间的相关性，来建立数学模型。如：因变量：水库大坝的变形；自变量：水库水位、气温、降雨量等,1.2 线性回归模型,线性回归模型式中为因变量，是为可观测的随机变量；是自变量，为可观测的已知变量；为不可观测的随机误差项，为未知参数如果进行了n 期观测，可写为,1.2 线性回归模型,

2、矩阵表达式中,1.3 线性回归模型建立过程,回归分析模型建立的过程根据实际研究问题设置目标变量收集整理统计数据构造回归模型对模型参数进行估计对回归方程和回归系数进行假设检验回归模型的应用,1.4 线性回归模型参数估计,模型参数估计回归参数可通过样本数据（观测数据）来估计，误差方程可以写成：按最小二乘准则参数估值,1.4 线性回归模型参数估计,的最小二乘估值多元回归模型的标准差（中误差）,1.5 线性回归模型的拟合优度,拟合优度：样本观测值聚集在样本回归线周围的紧密程度。常用指标是复相关系数定义：总离差平方和回归平方和残差平方和三者关系,1.5 线性回归模型的拟合优度,复相关系数（可决系数）在

3、总离差平方和中回归平方和所占的比重越大，则回归效果越好，说明回归模型与样本观测值拟合得好；如果残差平方和所占比重大，则回归模型与样本观测值拟合得不理想。把回归平方和与总离差平方和之比定义为可决系数，或复相关系数,1.6 总体回归模型的显著性检验,实际问题中，事先并不能断定因变量与自变量之间是否确有线性关系。在求线性回归方程之前，线性回归模型只是一种假设。在求得线性回归方程后，还需要对回归方程进行统计检验，以给出肯定或者否定的结论。统计检验原假设：因变量与自变量之间不存在线性关系，则模型中的为零向量，即备选假设：不全为零,1.6 总体回归模型的显著性检验,检验统计量检验：选择显著性水平后

4、，可以用下式检验原假设：若上式成立，即可认为在显著性水平下，回归系数不全为0，即回归方程是显著的。,1.7 回归系数显著性检验t检验,回归方程显著，并不意味着每个自变量对因变量的影响都显著，总想从回归方程中剔除那些可有可无的变量，重新建立更为简单的线性回归方程。这时可以采用回归系数显著性检验。统计检验原假设：如果某个变量对的作用不显著，则该变量的系数就应该为零，即检验统计量：,1.7 回归系数显著性检验t检验,检验：选择显著性水平后，可以用下式检验原假设：若上式成立，即可认为回归系数在置信水平下是显著的。,1.7 回归系数显著性检验F检验,偏回归平方和：在回归分析中，去掉一

5、个自变量使回归平方和减少的部分，也可理解为添入一个自变量使回归平方和增加的部分。可以证明，其为：统计检验原假设：如果某个变量对的作用不显著，则该变量的系数就应该为零，即检验统计量：,1.7 回归系数显著性检验F检验,检验：选择显著性水平后，可以用下式检验原假设：若上式成立，即可认为回归系数在置信水平下是显著的。,某大坝的垂直位移与水位观测值如下表，试用回归分析求回归方程,某大坝的水平位移与两个主要坝段的温度观测值如下表，试用回归分析求回归方程,1.8 线性回归模型的预报,线性回归模型的预报方程预报就是给自变量一组特定的值（），对因变量的值进行估计自变量（如气温、水库水位、降雨量

6、、大坝滑坡体的岩土力学参数）的值可以通过实测得到，如滑坡体的岩土力学参数等也可以用前几十年的资料进行预测得到，如气温、水库水位、降雨量等,1.8 线性回归模型的预报,预报误差的估计值的期望和方差：构造统计量：,1.8 线性回归模型的预报,预报的置信区间控制：即要求因变量在之间，自变量因素应该怎么控制,提纲,1.线性回归分析2.逐步回归分析3.非线性回归分析4.SCGM多点分析,2.1 最优回归方程的选择,对于一个因变量可能存在多个影响因素，如何从诸多的影响因素中选择一些有效的变量作为自变量，建立“最优”回归方程十分重要如果遗漏了重要的变量，回归分析的效果一定不会好；如果变量过多，将会把对

7、 y 影响不显著的变量也选入回归方程，这样就影响了回归方程的稳定性，效果也好不了。在实际问题中，影响y的因素很多，而且这些因素之间有可能存在多重共线性，即个自变量之间也有一定的依赖性，这样会出现选择不同的自变量，得到不同的回归结果，对结果的解释也不一样。,2.1 最优回归方程的选择,建立最优回归方程的方法：逐步剔除、逐步引入、逐步回归法“逐步剔除”回归分析步骤：首先采用全部自变量与因变量建立回归方程，对每一个因子作显著性检验，剔除不显著的变量中偏回归平方和最小的变量；然后用剩余的自变量和因变量重建回归方程，再逐个检验回归系数，剔除不显著的变量中偏回归平方和最小的变量；重复上述步骤，直到回归方程

8、中所有的因子都显著。缺点：一开始就要计算所有自变量的回归方程，如果原始自变量中有较多个不显著因素，计算量大；,2.1 最优回归方程的选择,“逐步引入”回归分析：从一个自变量开始，逐个地选入回归方程步骤第一步是在所有的自变量中选出一个，使它和y组成的一元回归方程，回归平方和达到最大，做显著性检验，确认显著时进入下一步；第二步，在未入选的变量中选择一个自变量，使它与已入选的变量组成二元方程，回归平方和达到最大，做显著性检验，确认显著时进入下一步；上述过程不断重复下去，直到选入的变量不显著缺点：未考虑新变量的逐步引入，使得原有引入的变量有可能失去重要性；,2.1 最优回归方程的选择,“逐步回归”分析

9、方法：为了克服上述两种方法的缺点，发展出“有进有出”的回归分析方法，即逐步回归分析方法。类似“逐步引入”方法，根据自变量对y作用的显著程度，逐个引入回归方程。不同之处在于，当原引入变量由于后面的变量引入不再显著时，将其剔除。,2.2 逐步回归分析步骤,一、确定F检验值引入或剔除变量的标准。一般地，为使最终回归方程中包含较多的变量，F检验水平不宜过高，即显著水平不宜太小二、逐步计算如果已计算t步，且回归方程中已引入t个变量，则第t+1步为（1）计算所有自变量的偏回归平方和；（2）剔除自变量：在已引入的t个自变量中，检查是否有需要剔除的不显著变量。方法：在已引入的变量中选取具有最小偏回归平方和的一

10、个并计算F值。如果FF，不需要剔除变量。计算转至步骤（3）。,2.2 逐步回归分析步骤,（3）引入自变量：从未引入的变量中选出具有最大偏回归平方和的自变量，并计算F值，如果FF，则表示该变量显著，应引入回归方程，计算转至步骤（4）。如果FF，则表示已无变量可以选入，逐步回归计算结束。（4）剔除或引入一个变量后，应该重新进行回归，第t+1步结束。重复（1）（4）进行计算。三、其他计算计算回归方程入选变量的系数、复相关系数和残差统计量等。,提纲,1.线性回归分析2.逐步回归分析3.非线性回归分析4.SCGM多点分析,3.1 非线性回归模型概念,自然界大量存在的相互作用是非线性的。例如，边坡变形是一

11、个复杂的非线性过程，它主要受到边坡地区地质构造、滑坡体及滑动面的力学性质、滑坡体及滑坡地区的水文气象条件（如气温、雨水等）的影响。过程本质的非线性就决定了预报模型的非线性。所以，边坡预报从线性统计分析转向非线性分析，从而建立非线性统计预报方法，已逐渐得到较多关注。,3.1 非线性回归模型概念,应用非线性回归模型作边坡变形分析和变形预报首先必须依据一定的样本数据所描述的散点图，结合对特定的边坡运动规律的定性分析，选择适当的回归模型。模型确定以后就可以计算模型参数和进行模型评估和检验。模型通过检验后，就可以对边坡的变形进行分析和预报。,2.2 非线性回归模型的类型,根据非线性回归模型线性化的不同性

12、质，上述模型一般可以分成三种类型：直接换元型、间接代换型、非线性型直接换元型这类非线性回归模型通过简单的变量换元可直接化为线性回归模型,(1)双曲线模型(2)多项式模型(3)对数模型(4)三角函数模型,2.2 非线性回归模型的类型,直接换元型虽然包含有非线性变量，但因变量与待估计参数之间的关系却是线性的。由于这类模型的因变量没有变形，所以可以直接采用最小二乘法估计回归系数并进行检验和预测,2.2 非线性回归模型的类型,间接代换型这类非线性回归模型经常通过对数变形代换间接地化为线性回归模型,(1)指数模型(2)幂函数模型,2.2 非线性回归模型的类型,间接代换型因变量与待估计参数之间的关系也是非

13、线性的，因此不能通过直接换元化为线性模型。通常可通过对回归方程两边取对数将其化为可以直接换元的形式。这种先取对数再进行变量代换的方法称为间接换元法。为使取对数后回归方程的形式更为简捷，不妨适当变换随机扰动项的形式，,(1)指数模型(2)幂函数模型,2.2 非线性回归模型的类型,间接代换型由于这类模型在对数变形代换过程中改变了因变量的形态，使得变形后模型的最小二乘估计失去了原模型的残差平方和为最小的意义，从而估计不到原模型的最佳回归系数，可能造成回归模型与原数列之间的较大偏差。,2.2 非线性回归模型的类型,非线性型不能通过变量变换的方法化为线性模型。可借助于泰勒级数展开式进行逐次线性逼近的估计

14、方法,Logistic模型Richards模型Weibull模型修正指数增长曲线,某大型高边坡，边坡高差达300米，为了监测边坡的变形，在边坡上布设了一系列监测点：一部分布设在坡顶地面，另一部分布设在滑体上专门开凿的平硐内。变形工作是从1988年开始的，由于缺少有关降雨量等相关资料，对边坡的性状分析主要集中在对边坡监测点的实测变形曲线的规律的分析上。右图为其中几个点的变形时间实测曲线,2.3 非线性回归模型的线性逼近解法,如果不考虑水的因素，则边坡滑动是一个单纯的力学蠕变过程，可用文字描述为：边坡受到一定的外力干扰后开始蠕变，在蠕变初期变形速度较慢；蠕变到一定时期后，速度逐渐加快；蠕变速度增加

15、到一定程度后，如果边坡的约束强，则边坡的蠕变会逐渐变缓，最后趋于稳定，达到新的平衡；如果边坡的约束不强，则蠕变达到一定程度后会产生突变，导致滑坡。根据对边坡滑移规律的分析，可以选择非线性回归模型中的生物增长曲线来描述边坡的变形 Logistic模型 Richards模型 Weibull模型,数学模型式中为时间变量，为观测的变形量，为未知参数如果进行了n 期观测，观测量和观测时间可写为,2.3 非线性回归模型的线性逼近解法,观测模型线性化,2.3 非线性回归模型的线性逼近解法,线性化,2.3 非线性回归模型的线性逼近解法,矩阵表达式中,2.3 非线性回归模型的线性逼近解法,由最小二乘原理，

16、可以求得的估值由于参数无任何先验信息，必须迭代求解。设第K步求得的参数解为k，则第k+1步计算步骤为：（1）对模型函数在k处按台劳级数展开，重新线性化，组成矩阵形式的观测方程式（2）按最小二乘法解得第k+1步的参数解(k+1)，(k+1)=k+(3)若，迭代结束，否则重复（1）（2）,2.3 非线性回归模型的线性逼近解法,2.3 非线性模型的检验,非线性模型的检验一般是对残差进行分析，根据残差来推断模型和参数的统计性质。对非线性模型，记，表示模型拟合残差。在非线性模型的情况下，要检验残差是否满足如下假设：(i)为独立、同分布的随机变量，且有：记为iid.(ii)除满足（1）外，还服从正态分布

17、，记为iidN.检验分两步进行，首先检验残差是否服从正态分布，在接受正态分布的检验后再进一步检验残差均值是否为零。具体方法如下：,2.3 非线性模型的检验,残差是否服从正态分布的检验若把残差的取值范围划分为L个子区间(一般划分为7-14个子区间，区间的划分以使每个子区间内所含的样本个数不少于5个为宜)。统计出每个子区间所含的样本数即组频数，i=1,2,L。计算出残差平均值和残差方差作为正态分布的参数，查正态分布表得出每一子区间的理论频数，其中为在第i个区间取值的概率，它可由正态分布表查得。检验的统计量为：由此可以检验残差是否服从正态分布。,2.3 非线性模型的检验,统计检验检验统计量

18、：,2.3 非线性模型的检验,残差均值是否为零的检验在通过残差服从正态分布的前提下，我们再来讨论残差均值是否为零的检验。在大样本时不管总体遵循什么分布，根据中心定理，可以认为样本均值渐近遵从正态分布。因此可以利用u检验：,2.3 非线性模型的检验,统计检验检验统计量：,2.3 非线性模型的检验,若两个检验都成立，则认为模型的统计性质优良；若检验（1）通过但检验（2）不成立，则需对模型进一步改进或是调整模型参数形式等；若两个检验都不成立，则需调整模型或是考虑用别的模型。,2.4 非线性回归模型的预报,变形预报：,提纲,1.多元线性回归模型2.非线性回归模型3.SCGM模型,3.1 SCGM模

19、型概念,在实际系统中，往往总有多个因子或状态变量在系统的演变中发生联系或相互影响，因而建立模型时，应考虑这种影响。1990年问世的针对关联多因子对象的系统云灰色预测模型（System Cloud and Its Grey Model，陈绵云等，1990），即SCGM(1,m)预测模型就适合于这种情形的描述。边坡系统实际上是一个复杂的隐含了动态系统运行特征的关联多因子灰色系统，因此，边坡的变形发展可以用SCGM(1,m)模型描述。,3.2 SCGM模型建立,设有含m个监测点、共进行了n期观测的边坡系统，其观测序列记为均值序列记为：均值一阶累加生成序列为：,设有含m个监测点、共进行了n期观测的边坡

20、系统，其观测序列记为均值序列记为：均值一阶累加生成序列为：,3.2 SCGM模型建立,考虑m个点互相关联和互相影响，建立SCGM（1,m）模型,3.2 SCGM模型建立,写成矩阵形式：,3.2 SCGM模型建立,由积分生成变换(IGT)原理，在矩阵形式两边左乘,3.3 SCGM模型解算,根据定义和上述递推模型：,3.3 SCGM模型解算,把k=2,3,n代入，得,3.3 SCGM模型解算,若令则递推公式可写为：设，上式可以写成,3.3 SCGM模型解算,把k=2,3,n代入，得,3.4 SCGM模型还原预测,由可得：又由可得所以还原预测模型：,3.5 SCGM模型精度,模型的模拟精度模型

21、预测相对误差：向前步预测结果其中,3.6 SCGM模型程序设计,模型,3.6 SCGM模型程序设计,数据程序：用前24期数据建模，对第2536期观测进行预报主程序：load deform_data.dat；model_data=deform_data(1:24,:);函数：function EA,B,C=SCGM(model_data),1.01 2.03 5.082.55 3.04 5.09,观测数据文件：deform_data.dat,行代表观测期数列代表监测点个数,函数：function EA,B,C=SCGM(model_data)%数据预处理，均值序列model_ave，均值一阶累加序列model_ave_AGO%计算EA计算B和C,3.6 SCGM模型程序设计,主程序：load deform_data.dat；model_data=deform_data(1:24,:);EA,B,C=SCGM(model_data)变形预报：,3.5 SCGM模型程序设计,计算模型的模拟精度计算模型预测相对误差：向前步预测结果其中,