回归分析教程课件.ppt
第六章 回 归 分 析,教学目的和要求:,通过本章内容的教学,使学生掌握一元线性回归方程的求法、回归方程的方差分析与显著性检验方法;了解一元非线性回归方程的求解思路及回归曲线方程的效果与精度;了解多元线性回归方程的求法和显著性检验与精度。,主要内容:,1.回归分析的基本概念:概念、回归分析的主要内容。 2.一元线性回归:一元线性回归方程的求法、回归方程的方差分析与显著性检验、重复试验情况、回归直线的简便求法。 3.一元非线性回归:回归曲线类型的选取和检验、化非线性回归为线性回归、回归曲线方程的效果与精度。 4.多元线性回归:二元线性回归方程的求法、多元线性回归、多元线性回归的显著性检验与精度。,6.1基本概念,变量间的关系可分为函数关系和相关关系。,变量间的函数关系,1、是一一对应的确定关系,2、设有两个变量x和y,变量y随变量x一起变化,并完全依赖于x,当变量x为某个数值时,y依确定的关系取相应的值,则称y是x的函数,记为y=f(x,y),其中x称为自变量,称y为因变量,如以速度v作匀速运动的物体,走过的距离s与时间t之间,有如下的函数关系 s=vt,变量间的相关关系,1、变量间关系不能用函数关系精确表达,3、当变量x取某个数值时,变量y的值可能有几个,2、一个变量的取值不能由另一个变量唯一确定,如人的身高( )与体重( )之间的关系,什么是回归分析?,3、因素分析,如从对共同影响一个变量的许多变量(因素)中,找出重要因素和次要因素,一种处理变量间相关关系的数理统计方法。它主要解决以下几个问题,1、从一组样本数据出发,确定变量之间的数学关系式,2、对这些关系式的可信程度进行各种统计检验,7,回归模型的类型,回归模型,一元回归,线性 回归,非线性 回归,线性 回归,非线性 回归,多元回归,一个自变量,两个及两个以上自变量,6.2 一元线性回归,6.2.1 一元线性回归方程,一元线性回归模型概念,1、当只涉及一个自变量时称为一元回归,若因变量y与自变量x之间为线性关系时称为一元线性回归,3、描述因变量y如何依赖于自变量x和误差项的方程称为回归模型。,2、对于具有线性关系的两个变量,可以用一个线性方程来表示它们之间的关系,由实验获得两个变量x和y的一组样本数据, ,构造如下一元线性回归模型,一元线性回归模型概念,模型中,y是x的线性函数部分加上误差项,线性部分反映了由于x的变化而引起y的变化,误差项i是随机变量,反映了除x和y之间的线性关系之外的随机因素对y的影响,0和称为模型的参数,2、变量是可以精确测量或严格控制的变量,3、误差项是一个服从正态分布的随机变量,且相互独立。即,独立性意味着对于一个特定的值,它所对应的与其它值所对应的不相关,对于一个特定的值,它所对应的值与其它值所对应的不相关,一元线性回归模型基本假定,b0和b是未知的,必须利用样本数据去估计它们,设b0和b分别是参数0和的最小二乘估计,于是就得到了一元线性回归方程,b0和b 回归方程的回归系数,回归方程,回归系数b0和b的求解,假定测得值yt精度相等,则,b0和b的计算公式,计算式如 (6-7)(6-13),6.2.2 回归方程的稳定性,回归方程的稳定性是指回归值 的波动大小,用 的标准差 来表示,于是,因此,6.2.3 回归方程的方差分析,要解决的问题,对N个观测值与其算术平均值之差的平方和进行分解,将N个观测值的影响因素从数量上区别开,以便能用F检验法对回归方程进行显著性检验。,测量值 之间的差异(变差)来源于两个方面,1.由于自变量x取值的不同造成的,2.除x以外的其它因素(如x对y的非线性影响、测量误差等)的影响,N个观测值之间的变差,用观测值与其均值的离差平方和来表示,称为总的离差平方和。,总的离差平方和,第t个测量值,测量值的平均值, 自变量 x 取值不同造成因变量 y 的变化, 除x以外的其它因素因素的影响,等于0,估计值,U 回归平方和,Q 剩余平方和,S(S的自由度)- N-1,U(U的自由度)- 1,Q(Q的自由度)- N-2,测量点数- N:,6.2.4 回归方程显著性检验,要解决的问题,所求的回归方程是否基本上符合y与x之间的客观规律。,采用F检验法,一个回归方程是否显著,也就是y与x的线性关系是否密切。,显著性 - (统计量) F,F分布,U大Q小(比值大):F大 - y 与x 的线性关系密切,对于一元线性回归,随机误差的分布形式,- Fa (U, vQ ),F大于Fa ( v1, v2 )的概率为a,显著水平:a 0.01、 a 0.05、 a 0.1,F =F0.01 (U, vQ ),高度显著,F0.05 (U, vQ ) =F F0.01 (U, vQ ),显著(0.05水平上),F F0.1 (U, vQ ),不显著,F0.1 (U, vQ ) =F F0.05 (U, vQ ),显著(0.1水平上),6.2.5 方差,残余方差,当x固定时,衡量y随机波动大小的一个估计量,当回归方程稳定性较好时,可作为应用回归方程时的精度参数。,方差分析表,6.2.6 重复试验情况,问题: 在上述意义下的回归方程显著,并不一定表明这个回归方程拟合得很好,原因: Q中除包含试验误差外,还包含了x和y线性关系以外得其它未加控制得因素得影响。,办法: 为了检验一个回归方程拟合得好坏,需进行重复试验。从而获得误差平方和QE和失拟平方和QL,然后进行F检验。,N个试验点,每个试验点都重复m次试验,例63,结论,如果F1检验结果不显著,说明非线性误差(相对于试验误差)很小。于是,把QL与QE合并,对U进行F检验,即如果F2检验结果显著,说明一元回归方程拟合很好,如果F1检验结果显著,说明非线性误差(相对于试验误差)是不可忽略的。此时用QE对U进行F检验,即结果显著,再用Q进行第二次F检验结果也显著。说明试验误差和残差都很小。,重复试验的用途:,可将误差平方和与失拟平方和从残差平方和中分离出来;进一步可将系统误差与随机误差分离出来。,6.2.7 回归直线的简便求法,一、分组法(平均值法),二、图解法(紧绳法),6.3 一元非线性回归,步骤,确定函数类型;把曲线回归转为为直线回归或多项式回归,确定未知参数,6.3.1 回归曲线函数类型的选取,1. 直接判断法,根据专业知识,从理论上推导或根据以往的经验,确定出两个变量之间的函数类型,2. 观察法,将观测数据作图,将其与典型曲线比较,确定其属于何种曲线类型,6.3.2 回归曲线函数类型的检验,1. 直线检验法适用条件: 当函数类型中所含参数不多,如只有一个或两个时,步骤:将所选的回归曲线 f(x,y,a,b)0 写成 Z1A十BZ2,Z1和Z2是只含一个变量(x或y)的函数,A和B是a和b的函数,选几对相距较远的x、y值,求出相对应的Z1和Z2的值;,以Z1和Z2为变量画图,若所得图形为一直线,则证明原先所选定的回归曲线类型是合适的。,2. 表差法适用条件: 若一组试验数据可用一多项式表示,式中含有常数项多于两个时,以决定多项式次数或检验次数。,步骤:, 用试验数据画图, 自图上根据定差x,列出xi,yi各对应值, 根据x和y的读出值作出差值, 根据表6-10确定的标准进行判断,例 检验表6-11所示观测数据可用ya+bex表示。,6.3.3 化曲线回归为直线回归问题,条件 可用直线检验法或一阶表差法检验的曲线回归方程。,例,6.3.4 回归曲线方程的效果与精度,残差为:,相关指数,6.4 多元线性回归,一、多元线性回归方程,假如因变量y与另外M个自变量xi的内在关系是线性的,测得N组观测数据,N个独立,服从正态分布N(0,)的随机变量,M个可精确测量或控制的变量,设bi为i的最小二乘估计,则回归方程为:,相应的回归方程为:,二、多元线性回归方程的显著性与精度,三、每个自变量在回归方程中所起的作用,偏回归平方和:取消一个自变量xi后回归平方和减小的数值,Pi=U-U,分析步骤:,1) 凡是偏回归平方和大的变量,一定是对y有重要影响的因素。F检验用Q对Pi,当 时,则认为变量xi对y的影响在水平上显著。,2) 凡是偏回归平方和小的变量,却不一定不显著。 但能肯定它是所有变量中对y作用最小的一个,如F检验不显著,则可将其剔除。,剔除后,重新建立M-1元的回归方程,计算回归系数及偏回归平方和。此时,新的回归系数 与原系数之间有如下关系:,剔除的元素序号,