第二章 回归分析ppt课件.pptx
《第二章 回归分析ppt课件.pptx》由会员分享,可在线阅读,更多相关《第二章 回归分析ppt课件.pptx(73页珍藏版)》请在三一办公上搜索。
1、第二章 回归分析,一元线性回归多元线性回归逐步回归非线性回归,第二章1 一元线性回归,回归分析是研究变量之间关系的一种数学工具它帮助我们根据一个变量的取值去估计另一变量的值。在气象上,可以利用回归分析建立被预报的变量(称为“预报量”)与预报因子之间的关系式。,变量之间的关系可以分为确定性的和非确定性的有两种:确定性关系: 两变量之间的函数关系如:圆的周长与半径,Y与x的一次函数关系非确定性关系:两变量在宏观上存在关系,但却无法用确定的函数来表达。如:体重与身高,血压与年龄,温度与湿度回归分析研究的是变量之间的非确定性关系。,一元线性回归模型设随机变量y(预报量)的取值与一个预报因子x之间存在某
2、种线性关系: y = 0 + x + e ,y的取值包含以下两部分:第一部分:关于x的线性函数0 + x ,0和都是不依赖于x的常数,未知;第二部分:随机误差e ,服从期望为0的正态分布N(0, 2), 是x以外的其他各种因素导致的y的随机误差,属于y中“不可控的部分”;该模型称为一元线性回归模型(称其为“一元”是因为:预报因子只有一个x), 0和被称为“回归系数”。,对回归模型 y = 0 + x + e 的理解: x不是随机变量,是可以精确控制或观察的变量(如时间、年龄等)。 对于一个确定的x, y的取值具有随机性,将围绕0 + x上下波动,但y的数学期望是固定的,,对回归模型y = 0
3、+ x + e 两边取数学期望, 则有:E(y) = 0 + x这反映出y的“总体”与x之间确定的线性关系,称为“总体”的一元线性回归模型。,实际应用中,对于一组确定的x数据,可以观测到相应的y数据,如右侧散点图中的蓝色圆圈,,利用x和y数据通过回归分析把0和估记出来,分别记为b0和b,这就经验性地得到x和y的之间的近似线性关系(右图红色直线),该过程又称为“线性拟合”。,于是,对于任意一个x,可以根据回归方程做出对y的估计,记作 (右图中红线上的红色圆点) , = b0 + bx 被称作“经验线性回归模型”,b0与b分别是回归系数 0和 的估计值。, = b0 + b x,与y 什么关系?,
4、如何确定出参数b0和b?,最小二乘法确定b0 和b我们最终所确定出的b0和b应该使得全部观测值y与估计值 的离差平方和达到最小,即:,根据极值原理:分别取Q关于b0和b的偏导数,并令它们等于零:,上式可进一步整理得:,以上得到了关于求解b0和b的方程组,称为“正规方程组”,解此二元一次方程组可得:,注意, b0 , b与0 , 的关系:b0与b是根据y的样本数据所作出的对0 和 的估计值,而0 和 永远是未知的参数。,特别地,当y和x都采用距平资料时, b0=_这时,回归方程可以不用求b0,只需求b,回归方程为: = bx这时,b数值的含义为: 当x的变化为1时,y所产生的变化为b。实际气象应
5、用中,经常使用距平值进行分析预报。,0,b0 = 3.25 b = 2.29,一元线性回归模型中x, y, 和 的时间序列举例,在分析y 和的方差之前,先考察他们的均值有何联系?,回归问题的方差分析 为了衡量回归方程的优劣,回归方程建立后,y的取值在多大程度上是由x决定?即:y的变化在多大程度上是由x的变化所决定?x的变化全部直接体现在上,而的方差与y的方差有何关系?,考虑到与y具有相同的平均值,同时再结合 y - = e,通过分析y的方差构成,寻找与y两者方差的关系。,y = b0+bx + e = + e,b0 = 3.25 b = 2.29,可以证明:上式最后一项交叉积的值为0,于是有:
6、,y, , 和 y 示例,对上式两边分别乘以n,研究各变量的离差平方和的关系。为避免过多数学符号,等号左边仍采用方差的记号syy。,“回归平方和”与“剩余平方和”,由上式可知,y的离差平方和可分为以下两部分: 第一项:U,被称为“回归平方和”,反映因子x的变化对y的贡献。 第二项:Q,被称为“残差平方和”(或“剩余平方和”),反映除x以外的随机因素e(e=y-)的影响。 U和Q的相对大小反映了因子x对y的影响程度, 在n固定的情况下,如果回归方差所占y方差的比重越大,剩余方差所占的比重越小,就表明回归的效果越好, 即:x的变化对y的变化起主要作用, 利用回归方程所估计出的也会越接近观测值y。,
7、的方差占y的方差的比重(U/(U+Q))可作为衡量回归模型效果的标准:,把 t = b0 + b xt 带入上式,得:,可见,回归方差占总方差的百分比=相关系数的平方。,想象|r|=1或r=0时的回归模型应该是怎样的?,因此,可以通过syy与相关系数r来计算U与Q,U/(U+Q)=r2; Q/(U+Q)=1-r2,回归系数与相关系数的关系,结合相关系数的表达式:,可得回归系数b与相关系数r之间的关系:,由上式可见: b与r的符号的关系是?_ 如果x是标准化的数据,那么b与r的关系是? _ 如果x和y都是标准化数据,那么b与r的关系是?_,不要忘记本课程对标记符号的约定: x的方差sx x的标准
8、差sxx x与x的协方差,即x的方差,等价于,所以,原始数据算得的回归系数b与标准化数据算得的回归系数b*的关系是: b= _?,一元回归方程(回归效果)的显著性检验,与相关系数的检验类似,回归方程的检验就是利用样本检验两个总体之间是否存在回归关系。通过方差分析可知,可用“回归平方和”U与“剩余平方和”Q的比值来衡量回归效果的好坏。可以证明,假设总体的回归系数为0的条件下,统计量:,上式可以用相关系数的平方来表示:,所以,一元回归方程的F检验等价于相关系数的检验。,因为当分子自由度为1时,F(1, n) 等价于t 2(n),注意Q的自由度为n-2, 即:残差e的方差的无偏估计为:Q/(n-2)
9、,预报值的置信区间,根据回归方程可作出y的预报值,但真正的y应当是以一定概率出现在的左右,给一个置信概率(0.95),如何估计出y的区间?,回忆前文所讲, y的第i个观测值yi服从怎样的分布? yi N (0 +xi , 2),e=yi- (0 +xi ) 服从N(0, 2),于是,,在95%的置信概率下:,第二章2 多元线性回归,气象统计预报中,预报量往往与前期多个因子有关,因而大多数统计预报中的回归分析都是采用多元回归技术。一元回归的预报因子只有一个x,而多元回归预报因子有多个,设随机变量y与m个变量x1, x2, xm之间存在如下线性关系: y = 0 + 1 x1+ 2 x2 + +
10、m xm + e , 其中,e N(0, 2)该模型称为:多元线性回归模型,回归系数 i也称为“偏回归系数”。,根据此回归模型,如果做n次抽样,获得了y的n次观测记为一列向量:y1,y2, ynT; xi的第j次观测记为xij那么,列向量y可以写为:,利用这组样本对回归模型进行估计,估算出向量 ,得到经验回归模型为:其中,b0, b1, b2, , bm 分别是0,1,2 ,m的估计,上式的矩阵形式为: = Xb, = b0 + b1 x1 + b2 x2 + + bm xm,如何估算出向量回归系数向量b (b0, b1, b2, , bm )?,注意:此处的X第一列是常数向量1,对应于0。另
11、外:每行表示一个时间 ,每列表示一个变量。,多元回归系数的估算,最小二乘法:类似求解一元回归系数的方法,最终确定的各回归系数应使得与y的离差平方和达到最小。,根据极值原理,Q对各回归系数的偏导数应该为0,即:,对第一式整理后得:,该方程组称为:求解bi(i=1,2, m)的正规方程组,可进一步写成矩阵的形式:,把正规方程组写成矩阵形式:,其中,,S为正规方程组的系数矩阵,一般情况下S是非奇异矩阵,必然存在其唯一逆矩阵S-1使我们能够解出回归系数向量b:b = S -1SY,想想什么情况下S会变成奇异矩阵?,原始变量回归方程:,回归模型的不同形式,距平变量回归方程:,标准化变量的回归方程:?,因
12、为标准化数据的协方差就是相关系数,因此,为了考察标准化数据算得的回归系数与原始数据的回归系数有何关系,需要把正规方程组中的系数阵S从协方差阵变成相关系数阵。,(根据距平变量算得b0=0),正规方程组的第i个方程为:,把等号两边同除以 , 然后等号右边的第j项乘以,以上把等号左边的协方差都变成了相关系数,为了让等号右侧也变为相关系数,把等号同两侧除以 得:,(其中, b*=?),所以,这时正规方程组的解为:,请与一元回归的回归系数与相关系数的关系进行对照,所以标准化变量的回归方程:,(其中, ),回归问题的方差分析可以证明,与一元回归的方差分析类似,多元回归预报量的离差平方和也可分解为回归平方和
13、与剩余平方和之和:,类似一元回归,可证明:U可用“各回归系数”与“各因子与y的离差平方和”的乘积之和来表示,,衡量回归效果的数量指标 (1):剩余方差剩余平方和除以它的自由度,定义为剩余方差,记为:,越少的因子数(m)在越大的样本(n)情形下获得越小的剩余平方和(Q),回归效果就越好!,剩余方差越小,回归效果越好。,是否记得一元回归时的对应情景?,衡量回归效果的数量指标(2):复相关系数回归平方和U是表示m个因子对预报量y的离差平方和的贡献,表征m个因子对y的影响程度。引入U的相对量数,即回归平方和占y的总离差平方和的比例,再开根号,定义为复相关系数R:,因此: 复相关系数没有正负号之分,永远
14、是正值。当n和m固定时,复相关系数越大,表明回归效果越好。,y与m个因子之间的复相关系数也就是与y之间的简单相关系数。,复相关系数反映预报量y与m个因子之间的综合相关关系,不仅涉及到y与m个变量之间的单相关关系,而且也涉及到x1,x2,xm之间的单相关关系。,相对于复相关系数,前面所学的两个变量之间的线性相关系数可称为“简单相关系数”或“单相关系数”,注意是当样本容量(n)和因子数(m)都固定时。,复相关系数可以用各变量(y,x1,x2,xm)之间的简单相关系数来表示,设x1, x2, , xm, y之间的相关矩阵为:,R是(m+1)行(m+1)列,那么,y与x1,x2,xm的复相关系数可写为
15、,其中,|R|为R的行列式,Ryy为R中除去第m+1行和第m+1列之后的代数余子式。,特别地,当只有两个(m=2)预报因子时,y与x1和x2的复相关系数计算公式为:,可见,在r1y和r2y一定的情况下,r12越小,y与两因子的复相关系数越高。,回归效果的显著性检验,如果y与各个预报因子之间没有关系,检验回归方程的效果,就是检验y与x1,x2,xm之间是否存在线性关系。于是可归结为检验以下原假设是否成立:H0: 1= 2 = = m=0 在该假设成立的情况下,有:,根据统计检验方法,在给定显著性水平下,比较F与F 的大小,若F F ,拒绝原假设,认为回归效果显著,即认为y与各预报因子之间存在线性
16、关系(回归系数不全为零)。,图:F分布举例(n11),回归方程也可用“临界复相关系数”来检验,根据复相关系数的定义,统计量F可用复相关系数来表达:,反推出临界复相关系数的值:,当算得的复相关系数大于临界复相关系数Rc时,回归方程效果显著。,注意这里的临界复相关系数与一元回归(或简单相关)时的“临界单相关系数”不同:,样本容量(n)越小,因子个数(m)越多,临界复相关系数就越大(门槛越高),图. =0.05时的临界复相关系数,临界单相关系数rc只与样本容量n有关;临界复相关系数Rc与样本容量n和因子个数m都有关。,单个因子重要性的衡量以及显著性检验,前面介绍的回归方程的假设检验是检验原假设H0:
17、 1= 2 = = m=0因此,如果回归方程通过了检验,我们只能相信1, 2 , , m不全为0,然而对于某一个i,我们如何检验它是否为0?即检验该因子对预报量是否是重要的。,单个因子的方差贡献,从残差平方和的计算公式可知,每加入一个因子,残差平方和就会减小一部分,回归平方和会增加一部分。设m个因子组成的回归方程的残差平方和为Q,回归系数为b ,当从这m个因子中去掉第i个因子后重新组成的回归方程的残差平方和为Q, 回归系数记为b, 于是,第i个因子的方差贡献为:,上式较为复杂不易计算,但可证明(P47),Vi可用下式方便地计算:,其中,cii是正规方程组系数阵S的逆矩阵的第i行第i列元素。,单
18、个因子的显著性检验,假设H0: i=0,则有统计量:,给定显著性水平后,查表得到统计量的临界值F, 当Fi F时, 拒绝原假设,认为xi的方差贡献是显著的;当Fi F时,接收原假设,认为xi对预报量y不重要,可以将其剔除,重新建立线性回归方程。,预报量的区间估计,与一元回归的预报量估计类似,,y的第j个观测值yj服从正态分布: yj N (0 +x1j +x2j + +xmj , 2),在95%的置信概率下:z0.025=1.96,偏相关系数,请看以下例子:有y, x1, x2三个变量,假设他们存在以下关系:,设= -1, 则x1与x2之间的相关系数为负:r120,设1=0.5,2 =1, 即
19、x1和x2对y都是正的影响。,在以上、1、和2的控制下,观测到了y, x1, x2的样本数据,如下图:,r12= -0.83,由y=0.5*x1+x2+e可知,y与x1本应是正相关关系,但由于受到了x2的影响,根据样本计算出的y与x1之间的简单相关系数被歪曲为负值(-0.58)。,r2y= 0.90r1y= -0.58,如何才能正确得到y与x1之间的关系?把x2带来的影响分别从x1和y中扣除,然后再计算x1与y的相关,应该可以得到两者之间“真正”的关系。,如何分别从x1和y中扣除x2的影响?方法:以x2为自变量,分别以x1和y为因变量建立两个一元回归模型。,如此计算的相关系数就叫做x1和y在消
20、除x2影响之后的偏相关系数。,其他方案:建立y和x1、x2的多元回归模型y=b0+b1x1+b2x2也可得到正确的y与x1的关系,对于该例,计算出的回归系数b1=0.55, b2=1.09 (对应于1=0.5; 1=1.0)。,如果预报量y与多个预报因子都存在关系、并且各预报因子内部也存在相互关系,这时预报量y与某一个因子的单相关系数可能不会正确反映二者之间真正的关系,需要计算偏相关系数。,偏相关系数还可以利用相关系数阵来计算:如果m+1个变量(包括y)的相关矩阵R如右所示,则xi与y在去除其他变量影响后的偏相关系数为:,Ryi是相关矩阵R中删去第m+1行和第i列后的代数余子式, Rii是中除
21、去第i行和第i列后的代数余子式。Ryy是除去第m+1行和m+1列之后的代数余子式。当m时:,可见,有时候虽然因子与预报量之间的偏相关很好,但由于因子之间存在相关性(例如负相关),会使得某个因子与预报量之间的单相关系数变得不明显甚至符号颠倒。这启示我们:在选择预报因子时不能片面追求单相关系数高,而要充分考虑因子的物理意义以及因子之间的相互关系。,因子数目对多元回归方程的影响,在样本容量n固定的情况下,预报量y的总离差平方和(U+Q)是固定的,回归平方和U越大/越小,剩余平方和Q就越小/越大。,当多元回归方程每增加一个因子时,剩余平方和Q就会减小,回归平方和U增大,即复相关系数(与y的简单相关系数
22、)将增大。,Q自由度的极端情况:当因子个数m增加至n-1时(即Q的自由度n-m-1=0):回归方程变为恰定方程组能够求解,存在一组b的解使得向量e直接等于0,即与y将完全重合。这时的剩余平方和Q只能等于0,没有任何“自由”。,但:因子并不一定越多越好!,在样本容量一定的情况下,多引入一个因子会降低剩余方差的自由度(n-m-1)虽然多引入一个因子能使剩余平方和减小,但由于自由度减小了,所以剩余方差不一定减小。,当无任何因子时(m=0)时, 剩余平方和的自由度为: n-1每引入一个因子,相当于Q又多了一个限制条件,因此自由度减1。,Q/(n-m-1)是残差e的方差的无偏估计!,m=n-1时,即便m
23、个因子全是随机数(如右图),也能够解出恰定方程组使得Q=0( 与y完全重合,相关系数为1),但这时的回归模型已毫无意义,如果用此模型来对未来作预报将无任何预报效果。,总之,如果样本数n太少或因子数m太多,回归方程要想通过显著性检验的门槛就越高。,如果引入的是和y不相关的因子,就预报量带来了更多的随机因素,影响了回归方程的稳定性(或显著性), 使得预报效果降低。因此,既要选择对预报量影响显著的因子,同时又要使回归方程的剩余方差(Q/(n-m-1)尽可能小,才有利于预报。,如何挑选一批优秀的因子加入回归方程?,逐步回归!,第二章3 逐步回归,问题:如何从可能影响预报量y的大量因子中,挑选一批较好的
24、因子,组建多元回归方程?,方案一:把所有可能的因子组合逐个全部计算出来,计算剩余方差,判断每种组合的回归方程的优劣。当因子太多时,工作量巨大,不可取。 方案二:逐步回归(1)每一步从众多待选因子中选择一个对预报量贡献大的因子,通过显著性检验(称为“引入检验”),引入回归方程。(2)当引入一个因子之后,新引入的因子可能会使已进入回归方程的因子变得不显著,于是再对方程中已引入的因子逐个进行“剔除检验”,直至不显著的因子都剔除为止。然后再重复第(1)步,引入一个因子。(3) 引入一个因子后再重复地2步剔除因子,直到没有因子可以剔除也没有因子可以引入为止。,逐步回归需要使用矩阵的“紧凑型求解与求逆变换
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二章 回归分析ppt课件 第二 回归 分析 ppt 课件
链接地址:https://www.31ppt.com/p-1902112.html