应用统计回归分析.ppt
《应用统计回归分析.ppt》由会员分享,可在线阅读,更多相关《应用统计回归分析.ppt(62页珍藏版)》请在三一办公上搜索。
1、,第十章 回归分析,回归分析的基本概念一元线性回归多元线性回归,1、函数关系y=f(x);2、相关关系Y=f(x,),其中为随机变量。常把上述关系表为:Y=f(x)+,确定性,非确定性,相关关系式中最简单、最常用的一种是线性回归,即其中f(x)=L(x)=ax+b 的情形.,10.1 回归分析基本概念,一.相关关系,二、一元线性回归的数学模型,1、一元线性理论回归模型,(10.1.1),其中,为确定性部分,0、1为未知参数,2、一元线性回归模型,对(x,y)作n次独立观察,得n组数据(xi,yi),代入(10.1)得一元线性回归模型,(10.1.2),由(xi,yi)的值可作出0、1的估计,从
2、而可得,上述方程称为一元线性经验回归方程(简称回归方程),参数的最小二乘估计模型线性性的检验预测与控制,102 一元线性回归,一、参数的最小二乘估计,考虑一元线性理论回归模型,(10.2.1),代入(10.2.1)可得一元线性回归模型:,若我们对(x,y)做n次独立的观察,可获得n组相互独立的观测值,(10.2.3),1.0,1的最小二乘估计,先讨论问题:如何由(10.2.2)去估计(10.2.3)中的参数0,1 与 2。,若已得到0,1的估计,则线性方程,称为一元线性经验回归方程(简称回归方程)。于是对(10.2.2)的每一组观测值,由(10.2.4)均可求得一个相应的值,常称为回归值或预测
3、值、拟合值等。,我们总希望由估计,所定出的,回归方程能使一切,之间的偏差达到,最小,根据最小二乘法的原理,即要求,必须满足以下方程组(由微积分),则,令,用代替,,经整理即得,(10.2.6)称为正规方程组,在xi,i=1,n 不全相等时它有唯一解,(10.2.7),容易验证,上式中 的确能使Q达到最小,因此他们是0,1的最小二乘估计.,可见,回归方程的图形是通过点(),斜率为 的直线.称此直线为回归直线.,(10.2.8),2.最小二乘估计的性质及2的估计,令,(10.2.9),则(10.2.7)和(10.2.8)可表为:,和,此时的残差平方和,最小,记为Se,称为剩余,平方和.即,(10.
4、2.12),进一步分析,可得,(10.2.13),由于,故,很明显,都是统计量,在,的假设下,它们具如下性质:(设 x0为自变量 x 的值.),例10.2.1 在硝酸钠(NaNO3)的溶解度试验中,测得在不同温度x(0C)下,溶解于100份水中的硝酸钠份数y的数据如下表所示.,求0,1的最小二乘估计 及2的无偏估计,并写出回归方程.,解 编制计算表如下:,故,可算得,2的无偏估计为,所求的回归方程为,二、模型线性性的检验,如果y与x之间不存在良好的线性关系,这样得到的回归方程是毫无意义的。因此,我们必须检验假设H0:1=0;H1:10(10.2.15),离差分解,(10.2.17),其中ST称
5、为总离差平方和,称为剩余平方和.由性质(4)知,它的分布仅依赖于n和2,与x的分布无关,因此它反映了除去y与x之间的线性相关关系之外其他因素引起的数据yi间的波动,(10.2.18),称为回归平方和.它主要反映由变量x的变化引起的yi间的波动.,由性质(4)知,且与SR独立;在H0真时,由性质,(2)及(10.2.18)知,故,H0为真时统计量,(10.2.19),从而,给定水平,假设H0(10.2.15)有拒绝域,易知,在ST一定时,若回归平方和SR越大,则剩余回归平方和Se越小,此时F值就越大,从而反映出y与x之间的线性相关程度就越高,模型(10.2.1)就越好;反之,则相反.,以上方法称
6、为模型线性性检验(或回归方程显著性检验)的F检验法.这种检验也需要做方差分析.,模型线性性检验方差分析表,回归模型线性性不显著的原因可能有如下几种:(1)影响y的除x外,还可能有其他不可忽略的因素;(2)y与x的关系不是线性的,而是存在其它的关系;(3)y与x无关.为此需要进一步查明原因,视具体情况处理.,模型线性性检验的 t 检验法 事实上,当H0真时,于是,给定水平,假设H0(10.2.15)有拒绝域:,例(续例10.2.1)试判断温度x和硝酸钠溶解份数y之间的线性关系是否显著?选用F检验法.由例的计算结果(见P364),并利用(10.2.13)式和(10.2.18)式得,建立方差分析表如
7、下.,表10-4 方差分析表,给定=0.01,查表得 F0.01(1,7)=12.23235.75=F,故拒绝H0.这表明温度x和硝酸钠溶解份数y之间的线性关系非常显著.,也可选用 t 检验法.此时因为t(n 2)=t0.01(7)=3.00,而统计量 t 的值,故拒绝H0.,三、预测与控制,回归方程的一个重要应用就是预测。对于给定的点 x=x0,我们常希望知道x0所对应的y0=0+1x0+0的点预测和预测区间.此处 y0与各 yi(i=1,2,n)相互独立.,1.一元线性回归预测y0的点预测可由回归方程(10.2.4)直接得到,求 y0 的预测区间的方法与求参数的置信区间的方法类似(因y0是
8、随机变量而非常数,故不称置信区间而称预测区间).显然,(10.2.20),由y0与 的独立性及性质(3),可知,标准化后得,又由性质(4)及(10.2.14)式知:,独立,故U与,也独立.于是,故y0的置信度为1的预测区间为,(10.2.21),若记,则y0的预测区间可记为,对于给定的样本观测值x,可作两条曲线,这两条曲线可形成一含回归直线,的带域,两头呈,喇叭形,在 x=处最窄.如图10-2所示(见P370),当n充分大时,因,而近似地有,可用u/2代替t/2(n 2),从而y0的预测区间可,近似表为,(10.2.22),2.一元线性回归控制 控制是预测的反问题,即问自变量 x 应控制在什么
9、范围内,才能以一定的置信度保证因变量 y 落在某一给定的区间之内.换句话说,对于给定的置信度1及区间y1,y2,要寻找x1和x2,使当x1 x x2时x 所对应的 y 落在y1,y2 内的概率 1.仅限于讨论 n 较大的情形.一种简便的方法是:利用(10.2.22)式,从不等式组,中解出x来即可得到控制x的上、下限.但要注意须有,(10.2.23),p元线性回归模型参数估计最小二乘估计假设检验与回归系数的区间估计预测和变量控制,10.3 p(多)元线性回归,一、p元线性回归模型,一般地有,(10.3.1),其中x1,xp是可精确测量或可控制的一般变量,y是可观测的r.v.,1,p是未知参数。,
10、若我们对(10.3.1)获得n个相互独立的观测值,则由(10.3.1)知:yi 具有数据结构式,这就是p元(多元)线性回归模型。,对p元线性回归模型我们将研究下面几个问题,由样本观测值(10.3.2)去估计未知参数1,p,2,从而建立y与x1,xp间的数量关系式(所谓的回归方程);对由此得到的数量关系式的可信度进行统计检验;检验各变量x1,xp 分别对指标y是否有显著影响;回归系数的区间估计、预测和变量控制。,二、参数估计,先讨论第一个问题,即如何由(10.3.2)去估计(10.3.1)中的参数0,p 与 2。,若已得到0,p的估计,则线性方程,称为p元线性回归方程。于是对(10.3.2)的每
11、一组观测值,由(10.3.4)均可求得一个相应的值,常称为回归值或预测值、拟合值等。,我们总希望由估计,所定出的,回归方程能使一切,之间的偏差达到,最小,根据最小二乘法的原理,即要求,必须满足以下方程组(由微积分),则,令,用代替,,经整理即得,(10.3.7)称为正规方程组,其解称为0,1,p的最小二乘估计,记为,则(10.3.3)可表为 Y=X+,N(0,2In)(10.3.8)(10.3.7)可表为,正规方程组可用向量矩阵形式简洁表出。令,其中X为正规方程组的结构矩阵,A=XX为系数矩阵,是一个p+1阶方阵,B=XY为常数项矩阵。,在回归分析中通常A1存在,故,从而由最小二乘估计,可建立
12、回归方程(10.3.4),,并利用它对指标y进行预报和控制。例如给出任意一组变量x1,xp的值(x01,x0p),由(10.3.4)可得y0的预测值:,定义,为了得到预测的精度及控制生产的需要,通常还要求得2的估计。,实测值yi与回归值,的差,叫残差,,称为剩余平方和(或残差平方和)。,叫残差向量,,一般地,有,推论,定理10.1,E(Se)=(np1)2,从而,是2的无偏估计。,例 求p元中心化回归模型,中参数0,1,p的最小二乘估计与2,的无偏估计。其中,定理10.2,现在进一步研究最小二乘估计(least square estimation),的性质。,是 的无偏估计,其协方差阵为,定理
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 统计 回归 分析
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-6571825.html