第六讲第9章回归.ppt
《第六讲第9章回归.ppt》由会员分享,可在线阅读,更多相关《第六讲第9章回归.ppt(63页珍藏版)》请在三一办公上搜索。
1、第九章 回归,统计学上采用回归分析(regression analysis)研究呈因果关系的相关变量间的关系。表示原因的变量称为自变量,表示结果的变量称为依变量。研究“一因一果”,即一个自变量与一个依变量的回归分析称为一元回归分析;研究“多因一果”,即多个自变量与一个依变量的回归分析称为多重回归分析。一元回归分析又分为直线回归分析与曲线回归分析两种;多重回归分析又分为多重线性回归分析与多重非线性回归分析两种。,回归分析的任务是揭示出呈因果关系的相关变量间的联系形式,建立它们之间的回归方程,利用所建立的回归方程,由自变量(原因)来预测、控制依变量(结果)。,第一节 直线回归 regression
2、 analysis,一、直线回归方程的建立 对于两个相关变量,一个变量用x表示,另一个变量用y表示,如果通过试验或调查获得两个变量的n对观测值:(x1,y1),(x2,y2),(xn,yn),为了直观地看出x和y间的变化趋势,可将每一对观测值在平面直角坐标系描点,作出散点图。,由于依变量y的实际观测值总是带有随机误差,因而依变量y的实际观测值yi可用自变量x的实际观测值xi表示为:,(i=1,2,n)(91),在x、y直角坐标平面上可以作出无数条直线,我们把所有直线中最接近散点图中全部散点的直线用来表示x与y的直线关系,这条直线称为回归直线。,其中,a是的估计值,b是的估计值。a、b应使回归估
3、计值 与实际观测值y的偏差平方和最小,即:,根据微积分学中的求极值的方法,令 Q对a、b的一阶偏导数等于0,即:,最 小,整理得关于a、b的正规方程组:,解正规方程组,得:,(9-3),(9-4),应注意:1.直线回归方程=a+bx 与普通方程式意义不同,它表示的是对总体回归值的估计值。2.直线回归分析中,两个变量不再是平等的关系,而是有因变量与自变量之分,称为“因变量对自变量的回归”。3.对样本数据是否适合做直线回归分析,与直线相关分析相同,要先做散点图。当散点图呈现直线关联趋势时,才适合做进一步分析。,回归方程的基本性质:如果将(9-4)式代入(9-2)式,得到回归方程的另一种形式(中心化
4、形式):,(9-5),【例9.1】在四川白鹅的生产性能研究中,得到如下一组关于雏鹅重(g)与70日龄重(g)的数据,试建立70日龄重(y)与雏鹅重(x)的直线回归方程。,表9-1 四川白鹅雏鹅重与70日龄重测定结果(单位:g),1、作散点图 以雏鹅重(x)为横坐标,70日龄重(y)为纵坐标作散点图。2、计算回归截距a,回归系数b,建立直线回归方程 首先根据实际观测值计算出下列数据:,进而计算出b、a:,得到四川白鹅的70日龄重y对雏鹅重x的直线回归方程为:,3、直线回归的偏离度估计 偏差平方和 的大小表示了实测点与回归直线偏离的程度,因而偏差平方和又称为离回归平方和。统计学已经证明:在直线回归
5、分析中离回归平方和的自由度为n-2。于是可求得离回归均方为:离回归均方是模型(9-1)中2的估计值。离回归均方的平方根叫离回归标准误,记为,即,(9-6)离回归标准误Syx的大小表示了回归直线与实测点偏差的程度,即回归估测值 与 实 际观测值y偏差的程度,于是我们把离回归标准误Syx用来表示回归方程的偏离度。,可以证明:(9-7)利用(9-7)式先计算出,然后再代入(9-6)式求Syx。,对于【例9.1】有,所以,二、直线回归的显著性检验 若x和y变量间并不存在直线关系,但由n对观测值(xi,yi)也可以根据上面介绍的方法求得一个回归方程=a+bx。显然,这样的回归方程所反应的两个变量间的直线
6、关系是不真实的。如何判断直线回归方程所反应的两个变量间的直线关系的真实性呢?这取决于变量x与y间是否存在直线关系。我们先探讨依变量y的变异,然后再作出统计推断。,1、直线回归的变异来源 图 的分解图,从图中看到:上式两端平方,然后对所有的n点求和,则有,反映了y的总变异程度,称为y的总平方和,记为SSy;反映了由于y与x间存在直线关系所引起的y的变异程度,称为回归平方和,记为SSR;,反映了除y与x存在直线关系以外的原因,包括随机误差所引起的y的变异程度,称为离回归平方和或剩余平方和,记为SSr。(9-8)式又可表示为:(9-9)这表明y的总平方和剖分为回归平方和与离回归平方和两部分。与此相对
7、应,y的总自由度dfy也划分为回归自由度dfr与离回归自由度dfr两部分,即,(9-10)在直线回归分析中,回归自由度等于自变量的个数,即;y的总自由度;离回归自由度。于是:离回归均方,回归均方。,2、回归关系显著性检验F检验 无效假设HO:=0,备择假设HA:0。在无效假设成立的条件下,回归均方与离回归均方的比值服从 和 的F分布,所以可以用 df1=1,df2=n-2(9-11),来检验回归关系即回归方程的显著性。回归平方和还可用下面的公式计算得到:(9-12)(9-13)根据(9-9)式,可得到离回归平方和计算公式为:,对于【例9.1】资料,有而。于是可以列出方差分析表进行回归关系显著性
8、检验。,表9-2 四川白鹅70日龄重与雏鹅重回归关系 方差分析,因为,表明四川白鹅70日龄重与雏鹅重间存在极显著的直线关系。3、回归系数的显著性检验t检验 采用回归系数的显著性检验t检验也可检验x与y间是否存在直线关系。回归系数显著性检验的无效假设和备择假设为 HO:0,HA:0。,t 检验的计算公式为:(9-14)(9-15)其中,Sb为回归系数标准误。,对于【例9.1】资料,已计算得 故有,当,查t值表,得 因,否定HO:0,接受HA:0,即直线回归系数b=21.7122是极显著的,表明四川白鹅 70 日龄重与雏鹅重间存在极显著的直线关系,可用所建立的直线回归方程来进行预测和控制。,特别要
9、指出的是:利用直线回归方程进行预测或控制时,一般只适用于原来研究的范围,不能随意把范围扩大,因为在研究的范围内两变量是直线关系,这并不能保证在这研究范围之外仍然是直线关系。若需要扩大预测和控制范围,则要有充分的理论依据或进一步的实验依据。利用直线回归方程进行预测或控制,一般只能内插,不要轻易外延。,利用SPSS实现直线回归:,SPSS操作步骤:Analyze Regression Linear dependent:因变量 independent:自变量 method:可选择 enter forward backward stepwise点击statistics:出现若干统计选项可供选择Cont
10、inueOK,三、应用直线回归与相关的注意事项 直线回归分析与相关分析在生物科学研究领域中已得到了广泛的应用,但在实际工作中却很容易被误用或作出错误的解释。为了正确地应用直线回归分析和相关分析这一工具,必须注意以下几点:,1、变量间是否存在相关 直线回归分析和相关分析毕竟是处理变量间关系的数学方法,在将这些方法应用于生物科学研究时要考虑到生物本身的客观实际情况,譬如变量间是否存在直线相关以及在什么条件下会发生直线相关,求出的直线回归方程是否有意义,某性状作为自变量或依变量的确定等等,都必须由生物科学相应的专业知识来决定,并且还要用到生物科学实践中去检验。如果不以一定的生物科学依据为前提,把风马
11、牛不相及的资料随意凑到一块作直线回归分析或相关分析,那将是根本性的错误。,2、其余变量尽量保持一致 由于自然界各种事物间的相互联系和相互制约,一个变量的变化通常会受到许多其它变量的影响,因此,在研究两个变量间关系时,要求其余变量应尽量保持在同一水平,否则,回归分析和相关分析可能会导致完全虚假的结果。例如研究人的身高和胸围之间的关系,如果体重固定,身高越高的人,胸围越小,但当体重在变化时,其结果也就会变化。,3、观测值要尽可能的多 在进行直线回归与相关分析时,两个变量成对观测值应尽可能多一些,这样可提高分析的精确性,一般至少有5对以上的观测值。同时变量x的取值范围要尽可能大一些,这样才容易发现两
12、个变量间的变化关系。4、外推要谨慎 直线回归与相关分析一般是在一定取值区间内对两个变量间的关系进行描述,超出这个区间,变量间关系类型可能会发生改变,所以回归预测必须限制在自变量x的取值区间以内,外推要谨慎,否则会得出错误的结果。,5、正确理解回归或相关显著与否的含义 一个不显著的相关系数并不意味着变量x和y之间没有关系,而只有能说明两变量间没有显著的直线关系;一个显著的相关系数或回归系数亦并不意味着x和y的关系必定为直线,因为并不排除有能够更好地描述它们关系的非线性方程的存在。,6、一个显著的回归方程并不一定具有实践上的预测意义 如一个资料x、y两个变量间的相关系数r=0.5,在df=24 时
13、,r0.01(24)=0.496,rr0.01(24),表明相关系数极显著。而r2=0.25,即x变量或y变量的总变异能够通过y变量或x变量以直线回归的关系来估计的比重只占25%,其余的75%的变异无法借助直线回归来估计。,在生物界中,两个变量(至少因变量是随机变量)间的关系,呈现平面曲线关联的例子很多。例如:细菌生长的数量与时间的关系、作物种植密度与产量的关系、年龄与身高的关系、有毒药物浓度与致死率之间的关系、服药后血药浓度与时间的关系、有害射线辐射强度与致死率的关系等,都呈现平面曲线关联。如何用适合的平面曲线定量描述这种关联,如何检验和评价这种描述的意义和效果好坏,就是平面曲线回归(简称曲
14、线回归,亦称曲线拟合)分析解决的问题。,第二节 平面曲线回归,对样本数据(xi,yi),i=1,2,n,做散点图,可初步确定样本数据可能具有某种 曲线关联,并由此初步确定其曲线函数。常见的曲线关联的曲线函数及图形如下:.幂函数.对数函数.指数函数.Logistic函数 y=axb y=ablnx y=aebx y=1/(1+aebx)对上述4种情况可分别作如下线性化变换:.取对数l ny=lnablnx,做变换Y=lny,A=lna,B=b,X=lnx,则有Y=ABX;.做变换 Y=y,A=a,B=b,X=lnx,则有 Y=ABX;.取对数 lny=abx,做变换 Y=lny,A=a,B=b,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第六 章回
链接地址:https://www.31ppt.com/p-6015058.html