【教学课件】第九章直线回归和相关.ppt
《【教学课件】第九章直线回归和相关.ppt》由会员分享,可在线阅读,更多相关《【教学课件】第九章直线回归和相关.ppt(109页珍藏版)》请在三一办公上搜索。
1、第九章 直线回归和相关,第一节 回归和相关的概念 第二节 直线回归第三节 直线相关第四节 直线回归与相关的内在关系 和应用要点第五节 协方差分析,引言 这一章研究的对象:由一个变数 两个或多个变数,因为在实际生产实践和科学实验中所要研究的变数往往不止一个,例如:研究温度高低和作物发育进度快慢的关系,就有温度和发育进度两个变数;研究每亩穗数、每穗粒数和每亩产量的关系,就有穗数、粒数和产量三个变数。,第一节 回归和相关的概念,1.函数关系与统计关系 2.自变数与依变数 3.回归分析和相关分析4.两个变数资料的散点图,函数关系 有精确的数学表达式(确定性的关系)直线回归分析 一元回归分析 变量间的关
2、系 因果关系 曲线回归分析(回归分析)多元回归分析 多元线性回归分析 统计关系 多元非线性回归分析(非确定性的关系)简单相关分析 直线相关分析 相关关系 复相关分析(相关分析)多元相关分析 偏相关分析,函数关系是一种确定性的关系,例如圆面积与半径的关系为。其不包含误差的干扰。统计关系是一种非确定性的关系。例如,作物的产量与施肥量的关系,两类变数受误差的干扰表现为统计关系。,因果关系:两个变数间的关系若具有原因和反应(结果)的性质。相关关系:呈现一种共同变化的特点,则称这两个变数间存在。回归分析:计算回归方程为基础的统计分析方法。,为Y 依X 的回归方程(regression equation
3、of Y on X)。相关分析:计算相关系数为基础的统计分析方法。计算表示Y 和X 相关密切程度的统计数,并测验其显著性。这个统计数在两个变数为直线相关时称为相关系数(correlation coefficient),记为r;在多元相关时称为复相关系数(multiple correlation),记作Ry12m;在两个变数曲线相关时称为相关指数(correlation index),记作R。,一般规则:当两个变数中Y 含有试验误差而X 不含试验误差时着重进行回归分析;而当Y 和X 均含有试验误差时则着重去进行相关分析。4.两个变数资料的散点图对具有统计关系的两个变数的资料进行初步考察的简便而有
4、效的方法,是将这两个变数的n对观察值(x1,y1)、(x2,y2)、(xn,yn)分别以坐标点的形式标记于同一直角坐标平面上,获得散点图(scatter diagram)。,根据散点图可初步判定双变数X 和Y 间的关系,包括:X 和Y 相关的性质(正或负)和密切程度;X 和Y 的关系是直线型的还是非直线型的;是否有一些特殊的点表示着其他因素的干扰等。例如图9.1是水稻方面的3幅散点图,图9.1A是单株的生物产量(X)和稻谷产量(Y),图9.1B是每平方米土地上的总颖花数(X)和结实率(Y),图9.1C是最高叶面积指数(X)和每亩稻谷产量(Y)。从中可以看出:图9.1A和9.1B都是直线型的,但
5、方向,相反;前者Y 随X 的增大而增大,表示两个变数的关系是正的,后者Y 随X 的增大而减小,表示关系是负的。图9.1A的各个点几乎都落在一直线上,图9.1B则较为分散;因此,图9.1A中X 和Y 相关的密切程度必高于图9.1B。图9.1C中X 和Y 的关系是非直线型的;大约在x(67)时,Y 随X 的增大而增大,而当x(67)时,Y 随X 的增大而减小。,x,生物产量(g)水稻单株生物产量与稻谷产量的散点图,x,每m2颖花数(万)水稻每m2颖花数和结实率的散点图,x,最高叶面积指数水稻最高叶面积指数和亩产量的散点图,第二节 直线回归,一、直线回归方程二、直线回归的假设测验和区间估计三、直线回
6、归的矩阵求解,一、直线回归方程(一)直线回归方程式(91)回归截距(regression intercept):a是x=0时的值,即回归直线在y 轴上的截距。回归系数(regression coefficient):b是x 每增加一个单位数时,平均地将要增加(b0时)或减少(b0时)的单位数。,时,分别对a和b 求偏导数并令其为0,可得正规方程组(normal equations):得,(92),(93),(94),将(92)代入(91)可得:,y a0,b0,b0 a0 x 直线回归方程的图象由(94)可看到:当x以离均差(x-)为单位时,回归直线的位置仅决定于 和b;当将坐标轴平移到以(,
7、)为原点时,回归直线的走向仅决定于b,所以一般又称b为回归斜率(regression slope)。,(二)直线回归方程的计算例9.1 一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进连续9年测定3月下旬至4月中旬旬平均温度累积值(x,旬度)和水稻一代三化螟盛发期(y,以5月10日为0)的关系,得结果于表9.1。试计算其直线回归方程。首先由表9.1算得回归分析所必须的6个一级数据(即由观察值直接算得的数据):,表9.1 累积温和一代三化螟盛发期的关系,n=9,=35.5+34.1+44.2=333.7,=35.52+34.12+44.22=12517.49,=12+16+(-1)=70,=
8、122+162+(-1)2=794,=(35.512)+(34.116)+44.2(-1)=2436.4,然后,由一级数据算得5个二级数据:,SSx=,=12517.49-(333.7)2/9=144.6356,=794-(70)2/9=249.5556,2436.4-(333.770)/9=-159.0444,333.7/9=37.0778,70/9=7.7778,*SSy=,SP=,因而有:b=,-159.0444/144.6356=-1.0996天/(旬度),a=7.7778-(-1.099637.0778)=48.5485(天),故得表9.1资料的回归方程为:上述方程中回归系数和回归截
9、距的意义为:当3月下旬至4月中旬的积温(x)每提高1旬度时,一代三化螟的盛发期平均将提早1.1天;若积温为0,则一代三化螟的盛发期将在6月2728日(x=0时,=48.5;因y是以5月10日为0,故48.5为6月2728日)。由于x变数的实测区间为31.7,44.2,当x31.7或44.2时,y的变化是否还符合=x的规律,观察数据中未曾得到任何信息。,x,所以,在应用=x于预测时,需限定x的区间为31.7,44.2;如要在x31.7或44.2的区间外延,则必须有新的依据。,(三)直线回归方程的图示直线回归图包括回归直线的图象和散点图,它可以醒目地表示x 和y 的数量关系。方法:制作直线回归图时
10、,首先以x为横坐标,以y为纵坐标构建直角坐标系(纵、横坐标皆需标明名称和单位);然后取x坐标上的一个小值x1代入回归方程得,取一个大值x2代入回归方程得,连接坐标点(x1,)和(x2,)即成一条回归直线。如例9.1资料,以x1=31.7代入回归方程得=13.69;,以x2=44.2代入回归方程得=-0.05。在图9.3上确定(31.7,13.69)和(44.2,-0.05)这两个点,再连接之,即为=x的直线图象。注意:此直线必通过点(,),它可作为制图是否正确的核对。最后,将实测的各对(xi,yi)数值也用坐标点标于图9.3上。,x,3月下旬至4月中旬旬平均温度累积值图 旬平均温度累积值和一代
11、三化螟盛发期的关系,图9.3的回归直线是9个观察坐标点的代表,它不仅表示了例9.1资料的基本趋势,也便于预测。如某年3月下旬至4月中旬的积温为40旬度,则在图9.3上可查到一代三化螟盛发期的点估计值在5月1415日,这和将x=40代入原方程得到=48.5485-(1.099640)=4.6是一致的。因为回归直线是综合9年结果而得出的一般趋势,所以其代表性比任何一个实际的坐标点都好。当然,这种估计仍然有随机误差,下文再作讨论。,(四)直线回归的估计标准误Q 就是误差的一种度量,称为离回归平方和(sum of squares due to deviation from regression)或剩余
12、平方和。建立回归方程时用了a 和b 两个统计数,故Q 的自由度,得=SSy-b(SP)=SSy-b2(SSx)=y2-ay-bxy,(95),(96A),(96B),(96C),(96D),(五)直线回归的数学模型和基本假定直线回归模型中,Y 总体的每一个值由以下三部分组成:回归截距,回归系数,Y变数的随机误差。总体直线回归的数学模型:N(0,)。相应的样本线性组成为:,(97),(98),回归分析时的假定:(1)Y 变数是随机变数,而X 变数则是没有误差的固定变数,至少和Y 变数比较起来X 的误差小到可以忽略。(2)在任一X 上都存在着一个Y 总体(可称为条件总体),它是作正态分布的,其平均
13、数 是X 的线性函数:,(99),的样本估计值,与X 的关系就是线性回归方程(91)。(3)所有的Y 总体都具有共同的方差,而直线回归总体具有。试验所得的一组观察值(xi,yi)只是 中的一个随机样本。(4)随机误差 相互独立,并作正态分布,具有。,二、直线回归的假设测验和区间估计(一)直线回归的假设测验 1回归关系的假设测验(1)t 测验 H0:=0 对 HA:,(910),遵循 的t分布,故由t 值即可知道样本回归系数b来自=0总体的概率大小(2)F 测验当仅以表示y资料时(不考虑x 的影响),y变数具有平方和SSy 和自由度 当以表示y资料时(考虑x的影响),则SSy将分解成两个部分,即
14、:,(911),将 记作U 回归和离回归的方差比遵循 的F分布,因为 得,2两个回归系数比较时的假设测验 H0:对 HA:(914)(915),例9.5 测定两玉米品种叶片长宽乘积(x)和实际叶面积(y)的关系,得表9.4结果,试测验两回归系数间是否有显著差异。表9.4 玉米叶片长宽乘积和叶面积关系的计算结果 由表9.4可得:,这一结果是完全不显著的,所以应接受H0:即认为叶片长宽乘积每增大1cm2,叶面积平均要增大的单位数在七叶白和石榴子两品种上是一致的,其共同值为:,(二)直线回归的区间估计 1直线回归的抽样误差在直线回归总体 中抽取若干个样本时,由于,各样本的a、b 值都有误差。因此,由
15、=a+bx给出的点估计的精确性,决定于 和a、b的误差大小。比较科学的方法应是考虑到误差的大小和坐标点的离散程度,给出一个区间估计,即给出对其总体的、等的置信区间。,2回归截距的置信区间 由(92),样本回归截距a,而 和b的误差方差分别为:。故根据误差合成原理,a的标准误为:由 是遵循 的t 分布的。总 体 回归截距有95可靠度的置信区间为:L1=a-t 0.05,L2=a+t0.05,(917),(918),3回归系数的置信区间 由(911)可推得总体回归系数 的95%可靠度的置信区间为:L1=b-t 0.05,L2=b+t 0.05 4条件总体平均数 的置信区间 由,故 的标准误为:条件
16、总体平均数 的95%置信区间为:L1=-t 0.05,L2=+t0.05(921),(920),(919),5条件总体观察值Y 的预测区间 将(94)代入(98)yi=+ei,,(922),保证概率为0.95的Y 或y 的预测区间为:L1=-t0.05,L2=+t0.05(923)6置信区间和预测区间的图示 首先取若干个等距的x 值(x 取值愈密,作图愈准确),算得与其相应的、和、的值;然后再由 和 算得各x上的L1和L2,并标于图上;最后将各个L1和L2分别连成曲线即可。,例9.10 试制作例9.1资料的y估计值包括和y在内有95%可靠度的置信区间图。表9.6 例9.1资料的置信区间和y的预
17、测区间的计算,(2),(3),(4),(6),(7),(8),,,一代三化螟盛发期估计及其 95%置信限 画出 的图像,依次标出(x,L1)和(x,L2)坐标点,再连接各(x,L1)得 线,连接各(x,L2)得 线。连接各(x,L2)得 线。和 所夹的区间即包括 在内有95可靠度的置信区间。称(x,)的连线,(x,)的连线。其所夹的区间即为y的95的预测区间或预测带。3月下至4月中旬平均温度累积值 例9.1资料的y 估计值及其95%置信带,三、直线回归的矩阵求解回归分析的计算程序可概括为:算得6个一级数据,即n、和 由一级数据算得5个二级数据,即SSx、SSy、SP、和;由二级数据计算 U 和
18、 Q 并进行 F 测验,显著后进一步算出 b 和 a,获得直线回归方程。(一)直线回归方程的矩阵解法一个直线回归的样本线性方程(98)可改写为:,n 对观察值可按(924)写成n 个等式:若定义:,(925),(924),X为系数矩阵或结构矩阵。则(925)可写成矩阵形式:,即:Y=Xb+e(926)要使(926)中的b成为回归统计数,必须满足 为最小。故由解得:,即 因此 b=(927)其中:为()的逆矩阵。的元素用cij表示,在统计上又称cij为高斯乘数(Gauss multiplier)。(二)直线回归假设测验的矩阵解法用矩阵方法可以求得b向量的方差为:,因而b的显著性测验可表示为:这一
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 教学课件 教学 课件 第九 直线 回归 相关
链接地址:https://www.31ppt.com/p-5661475.html