生物统计学第七章直线相关与回归分析.ppt
《生物统计学第七章直线相关与回归分析.ppt》由会员分享,可在线阅读,更多相关《生物统计学第七章直线相关与回归分析.ppt(138页珍藏版)》请在三一办公上搜索。
1、直线相关与回归分析,第七章,平均数,标准差,方差分析,多重比较,集中点,离散程度,差异显著性,一个变量(产量),施肥量,播种密度,品种,在实际研究中,事物之间的相互关系涉及两个或两个以上的变量,只要其中的一个变量变动了,另一个变量也会跟着发生变动,这种关系称为协变关系,具有协变关系的变量称为协变量。,确定的函数关系,PV=RT 气体压强,S=r2 圆的面积,协变量,S=a b 长方形面积,身高与胸围、体重,施肥量与产量,溶液的浓度与OD值,人类的年龄与血压,温度与幼虫孵化,不完全确定的函数关系(相关关系),协变量,相关变量,一个变量的变化受另一个变量或几个变量的制约,因果关系,平行关系,两个以
2、上变量之间共同受到另外因素的影响,动物的生长速度受遗传、营养等影响,子女的身高受父母身高的影响,人的身高和体重之间的关系,兄弟身高之间的关系,为了确定相关变量之间的关系,首先应该收集一些数据,这些数据应该是成对的,然后在直角坐标系上描述这些点,这一组点集称为散点图。,散点图(scatter diagram),为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊测量了1078对父子的身高。把1078对数字表示在坐标上,如图。用水平轴X上的数代表父亲身高,垂直轴Y上的数代表儿子的身高,1078个点所形成的图形是一个散点图。它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。,
3、散点图(scatter diagram),两个变量间关系的性质(正向协同变化或负向协同变化)和程度(关系是否密切),两个变量间关系的类型(直线型或曲线型),是否有异常观测值的干扰,正向直线关系,负向直线关系,曲线关系,散点图直观地、定性地表示了两个变量之间的关系。为了探讨它们之间的规律性,还必须根据观测值将其内在关系定量地表达出来。,回归(regerssion),相关(correlation),定量研究,在生物学中,研究两个变量间的关系,主要是为了探求两变量的内在联系,或从一个变量X(可以是随机变量,也可以是一般的变量),去推测另一个随机变量Y。,x,y,施肥量(可以严格地人为控制),产量,如
4、果对x(非随机变量或随机变量)的每一个可能的值,都有随机变量y的一个分布相对应,则称随机变量y对变量x存在回归(regression)关系。,自变量(independent variable),因变量(dependent variable),一个变量的变化受另一个变量或几个变量的制约,因果关系,研究“一因一果”,即一个自变量与一个依变量的回归分析称为一元回归分析,研究“多因一果”,即多个自变量与一个依变量的回归分析称为多元回归分析。,直线回归分析,曲线回归分析,多元线性回归分析,多元非线性回归分析,在大量测量各种身高人群的体重时会发现,虽然在同样身高下,体重并不完全一样。但在每一身高下,都有一
5、个确定的体重分布与之相对应;,在大量测量各种体重人群的身高时会发现,虽然在同样体重下,身高并不完全一样。但在每一体重下,都有一个确定的身高分布与之相对应;,身高与体重之间存在相关关系。,X身高,Y体重,X体重,Y身高,相关关系,两变量x、y均为随机变量,任一变量的每一可能值都有另一变量的一个确定分布与之对应,则称这两个变量存在相关(correlation)关系。,对两个变量间的直线关系进行相关分析称为简单相关分析(也叫直线相关分析);,对多个变量进行相关分析时,研究一个变量与多个变量间的线性相关称为复相关分析;研究其余变量保持不变的情况下两个变量间的线性相关称为偏相关分析。,第二节:直线回归
6、Linear Regression,一、直线回归方程的建立,二、直线回归的数学模型和基本假定,三、直线回归的假设检验,四、直线回归的区间估计,简单回归(Simple Regression),一、直线回归方程的建立,直线回归就是用来描述一个变量如何依赖于另一个变量,温度,天数,直线回归方程(linear regression equation),截距(intercept)回归截距,斜率(slope)回归系数(regerssion coefficient),自变量,与x值相对应的依变量y的点估计值,a0,b0,a0,a0,b0,a=0,b=0,变量1,变量2,收集数据,散点图,温度,天数,黏虫孵化
7、历期平均温度与历期天数关系图,回归直线在平面坐标系中的位置取决于a,b的取值。,y,最小,最小二乘法(method of least square),根据微积分学中的求极值的方法,令Q对a、b的一阶偏导数等于0,即:,为最小值,基本性质,回归方程的中心化形式,SUMPRODUCT:返回若干数组中彼此对应元素的乘积的和,用x估计y,存在随机误差,必须根据回归的数学模型对随机误差进行估计,并对回归方程进行检验。,y,误差,二、数学模型和基本假定,yi,y的总体平均数,因x引起y的变异,y的随机误差,总体回归截踞,总体回归系数,随机误差,直线回归的数学模型(model of linear regre
8、ssion),基本假定,x是没有误差的固定变量,或其误差可以忽略,而y是随机变量,且有随机误差。,x的任一值对应着一个y总体,且作正态分布,其平均数+x,方差受偶然因素的影响,不因x的变化而改变。,随机误差是相互独立的,呈正态分布。,y,若x和y变量间并不存在直线关系,但由n对观测值(xi,yi)也可以根据上面介绍的方法求得一个回归方程,显然,这样的回归方程所反应的两个变量间 的直线关系是不真实的。如何判断直线回归方程所反应的两个变量间的直线关系的真实性呢?这取决于变量x与y间是否存在直线关系。,三、直线回归的假设检验,有意义,指导实践,?,是否真正存在线性关系回归关系是否显著,一、直线回归的
9、变异来源,(x,y),实际值与估计值之差,剩余或残差。,估计值与均值之差,它与回归系数的大小有关。,一、直线回归的变异来源,(x,y),实际值与估计值之差,剩余或残差。,估计值与均值之差,它与回归系数的大小有关。,依变量 y的平方和,总平方和,SSy,SS总,回归平方和 U,离回归平方和 Q,y的离均差,反映了y的总变异程度,称为y的总平方和。,说明未考虑x与y的回归关系时y的变异。,反映了由于y与x间存在直线关系所引起的y的变异程度,因x的变异引起y变异的平方和,称为回归平方和。,它反映在y的总变异中由于x与y的直线关系,而使y变异减小的部分,在总平方和中可以用x解释的部分。,U值大,说明回
10、归效果好。,回归平方和(regression sum of squares)U,误差因素引起的平方和,反映了除去x与y的直线回归关系以外的其余因素使y引起变化的大小。,反映x对y的线性影响之外的一切因素对y的变异的作用,也就是在总平方和中无法用x解释的部分。,离回归平方和误差平方和,剩余平方和(residual sum of squares)Q,在散点图上,各实测点离回归直线越近,Q值越小,说明直线回归的估计误差越小。,依变量 y的平方和,总平方和,SSy,SS总,回归平方和 U,离回归平方和 Q,直线回归分析中,回归自由度等于自变量的个数,只涉及到1个自变量,df回归1,df总n-1,df离
11、回归n-2,Q/n-2,离回归标准差回归估计标准误剩余标准差,离回归方差,假 设,H0:两变量间无线性关系HA:两变量间有线性关系,在无效假设存在下,回归方差与离回归方差的比值服从F分布。,df1=1df2=n-2,(二)F检验,H0:黏虫孵化历期平均温度x与历期天数y之间 不存在线性关系HA:两变量间有线性关系,检验线性回归系数的显著性,采用t检验法进行。,假 设,H0:=0HA:0,检验样本回归系数b是否来自=0的双变量总体,以推断线性回归的显著性。,(三)t检验,样本统计量 的分布,是根据最小二乘法求出的样本统计量,它有自己的分布 的分布具有如下性质分布形式:正态分布数学期望:标准差:由



- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 统计学 第七 直线 相关 回归 分析

链接地址:https://www.31ppt.com/p-6317043.html