元回归及简单相关分析.ppt
第十章 一元回归及简单相关分析,第十章 一元回归及简单相关分析,上课提纲:一、回归和相关的基本概念二、一元线性回归三、一元非线性回归四、相关重点:回归方程的拟合及其显著性检验难点:回归的方差分析,前面,我们所讨论的统计方法,只涉及一个变量。例如,在不同品种的产量比较试验中,每一品种平均数反映产量的集中点。标准差反映了产量的离散程度。如作物产量,通过计算平均数和标准差,就可知道这种作物在产量上的总体和变异情况,进而根据变异程度进行u-检验、t-检验、F-检验和x2-检验,并可确定那个品种好,那个品种不好;可筛选出适宜的条件或措施,等等,而这些都只涉猎产量一个变量,而产量不仅与品种有关,还与施肥量、播种密度、及灌水量等多种因素有关。因此在试验研究的过程中,经常要研究两个或两个以上变量间的相关关系。事物间或现象间的关系,这种研究事物间或现象间关系的统计方法就属于回归和相关。,第十章 一元回归及简单相关分析,一、回归与相关的基本概念,回归这个名称是英国遗传学家Frances Golton提出来的。他研究了人的身高、肘长和手的跨距等,发现:身材高的父母所生子女的身材也高,但是高身材的父母所生子女的平均身高不如他们父母那么高,但子女的身高是依靠父母的身高,他把这种趋向称作回归,即回归到全体人口的平均身高,这种子女身高依赖父母身高的关系就是回归关系。,回归关系是一种函数关系,但它不同于数学上的函数关系。数学上的函数关系是一种确定性的关系,比如,圆的面积S=r2,你抽取多少个总体,都遵从这一关系;而回归关系是一种非确定性的关系,总体不同,函数关系就发生变化。生物统计就是从这种非确定性关系中去了解变量间的联系。表述这种变量间的联系有两个指标:回归和相关。,对两个变量,一个变量用符号x表示,另一个变量用y表示,如果通过试验或调查获得两个变量的成对观测值,可表示为(x1,y1),(x2,y2),(xn,yn)。为了直观看出x和y变化关系可将每一对观测值在平面直角坐标系中表示成一个点,作成散点图。,图101 x和y之间的关系,从散点图可以看出:两个变量间关系的性质和程度;两个变量间关系的类型,是直线型还是曲线型;是否有异常观测值的干扰等。例如图101是三幅两个变量的散点图,图a和图b都是直线型的,但图a的两个变量关系较图b密切,且是正向的,即x增加y心也增加,图b是负向的,图c的两个变量之间关系是曲线型的。由散点图表示两个变量之间的关系只是定性的研究,为了探讨它们之间的规律性,必须根据观测值将期理论关系推导出来。,研究两个变量的关系可采用回归与相关的分析统计方法。如果两个变量间关系属于因果关系,一般用回归来研究。表示原因的变量称为自变量,用x表示。自变量是固定的(试验时预先确定的),没有随机误差。表示结果的变量称为依变量,用y表示 并有随机误差。例如作物施肥和产量之间的关系,前者是表示原因的变量,为事先确定的,是自变量,后者是表示结果的变量,且具有随机误差,为依变量,作物产量是随施肥量的变化而变化的。(一个自变量x可以有许多y值和它对应)回归分析的目的是揭示呈因果关系的变量之间的联系形式,建立回归方程,利用建立回归方程由自变量来预测和控制依变量。,如果两变量是平行关系,只能用相关来进行研究。在相关分析中,无自变量和依变量之分,且都具有随机误差。(两个变量取值不是一对一的)相关分析只能研究两个变量之间相关程度和性质,不能用一个变量的变化去预测另一个变量的变化,这是回归与相关区别的关键所在。显然,相关关系中两个随机变量没有谁依赖谁的关系,而回归关系中随机变量是依赖于变量的。对于回归分析而言,我们不但要弄清楚谁依赖谁,而且要搞明白依赖程度是否显著。,回归关系(regression)一个变量(X)和一个 随机变量(Y)的对应关系(X Y)。,第十章 一元回归及简单相关分析,、一元回归分析的意义,二、一元线性回归,1、较少的工作量就可掌握事物或现象的趋势或规律;,假如土壤中NaCl含量为3.7g kg-1,叶干重是多少?,因为:y=11.161x+81.786,x=3.7,所以:y=11.1613.7+81.786=123.1 mg dm-2,2、预测事物或现象的具体变化;,对于重复1:80、90、95、115、130、115、135样本方差:s2=431,因为:y=11.161x+81.786,误差均方:MSe=70.7。误差均方是样本方差的16.4。,因此,只有在引进自变量以后所得到的实验误差,才是真正的实验误差。,3、减小实验误差。,第十章 一元回归及简单相关分析,二、一元线性回归,、一元直线回归模型的建立:1、内涵 为了描述两变量间的数量关系,当自变量 时,因变量Y的平均数 与之相对应,那么,称为Y的条件平均数(conditional mean)。,在实验无限重复后,可以得到各xi上Y的条件平均数,这些平均数构成一条直线:,式中:为直线的截距(intercept),为斜率(slope)。,对于一对给定的X和Y与直线 的离差(随机误差),它独立于X且服从于同一正态分布。,如上回归模型只包含一个自变量X且具有正态性,所以称为一元正态线性回归模型。,一般情况下,得不到真正的和,只能求出它们的估计值a和b,从而得到一条估计的直线:,回归方程,估计值,回归系数,画出的线叫回归线,第十章 一元回归及简单相关分析,、一元直线回归模型的建立:2、模型建立,二、一元线性回归,每一次a和b取值不同,每一个数据点的 不同。,对于所有点而言,每一次a和b取值不同,每一个数据点的离差 不同。,回归分析中,要使每一个离差 都很小,必须选取适当的常数a和b,使得:达到最小,进而保证每个离差的绝对值都很小。这种根据离差的平方和为最小的条件来选择常数的方法称为最小二乘法(method of least square)。,第十章 一元回归及简单相关分析,目的明确以后,把L看成为自变量a 和b的一个二元函数,那么问题就可归结为求函数L=L(a,b)在那些点处取得的最小值,这样就可通过数学方法可求出使L达到最小时的常数a和b。,二、一元线性回归,、一元直线回归模型的建立:2、模型建立,得正规方程(normal equation):,解正规方程,得到和的最小二乘估计a和b:,计算估计值a和b时的程序:,X和Y的校正交叉乘积和:,X的校正平方和:Y的校正平方和:,直线回归方程的两个性质:(1);(2)回归直线必须通过中心点。,(2)计算校正项:,(3)计算估计值a和b:,(1)计算观测平均值:,二、一元线性回归,第十章 一元回归及简单相关分析,、一元直线回归模型的建立:3、例题,例题10-1 土壤不同含盐量时小麦收获的叶干重如下表:,试建立土壤含盐量与小麦叶干重的直线回归方程。,解:,分别求出SXY、SXX、SYY,回归系数b=11.16,表示当自变量每变动一个单位,因变量变动11.16个单位。,二、一元线性回归,第十章 一元回归及简单相关分析,、一元直线回归模型的检验:(一)方差分析,1、无重复时的方差分析,即:总平方和=剩余平方和(误差平方和)+回归平方和记为:,SYY具n-1自由度;其中:,SSe具n-2自由度;,SSR具1自由度。,均方分别为:,若FF1,(n-2),,则拒绝H0:=0。,FF1,5,0.01=16.26,回归极显著。,二、一元线性回归,第十章 一元回归及简单相关分析,2、有重复时的方差分析,、一元直线回归模型的检验:(一)方差分析,如果对于同一个自变量,因变量重复观测两次以上,此时剩余平方和分解为纯实验误差平方和(pure experimental error sum of squares)和失拟平方和(lack of fit sum of squares)(模型选择不当造成的),总校正平方和做如下分解:,均方分别为:,二、一元线性回归,第十章 一元回归及简单相关分析,、一元直线回归模型的检验:(一)方差分析,2、有重复时的方差分析,例题10-7 土壤不同含盐量时有重复实验中小麦收获的叶干重如下表:试对该土壤含盐量与小麦叶干重的直线回归方程的显著性进行检验。解:得到回归方程,差异不显著,说明模型选择正确。注意:对于小样本(n 30),F1.5肯定不显著;对于大样本(n 30),F1.0肯定不显著。,F F1,12,0.01=9.33,回归关系极显著。,二、一元线性回归,第十章 一元回归及简单相关分析,、一元直线回归模型的检验:(二)回归系数t-检验,一元线性回归模型的实测值可表示为,因无法获得和,故实测值表述为。,二、一元线性回归,第十章 一元回归及简单相关分析,、一元直线回归模型的检验:(3)点估计与区间估计,1、对和的估计,二、一元线性回归,第十章 一元回归及简单相关分析,、一元直线回归模型的检验:(3)点估计与区间估计,2、对回归线 和对 的估计,总体平均数,观测值个体样本,例题:在例题10-1中,请估计土壤含盐量为1.6 gkg-1时小麦叶干重为多少mgdm-2(取0.95置信概率)?张老师2006年在土壤含盐量为1.6 gkg-1的试验地中进行小麦实验,叶干重为多少mgdm-2(取0.95置信概率)?,解:分析第一问为求总体平均值的置信区间;第二问为求单个观测值样本的置信区间。,三、一元非线性回归,第十章 一元回归及简单相关分析,多项式回归,两变量间的数据散点图无法确定函数关系时,用多项式回归。一般形式为:,1、相关系数概念及其计算 相关系数(correlation coefficient)是指由于回归因素所引起的变差与总变差之比的平方根,它是衡量线性回归好坏的一个标志。由回归因素所引起的变差在总变差中的比率越大,回归的成分就越大,这两个变量间的相关就越密切。,样本相关系数为:,相关系数的性质用散点图说明,第十章 一元回归及简单相关分析,四、相关,2、相关系数的检验 涉及一个概念总体相关系数,即总体相关系数等于两变量的协方差除以两变量标准差的几何平均数。事实上,总体相关系数很难计算,只能估计。,(1)r不经变换:当=0时(待检验数据分布符合正态分布),可用t=b/sb来检验。检验统计量为:t0.01 例题10-14 在研究水稻籽粒蛋白质含量()时,采用两种不同的测定方法:凯氏定氮法(KP法)和染料结合法(DBC法),结果如下表,问两种测定方法对结果是否有显著影响?,解:H0:=0,说明两种方法测定结果是一致的。,对比r 和 b 两个变量在相关系数计算中的地位是平等的,没有自变量和依变量之分,这是回归和相关的区别。R 2 的含义是变量引起变异的回归平方和占变异总平方和的比率。取值范围是0到1,例题中 r=0.953 R 2=0.9082 表明y的变异中有90.82%可用y与x二者之间的线性关系来解释。,名词解释连续型数据 离散型 数据 变异系数 随机抽样 标准差 自由度 标准误差(标准误)零假设 备择假设 显著性水平 统计假设检验 误差均方 总体 中位数 相关系数 回归系数 简答题、研究频数分布的意义?2、为什么要计算数据的标准差?标准差的含义是什么?3、两个常用的标难差公式是什么?4、变异系数是怎样计算的?为什么计算变异系数?5、简述t分布和正态分布有什么不同?6、简述小概率原理。7、t检验的类型和前提条件?8、经检验P0.05,因而接受H。,对于“接受零假设”这一结论的严格表达是什么?为什么?9、成组数据t检验的条件是什么?写出检验统计量。,