回归与相关分析课件.ppt
第六章 回归与相关分析,Chapter 6 Regression and Correlation Analysis,第六章 回归与相关分析Chapter 6 Regres,本章重点和难点,理解并掌握回归与相关的区别与联系;一元线性回归的基本原理、方法,线性回归的显著性检验、区间估计和预测;相关系数的定义、性质和显著性检验;常用曲线方程的线性化方法及回归方程拟合情况的比较。,本章重点和难点理解并掌握回归与相关的区别与联系;,本章内容,回归与相关的概念 一元线性回归分析 线性相关分析 一元非线形回归(可直线化的曲线回归),本章内容 回归与相关的概念,第一节 回归与相关的概念,【本节内容】回归与相关的概念两者的主要差别,第一节 回归与相关的概念【本节内容】,一、回归与相关的概念,1、回归分析(Regression Analysis)概念:是研究一个随机变量y与另一些变量(主要为固定变量)关系的一种统计方法。即:将一个变量y表述为另一些变量的函数,并通过建立变量间的函数关系,达到根据一个或一些变量的取值去估计或预测另一个变量的目的。,一、回归与相关的概念1、回归分析(Regression An,自变量与因变量在某些问题中,y随x的变化而变化x带有“原因”的性质,称为“自变量”y带有“结果”的性质,称为“因变量”有时x和y之间并无明显的因果关系仍然沿用上述名称,自变量与因变量,一元线性回归(Linear Regression)如果自变量与因变量都是一个,且y和x大体上有线性关系,这种研究两个变量线性关系的回归称为一元线性回归。多元回归如果自变量x是多个,如x1,x2, ,xk,而因变量是一个y,这种研究因变量y与多个自变量x之间的定量关系的问题称为多元回归。,一元线性回归(Linear Regression),回归分析的研究目的变量之间存在怎样的函数关系能否通过这种关系,由x的变化定量地解释或预测y的变化回归分析的变量类型因变量y 随机变量自变量x 固定变量(为主)或随机变量回归分析中x和y的关系地位不平等关心的是y依x的变化规律,回归分析的研究目的,2、相关分析(Correlation Analysis)概念:是研究随机变量之间“相关关系”的一种统计方法。用于研究两个或数个变量共同变化的程度,主要通过计算相关系数来判断这种相关关系的强弱。,2、相关分析(Correlation Analysis),相关关系:是一种非确定性的关系,即一种随机关系。按其形成的原因,可分为直接相关(real correlation)间接相关(nonsense correlation)二元相关分析(简单相关分析)研究两个变量间相关关系的方法。只介绍简单相关。,相关关系:是一种非确定性的关系,即一种随机关系。按其形成的原,相关分析的研究目的变量之间是否存在某种随机的共变关系各变量一起变化的程度相关分析不具备预测性相关分析的变量类型与关系所有变量都必须是随机变量没有自变量和因变量之分,x和y的地位一样分析侧重于随机变量之间的相关特征,相关分析的研究目的,二、二者的主要差别,回归分析与相关分析在计算上有很多相似之处,如果在应用时不注意所研究变量的类型以及两种方法的内在差别,很容易出现错误。,二、二者的主要差别回归分析与相关分析在计算上有很多相似之处,,回归分析与相关分析的主要差别,回归分析与相关分析的主要差别 统计方法相关分析回归分析研究对,第二节 一元线性回归分析,【本节内容】一元线性回归的数学模型一元线性回归方程的建立线性回归的显著性检验线性回归的区间估计和预测,第二节 一元线性回归分析【本节内容】,一、一元线性回归的数学模型,一元线性回归的常用数学模型为:: 回归截距(Intercept)(又称回归常数): 回归系数(Coefficient of regression),一、一元线性回归的数学模型一元线性回归的常用数学模型为:,二、一元线性回归方程的建立,(一)原理最小二乘法线性回归方程的一般形式为: 残差:最小二乘法:使残差平方和(剩余平方和)最小的一种确定a 和b 的方法。,二、一元线性回归方程的建立 (一)原理最小二乘法,使:,根据微积分学中的极值原理,必须使Q 对a 和b的一阶偏导数为0:,使:根据微积分学中的极值原理,必须使Q 对a 和b的一阶偏导,整理得到,一元线性回归的正规方程组:,整理得到一元线性回归的正规方程组:,(二)一元线性回归的计算 (三)回归直线的图示资料的散点图回归直线图,(二)一元线性回归的计算,(四)一元线性回归方程建立的基本步骤(4步),根据资料计算8个一级数据 x , x2, , y , y2 , , xy , n 计算3个二级数据:SSx , SSy , SP 计算参数的估计值a和b,并写出回归方程 作出资料的散点图和回归直线图,(四)一元线性回归方程建立的基本步骤(4步) 根据资料计算8,为了研究特定条件下鱼类对水中某农药的富集能力,搜集了10组有关数据如下(g/L和g/kg),试建立二者间的一元线性回归方程。,【例6.1】,为了研究特定条件下鱼类对水中某农药的富集能力,搜集了10组有,解:经计算,所以,b = SP / SSx = 1.5508,a = 10.987 x与y的回归方程为:,解:经计算所以,b = SP / SSx = 1.5508,,散点图和回归直线图,散点图和回归直线图,三、线性回归的显著性检验,(一)线性回归的变异来源 变异来源 随机变量y的观测值y1, y2, , yn之间的变异是由两个方面的原因引起的:自变量 x 取值的不同;其它因素(试验误差)的影响。,三、线性回归的显著性检验 (一)线性回归的变异来源,平方和的分解(SSySSESSR) y 的离均差平方和SSy(总平方和SST): (dfTn1)离回归平方和SSE(剩余平方和,残差平方和): (dfEn2),平方和的分解(SSySSESSR),回归平方和SSR: (dfR1) SSR的意义:根据等式SSySSESSR可知,如果SSR的值较大,SSE的数值便比较小,说明回归的效果好;反之,如果SSR的值较小,SSE的数值便比较大,说明回归的效果差。,回归平方和SSR:,(二)F 检验当零假设H0:0成立时,SSR与SSE相互独立,且统计量当F F时,H0 :0不成立,称回归方程显著,(二)F 检验,具体检验可在方差分析表上进行:SSESSySSR SSRbSPb2SSxSP 2SSx,具体检验可在方差分析表上进行:变异来源自由度平方和均方Fx1,【例6.2】,根据例6.1给出的鱼类对水中农药的富集资料,试检验其线性回归方程的显著性。,【例6.2】 根据例6.1给出的鱼类对水中农药的富集资料,试,(三)t 检验采用t检验可以检验回归系数b的显著性,进而对回归方程的显著性作出判断。1、统计假设 H0:0,HA:02、b的标准误3、检验统计量4、判断:若t t(n2),则否定H0,接受HA。,(三)t 检验,前述资料回归关系的t检验,所以,否定H0,接受HA,即b极显著。,前述资料回归关系的t检验所以,否定H0,接受HA,即b极显著,四、线性回归的区间估计和预测,(一)和的区间估计 有时和在专业上有特殊意义时,要确定其置信区间。,四、线性回归的区间估计和预测 (一)和的区间估计,1、的置信区间a 的标准误为:而 所以 的置信区间为:,1、的置信区间,2、的置信区间b 的标准误为:而 所以 的置信区间为:,2、的置信区间,(二)对x的区间估计对x的区间估计,即是对总体均值(期望值)的区间估计。当xxi 时,估计标准误为:,(二)对x的区间估计,x的点估计为:所以,x 的置信度为(1)的置信区间为:,x的点估计为:,以鱼体对水中农药富集的数据为例:在x5.5处,y 的期望值的置信区间(95的置信度)为:,以鱼体对水中农药富集的数据为例:,(三)对yx的预测当xxi 时,对yx的预测,即对子总体的某一观察值 yixii进行预测,相当于预测个体值的问题。,(三)对yx的预测,预测标准误为:当xxi 时,yi 的预测值的置信区间(置信度为1)为:,预测标准误为:,以鱼体对水中农药富集的数据为例求x5.5 时鱼体内农药含量y 的预测区间。在x5.5 处,鱼体内农药含量y 的置信度为95的预测区间为:,以鱼体对水中农药富集的数据为例,从计算可知,当x5.5 时,y 的区间估计的区间范围(18.92,20.12)小于y 的预测区间范围(18.23,20.81)。因此,回归分析的预测精度低于估计精度。,从计算可知,当x5.5 时,y 的区间估计的区间范围(1,回归方程的区间估计和预测区间,回归方程的区间估计和预测区间,第三节 线性相关分析,【讲授内容】相关系数相关系数的显著性检验相关与回归的关系,第三节 线性相关分析【讲授内容】,一、相关系数,如果两个变量间呈线性关系,又不需要由x 来估计 y,只需了解 x 和 y 相关的性质以及相关的程度,便可以通过计算表示x 和y 之间相关性质和相关程度的统计量相关系数进行相关分析。,一、相关系数 如果两个变量间呈线性关系,又,(一)双变量(正态)总体,如果:研究对象仅仅涉及两个变量,而且这两个变量均服从正态分布(即服从二元正态分布Bivariate normal distribution)则:研究样本所属的总体称为双变量(正态)总体。,(一)双变量(正态)总体如果:研究对象仅仅涉及两个变量,而且,回归与相关分析课件,(二)相关系数及其计算,如果研究的两个变量服从二元正态分布,则可以采用参数相关分析方法计算相关系数来研究变量间的线性相关关系。,(二)相关系数及其计算 如果研究的两个变量服从二元正态分布,,1、双变量总体的相关系数,设:二元正态总体的两个变量为X和Y,具有N对(X,Y) 则:总体的相关系数为,1、双变量总体的相关系数 设:二元正态总体的两个变量为X和,相关性质,0,X 和Y 有正相关关系(正相关),两个变量表现出共同增加或共同减少的趋势; 0,X 和Y 有负相关关系(负相关),一个变量的增加伴随着另一个变量的减小; 0,X 和Y 完全不相关。| |11,完全正相关; 1,完全负相关。,相关性质0,X 和Y 有正相关关系(正相关),两个变量,2、样本的相关系数r(对应),从二元正态总体抽样,得到n 对观察值(xi,yi)则:样本的相关系数r 可由下式定义,2、样本的相关系数r(对应) 从二元正态总体抽样,得到n,例6.3,Pearson和Lee研究了1401个家庭兄妹身高的问题,我们从中抽取11对数据纪录如下,试求样本的相关系数。,例6.3 Pearson和Lee研究了1401个家庭兄妹,解:,1)先求出一些基本统计量 x759, , x252445 (xx)274 y704, , y245122 (yy)266 xy48615, (xx)(yy)39,解:1)先求出一些基本统计量,2)计算r 统计量,2)计算r 统计量,二、相关系数的显著性检验,1、t 检验统计假设 H0:0;HA:0统计量r 的标准误:当H0:0成立时,检验统计量,二、相关系数的显著性检验1、t 检验,判断:给定显著性水平,将|t|与t(n2)进行比较,即可作出r 是否显著的结论。,判断:给定显著性水平,将|t|与t(n2)进行比较,即,2、利用r 和R 的相关系数表进行检验将统计量t 变形,可得:将t(n2)代入上式,计算出|r|的临界值r(n2),制作为“r和R的相关系数表”。,2、利用r 和R 的相关系数表进行检验,将计算所得的|r|直接与临界值r(n2)进行比较,也可以作出r是否显著的结论。若: |r| r(n2)则:r 值在水平上显著,将计算所得的|r|直接与临界值r(n2)进行比较,也可以,【实例】,试检验【例6.3】中相关系数r0.558的显著性。解:查表得由于 所以,接受零假设H0:0,即样本的相关系数r 不显著。,【实例】 试检验【例6.3】中相关系数r0.558的显著性,三、相关与回归的关系,1、相关与回归的关系(1)从检验结果,即数量上,b 与r 有着密切的联系,表现出一致性。对b 与r 的显著性检验,其实质是完全相同的,b 显著,则r 必显著;反之亦然。,三、相关与回归的关系 1、相关与回归的关系,(2)从相关关系与回归关系的区别来看若自变量为固定变量,则两变量间可进行回归分析,而相关系数没有任何几何意义,r 仅可用来间接反映回归方程的显著程度,即表示回归曲线与观测数据的吻合程度。,(2)从相关关系与回归关系的区别来看,如果两个变量均为随机变量,则相关系数与回归系数均存在,这时两种关系的显著性才是真正一致的。|r|大时,回归方程显著,且变量间线性相关关系密切;当|r|小时,则回归方程不显著,变量间线性相关关系松懈。,如果两个变量均为随机变量,则相关系数与回归系数均存在,这时两,2、决定系数如果仅考虑回归方程与观测数据的接近程度,即回归方程对数据拟合的优劣,那么决定系数提供了一个很好的度量,可以避免将相关与回归混淆。,2、决定系数,决定系数 两变量均为随机变量即存在相关关系时,r2 的大小也反映了变量间的相关程度的大小,但不能反映出相关性质(正相关与负相关)。,决定系数,第四节 一元非线性回归(可直线化的曲线回归 ),【讲授内容】非线形回归及曲线类型的选择常用曲线方程的线性化方法 非线形回归方程拟合情况的比较,第四节 一元非线性回归(可直线化的曲线回归 )【讲授内容】,一、非线形回归及曲线类型的选择,1、非线性回归(nonlinear regression)在许多情况下,因变量与自变量之间的函数关系不能用简单的回归直线来表述,采用适当的曲线方程往往更符合总体间的实际关系,这就是所谓的非线性回归或曲线回归(curvilinear regression)。一元非线性回归:只有一个自变量的非线性回归。,一、非线形回归及曲线类型的选择 1、非线性回归(nonlin,2、曲线类型的选择方法选用正确、合适的曲线类型,是非线性回归的关键。曲线类型的确定方式可以是理论的,也可以是经验的。,2、曲线类型的选择方法,(1)理论法(经验法)根据专业知识或前人的经验选用合适的回归方程。根据已知理论确定曲线类型虽是最理想的选择,但是,如果不考虑已知理论的应用对象和条件而盲目照搬,将会造成错误的结论。,(1)理论法(经验法),(2)图示法 描出(xi ,yi)的散点图,根据散点的变化趋势画出趋势线,并对照曲线图谱来选用合适的曲线类型。,(2)图示法,(3)拟合比较法如果采用图示法时遇到几种曲线形式与试验数据较接近,则可同时选择多个曲线方程,求出回归系数后,再比较各个回归方程的拟合情况,从中选出拟合情况较好的回归方程作为所求的一元非线性回归方程。,(3)拟合比较法,二、常用曲线方程的线性化方法,“线性化”是建立非线性回归方程的方法之一。,二、常用曲线方程的线性化方法 “线性化”是建立非线性回归方程,(一)直接引入新变量,这一类非线性回归方程“线性化”后,回归系数没有变化,线性回归方程的系数也是非线性回归方程的系数。,(一)直接引入新变量 这一类非线性回归方程“线性化”后,回归,1、抛物线令:可化为:,1、抛物线,2、 型曲线令:可化为:,2、 型曲线,3、双曲线(1) 令:可化为:,3、双曲线(1),3、双曲线(2) 令:可化为:,3、双曲线(2),(4)对数函数曲线 令:可化为:,(4)对数函数曲线,(二)原方程经过数学变换后再引入新变量,这类曲线方程需要“改变形式”后才可以线性化为线性方程。但是“线性化”前后两个方程的回归系数有变化,由线性回归方程的系数易于求出非线性回归方程的系数。,(二)原方程经过数学变换后再引入新变量 这类曲线方程需要“改,1、指数函数曲线 (1),1、指数函数曲线,1、指数函数曲线 (2),1、指数函数曲线,2、幂函数曲线,2、幂函数曲线,3、Logistic生长曲线,3、Logistic生长曲线,三、非线形回归方程拟合情况的比较,1、非线性回归的剩余平方和i1,2,n 其中 来自非线性方程,三、非线形回归方程拟合情况的比较 1、非线性回归的剩余平方和,2、非线性关系的相关指数非线性关系的相关指数 的大小与非线性回归方程“线性化”以后所得线性回归方程的决定系数r2 的大小并非总是一致的。,2、非线性关系的相关指数,r2 与 的适用范围决定系数r2 适用于线性回归的情况,反映线性回归方程拟合情况的优劣。相关指数 适用于非线性回归的情况,反映了非线性回归方程拟合的好坏。,r2 与 的适用范围,在多个一元非线性回归方程中,与观测值拟合情况较好的回归方程,其剩余平方和较小,相关指数较大。,在多个一元非线性回归方程中,与观测值拟合情况较好的回归方程,,【例】假设变量x 与y 的9 组观测值如下表所示。试选用多个一元非线性回归方程进行拟合,并比较各个回归方程的拟合情况。,【例】假设变量x 与y 的9 组观测值如下表所示。试选用多个,散点图,散点图,双曲线,双曲线,幂函数,幂函数,指数曲线,指数曲线,对数曲线,对数曲线,本章复习思考题,什么叫回归分析?其主要研究目的是什么?什么叫相关分析?其主要研究目的是什么?回归分析和相关分析之间的主要差别是什么?线性回归分析与线性相关分析之间有何联系?,本章复习思考题什么叫回归分析?其主要研究目的是什么?,本章复习思考题,一元线性回归方程建立的基本原理是什么?一元回归分析的基本方法和步骤是什么?一元回归方程显著性检验的实质是什么?常用的显著性检验方法有哪几种?相关系数和决定系数有何联系?它们分别有何意义和实际用途?,本章复习思考题一元线性回归方程建立的基本原理是什么?一元回归,本章复习思考题,如何确定两个变量之间的曲线类型?可直线化的非线性回归分析的基本步骤是什么?非线性回归方程的显著性检验方法有哪些?能否用线性化的直线方程的相关系数来比较非线形回归方程的拟合情况?为什么?,本章复习思考题如何确定两个变量之间的曲线类型?可直线化的非线,