直线回归与相关分析ppt课件.ppt
第三节 可直线化的非线性回归分析,非线性回归的直线化 倒数函数曲线 指数函数曲线 对数函数曲线 幂函数曲线 Logistic生长曲线,.,直线关系,曲线关系,直线关系是两变量间最简单的一种关系。,这种关系仅在变量的一定取值范围内可用,范围过大,散点图就偏离直线,需要借助于曲线描述。,.,两变量间的非线性关系,用来表示双变量间的关系有多种曲线。,.,米氏方程,当反应速度等于最大速度一半时,即V = 1/2 Vmax, Km = S 上式表示,米氏常数是反应速度为最大值的一半时的底物浓度。米氏常数的单位为mol/L。,Km 米氏常数Vmax 最大反应速度,.,.,米氏常数Km的意义,不同的酶具有不同Km值,它是酶的一个重要的特征物理常数。Km值只是在固定的底物,一定的温度和pH条件下,一定的缓冲体系中测定的,不同条件下具有不同的Km值。Km值表示酶与底物之间的亲和程度:Km值大表示亲和程度小,酶的催化活性低; Km值小表示亲和程度大,酶的催化活性高。,.,.,.,专业知识、经验或文献确定曲线类型,单细胞生物生长初期符合指数函数增长,但若考虑到生长一定时间后,后期生长受到抑制,其生长曲线变成“S”形。,酶促反应动力学中的米氏方程是一种双曲线。,一、确定曲线类型的方法,1,.,散点图的方法,2,通过散点图,确定曲线类型。如果几种类型可供选择,可多做几次回归,进行比较,再确定曲线类型。,.,曲线回归的相关指数:,反映回归曲线拟合度的高低,表示利用曲线回归方程进行估测的可靠程度的高低。,.,直接引入新变量,二、数据变换的方法,1,如令x=lgx:,.,方程变换后再引入新变量,2,令,.,常用曲线模型的直线化方法,.,倒数函数曲线,(1)x的观测量无0值。(2)yx应具有专业意义,而不是抽象的量。(3)以y(y=yx)和x为坐标绘制出的散点图有明显的直线性。(4)y和x的相关系数显著。,.,.,指数函数曲线,.,对数函数曲线,.,幂函数曲线,.,S形曲线,.,三 Logistic生长曲线,特点,开始增长缓慢,而在以后的某一范围内迅速增长,达到某限度后,增长又缓慢下来,曲线略呈拉长的“S”,因此,也称为S型曲线。,.,.,下凹,上凸,.,.,K 值,y是累积频率时: y无限增大的终极量应为100(),可用K=100表示。,.,y是生长量或繁殖量时:,.,四、存在问题,不是所有非线性方程都能用变量代换线性化。,即使方程类型不对时,变量代换与线性回归仍可照常进行,但结果没有任何用途,强行使用会导致错误。,只能使变换后数据的线性方程残差最小,采用线性化方法进行曲线回归后必须进行检验。,.,第四节 多元线性回归分析,一、多元线性回归模型二、多元线性回归方程的建立三、多元回归的假设测验和置信区间,.,一、多元线性回归模型多元回归或复回归(multiple regression):依变量依两个或两个以上自变量的回归。 (一) 多元回归的线性模型和多元回归方程式 若依变量y同时受到m 个自变量x1、x2、xm 的影响,且这m 个自变量皆与y成线性关系,则这m+1个变量的关系就形成m 元线性回归。,.,一个m元线性回归总体的线性数学模型为: 其中, 为随机误差,服从N( 0, )的正态分布, 为离回归方差,其平方根为离回归标准差或回归估计标准误。,.,为x2, x3, xm固定不变时,x1每变动一个单位,y平均变动的相应单位数,称为x2, x3, xm固定不变时x1对y的偏回归系数(partial regression coefficient),简记作1,其样本估计值简记作b1,余下类推。,依次为y, x1 , x2, , xm的总体平均数,其样本估计值依次为,.,若令 ,则多元线性回归的数学模型为:,.,样本多元线性回归方程为: 或,a为的样本估计值,a可由下式求出:,.,二 多元回归统计数的计算,同一元直线回归方程一样,多元线性回归方程也可根据最小二乘法建立:,.,要使Q达到最小,就必须使b1, b2, ,bm的偏微分方程皆等于0,即有:,.,经整理,得到如下正规方程组:,.,则可得如下方程组:,.,这个正规方程组可用矩阵表示为:,若系数矩阵用A表示,未知元矩阵用b表示,常数矩阵用K表示: Ab=K,.,为求解式中的b,一般应先求出A的逆矩阵A-1,令:,式中,A-1是一个m阶的对称矩阵,即cij= cji ,由于A-1是A的逆矩阵,故有: A-1 A=I(单位矩阵),.,由Ab=K 得b=A-1K:,由此可见,求偏回归系数建立多元线性回归方程,首先要解出系数矩阵A的逆矩阵A-1,然后由A-1求出bi和a。 A-1可采用表解法求得。 P216,.,三、多元线性回归的假设测验和置信区间,(一) 多元回归方程的估计标准误实际观测值y与多元回归方程的点估计 的差值的平方和称为多元回归方程的离回归平方和,记为Qy/12m 。,.,自由度df=n-(m+1)=n-m-1 估计标准误为:,总平方和,回归平方和,.,(二) 多元线性回归方程的假设测验 H0:1=2 = =m =0 ;HA:i不全为0。,SSy = Uy/12m + Qy/12m ,Uy/12m由 x1、x2、xm的不同所引起,具有df=m;Qy/12m与 x1、x2、xm的不同无关,具有df=n-(m+1),由之构成的F 值:,.,注意:1 多元线性回归关系显著不排斥有更合理的多元非线性回归方程的存在2 多元线性回归关系显著不排斥其中存在着与依变量y无线性关系的自变量,因此有必要对各偏回归系数逐个进行假设检验。只有当多元回归方程自变量的偏回归系数均达到显著时,F值才有确定的意义。,.,(三) 偏回归系数的假设测验,偏回归系数的假设测验,就是测验各个偏回归系数bi(i=1,2,,m)来自i=0的总体的概率。H0:i=0;HA:i0。测验方法有两种。,.,1t 测验,= sy/12m,服从df=n-(m+1) 的t分布,可测验bi的显著性。,.,2. F 测验,Ui就是y对xi的偏回归平方和。df=1。,Uy/12m随着m增多而增大,且Uy/12(m-1)= Uy/12m-Ui,.,注意:1、t检验结果和F检验结果一致,.,2、如各自变量间不相关,即rij=0:,如各自变量间有不同程度的相关,即rij0:,.,例:两个自变量x1和x2, r12=0,Uy/12=U1+U2 r120,Uy/12U1+U2 r120,Uy/12U1+U2,.,(四) 多元线性回归的区间估计,y/12m的置信区间:,单个y的置信区间:,.,第五节 多元线性相关分析,一、多元相关分析二、偏相关,.,一、 多元相关分析,多元相关或复相关(multiple correlation):m个自变量和依变量的总相关。,.,(一) 多元相关系数(复相关系数) 表示多个自变量与依变量总的密切程度的量,多元相关系数,记作 Ry/12m 。,Ry/12m的取值区间为0,1。,.,(二) 多元相关系数的假设测验 令总体的多元相关系数为,则对多元相关系数的假设测验为H0:=0;HA:0 ,,其中的df1=m,df2=n-(m+1),R2为 的简写。,.,多元相关系数的显著性与多元回归方程的显著性一致,故多元相关与多元回归的假设检验只需进行一种。,df1=m,df2=n-(m+1)一定时,给定显著水平下的F值也一定:,.,二、偏相关,偏相关(partial correlation): 其余变量皆固定,指定的两个变量间的相关。,.,偏相关系数:表示在其它m-2个变量都保持一定时,指定的两个变量间相关的密切程度。 偏相关系数以r 带右下标表示。如有x1、x2、x3 三个变量,则r123表示x3变量保持一定时,x1和x2变量的偏相关系数; 若有m 个变量,则偏相关系数共有m(m-1)/2个。 偏相关系数的取值范围是-1,1。,.,计算由简单相关系数构成的相关矩阵R:,(一) 偏相关系数的一般解法,.,求得其逆矩阵:,计算偏相关系数为rij:,.,(二) 偏相关系数的间接解法,当只有三个变量时,可用简单相关系数间接计算偏相关系数。设三个变量为xi,xj和xk,则xk保持一定时, xi和xj的偏相关系数为:,.,当有四个变量时,可用一级偏相关系数间接计算偏相关系数。设四个变量为xi,xj ,xk和xl:,当有M个变量时,M-2级偏相关系数:,当有M4时,宜采用一般解法。,.,(三) 偏相关系数的假设测验,H0:ij= 0;HA:ij0。,df=n-M=n-m-1,.,实践中,将rij与一定显著水平下的临街r值相比较:,df=n-M=n-m-1,rijr(0.01)0.05: rij为(极)显著 rijr0.05: rij为不显著,.,(四) 偏相关与简单相关的区别,偏相关系数和简单相关系数绝对值和符号都可能不同: 研究变量与其它变量成正相关,简单相关系数高于偏相关; 研究变量与其他变量成负相关,简单相关系数低于偏相关。 多变量资料,必须采用多元相关分析!,.,