概率论与数理统计课件-一元回归分析.ppt
一元回归分析,在现实问题中,处于同一个过程中的一些变量,往往是相互依赖和相互制约的,它们之间的相互关系大致可分为两种:,相关关系问题,(1)确定性关系函数关系;,(2)非确定性关系相关关系;,相关关系表现为这些变量之间有一定的依赖关系,但这种关系并不完全确定,它们之间的关系不能精确地用函数表示出来,这些变量其实是随机变量,或至少有一个是随机变量。,相关关系举例,例如:在气候、土壤、水利、种子和耕作技术等条件基本相同时,某农作物的亩产量 Y 与施肥量 X 之间有一定的关系,但施肥量相同,亩产量却不一定相同。亩产量是一个随机变量。,又如:人的血压 Y 与年龄 X 之间有一定的依赖关系,一般来说,年龄越大,血压越高,但年龄相同的两个人的血压不一定相等。血压是一个随机变量。,农作物的亩产量与施肥量、血压与年龄之间的这种关系称为相关关系,在这些变量中,施肥量、年龄是可控变量,亩产量、血压是不可控变量。一般在讨论相关关系问题中,可控变量称为自变量,不可控变量称为因变量。,函数关系与相关关系的区别,相关关系,影响,的值,,函数关系,决定,的值,,因此,统计学上讨论两变量的相关关系时,是设法确定:在给定自变量 的条件下,因变量 的条件数学期望,不能确定。,回归分析的概念,研究一个随机变量与一个(或几个)可控变量之间的相关关系的统计方法称为回归分析。,只有一个自变量的回归分析称为一元回归分析;多于一个自变量的回归分析称为多元回归分析。,引进回归函数,称为回归方程,回归分析主要包括三方面的内容,(1)提供建立有相关关系的变量之间的数学关系式(称为经验公式)的一般方法;,(2)判别所建立的经验公式是否有效,并从影响随机变量的诸变量中判别哪些变量的影响是显著的,哪些是不显著的;,回归分析的内容,(3)利用所得到的经验公式进行预测和控制。,一元线性回归模型,如果试验的散点图中各点呈直线状,则假设这批数据的数学模型为,设随机变量Y依赖于自变量x,作n次独立试验,得n对观测值:称这n对观测值为容量为n的一个子样,若把这n对观测值在平面直角坐标系中描点,得到试验的散点图.,则,图 9-1,因此,其中 是与 无关的未知常数。,(9.1),一元线性回归模型,一般地,称如下数学模型为一元线性模型,而 称为回归函数或回归方程。,称为回归系数。,回归函数(方程)的建立,由观测值 确定的回归函数,应使得 较小。,考虑函数,问题:确定,使得 取得极小值。,这是一个二元函数的无条件极值问题。,回归方程的建立,令,回归方程的建立,记,表示对 的估计值,则变量 对 的回归方程为,简写为,最小二乘法,回归方程有效性的检验,对于任何一组数据,都可按最小二乘法确定一个线性函数,但变量 与 之间是否真有近似于线性函数的相关关系呢?尚需进行假设检验。,假设,如果 成立,则不能认为 与 有线性相关关系。,三种检验方法:F检验法、t-检验法、r检验法。,回归方程有效性的F检验法,记,总离差平方和,反映观测值与平均值的偏差程度。,经恒等变形,将 分解,回归方程有效性的F检验法,回归平方和,反映回归值与平均值的偏差,揭示变量 与 的线性关系所引起的数据波动。,剩余平方和,反映观测值与回归值的偏差,揭示试验误差和非线性关系对试验结果所引起的数据波动。,回归方程有效性的F检验法,如果 为真,则,于是,统计量,对给定的检验水平,,(1)当 时,拒绝,即可认为变量 与 有线性相关关系;,(2)当 时,接受,即可认为变量 与 没有线性相关关系;,回归方程有效性的F检验法,(2)当 时,接受,即可认为变量 与 没有线性相关关系;,此时,可能有以下几种情况:,(2)对 有显著影响,但这种影响不能用线性关系表示,应作非线性回归;,(3)除 之外,还有其它变量对 也有显著影响,从而削弱了 对 的影响,应考虑多元回归。,(1)对 没有显著影响,应丢弃自变量;,回归方程有效性的r检验法,记,样本的相关系数,可反映变量 与 之间的线性相关程度。,因为,回归方程有效性的r检验法,记,样本的相关系数,越大,变量 与 之间的线性相关程度越强。,因为,(1),(2)时,,(3)时,,与 有线性相关关系;,与 无线性相关关系;,回归方程有效性的r检验法,计算,对给定的检验水平,查相关系数的临界值表,如果,则拒绝,即线性回归方程有效;否则,接受,即线性回归方程无效。,F检验与r检验是一致的:,回归方程有效性的t检验法,统计量,H0成立时,,对给定的检验水平,H0的拒绝域为,即当 时,变量 与 有线性相关关系。,F检验与t检验是一致的:,试求出 与 的关系,并判断是否有效。,例1 为了研究大豆脂肪含量 和蛋白质含量 的关系,测定了九种大豆品种籽粒内的脂肪含量和蛋白质含量,得到如下数据,解(1)描散点图,(2)建立模型,由散点图,设变量 与 为线性相关关系:,确定回归系数 和:,所以,所求的回归方程为,(3)检验回归方程的有效性,查相关系数临界值表,因为,所以回归方程在 的检验水平下有统计意义。,即可以认为大豆的蛋白质含量与脂肪含量有线性相关性。,利用回归方程进行预测,1、点预测,时,即为 的点预测值。,2、区间预测,统计量,对给定的置信水平,的预测区间为,续例1 求大豆脂肪含量为18.6%的条件下蛋白质95%的预测区间。,解 由已求得的回归方程,得蛋白质的点预测值为,所以脂肪含量为18.6%时,蛋白质的95%的预测区间为,利用回归方程进行预测,控制则为预测的反问题:已知因变量的取值区间为,,确定自变量的取值区间 使得,利用回归方程进行控制,一般地,要解出 和 很复杂,可作简化求解:,当样本容量很大时,,,则,例1的上机操作步骤,分两列输入,回归分析命令,因变量,自变量,预测点,置信水平,t检验,r检验,F检验,预测区间,点预测值,自变量值,