第五章回归分析 统计计算及方法课件.ppt
《第五章回归分析 统计计算及方法课件.ppt》由会员分享,可在线阅读,更多相关《第五章回归分析 统计计算及方法课件.ppt(113页珍藏版)》请在三一办公上搜索。
1、第五章 回归分析,回归分析一元线性回归多元线性回归非线性回归,2,5.0 引言,回归名称的由来,回归分析是研究变量之间相互依赖关系的一种统计方法,是数理统计学中应用最广泛的分支之一.,3,回归分析的基本思想以及 “回归”名称的由来最初是由英国生物学家兼统计学家高尔顿提出来的.,他从一千多对父母身高与其子女身高的数据分析中得出:当父亲身高很高时,儿子的身高并不像期待的那样高,而要稍矮一些,有向同龄人平均身高靠拢的现象;而当父亲身高很矮时,儿子的身高要比预期的高,也有向同龄人平均身高靠拢的现象.,4,正是因为儿子的身高有回到同龄人平均身高的这种趋势,才使人类的身高在一定时间内相对稳定,没有出现父辈
2、个子高其子女更高,父辈个子矮其子女更矮的两极分化现象,说明后代的平均身高向中心靠拢了,这种现象叫回归,这就是“回归”一词的最初含义. 现在的意思是:凡是利用一个变量或一组变量的变异来估计或预测另一个变量的变异情况都称之为回归。,在现实问题中处于同一个过程中的一些变量往往是相互依赖和相互制约的,它们之间的相互关系大致可分为两种:,(1)确定性关系 -函数关系,(2)非确定性关系 - 相关关系:变量之间有一定的依赖关系,但这种关系并不完全确定。,可控变量:可以在某范围内随意地取指定数值- 自变量不可控变量:可以观测但不可控制(随机变量)- 因变量,6,例2 人的血压y与年龄x之间的关 系,不可能由
3、一个人的年龄完全确定 他的血压. 一般说人的年龄越大血压 越高,但年龄相同者,血压未必相同.,例1 人的体重y与身高x之间的关系一般来说,身高高一些,体重也要重一些,但身高不能严格地确定体重,即同样身高的人,体重可能不同.,7,这几个例子中的两个变量之间都有一定的关系,且是一种非确定性的关系,称这类关系为相关关系.,例3 水稻亩产量y与其施肥量x1、播种量x2、种子x3有关系,但 x1、x2、x3 取相同的一组数值时,亩产量y可取不同数值.,8,上述例子中身高x,年龄x,施肥量 x1、播种量x2 、种子 x3 都是可以在一定范围内随意的取指定数值,是可控变量称之为自变量,而体重 y, 血压 y
4、,亩产量 y 都是不可控变量称为因变量.,研究一个变量与一个(或几个)可控变量之间 相关关系的统计分析方法称为回归分析.,回归分析:研究一个随机变量与一个(或几个)可控变量之间相关关系地统计方法。只有一个自变量的回归分析叫做一元回归分析;多于一个自变量的回归分析叫做多元回归分析。,回归分析主要内容:,提供建立有相关关系的变量之间的数学关系式(经验公式)的一般方法;,(2)判别所建立的经验公式是否有效;,(3)利用所得到的经验公式进行预测和控制.,5.1 一元线性回归,(一) 一元线性回归模型,设 与 有相关关系,当自变量 时, 因变量 并不取固定的值与其对应. 如果要用函数关系近似 与 的相关
5、关系,很自然想到,应该以 作为 与 相对应的数值.,(51),其中 为常数,则称 与 之间存在线性相关关系,称(51)为一元正态线性回归模型,简称一元线性模型,其回归函数记为,称为 对 的线性回归, 称为回归常数, 称为回归系数。,由(51)得,,可知 取,不同数值时,便得到不同的正态变量。,其中,为未知的常数。,由,独立知道,也相互独立,且,称为独立样本,的一个(或一组)样本观测,值,其中,为,取固定值,时,对,进行一次试验所得到的观测值。,利用独立样本及其样本值可得,的估计量及,估计值,和,从而得到回归函数,的估计,称为 对 的经验回归方程或经验公式。注:确定变量间相关关系数学关系式的三种
6、方法1.经验公式。2.假设检验。3.散点图法。,把样本值,作为平面直角坐标系的 个点描出来,构成实验的散点图。,根据散点图,适当地选择一个函数,使得,在一定意义下最好地吻合,于观测结果,常用的是最小,二乘法,即,.,.,.,.,.,.,.,二、未知参数的估计,1. 正规方程组、回归系数的点估计,根据最小二乘法求线性回归函数,的估计,就是求使得,取得最小值的,即,根据微分学中的二元函数极值的充分条件,将,分别对,求一阶偏导数并令其为零,经过整理后得到线性方程组,其中,正规方程组,解此方程组即得使,取得最小值的,分别称为,的最小二乘估计值.于是, 得到,对,的经验回归方程,注:,用最小二乘法得到的
7、经验回归直线通过已知,个数据点,的几何重心,把估计值中的,分别用,来代替,就得到了参数,的估计量.为了方便, 我们引进几个常用的记号,则,参数估计量,回归方程,定理1: 在一元线性回归模型中,和,相互,独立.,证明:,即,与,不相关.,但,与,都是独立正态变量,的线性组合,因此,与,的联合分布为正,态分布. 对于正态随机向量来说不相关和相互独立是等价的. 证毕,定理2: 在一元线性回归模型中, 的最小二 乘估计量 的数学期望和方差为,证明:,证毕.,由定理2可看出, 当 时, 取最小值 ; 与 成反比.所以,为了提高 和 的估计精度, 最好选择 使 ,并且 应比较分散.,注:,的最小二乘估计量
8、与极大似然估计量相等.,24,实际上: 在 ,0和 1的最大似然估计为最小二乘估计,2. 参数 的点估计,当 的极大似然估计量 已得到后, 的估计量可由似然方程,可得 的极大似然估计量为,记,即,是 的极大似然估计量.,定理3: 在一元线性模型中,证明:,而,又,于是有,证毕.,由定理3可得,是 的无偏估计.,3. 估计量 和 的分布,定理4: 在一元线性模型中,(1),(2),(3),(4),(5),相互独立.,4. 未知参数 和 的区间估计,定理5. 在一元线性模型中,证明:,由定理4,得,由定理4的(5)可知,分别相互独立,再由,t分布的定义,即得,证毕,由定理5及t分布的分位数,得,即
9、得 的 置信区间为,类似, 的 置信区间为,由,易得 的 置信区间为,三、线性回归效果的显著性检验,我们在求 Y 对 x 的线性回归之前,必须判断Y与 x 的关系是否满足一元线性回归模型。理论上讲,这要求检验,(1) 对x取任一固定值时,Y都服从正态分布,而且 方差相同;,(2) x在某一范围取值时,EY是x的线性函数;,(3) 在x取各个不同值时,相应的Y是相互独立的。,但要检验这三条不仅需要大量的试验,还要进行大量的计算,实际上很难办到。,(1) x对Y没有显著影响,应丢掉自变量x;,(2) x对Y有显著影响,但不能用线性相关关系来 表示;,(3) 除x外还有其它不可忽略的变量对Y也有显著
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第五章回归分析 统计计算及方法课件 第五 章回 分析 统计 计算 方法 课件

链接地址:https://www.31ppt.com/p-1933596.html