信息与计算科学专业论文08544.doc
《信息与计算科学专业论文08544.doc》由会员分享,可在线阅读,更多相关《信息与计算科学专业论文08544.doc(13页珍藏版)》请在三一办公上搜索。
1、论 文 题 目: 回归分析和残差分析 回归分析和残差分析摘要回归分析师应用极其广泛的数理统计方法之一,它基于观测数据建立变量间适当的相关关系,以分析数据的内在规律,并可用于预报、控制等问题在数理统计基础部分,我们已经学习了一元线性回归分析的基本内容,即当影响因变量Y的因素只有一个(记为Y)时,如何建立Y于X的适当的线性回归关系,在实际问题中,影响Y的因素往往很多,本文讨论多元线性回归模型的系统建模方法,主要包括模型的参数估计、假设检验、残差分析等,而在诸如对回归函数的线性假设、误差的正态性和同方差性假设等都有可能不适合所给数据,因此拟合一个模型之后进一步考察模型对所给数据的适用性是必须的,而且
2、也是十分重要的一个环节,为使拟合的模型较好的反映数据的特点,通过残差分析对模型作必要的修正或者对数据作某些处理就起着十分重要的作用关键词 回归分析 SAS编程 残差分析 线性诊断目录1分析目的2分析原理2.1 多元回归分析原理与方法简述 2.1.1 回归方程的建立2.1.2回归方程的显著性检验(-检验)2.1.3回归系数的显著性检验(-检验)2.1.4利用回归方程进行预测2.2 回归诊断的简述2.2.1线性回归模型的假定:2.2.2残差及其性质2.2.3回归函数线性的诊断;2.2.4误差方差齐性的诊断,2.2.4.1 Hartley检验(水平重复次数相等)2.2.4.2 Cochran检验(水
3、平重复次数相等)2.2.4.3 Barlett检验2.2.5 误差的独立性诊断2.2.6异常点与强影响点2.2.6.1 异常点2.2.6.2强影响点2.3 实例分析2.3.1建立多元线性回归模型2.3.1.1 回归分析2.3.1.2残差分析2.4 参考文献 1分析目的(1)熟悉运用SAS编程进行数据整理和加工;(2)掌握用SAS编程进行多元回归分析;(3)用残差图进行回归函数线性诊断,误差方差齐性的诊断,误差的独立性诊断,异常点和强影响点的判断;(4)会用回归方程进行预测。2分析原理 21 多元回归分析原理与方法简述 211 回归方程的建立多元线性回归是研究因变量与个自变量之间的线性相关关系的
4、.设是一个可观测的随机变量,它受非随机变量和随机因素的影响.若与有如下关系: 其中是未知参数,并假定.对Y、X作n次观测,得到n组数据 设分别是的估计值,称 为多元线性回归方程,称为回归系数.确定可根据最小二乘法,使残差平方和达到最小,即 由多元函数求极值的方法,得正规方程 可由正规方程求得 其中,.2.1.2回归方程的显著性检验(-检验)检验假设 检验统计量为 若拒绝,则回归模型显著.2.1.3回归系数的显著性检验(-检验)检验的目的是把次要的变量从回归方程中剔除,重新建立更为简洁的回归方程.检验假设 检验统计量为 其中,为正规方程系数矩阵的逆 的对角线上一个元素. 注意:在剔除变量时,每次
5、只剔除一个,如果有几个变量经检验都不显著,则先剔除其中值最小的一个变量,然后对所求的新回归方程的回归系数进行检验,有不显著的再剔除,直到保留的变量都显著为止.2.1.4利用回归方程进行预测对于给定的,求预测区间.计算回归值:写出的可靠性为的预测区间2.2 回归诊断的简述2.2.1线性回归模型的假定假设1 自变量是确定性变量,不是随机变量,且,即是满秩矩阵。假设2 满足高斯-马尔科夫条件,即 假设3 正态分布的条件 2.2.2残差及其性质 称为帽子矩阵,因为将因变量的观测值向量变换成响应变量的拟合值向量,残差向量被定义为 残差的性质:(1);(2);(3)若时,标准化残差:,其中是的第个元素,标
6、准化残差近似服从标准正态分布,且近似的相互独立。残差图:以残差或为纵轴标,以拟合值或自变量,或观测时间或序号等为横坐标的散点图。利用残差图可对于模型假设的合理性进行检验。2.2.2回归函数线性的诊断;2.2.3误差方差齐性的诊断,2.2.3.1 Hartley检验(水平重复次数相等) 其拒绝域为 ,其中是总体个数,各水平重复的次数,而且当为零或很小,或时,不能用此检验。2.2.3.2 Cochran检验(水平重复次数相等) 其拒绝域为 2.2.3.3 Barlett检验 其中,是第个样本的容量,当中有一个为零或很小时,此检验不能用。2.2.4 误差的独立性诊断 D-W检验 其中为一阶自相关系数
7、,根据DW的值可按下面规则判断:当时,认为间存在正相关;当时,认为间存在不相关;当认为间存在负相关;当或时,对于是否相关暂不能下结论.2.2.5异常点与强影响点2.2.5.1 异常点异常点通常是指数据中的极端点或来自与其 模型不同的数据点。常用的诊断统计量有:标准化残差的绝对值2的观测值认为是可疑点,而标准化残差的绝对值3的观测值认为是异常点;外学生化残差检验统计量,其拒绝域为2.2.5.2强影响点强影响点是指保留该点与删除该点两种情况下建立的回归方程中的回归系数会产生很大差异的点。常用的诊断统计量有:描述性统计量 设投影阵的对角元为,的值越大,则第点对回归系数的估计的影响越大;采用CooK距
8、离 ,其中是第点标准化残差,该值越大,则第点对回归系数的估计的影响越大。W-K统计量 ,其中是第点的外学生化残差,该值越大,则第点对回归系数的估计的影响越大。若某点为异常点,它可能是强影响点,也可能不是强影响点。同样,强影响点可能是异常点也可能不是。当存在异常点或强影响点时,要避免它对于估计和拟合的影响的一种方法是删除该点后建立回归方程。2.3 实例分析在平炉炼钢中,钢在冶炼初期总去碳量y与两种矿石x1,x2的量和熔化时x3有关,所测得的49组数据如下.X1X2X3YX1X2X3Y2 18 50 4.3302 9 6 39 2.7066 7 9 40 3.6485 12 5 51 5.6314
9、 5 14 46 4.4830 6 13 41 5.8152 12 3 43 5.5468 12 7 47 5.1302 1 20 64 5.4970 0 24 61 5.3910 3 12 40 3.1125 .5 12 37 4.4533 3 17 64 5.1182 4 15 49 4.6569 6 5 39 3.8759 0 20 45 4.5212 7 8 37 4.6700 6 16 42 4.8650 0 23 55 4.9536 4 17 48 5.3566 3 16 60 5.0060 10 4 48 4.6098 0 18 49 5.2701 4 14 36 2.3815
10、8 4 50 5.3772 5 13 36 3.8746 6 14 51 5.4849 9 8 51 4.5919 0 21 51 4.5960 6 13 54 5.1588 3 14 51 5.6645 5 8 100 5.4373 7 12 56 6.0795 5 11 44 3.9960 16 0 48 3.2194 8 6 63 4.3970 6 16 45 5.8076 2 13 55 4.0622 0 15 52 4.7306 7 8 50 2.2905 9 0 40 4.6805 4 10 45 4.7115 4 6 32 3.1272 10 5 40 4.5310 0 17 4
11、7 2.6104 3 17 64 5.3637 9 0 44 3.7174 4 15 72 6.0771 2 16 39 3.8946 请给出(1)它们之间的线性回归方程及显著性检验;(2)用残差图判断三元回归模型是否合适;并判断方差是否齐性;(3)试用DW统计量检验数据间有无一阶自相关;(4)诊断是否存在异常点和强影响点.2.3.1建立多元线性回归模型2.3.1.1 回归分析proc import out=ffiron datafile=D:sasdatanew4.xls DBMS=EXCEL2000 replace; proc reg data= ffiron outest=outest;
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 计算 科学 专业 论文 08544
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-4020903.html