毕业设计(论文)广义线性回归在研究学生成绩相关性的应用.doc
《毕业设计(论文)广义线性回归在研究学生成绩相关性的应用.doc》由会员分享,可在线阅读,更多相关《毕业设计(论文)广义线性回归在研究学生成绩相关性的应用.doc(43页珍藏版)》请在三一办公上搜索。
1、引言回归分析是一种应用极为广泛的数量分析方法,它用于分析事物之间的统计关系,侧重考察变量之间的数量变化规律,并通过回归方程的形式描述和反映这种关系,帮助人们准确的把握变量受其他一个或多个变量影响的程度,进而为事物的控制和预测提供科学依据。作为标准的统计分析工具,多元线性回归分析在诸多行业和领域的数据分析应用中发挥着极为重要的作用。利用多元回归方法分析变量之间的关系或进行预测时的一个基本要求是:被解释变量应是连续数值型变量。然而,实际应用中这种要求未必都能得到较好的满足。例如,在对小轿车消费群体特点的分析和预测中,可以根据历史数据,建立关于小轿车的多元回归模型。可能将诸如职业,年收入,年龄等因素
2、纳入模型,并希望通过模型预测具有某特定特征的客户是否会购买小轿车。这个多元回归模型的被解释变量设为是否购买(l表示购买,0表示不购买),是个纯粹的二值型品质变量,显然不满足变量为数值型数据的要求。在数据分析中,尤其在社会科学、医学的研究中,像这样的情况是很普遍的。当出现这种情况的时候,建立的一般多元回归模型就会出现以下问题:残差不再服从零均值的正态分布;被解释变量的取值区间受限制等。基于这种情况,提出了广义线性模型。形式上,广义线性模型是常见的正态线性模型的直接推广。它可适用于连续数据和离散数据,特别是后者,如属性数据,计数数据。这在实际中,尤其是生物、医学、经济和社会数据的统计分析上,具有重
3、要的意义。广义线性模型要求响应变量通过线性形式依赖于自变量,这一特点保持了线性自变量的思想,而且广义线性模型允许许多用于线性模型的方法能用于更一般的实际问题。广义线性模型的响应变量Y都属于指数分布族,而指数分布族不仅包含了许多常见的重要分布,如正态分布,二项分布,Poisson分布等,而且它有良好的分析性质,在数据处理上有很多方便。总之,广义线性模型为今后回归模型提供了一个重要的统一的研究方法。广义线性模型的个别特例起源很早。Fisher在1919年曾用过它。最重要的Logistic21模型,在20世纪四五十年代曾由Berkson,Dyke Patterson等人使用过。1972年Nelder
4、和Weddethum在一篇论文中引进广义线性模型一词,提供了一个新的估计理论和计算框架,对传统线性回归模型作了进一步推广,建立了统一理论和计算框架,对回归模型在统计学中的应用产生了重要影响。这种新的统计模称作广义线性模型(generalized linear models,简称GLM)。近年来,广义线性模在理论上和应用上得到了快速的发展,在模型的拓展、参数估计方法以及模型的验和诊断等方面不断趋于成熟。张尧庭11(1995)在与传统线性模型对比的基础上,对广义线性模型本质特征进行了描述。陈希孺17,19院士于20022004年在数理统计与管理杂志上,分十次讲解对多元广义线性模型进行了系统的介绍。
5、另外,我国学者在广义线性模型参数估计的相合性、收敛速度、模型的诊断等方面得到了不少优秀成果。用于GLM的计算软件也相继问世,目前,除了由NAG(Numerical Algorithms Group)研发的专用程序GLIM(Generalized Linear Interaetive Modeling)外,SAS和SPASS2,3统计软件中的Genmod模块也被广泛使用,在统计软件R和X-plore中,也有相应的计算模块。得益于应用软件的推广,广义线性模型在医学、农业、交通运输、产品试验以及经济、金融等方面得到了广泛的应用。近年来,广义线性混合模型、半参数广义线性模型22、广义非线性模型等扩展模
6、型在理论研究和实际应用上得到了快速的发展。广义线性模型理论的建立,极大地推动了以统计方法为基石的精算学的发展。传统的线性回归模型,都是建立在对称分布的基础上,以常值方差为假设。但在精算实践中,所采集的数据往往显示出非常值方差的趋势;用于描述索赔额等变量分布通常具有厚重的右尾;反应变量不再局限于对解释变量的线性依赖。在许多情况下,传统线性回归模型不适宜作为精算统计模型。广义线性模型的出现,为精算学的发展提供了有力的工具。广义线性模型在精算中的应用起始于上世纪八十年代,九十年代经历了快速的发展,并被广泛地应用于精算学的各个领域,如生命表的修匀、损失分布、信度理论、风险分类、准备金和费率的估计等方面
7、。大学学习不同于高中或者初中,以往的教学方式长期有老师的监督和教导,而大学学习更注重培养学生的自主学习的能力,而在这种缺乏约束的学习氛围下,学生的学习成绩可能会出现不同程度的畸形。大学生步入大学之后,由于学习目标不明确而导致学习动力不足,放松要求,出现了考试不及格、降级、退学等学籍异动情况,对学校和个人都造成了损失。那么出现这种事故有无规律?有无征兆?本文仅从学生各门课程考试成绩的变化角度对该问题进行分析与研究,以安徽工程大学统计学专业07级81个学生前三学年的学习成绩为样本通过广义线性回归分析来研究学生学年间成绩的相关性。在这三学年中,有些学生出现了退学降级等学籍异动,对他们的相应数据做了如
8、下处理:对于退学学生后期成绩不存在的用“0”补;对于降级学生后期成绩用下一学年甚至以后几学年的相应学习成绩补缺。出于公正的角度,均用他们的第一次考试成绩为观察值进行数据处理和分析。第1章 绪论1.1广义线性回归基本思想先看下面几个例子。例1 抛物线的拟合某零件上有一条曲线,可以近似看作是一条抛物线,为了在数控机床上加工这一零件,在曲线上测得个点的坐标,要求从这个点的坐标出发,求出曲线的函数表达式。 显然,这是一个回归分析问题,由于曲线可以近似看作是一条抛物线,因此,回归方程(即曲线的函数表达式)是一个二次多项式 ,像这种回归方程是一个多项式的回归,称为多项式回归(Polynomial Regr
9、ession)。虽然多项式回归方程不是线性的,但可以通过变量代换,化成线性形式。令,原来的回归方程化成了下列形式: , 这是一个线性回归方程,可以用前面介绍过的线性回归的方法求出它的解。具体作回归时,所需要的观测数据, 用, 的数值代入,求得的线性回归方程中常系数的估计,也就是原来的二次多项式回归方程中常系数的估计。例2 科布-道格拉斯(Cobb-Douglas)生产函数 在经济学中,有一个著名的科布-道格拉斯生产函数,这个函数指出,生产产出 与劳动投入 、资本投入 之间,近似有下列关系: ,其中, 都是常系数。现测得一组劳动投入、资本投入和生产产出的数据,要求从这批数据出发,估计常系数 的值
10、。这是一个回归分析问题,回归方程为 ,显然,它不是线性回归方程,但是,如果我们对方程两边同时取对数,得到 ,(原来有,误差项为,取对数后有,也有一个误差项,我们把这个误差项记为。)再令,它就化成了一个线性回归方程 。用线性回归的方法可以求出它的解。具体作回归时,所需要的观测数据 , 用, 的数值代入,计算得到的线性回归方程中常系数的估计,就是原来回归方程中 的估计,原来回归方程中 的估计,可以通过 求得。例3施肥效果分析对2种作物土豆、生菜,分别施以3种不同数量的肥料氮、磷、钾,得到一批产量的数据,求施肥量与产量之间的关系。设分别是氮、磷、钾肥的施肥量,是产量。与之间,可能有各种各样的关系,但
11、这种关系显然不会是线性的。比如说,可以考虑下列关系: ,这是一个的2次多项式。令,它就化成了一个线性回归方程 ,可以用线性回归的方法求出它的解。例4 混合异辛烯催化反应 在混合异辛烯催化反应中,反应速度与氢的分压 ,异辛烯的分压 ,异辛烷的分压 之间,近似有下列关系: ,其中, 是常系数。现对 作观测,得到观测值,要求常系数 的估计值。对回归方程两边开3次方,再取倒数,得到 ,再令 , , , , , , , , ,原方程就化成了下列形式: ,这是一个不带常数项 的线性回归方程。对于这种回归方程,可以用求线性回归方程的解法,求得它的最小二乘解。作回归计算时,所需要的观测数据,用 的数值代入,按
12、线性回归方法求得常系数的估计 后,从下列各式就可以求出原方程中各系数的估计值:,。 上面举了几个把非线性回归化为线性回归的例子。一个非线性回归问题,如果能够象上面例子中所介绍的那样,通过适当的变量代换,化为线性回归,则称这种回归为广义线性回归(Generalized Linear Regression)。1.2广义线性回归分析在方差分析中分析效应因子A对反应变量Y的影响,即,分析效应因子A的不同水平对反应变量Y的作用差异。方差分析的原理是分解总体变量:回归分析中分析自变量X对因变量Y的依存关系,即,分析自变量X改变一个单位时,因变量Y的改变量大小。回归分析原理是分解总体变异:方差分析和回归分析
13、的相同点方差分析和回归分析的不同点主要在于自变量的类型不同前者是分类型的,后者是连续型的广义线性模型分析是将方差分析和回归分析的基本原理结合起来,用来分析连续型因变量与任意型自变量之间各种关系的一种统计分析方法。其意义是使得方差分析和回归分析的实用性和准确性得到进一步提高。两个典型的广义线性模型分析方法协方差分析是将方差分析原理和线性回归分析原理结合起来的一种方差分析方法。它消除了混杂变量(协变量)对因变量的影响,使得方差分析结果更加准确。广义线性回归分析是将线性回归分析原理和方差分析原理相结合起来的一种线性回归分析方法,它和线性回归分析的区别是模型的自变量可以是任意类型的变量。其主要目的是扩
14、大线性回归分析的应用范围,使得它的应用价值得到进一步提高。广义线性回归分析的假设条件:1. 因变量是连续随机变量;2. 自变量相互独立;3. 每一个数值型自变量与因变量呈线性关系;4. 每一个数值型自变量与随机误差相互独立;5. 观察个体的随机误差之间相互独立;6. 随机误差广义线性回归分析和线性回归分析相比,广义线性回归分析的优点有:1,自变量可以是任意类型的变量;2,利用SAS的GLM过程可以分析每一个分类型变量对因变量的影响的显著性。1.3广义线性回归模型广义线性模型是非线性模型的一些特例,它们具有一些共性,是其它非线性模型所不具备的。它与典型线性模型的区别是其随机误差的分布不是正态分布
15、,与非线性模型的最大区则在于非线性模型没有明确的随机误差分布假定而广义线性模型的随机误差的分布是可以确定的。例如, 即是一个广义线性模型。1.3.1广义线性模型的三项构成要素(1)随机成分:用以明确响应变量的概率分布。随机成分包含自然指数分布族里的某一个分布的若干独立观察值。自然指数分布族概率分布的每个观察值具有如下的密度函数: 。任何一个可以写成这种形式的分布都是自然指数分布族的一员。对于,参数可以是不同的,随自变量的变化而变化。称为该分布的自然参数。例如,二项分布即是(单参数)自然指数分布族的一员。因为它的概率密度函数可作如下变换:,其中, ,。(2)系统成分:用以确定用作预测变量的解释变
16、量的线性函数。广义线性模型的系统成分通过一个线性模型将向量与一组解释变量联系起来,这里是模型矩阵,有时也称作设计矩阵,它包括解释变量的个观测值;是模型的参数向量; 被称为线性预测(向)量。(3)连接函数:用以描述系统成分与随即成分的期望值之间的函数关系。设,与通过来联结,其中是任意单调可导函数。模型通过公式将响应变量观测值的期望值与解释变量连接起来。在上面关于二项分布的例子中,连接函数是Logit,或者更具体一点说是。通常,将与自然参数一致的连接函数称为典型连接函数,当然,也可以采用与自然参数不一致的连接函数。一般说来,对于所有的,其连接函数都是一样的,函数表示一致性连接函数,意指该线性预测(
17、向)量是响应变量期望值的线性模型。由此看出,线性模型只不过是广义线性模型的一个特例,在那里,连接函数是一致性连接函数。综上所述,广义线性模型是转换后的响应量期望值的线性模型,该响应变量具有自然指数族的分布。再如,泊松分布的密度函数,变换为,也具有自然指数分布的形式,其中, , 。我国统计学原理教科书上常见的指数曲线回归模型即是这样的广义线性模型。因为其典型连接函数为对数函数,所以也叫做对数线性模型,可用来对定性变量进行回归分析。值得再次强调的是,广义线性模型的响应变量是假定服从某一特定的概率分布的。1.3.2广义性线模型与连续变量模型的关系广义线性模型不仅包括离散变量,也包括连续变量。正态分布
18、也被包括在一族自然指数分布族里,该自然指数分布族包含描述发散状况的参数,属于双参数指数分布族(双参数是指位置参数和发散参数,前述的单参数指数分布族指仅包含位置参数的指数分布族),对于固定的方差,其自然参数就是平均数。所以,对于响应变量的平均数的回归模型是一个采用一致性连接函数的广义线性模型。1.3.3广义线性模型的特(优)点(1)对定性变量进行分析。广义线性模型的其中一些如LOGIT回归和对数线性回归模型在社会统计的各个领域的定性分析中有广泛的用途。其中,LOGIT回归模型可以用连续性的解释变量解释二项分布变量的变化,对数线性模型则可用来解释多个类别变量之间的关系,即对多相列联表进行分析。在纵
19、向数据分析及生存分析中也有广泛的应用,而生存分析及纵向数据分析在目前的统计方法研究中都是热门课题。(2)使非经性回归线性化。两变量与多变量的非线性模型计算非常复杂,用的也非常少,而广义线性模型非现性模型的线性化,则允许模型中有多个解释变量,象线性回归一样,并且,象复回归一样,可以对解释变量进行向前、向后选取分析。(3)广义线性模型的参数估计量具有大样本正态分布,因而具有良好的统计性质。广义线性模型方法的推广和应用对于显示现代统计方法和统计技术的威力,促进全民统计意识的普及及深化有很大的推广作用,也与大统计学科的建设方向相一致。第2章 广义线性回归分分析学生成绩2.1广义线回归性模型由于每一学年
20、统计学专业都设置了十几门课程,在这里建立多维回归是很困难的。所以以学生大学二年级和三年级的平均成绩(表示第年级第个学生的平均成绩,。)作为因变量,大学一年级开设的各门课程成绩 (为第个学生在一年级所学习第门课程的成绩。)作为自变量,其它影响因素归到误差中。其中各的课程名称如表2-1。表2-1 课程名称思想道德修养与法律基础学大学英语一高等数学一高等代数一计算机文化与基础微观经济学学大学英语二高等数学二高等代数二军事理论建立线性模型如下:,并设与有如下广义线性模型: , (2.1.1)其中,是待估参数。2.2模型的参数估计在模型(2.1.1)下:记,令 ,得正规方程组:,的解为,其中,的参数估计
21、借助残差矩阵,则常用的估计为:,其中而。2.3回归方程的显著性检验(或称相关性检验)在这个问题当中,我们事先并不能判定应变量与自变量之间确有线性关系。再求出回归系数的估计之前,回归模型(2.1.1)这是一种假设,尽管这种假设常常不是没有根据的,但在求出线性方程后,对与之间是否有线性关系还需进行统计检验,已给出肯定或者否定的结论。我们假定,如果Y与之间均无线性相关关系,则模型(2.1.1)中的系数应均为0。故检验与是否线性相关的问题就等价于检验假设:又,其中。记,则在下而,而Q与相互独立。在成立时统计量:,于是统计量为:,在成立时,当原假设不成立时,有增大趋势,故拒绝域为:。2.4回归系数的显著
22、性检验对回归方程进行显著性检验,若否定,仅表示中分量不全为0,但并不排除有某个为0。若,说明自变量对变量Y的影响不显著,应从回归模型中删除。因此回归系数是否为0,进行逐个检验是很必要的,即检验以下的假设:,统计量为:,其中为变量的偏回归平方和,为去掉变量的残差平方和。在不成立时,有增大的趋势,所以拒绝域为。第3章 数据分析3.1数据的来源本文数据取自安徽工程大学07级统计学专业的前三学年的学习成绩。在这三年之中,有些学生出现退学降级等学籍异动,对他们统计软件的相应数据做了如下处理:对于退学学生后期成绩不存在的用“0”补;对于降级学生后期成绩用下一年级甚至以后几学年的相应学习成绩补缺。出于公正的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 毕业设计 论文 广义 线性 回归 研究 学生 成绩 相关性 应用
链接地址:https://www.31ppt.com/p-3982364.html