线性回归.完整PPT资料课件.ppt
《线性回归.完整PPT资料课件.ppt》由会员分享,可在线阅读,更多相关《线性回归.完整PPT资料课件.ppt(64页珍藏版)》请在三一办公上搜索。
1、第四讲线性回归,(优选)第四讲线性回归,对于这两个变量,通过观察或试验得到若干组数据,记为1,2,n)。MSR(mean square regression)即回归均方,等于回归平方和除以它的自由度;5690665 51.该检验利用方差分析的方法进行。t P|t| 95% Conf.0011525 .0001057 -7.0009697 -.2317112 .-+-pwcorr hhwktot yrsch income, sig从标准回归系数判断,income的作用显然远远超过yrsch的作用统计量F服从第一自由度为1,第二自由度为n-2的F分布。当两个变量同时与第三个变量相关时,将第三个变量
2、的影响剔除后,另外两个变量之间的相关程度Galton在对遗传现象进行研究后发现,当高个的夫妻或矮个的夫妻有了孩子时,这些孩子的身高趋于回归到更典型的、同一性别的人的平均身高。表现这一数量关系的数学公式称为多元线性回归模型;线性相关系数是衡量变量之间相关程度的统计量,是描述两变量线性关系强度及方向的数值;,导论,统计分析:根据统计数据提供的资料,揭示变量之间的关系,并由此推演为事物之间内在联系的规律性,为什么学习回归分析,回归分析探讨客观事物之间的联系,表现为变量之间的统计关系建立在对客观事物进行大量实验和观察的基础上,用来寻找隐藏在看起来不确定的现象中的统计规律的统计方法因因变量衡量方式的不同
3、,回归分析可分为线性回归和非线性回归线性回归适用于因变量为连续衡量的场合非线性回归多适用于因变量为虚拟变量、多分类变量、计数变量等场合即便在这两大类中,分析方法又可区分为许多不同的类型根据处理的变量多少来看,回归分析又分为:简单相关和一元回归:研究的是两个变量之间的关系多元相关或多元回归:研究的是多个变量之间的关系,本章主要内容,9.1变量间的相关关系(correlation)9.2线性回归概述9.3. 一元线性回归9.4. 多元线性回归,9.1变量间的相关关系(correlation),1、函数关系,回归分析前,首先必须掌握变量之间是否相关;只有变量之间存在关系,才有必要进行回归分析假若x增
4、加时,y的取值发生相应变化,则x和y之间是相关的假若x增加时,y的取值没有确定的变化,x则y和之间是不相关的,或是没有相关关系的变量之间的相关关系归纳起来可以分为两种:函数关系和统计关系,2、统计相关,现实事物之间的联系不像函数关系那样容易确定现象之间存在关联;但无法确定具体关系,不能像函数关系那样,用一个公式将它们的关系准确地描述出来;当一个变量取一定的值时,另一个变量可能有多个取值当一个变量的值不能由另一个变量的值唯一确定时,这种关系称为统计关系统计关系不如函数关系直接和明确;但通过对大量数据的观察和研究,就会发现许多变量之间确实存在着某种关联,强弱各不相同,3、相关关系的特点,双向变化关
5、系;一个变量的取值不能由另一个变量的取值唯一确定;当x取一定的值时,y可能有多个取值,因为还受到其他因素的影响;不确定关系难以用函数关系来衡量和描述,但这并不表示x和y之间无规律可循;类似定性描述相关分为线性相关和非线性相关。,4、相关分析,对两(多)个变量之间的关系进行描述,分析它们是否相关关系是否密切关系的性质是什么(是正相关还是负相关)随着x的变化,y值的变化程度就确定二者是否相关和相关的强度当x增加(减少)时,y的取值也随之增加(减少),则x和y之间呈正相关关系;相反,当x增加(减少)时,y的取值却随之减少(增加),则和之间呈负相关关系相关分析的方法包括散点图和相关系数,相关散点图(s
6、catter plot),相关系数,图形虽然直观,但不够精确;对散点图的视觉分析带有很大的主观性;需要更精确和更客观的度量;相关系数可准确地描述变量之间的线性相关程度;线性相关系数是衡量变量之间相关程度的统计量,是描述两变量线性关系强度及方向的数值;若相关系数是根据总体数据计算的,称为总体相关系数,记为;若是根据样本计算出来的,则称为样本相关系数,记为r;在统计学中,一般用样本相关系数来推断总体相关系数。,相关系数:性质与方向,相关系数:程度,根据经验,可以将相关程度分为几等:但这种解释必须建立在对相关系数进行显著性检验的基础之上。,相关系数:其它特征,相关系数的计算,. correlate
7、变量名 :. correlate也可写为corr,是生成变量之间相关系数矩阵、协相关矩阵、回归系数相关矩阵的基本命令; :需要生成相关关系的变量名称如:corr age edu weight height若要给出相关系数(每个变量的上行)及其假定检验的P指,使用命令: pwcorr 变量名,sig,9.2线性回归概述“回归”一词来自英国学者、优生学的创始人S. F. Galton(1822-1911)。Galton在对遗传现象进行研究后发现,当高个的夫妻或矮个的夫妻有了孩子时,这些孩子的身高趋于回归到更典型的、同一性别的人的平均身高。,1、回归分析,通过找出代表变量之间关系的直线图形或直线方程
8、来描述变量之间的数学关系这条直线称为回归直线;该直线方程称为回归方程。一元线性回归是回归分析中最简单、最基本的回归分析,描述两个变量之间的关系。它是根据统计资料,寻求一个变量与另一个变量关系的恰当数学表达式的经验方程,来近似地表示变量间的平均变化关系的一种统计分析方法:其中一个变量作为DV或被解释变量,通常用y表示;另一个变量IV(预测变量或解释变量)通常用x表示。,2、相关分析与回归分析之别,依存关系与平等关系。回归反映两个变量的依存关系,一个变量的改变引起另一个变量的变化,是一种单向的关系;其y变量称为因变量,被解释变量;在相关分析中,变量和变量处于平等地位:双向关系关系程度与影响大小。相
9、关分析主要是刻画两类变量间线形相关的密切程度;而回归分析不仅要揭示自变量对因变量的影响大小,还可以由回归方程进行预测和控制。因此,回归是对两(多)个变量作定量描述,研究变量之间的数量关系,从已知的一个变量的取值预测另一个变量的取值,得到定量结果。,3、回归分析的目的,从一组样本数据出发,确定解释变量( IV )与被解释变量(DV)之间的数学关系式;回归方程就是要找出一条最好地描述两个变量之间关系的直线方程。对该关系式的可信程度进行各种统计检验;从影响DV的一组IV中找出哪些变量的影响是显著的,那些是不显著的。利用直线方程(即所求的关系),根据一个或几个变量的取值来估计或预测DV的取值,并给出这
10、种估计或预测的置信度。预测是有规律的。如,利用汽车的速度来预测它刹车所需要的距离利用学生的中学成绩来预测考上大学的成功率精确的y值是不可预测的,靠近实际值。,4、回归分析的用途,用于研究一个IV对一个数值型DV在数量上的影响程度。设有两个变量,x,y,其中,y的取值随x取值的变化而变化,故y是DV,x是IV。,对于这两个变量,通过观察或试验得到若干组数据,记为1,2,n)。若x以代表年龄,以y代表教育,则从散点图中,可以清楚地确认x与y存在线性关系,线性回归模型:回归直线,儿童的年龄与教育之间存在很强的正向相关关系线条就是回归直线(regression line)如何将变量之间的相关关系用数学
11、关系的代数表达式表达出来,线性回归的理论模型,等式(9.1)称为一元线性回归模型,描述因变量y如何依赖于自变量x和误差项e而异。在该模型中,y是x的线性函数(0+1x 部分)加上误差项e。其中, 0和1是模型的未知参数,前者称为回归常数项(或截距,intercept);后者称为回归系数(coefficient);0+1x反映了由于x的变化而引起的y的变化,也称为边际变化(当变量x变化一个单位时,变量y改变的数量)e是被称为误差项的随机变量,代表因主观和客观原因而不可观测的随机误差,反映了除x和y之间的线性关系之外的随机因素对y的影响,是不能由x和y的线性关系所揭示的变异性。,(9.1),线性回
12、归模型的基本假定,(1)零均值,即 。误差项是一个期望值=0 的随机变量在自变量取一定值的条件下,其总体各误差项的条件平均值为0。这意味着,在等式(9.1)中,由于0和1都是常数或系数,故有因此,对于一个给定的x值,y的期望值为(2)等方差,即对于所有的x值,e的方差2都相同(3)误差项服从正态分布,且相互独立,即,(9.2),总体回归方程 (equation)(I),根据回归模型的假定,误差项的期望值为0;因此,y的期望值等于一元总体回归方程:,(9.4),(9.3),总体回归方程(II),(预测的)回归方程,回归分析的三种检验,F检验用于检验回归方程的显著性R2用于测度回归直线对观测数据的
13、拟合程度;也称判定系数、可决系数(coefficient of determination)t检验用于检验自变量回归系数的显著性,reg edu age,上部分分为左右两个区域左边是方差分析。方差部分给出回归平方和(Model)、残差平方和(Residual),总平方和(Total),自由度(df),回归和残差的均方(MS)右边是回归统计量。包括检验统计量(F),F检验的显著水平(ProbF),R2(R-square)(判定系数),Adj R-squared(调整后的R2),观测值的个数(即样本量),估计标准误差(Root MSE)下部分是参数估计的内容。包括回归方程截距(_cons)和斜率(
14、Coef)的参数估计、标准误、t 统计量,P值(P|t|),置信区间(95% Conf. Interval),这意味着,在等式(9.对回归系数显著性的检验,检验自变量对因变量的影响是否显著,也即是检验各解释变量的回归系数是否等于0;MSR(mean square regression)即回归均方,等于回归平方和除以它的自由度;sw regress hhwktot age girl hanzu chuzhong gaozh dazue income urban,pr(0.如果回归系数1 0 ,也不能得出两个变量之间存在线性关系的结论。0000,有充分的理由拒绝原假设,教育与孩子年龄之间的线性关系
15、是显著的0955109 2.sw regress hhwktot age girl hanzu chuzhong gaozh dazue income urban,pr(0.线条就是回归直线(regression line)这条直线称为回归直线;,(1)判定系数R2:概念与计算,对估计的回归方程拟合优度的度量,也就是要检验样本数据聚集在样本回归直线周围的密集程度,从而判定回归方程对样本数据的代表程度;该指标是建立在对总离差(deviation)平方和进行分解的基础之上。显然,各样本观测点(散点)与样本回归直线靠得越紧,SSR/SST则越大,直线拟合得越好。将该比例定义为判定系数或可决系数,记为
16、R2,(1)判定系数R2:意义,若所有观测值都落在回归直线上,则 R2 = 1,拟合是完全的,模型具有完全解释能力;如果回归直线没有解释任何离差,则y的总离差全部归于残差平方和,即SST=SSE, R2 = 0,表示自变量x对因变量y的变异缺乏解释能力通常观测值都是部分地落在回归线上,即0 R2 1R2 越接近1,表明回归直线的拟合优度越好;反之, R2 越接近于0,则回归直线的拟合程度就越差。就上面的例子而言,判定系数的实际意义是,在教育水平取值的离差中,有将近86%可以由年龄与教育之间的线性关系来解释;即86%的差异是由孩子的年龄决定的孩子年龄可以解释教育差异的86%。,(2)F检验:概念
17、,对总体回归方程的显著性检验,是对因变量与所有自变量之间的线性关系是否显著的一种假设检验;回归分析的主要目的是,根据所建立的估计方程用自变量x来估计、预测因变量y的取值;当我们建立了估计方程后,还不能马上进行估计或预测,因为该估计方程是根据样本数据得出的,它是否真实地反映了变量x和y之间的关系,需要通过检验后才能证实;该检验利用方差分析的方法进行。F统计量定义为:平均的回归平方和与平均的残差平方和(均方误差)之比。,(2)F检验:计算方法,MSR(mean square regression)即回归均方,等于回归平方和除以它的自由度;MSE(mean square error)即残差均方,等于
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 线性 回归 完整 PPT 资料 课件

链接地址:https://www.31ppt.com/p-1591548.html