欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    简单线性相关与回归.ppt

    • 资源ID:6329035       资源大小:2.06MB        全文页数:78页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    简单线性相关与回归.ppt

    简单线性相关与回归,2012年11月29日大理学院 巫秀美,在医学科学研究中,常常要分析两个变量之间的关系,例如身高和体重、年龄和血压、体温和脉搏、药物剂量和疗效等问题,因此涉及到研究两个变量的相互关系。这时就涉及到两个变量之间的相关(correlation)与回归(regression)。,简单线性相关与回归Correlation&Regression,相关的意义、概念和种类相关图表、相关系数和相关分析简单线性回归相关分析和回归分析中应注意的问题,相关的意义、概念和种类,在总体中,如果对变量x的每一个数值,相应还有第二个变量y的数值,则各对变量的变量值所组成的总体称为二元总体;由二个以上相互对应的变量组成的总体,称为多元总体。二元总体中两变量是不是存在关系?关系的密切程度如何?关系的具体形式是什么?怎样根据一个变量的变动来估计另一变量的变动?,Correlation,相关分析就是对二元总体中确实具有联系的标志进行分析。现象总体的依存关系类型:一个变量取一定值时另一个变量有确定值与之对应,这种变量间一一对应的确定性关系称为函数关系,y=f(x)。一个变量取一定值时,与之对应的另一个变量的值虽然不确定,但它按某种规律在一定范围内变化,这种变量间的不确定性对应关系称为相关关系,y=f(x)+(为随机变量)。,圆的面积与半径;计件工资总额与零件数量;收入水平与受教育程度;看书时间和学习成绩;父亲身高与子女身高。,函数关系 v.s.相关关系,相关关系的种类,按相关的因素 单相关 复相关(多元相关;偏相关)按相关的形式 线性相关(直线相关)非线性相关(曲线相关)按相关的方向 正相关 负相关按相关的程度 完全相关 不完全相关 不相关,相关关系的散点图(scatter diagram),相关分析 v.s.相关系数,相关分析:描述和测度变量间相关关系类型和相关程度的分析方法 相关分析的目的:通过相关系数来描述和度量两变量线性联系的程度和方向 所有变量都假定是随机变量,不存在解释变量和被解释变量的关系,即不考虑因果关系 相关系数:对变量之间关系密切程度的度量;适用于双变量正态分布(Bivariate Normal Distribution)资料,二元正态分布的概率密度图,当 时二元正态分布的钟形密度曲如下图。,相关分析 v.s.相关系数,连续变量的相关指标:积差相关系数(Pearsons Correlation Coefficient)总体相关系数:样本相关系数:r相关系数的取值在-1 与 1 之间。样本相关系数 r 不等于零,并不表示总体相关系数 不等于零,还要作假设检验(显著性检验),相关系数的计算,X和Y的离均差积和,X的离均差平方和,,令,相关系数的特点,当 r=0 时,表明X与Y没有线性相关关系。当 时,表明X与Y存在一定的线性相关关系:若 r 0 表明X与Y为正相关;若 r 0 表明X与Y为负相关。当 时,表明X与Y完全线性相关:若 r=1,称X与Y完全正相关;若 r=-1,称X与Y完全负相关。,相关关系的散点图(scatter diagram),统计检验的必要性:r 0 抽样误差?两总体确实存在相关关系?检验的依据:如果 x 和 y 都服从正态分布,在总体相关系数=0 的假设下,与样本相关系数 r 有关的t 统计量服从自由度为n-2 的t 分布:,相关系数的假设检验,样本相关系数的标准误,查t界值表,得P值,给定显著性水平,查自由度为 n-2 的临界值t/2(p.483);若t t/2,表明相关系数 r 在统计上是显著的,应否定=0而接受 0的假设;若 t t/2,还不能拒绝=0的假设。,例10.1 为研究一种饲料的营养价值,观察10只体重相近的大白鼠的进食量与体重增加的关系。(表10-1,p.180),直接查 r 表:按自由度=n2直接查 r界值表(p.499)相关分析只表明变量间相关关系的性质和程度,要确定变量间相关的具体数学形式依赖于回归分析,线性相关中应注意的问题,线性相关分析仅适用于二元正态分布资料.进行分析前先绘制散点图.出现异常值(离群值)时慎用相关.样本的相关系数接近零并不意味着两变量间一定无相关性.相关未必真有内在联系或因果关系.分层资料盲目合并易出假象.,相关分析应用中应注意的问题,适用条件:,资料不服从双变量正态分布不宜作积差相关分析;总体分布型未知,一端或两端是不确定数值(如10岁,65岁)的资料;原始数据用等级表示的资料。,Spearman秩相关(rank correlation),Spearman等级相关系数1.意义:说明具有线性关系的两变量间相关方向和密切程度的统计指标。2.取值:rs 的数值亦在-1与+1之间,正值表示正相关,负值表示负相关。,3.计算步骤:(1)将X、Y 从小到大分别编秩,相同观察值在同一组取平均秩次。(2)计算秩次差d和d2。(3)计算等级相关系数rs。,例:某地研究27岁急性白血病患儿的血小板数与出血症状程度之间的相关性,结果见下表。,利用表11-2中的数据容易算得 秩相关系数为负,说明两变量间有负相关关系由样本算得的秩相关系数是否有统计学意义,也应做检验,秩相关系数的统计推断,检验步骤 1.建立假设、确定检验水准 2.统计推断 当 时,可查p.500的 临界值表,若秩相关系数超过临界值,则拒绝;当 时,也可采用公式式做t 检验,描述x与y依存关系的直线方程:,y 为应变量或因变量(dependent variable)为当 x 取某一定值时,因变量 y 的平均估计值x 为自变量或解释变量(independent variable,explanatory variable)a 为截距(intercept),当x=0时,y 的平均估计值b 为回归系数(regression coefficient):x 每改变一个单位,y 平均改变 b 个单位。,回归的古典意义,高尔顿(Francis Galton)遗传学的回归概念 无论高个子或低个子的子女,其身高都有向人的平均身高回归的趋势(regression toward the mean),x-每对夫妇的平均身高(英寸)y-成年儿子的身高(英寸),x,y,(xi,yi)给定一个x值,则y服从正态分布xi与yi的均值呈线性关系,回归的现代意义,一个因变量对若干解释变量依存关系的研究:由固定的自变量去估计因变量的平均值,回归的种类,按自变量的个数分:一元回归:只有一个自变量,又称简单回归多元回归:复回归;两个或两个以上自变量按回归线的形状分:线性回归直线回归非线性回归曲线回归,简单线性回归分析,一元线性回归模型与一元线性回归方程参数的最小二乘估计离差平方和的分解求估计标准误差回归方程的显著性检验利用回归方程进行预测对总体回归方程参数的估计,简单线性回归方程,简单线性方程式:y=a+bx变量 y 不仅受 x 的影响,还受其他随机因素的影响,因此通过相关图,可以直观地发现各个相关点并不都落在一条直线上,而是在直线上下波动,只呈现线性相关的趋势。我们试图在相关图的散点中引出一条模拟的回归直线,以表明两变量x与y的关系,称为估计回归线:y=a+bx,xi,一元线性回归方程,描述 y 的平均值或期望值如何依赖于 x 的方程称为回归方程简单线性回归方程的形式如下 E(y)=0+1 x 或 E(y)=+x,方程的图示是一条直线,因此也称为直线回归方程0是回归直线在 y 轴上的截距,是当 x=0 时 y 的期望值1是直线的斜率,称为回归系数,表示当 x 每变动一个单位时,y 的平均变动值,一元线性回归模型,一元线性回归模型可表示为 y=b0+b1 x+e 或 y=+b x+e模型中,y 是 x 的线性函数(部分)加上误差项线性部分反映了由于 x 的变化而引起的 y 的变化误差项 是随机变量反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响是不能由 x 和 y 之间的线性关系所解释的变异性0 和 1 称为模型的参数,一元线性回归模型的基本假定,零均值假定:误差项是一个期望值为0的随机变量,即E()=0。对于一个给定的 x 值,y 的期望值为E(y)=0+1 x同方差假定:对于所有的 x 值,的方差2 都相同正态性假定:误差项是一个服从正态分布的随机变量,且相互独立。即N(0,2)无自相关假定:对于一个特定的 x 值,它所对应的与其他 x 值所对应的不相关对于一个特定的 x 值,它所对应的 y 值与其他 x 所对应的 y 值也不相关,即与 x 不相关,总体回归函数:样本回归函数:回归分析的目的:用样本回归函数去估计总体回归函数,样本回归函数与总体回归函数的关系,总体回归函数虽然未知,但它是确定的;样本回归线随抽样波动而变化,可以有许多条。样本回归线是未知总体回归线的近似表现。总体回归函数的参数虽未知,但是确定的常数;样本回归函数的参数可估计,但是随抽样而变化的随机变量。总体回归函数中的随机误差不可直接观测;样本回归函数中的残差是只要估计出样本回归的参数就可以计算的数值。,By F.Galton&K.Pearson,y=a+bx样本回归方程,回归系数的估计,回归系数估计的思想:通过变量样本观测值选择适当方法去近似地估计回归系数前提:随机误差其分布性质不确定,必须作某些假定,其估计才有良好性质,其检验才可进行原则:使参数估计值“尽可能地接近”总体参数真实值,一元线性回归模型的基本假定,零均值假定:误差项是一个期望值为0的随机变量,即E()=0。对于一个给定的 x 值,y 的期望值为E(y)=0+1 x同方差假定:对于所有的 x 值,的方差2 都相同正态性假定:误差项是一个服从正态分布的随机变量,且相互独立。即N(0,2)无自相关假定:对于一个特定的 x 值,它所对应的与其他 x 值所对应的不相关对于一个特定的 x 值,它所对应的 y 值与其他 x 所对应的 y 值也不相关,即与 x 不相关,参数 的最小二乘估计,离差平方和的分解,(1)因变量 y 的取值是不同的,y 取值的这种波动称为变差。变差来源于两个方面:由于自变量 x 的取值不同造成的除 x 以外的其他因素的影响(如x对y的非线性影响、测量误差等)(2)对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差 来表示,离差平方和的分解(三个平方和的关系),两端平方后求和有,从图上看有,Lyy=U+Q,总平方和(Lyy)反映因变量的 n 个观察值与其均值的总离差回归平方和(U)反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和残差平方和(Q)反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和,离差平方和的分解(三个平方和的关系),回归系数的最小二乘估计,基本思想:希望所估计的 偏离实际观测值 的残差 越小越好。取残差平方和(Q)作为衡量 与 偏离程度的标准。最小二乘准则估计式:,最小二乘估计的性质高斯.马尔可夫定理,前提:在基本假定满足时最小二乘估计是因变量的线性函数 最小二乘估计是无偏估计,即 在所有的线性无偏估计中,回归系数的最小二乘估计的方差最小。结论:回归系数的最小二乘估计是最佳线性无偏估计,最小二乘法概念要点,(1)使因变量的观察值与估计值之间的离差平方和达到最小求得回归模型中的参数估计值,(2)用最小二乘法拟合的直线来代表 x 与 y 之间的关系与实际数据的误差比其他任何直线都小,求 和 依据最小二乘法(method of least square)原理,即 最小,直线回归方程图示:在自变量 x 的实测全距范围内任取相距较远且易读的两个 x 值,代入回归方程式,求出两个,两点连一直线即可。,线性回归的统计推断回归系数的假设检验(1)方差分析 SS总=SS回归+SS剩余 SS总SS回归=,例5计算例4100米与400米成绩之间的相关系数与一元线性回归方程。,线性回归的统计推断,回归方程的假设检验:线性关系的检验回归系数的检验参数估计:回归方程的可信区间 预测值范围,线性关系的检验方差分析,回归系数检验的基本思想,如果X与Y无线性回归关系,则SS回归和SS剩余都是其他随机因素对Y的影响引起的,由此,MS回归MS剩余,总体回归系数=0,反之,0。所以用F检验对X与Y之间有无回归关系进行检验。,具体分析步骤:建立假设检验计算检验统计量查F界值表并作结论,,则P,不拒绝H0,回归系数检验:t检验法,基本思想同样本均数与总体均数的比较 t-检验,Sb 是样本回归系数的标准误,反映样本回归系数与总体回归系数之间的抽样误差,SY*X 为剩余标准差,表示Y对于回归直线的离散程度,具体分析步骤:,建立假设:H0:=0 H1:0=0.05计算检验统计量:查t 界值表,得 P值,根据=0.05检验水准下结论。,(1)影响Y取值的,除X外,还有其它不可忽略因素。(2)Y与X关系不是线性的,而存在其它关系。(3)Y与X不存在关系。,回归方程无统计学意义原因,描述X和Y之间依存变化的数量关系利用回归方程进行预测预报 用容易测量的指标估计不易测量的指标利用回归方程获得精度更高的医学参考值范围利用回归方程进行统计控制,线性回归方程的应用,作回归分析一定要有实际意义回归分析之前首先应绘制散点图 异常点:是指偏离既定模型的数据点(即y空间的异常点)。高杠杆点:是指远离数据主体的点(即x空间的异常点)。强影响点:对统计推断影响特别大的点。异常点和高杠杆点都可能是强影响点,处理办法:剔除 在此点补做实验 数据变换,线性回归分析中应注意的问题,考虑建立线性回归模型的基本假定回归方程建立在样本数据的基础上,受样本区间的限制,不可随意外推对于回归方程进行预测估计时,只能根据 x 估计 y,不能根据 y 估计 x两变量间的直线关系不一定是因果关系,也可能是伴随关系,线性回归分析中应注意的问题,相关分析与回归分析的联系,共同的研究对象:都是对变量间相关关系的分析只有当变量间存在相关关系时,用回归分析去寻求相关的具体数学形式才有实际意义相关分析只表明变量间相关关系的性质和程度,要确定变量间相关的具体数学形式依赖于回归分析相关分析中相关系数的确定建立在回归分析的基础上,回归系数b与相关系数r的关系,r 的绝对值越大,散点图中的点越趋向于一条直线,表明两变量的关系越密切,相关程度越高。b 的绝对值越大,回归直线越陡,说明当X变化一个单位时,Y的平均变化就越大。r 与b 的符号一致。r 为正时,b 也为正;r 为负时,b 也为负。r 与b 的假设检验结果一致,可用r 的显著检验代替b 的显著性检验。,对决定系数(coefficient of determination)的理解,下回分解,多重线性回归,

    注意事项

    本文(简单线性相关与回归.ppt)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开