简单线性相关与回归.ppt
《简单线性相关与回归.ppt》由会员分享,可在线阅读,更多相关《简单线性相关与回归.ppt(78页珍藏版)》请在三一办公上搜索。
1、简单线性相关与回归,2012年11月29日大理学院 巫秀美,在医学科学研究中,常常要分析两个变量之间的关系,例如身高和体重、年龄和血压、体温和脉搏、药物剂量和疗效等问题,因此涉及到研究两个变量的相互关系。这时就涉及到两个变量之间的相关(correlation)与回归(regression)。,简单线性相关与回归Correlation&Regression,相关的意义、概念和种类相关图表、相关系数和相关分析简单线性回归相关分析和回归分析中应注意的问题,相关的意义、概念和种类,在总体中,如果对变量x的每一个数值,相应还有第二个变量y的数值,则各对变量的变量值所组成的总体称为二元总体;由二个以上相互
2、对应的变量组成的总体,称为多元总体。二元总体中两变量是不是存在关系?关系的密切程度如何?关系的具体形式是什么?怎样根据一个变量的变动来估计另一变量的变动?,Correlation,相关分析就是对二元总体中确实具有联系的标志进行分析。现象总体的依存关系类型:一个变量取一定值时另一个变量有确定值与之对应,这种变量间一一对应的确定性关系称为函数关系,y=f(x)。一个变量取一定值时,与之对应的另一个变量的值虽然不确定,但它按某种规律在一定范围内变化,这种变量间的不确定性对应关系称为相关关系,y=f(x)+(为随机变量)。,圆的面积与半径;计件工资总额与零件数量;收入水平与受教育程度;看书时间和学习成
3、绩;父亲身高与子女身高。,函数关系 v.s.相关关系,相关关系的种类,按相关的因素 单相关 复相关(多元相关;偏相关)按相关的形式 线性相关(直线相关)非线性相关(曲线相关)按相关的方向 正相关 负相关按相关的程度 完全相关 不完全相关 不相关,相关关系的散点图(scatter diagram),相关分析 v.s.相关系数,相关分析:描述和测度变量间相关关系类型和相关程度的分析方法 相关分析的目的:通过相关系数来描述和度量两变量线性联系的程度和方向 所有变量都假定是随机变量,不存在解释变量和被解释变量的关系,即不考虑因果关系 相关系数:对变量之间关系密切程度的度量;适用于双变量正态分布(Biv
4、ariate Normal Distribution)资料,二元正态分布的概率密度图,当 时二元正态分布的钟形密度曲如下图。,相关分析 v.s.相关系数,连续变量的相关指标:积差相关系数(Pearsons Correlation Coefficient)总体相关系数:样本相关系数:r相关系数的取值在-1 与 1 之间。样本相关系数 r 不等于零,并不表示总体相关系数 不等于零,还要作假设检验(显著性检验),相关系数的计算,X和Y的离均差积和,X的离均差平方和,,令,相关系数的特点,当 r=0 时,表明X与Y没有线性相关关系。当 时,表明X与Y存在一定的线性相关关系:若 r 0 表明X与Y为正相
5、关;若 r 0 表明X与Y为负相关。当 时,表明X与Y完全线性相关:若 r=1,称X与Y完全正相关;若 r=-1,称X与Y完全负相关。,相关关系的散点图(scatter diagram),统计检验的必要性:r 0 抽样误差?两总体确实存在相关关系?检验的依据:如果 x 和 y 都服从正态分布,在总体相关系数=0 的假设下,与样本相关系数 r 有关的t 统计量服从自由度为n-2 的t 分布:,相关系数的假设检验,样本相关系数的标准误,查t界值表,得P值,给定显著性水平,查自由度为 n-2 的临界值t/2(p.483);若t t/2,表明相关系数 r 在统计上是显著的,应否定=0而接受 0的假设;
6、若 t t/2,还不能拒绝=0的假设。,例10.1 为研究一种饲料的营养价值,观察10只体重相近的大白鼠的进食量与体重增加的关系。(表10-1,p.180),直接查 r 表:按自由度=n2直接查 r界值表(p.499)相关分析只表明变量间相关关系的性质和程度,要确定变量间相关的具体数学形式依赖于回归分析,线性相关中应注意的问题,线性相关分析仅适用于二元正态分布资料.进行分析前先绘制散点图.出现异常值(离群值)时慎用相关.样本的相关系数接近零并不意味着两变量间一定无相关性.相关未必真有内在联系或因果关系.分层资料盲目合并易出假象.,相关分析应用中应注意的问题,适用条件:,资料不服从双变量正态分布
7、不宜作积差相关分析;总体分布型未知,一端或两端是不确定数值(如10岁,65岁)的资料;原始数据用等级表示的资料。,Spearman秩相关(rank correlation),Spearman等级相关系数1.意义:说明具有线性关系的两变量间相关方向和密切程度的统计指标。2.取值:rs 的数值亦在-1与+1之间,正值表示正相关,负值表示负相关。,3.计算步骤:(1)将X、Y 从小到大分别编秩,相同观察值在同一组取平均秩次。(2)计算秩次差d和d2。(3)计算等级相关系数rs。,例:某地研究27岁急性白血病患儿的血小板数与出血症状程度之间的相关性,结果见下表。,利用表11-2中的数据容易算得 秩相关
8、系数为负,说明两变量间有负相关关系由样本算得的秩相关系数是否有统计学意义,也应做检验,秩相关系数的统计推断,检验步骤 1.建立假设、确定检验水准 2.统计推断 当 时,可查p.500的 临界值表,若秩相关系数超过临界值,则拒绝;当 时,也可采用公式式做t 检验,描述x与y依存关系的直线方程:,y 为应变量或因变量(dependent variable)为当 x 取某一定值时,因变量 y 的平均估计值x 为自变量或解释变量(independent variable,explanatory variable)a 为截距(intercept),当x=0时,y 的平均估计值b 为回归系数(regres
9、sion coefficient):x 每改变一个单位,y 平均改变 b 个单位。,回归的古典意义,高尔顿(Francis Galton)遗传学的回归概念 无论高个子或低个子的子女,其身高都有向人的平均身高回归的趋势(regression toward the mean),x-每对夫妇的平均身高(英寸)y-成年儿子的身高(英寸),x,y,(xi,yi)给定一个x值,则y服从正态分布xi与yi的均值呈线性关系,回归的现代意义,一个因变量对若干解释变量依存关系的研究:由固定的自变量去估计因变量的平均值,回归的种类,按自变量的个数分:一元回归:只有一个自变量,又称简单回归多元回归:复回归;两个或两个
10、以上自变量按回归线的形状分:线性回归直线回归非线性回归曲线回归,简单线性回归分析,一元线性回归模型与一元线性回归方程参数的最小二乘估计离差平方和的分解求估计标准误差回归方程的显著性检验利用回归方程进行预测对总体回归方程参数的估计,简单线性回归方程,简单线性方程式:y=a+bx变量 y 不仅受 x 的影响,还受其他随机因素的影响,因此通过相关图,可以直观地发现各个相关点并不都落在一条直线上,而是在直线上下波动,只呈现线性相关的趋势。我们试图在相关图的散点中引出一条模拟的回归直线,以表明两变量x与y的关系,称为估计回归线:y=a+bx,xi,一元线性回归方程,描述 y 的平均值或期望值如何依赖于
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 简单 线性 相关 回归

链接地址:https://www.31ppt.com/p-6329035.html