《统计学-第七章-相关分析与回归分析.ppt》由会员分享,可在线阅读,更多相关《统计学-第七章-相关分析与回归分析.ppt(40页珍藏版)》请在三一办公上搜索。
1、第七章 相关分析与回归分析,第一节:相关分析第二节:一元线性回归分析第三节:多元线性回归分析*,第一节 相关分析,1.相关关系的种类,(1)按相关程度划分 完全相关:Y的变化完全由X的变化确定;不相关:Y与X不相互影响,各自独立变化;不完全相关:Y与X之间有一定程度的相互影响。(2)按相关方向划分 正相关:X与Y同时变大或变小;负相关:X变大,Y变小 或 X变小,Y变大。(3)按相关形式划分 线性相关:Y与X的关系呈现出线性关系;非线性相关:Y与X的关系呈现出非线性关系。,第一节 相关分析,1.相关关系的种类,(4)按变量多少划分 单相关:指两个变量间的相关关系;复相关:指三个以上变量间的相关
2、关系;偏相关:指多个变量情形下,固定其他变量,只考 虑其中两个变量间的相关关系。(5)按相关性质划分 真实相关:两个变量确实存在内在的相关关系;虚假相关:两个变量只是表现为数量上相关,并不 存在内在的联系。,第一节 相关分析,2.相关表和相关图,(1)相关表 将某一变量按其数值的大小顺序排列,然后再将与其相关的另一变量的对应值平行排列,便可得到相关表。,第一节 相关分析,2.相关表和相关图,(2)相关图 相关图又称散点图,是以直角坐标系的横轴代表变量x,纵轴代表变量y,将两个变量相对应的成对数据用坐标点的形式描绘出来,用于反映两变量之间的相关关系的图形。,第一节 相关分析,3.相关系数及其计算
3、方法,相关系数的定义 变量x与变量y之间的相关关系,可用数量指标来表示。通常以字母 表示总体的相关系数,以 表示样本的相关系数。定义如下:式中,是变量X与变量Y的协方差。,第一节 相关分析,3.相关系数及其计算方法,(2)相关系数的特点 a.r的取值介于-1到1之间;b.当r=0时,X与Y的样本观测值之间没有线性关系;c.在大多数情况下,。r0,说明X与Y正相 关;r0,说明X与Y负相关。r值越接近1,X与Y的 相关程度越高。微弱相关:低度相关:显著相关:高度相关:,第一节 相关分析,3.相关系数及其计算方法,(3)相关系数的计算 具体计算相关系数时,通常利用以下公式:【例7-2】基于表7-1
4、中的数据,求广告费与年销售收入间的相关系数。可见,广告费与销售收入间存在高度的相关关系。,第一节 相关分析,4.样本相关系数(Pearson)显著异于0的T检验,在二维总体(X,Y)服从正态分布的前提下,Fisher给出了检验简单相关系数(Pearson)显著异于0的 t 统计量如下:式子中,n是样本容量,r是简单相关系数(Pearson)。设定假设:H0:r=0,H1:r0 这是一个双尾检验问题。,【例7-3】根据表7-3资料计算的相关系数,检验该公司广告费和年销售收入之间的相关系数是否显著(设定显著水平=0.05)?解:第一步,提出假设:H0:;H1:第二步,计算检验的统计量 第三步,统计
5、决策。从下式中可以看出,相关系数显著。,第一节 相关分析,4.样本相关系数(Pearson)显著异于0的T检验,此时的偏相关系数计算公式为:式中,是普通样本相关系数。,第一节 相关分析,5.剔除了一个变量Z的影响后,X、Y的偏相关系数,6.剔除两个变量Z1,Z2的影响后,X、Y的偏相关系数,此时的偏相关系数计算公式为:式中,是固定z1的偏相关系数。,偏相关系数显著异于0的 t 统计量如下:,服从 分布式中,n 是样本容量,k是剔除了的变量数,r 是偏相关系数。,第一节 相关分析,7.偏相关系数显著异于0的T检验,第二节 一元线性回归分析,1.相关分析与回归分析的关系,(1)相关分析通过计算相关
6、系数来确定两个变量之间的相关方向和密切程度,回归分析则是选择一个合适的数学模型,对具有相关关系的两个或多个变量之间的具体数量关系进行测定,以实现对因变量的估计或预测。(2)相关分析无需考虑变量作用顺序,回归分析则要考虑;(3)相关分析将变量都视为随机变量,回归分析则只将因变量视为随机变量,自变量被认为是非随机的。,第二节 一元线性回归分析,2.一元线性回归模型与回归函数 总体回归模型 总体回归函数 和 是未知参数,又叫回归系数;是随机误差项。,3.样本模型与样本函数 样本回归模型 样本回归函数 称为截距项,称为趋势项,是残差项。,第二节 一元线性回归分析,样本回归函数是对总体回归函数的近似反映
7、。回归分析的主要任务就是采用适当的方法,充分利用样本提供的信息,使得样本回归函数尽可能地接近于真实的总体回归函数。,第二节 一元线性回归分析,4.模型参数的点估计:最小二乘法OLS,所谓最小二乘法就是通过令样本的残差平方和达到最小,来求得截距项与趋势项的估计值的方法。大致包括三个步骤:第一,建立最小二乘函数;第二,应用极值定理对最小二乘函数求偏导数;第三,求解偏导数方程组。,第二节 一元线性回归分析,4.模型参数的点估计:最小二乘法OLS,(1)建立二乘函数:,(2)基于极值定理对二乘函数求偏导数,化简后可得,第二节 一元线性回归分析,4.模型参数的点估计:最小二乘法OLS,应用克莱姆法则解之
8、得,第二节 一元线性回归分析,4.模型参数的点估计:最小二乘法OLS,和 是样本值与均值的离差。,对 和 做进一步的变形为,其中,特例,第二节 一元线性回归分析,4.模型参数的点估计:最小二乘法OLS【例7-4】我们利用例7-1的表7-3的数据计算该公司广告费对年销售收入的回归方程(直线)。解:第一,观察原始数据的散点图;,第二节 一元线性回归分析,4.模型参数的点估计:最小二乘法OLS 第二,利用Excel表格计算截距项与趋势项中的各个值;,第二节 一元线性回归分析,4.模型参数的点估计:最小二乘法OLS 第二,利用Excel表格计算截距项与趋势项中的各个值;从而有 因此,样本回归方程为,第
9、二节 一元线性回归分析,5.如何利用样本残差估计总体方差 除了 和 外,一元线性回归模型中还包括另一个未知参数,那就是总体随机误差项的方差。在数学上已证明:因约束条件、,所以,自由度为 n-2。S2 还可化简为:,第二节 一元线性回归分析,5.回归参数的区间估计,因为 所以,第一,考虑、的概率分布 由于 服从正态分布,也服从正态分布。、都是 的线性组合,因而也服从正态分布。公式表述如下:,第二节 一元线性回归分析,5.回归参数的区间估计,第二,考虑随机变量 的方差 的方差可用残差值 来表示:,是 的无偏估计量,即,因此,与 的标准差估计值分别为:,第二节 一元线性回归分析,5.回归参数的区间估
10、计,第三,利用 t 统计量求出置信区间置信区间为:,第二节 一元线性回归分析,5.回归参数的区间估计,【例7-6】根据例7-1中给出的有关数据和例7-4中已得到的回归参数的估计值,求回归系数 的置信区间。解:由得进一步简化得 0.22410.382,第二节 一元线性回归分析,6.一元线性回归模型的拟合优度,(1)什么是拟合优度?拟合优度指的是模型对样本数据的拟合情况,回归线距离样本值越近拟合度越好,同时,说明X对Y的解释程度越强。拟合优度的评价指标为“样本可决系数”。,第二节 一元线性回归分析,6.一元线性回归模型的拟合优度,.,.,.,.,.,.,.,.,Y,X,Yi,Xi,A,0,(2)什
11、么是样本可决系数?在给出可决系数的公式之前,我们先来看离差平方和的“神奇分解”。,离差 未被解 被解释 释的部 的部分 分对式子求平方和可得:,第二节 一元线性回归分析,6.一元线性回归模型的拟合优度,下面证明最后一项为0,因而,有,第二节 一元线性回归分析,6.一元线性回归模型的拟合优度,其中,是样本的总离差平方和;,是样本的回归平方和;,是样本的残差平方和。,可见,总离差平方和=回归平方和+残差平方和,第二节 一元线性回归分析,6.一元线性回归模型的拟合优度,则,记,第二节 一元线性回归分析,6.一元线性回归模型的拟合优度,(2)什么是样本可决系数呢?,对上式移项可得,就被称作样本的可决系
12、数 或 决定系数 或 判定系数。,是样本回归线与样本观测值拟合优度的度量指标,也是回归模型包含多少样本信息量的具体表现。,第二节 一元线性回归分析,6.一元线性回归模型的拟合优度,(2)什么是样本可决系数呢?,说明变量X与Y之间不存在线性关系;说明变量X与Y之间存在线性关系,(X,Y)的样本点都落在同一条直线上。通常 越接近1,样本回归线对样本值的拟合优度越好,X 对Y的解释能力越强。,第二节 一元线性回归分析,6.一元线性回归模型的拟合优度,(3)样本可决系数的计算公式,由最小二乘回归结果知:,因此样本系数可表示为:其中:,第二节 一元线性回归分析,6.一元线性回归模型的拟合优度,【例7-7
13、】利用例7-2中表7-3的资料,计算年销售收入对广告费的回归的判定系数,并解释其意义。解:方法1:方法2:,第二节 一元线性回归分析,7.一元线性回归模型的显著性检验,(1)未知参数的 t 检验 第一步:提出假设 H0:;H1:第二步:确定显著性水平=0.05*或0.01*或0.001*。第三步:计算未知参数的统计量 t 值 第四步:依据显著水平 和自由度 确定临界值 第五步:作出判断。则,拒绝原假设。,第二节 一元线性回归分析,7.一元线性回归模型的显著性检验,(2)未知参数的 P值 检验 P值检验是指在计算出 值后,计算,【例7-8】利用例7-4和例7-6的有关资料和结果,检验回归系 数的显著性(=0.05)。解:此外,可基于SPSS等统计软件的输出结果,直接作出判断。,第二节 一元线性回归分析,7.一元线性回归模型的显著性检验 SPSS 软件的操作结果:t 检验 P值检验,第二节 一元线性回归分析,8.一元线性回归模型的预测,(1)点预测 点预测是指利用估计的回归方程,对自变量 X 的一个给定值 X0,求出因变量 Y 的可能值。(2)区间预测【例7-11】详见教材。,
链接地址:https://www.31ppt.com/p-6015721.html