相关图及回归分析.ppt
1,第八章 相关图及回归分析,相关关系:两个变量没有确定性的关系,但一个变量发生变化,另一 个也发生相应的变化;或两个变量在各种干扰因素的综 合 作用下表现出来的相互关联的关系称为相关关系。相关分析:研究两个变量之间相互关联的程度称为相关分析。相关分析方法:相关图是研究相关关系的图表法;回归分析是研究相关关系的数学方法,它帮助人们求得变量之间的 内在联系,以便在生产实践中进 行预测和控制。8.1 相关图 8.2 相关系数 8.3 一元线性回归 8.4 一元正交多项式回归 8.5 多元正交多项式回归,2,8.1 相关图,一 概念:为了研究两个变量之间的相关关系,利用两个变量一一对应的数据做出的 坐标图称做相关图。通过相关图,可以直观地看出两个变量间的大致关系。二 绘制程序 例1 零件某部位进行化学铣,公差要求是1.50.1,现收集不同腐蚀时间下,腐蚀 深度的32组数据(如表),试作相关图。(1)收集数据 数据要以(xi,yi)的形式成对出现;一般将原因变量作为x,结果变量作为y;数据对数 n应为3050对,本例n=32。(2)做坐标系o-xy 本例中,以腐蚀时间作为x,腐蚀深度作为y。在确定坐标的长度单位时,应使x的散布范围与y的散布范围大致相等,否则 将会影响相关关系的直观性。(3)在坐标上描点 依每组数据的数值在坐标系中描点。如有两对数据的点落在 同一位置(即同点),则用“”或“2”表示,若有三对、四对数据同点,则用“”或“”或“3”、“4”表示,依此类推。三 相关图的观察与使用四 简易相关检定法五 应用注意事项,3,腐蚀时间腐蚀深度数据表,4,腐蚀时间-腐蚀深度相关图,820,830,840,850,860,870,880,890,900,1.40,1.50,1.60,腐蚀深度/mm,腐蚀时间/s,5,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,+,相关图的典型形状及用法表,由表可知腐蚀深度与腐蚀时间之间具有线性正相关关系,6,四 简易相关检定法,1在相关图上分别画出中值线 和,使 左右两侧的点数大 致相同,上下两部分的点数大致相同。,腐蚀深度/mm,简易相关检定,820,830,840,850,860,870,880,890,900,1.40,1.50,1.60,(),(),(),(),n1=13,n2=3,n3=13,n4=3,腐蚀时间/s,7,2x,y将相关图分为四个区域()、()、()、(),右上为()区,按逆时针顺序编号,记录下各区点数和线上点数。本例中n113,n2 3,n313,n43,线上点数0。3计算:Nn线上点数(n为数据对数)nn1n3 n-n2n4 本例中N32,n26,n-6 4确定显著性水平。一般取0.05,也可取0.01,0.10,0.25。5查符号检验表,据N和给定的查出对应的点数界限S(N)。本例中,N32,若0.05,则可查得S 0.05(32)9;若0.01,则可查得 S 0.01(32)8。6检定相关性。将n+,n-中的较小值min(n+,n-)与S(N)比较,若 min(n+,n-)S(N)则判定在显著性水平下x,y相关,反之则 不相关。本例中 min(n+,n-)6S 0.05(32)9 min(n+,n-)6S 0.01(32)8 因此,腐蚀深度和腐蚀时间在0.05和0.01显著性水平下均判定具有相关关系。可 以通过腐蚀时间的变动范围预测腐蚀深度的变动范围;同时,可通过控制腐蚀时间达到控 制腐蚀深度的目的。,8,五 应用注意事项,1数据一定要成对出现,否则无法制作相关图。2数据要先分层,再作相关图,否则会出现判 断失误。3明确在什么范围内相关。4对相关图上出现的孤岛要查找原因,加以消 除,才能正确估计变量之间的关系。孤岛点 的出现常常是由于测量错误,数据记录错误 或操作条件变化引起的。,9,无关误判为相关,y,x,y,x,y,x,y,x,相关误判为无关,10,相关图注意事项,生产条件,试验条件,淬火温度/,40,42,44,46,48,50,52,54,56,58,60,810,830,850,870,890,y,x,y,x,铜的淬火温度与硬度相关图,带有孤岛的相关图,11,8.2 相关系数,一 概念及计算 1 二维随机变量 的相关系数 相关系数是描述两个随机变量 线性相关关系的数字特征,也 称标准协方差,以记之。计算公式:特点:若 是 的线性函数,即,则有1;1;若 无线性相关关系,则0。但0并不表示 无其 他关系,此时,也可能具有明显的非线性关系。2 样本数据相关系数r二 几何意义三 相关系数的近似计算四 相关系数的显著性检验,12,2 样本数据相关系数r,计算公式 运用随机变量x,y的n对样本数据可计算的 估计值,并以r记之 特点 无名数 与Lxy同号例2,Lxy称x、y偏差积之和,Lxx称x偏差平方和,Lyy称y偏差平方和,13,例2,计算例1所给数据的相关系数解:首先作相关系数计算表如下:,14,二 几何意义,与随机变量x,y的相关系数一样,由样本数据计算出的相关系数r也具备如下特征:r1 r越趋近于1,线性相关的程度越强。r越趋于+1,正相关程度越强,r越趋于-1,负 相关程度越强。r越趋近于0,说明两变量无关或具有非线性关系,r=1,r=0.6,r=0,r=0,r=-0.9,r=-1,三 相关系数近似计算,如对例1,15,四 相关系数的显著性检验,设有两个随机变量。由于样本的随机性,对于不同的样本数据,计算出的相关系数r也 不同;当随机变量 无关(即0)时,样本相关系数r却不一定为0,甚至当样本量较小 时,有可能样本相关系数r数值却较大;当随机变量 线性相关关系较强时,即接近于1 时,样本相关系数r可能较小。因此,必须根据样本相关系数对母体 的相关系数是否为0进行统计检验。统计理论相关系数=0的临界值r(,n2)表 检验步骤(1)计算样本相关系数r。(2)由相关系数0的临界值r(,n-2)表查出相对于给定的显著性水平和自由度 f n2的相关系数临界值r(,n2)。(3)比较r与r(,n2)。若rr(,n2),则判断随机变量 在显著性 水平下 无关,即0;若rr(,n2),则判断随机变量 在显著性水平 下存在线性相关关系,即0。例3 对例2计算的样本相关系数r进行显著性水平0.05和0.01的统计检验。解:由0.05,fn232230,查表得相关系数临界值 r(0.05,30)0.3494;r(0.01,30)0.4487。r0.788r(0.01,30)r(0.05,30)腐蚀深度与腐蚀时间在显著性水平0.05和0.01下,均可判断存在着线性相关关系。,16,统计理论,当p=0时,某一容量为n的样本的相关系数r的统计量,t服从自由度为n-2的t分布为此,可进行=0的假设检验 提出假设 确定显著性水平 若 原假设成立,拒绝原假设,备择假设成立,或,当=0.05,0.01时,r相对于n的临界值见表,17,n-2,n-2,相关系数=0的临界值r(,n-2)表,18,8.3 一元线性回归,回归分析是研究两个随机变量相关关系的数学工具。应用它可找出描述变量之间相关关系的 数学表达式,从而由一个变量的取值去估计另一个变量的取值,达到预测和控制的目的。一元线性回归是研究两个随机变量X、Y线性相关关系的方法。其目的是通过一系列的样本数 据(x1,y1)(x2,y2)(xn,yn)求得X、Y内在规律的数学表达式 上式称为X、Y的线性回归方程,简称回归方程。其中a,b是两个未知参数,称为回 归系数。回归方程在相关图中的图形即为回归直线。一 回归方程的建立 二 回归直线的近似求法 三 回归方程的显著性检验 四 回归直线的应用预测与控制,19,一 回归方程的建立,最小二乘法:对于相关图,我们要寻找的回归直线应该是和所有观 测点拟合的最好的直线。而拟合最好的 标准是残差平方和最小。所 谓残差,是指当xi给定时,由回归直线估计出的 与实际数据yi的 差值。若以Q表示残差平方和,则有 可见,残差平方和Q反映了全部观测点(样本数据)对回归直线 的偏离程度。显然,Q越小的回归方程,越能较好地反映变量X、Y 之间的关系。这种求得回归方程 的方法称为最小二乘法。回归系数a,b的计算公式 例4,y,x,(xi,yi),(xi,yi),20,采用最小二乘法得到以下回归系数a、b的计算公式为,例4 计算求出例1中腐蚀深度y对腐蚀时间x的回归方程,由例3算出,则,回归方程为,回归系数a,b的计算公式,21,二 回归直线的近似求法,前边已经介绍了简易相关检定法,在此基础上,进一步介绍回归 直线的近似求法。其步骤是:1在 左右,分别作平行于oy轴的直线 和,使 两边的点子再次被平分2在 上下,分别作平行于ox轴的直线 和,使 上、下的点子 再次被平分;3 于(),(),(),()象限分别交于A,B,C,D 四点。若r0,连接A,C两点;若r0,连接 B,D两点;本例应连接AC,作出回归直线。4建立回归方程 如图,A点坐标为(876.5,1.550),C点坐标为(848.0,1.465)。得直线方程为,即,化简得,22,回归直线的近似求法,820,830,840,850,860,870,880,890,900,1.40,1.50,1.60,(),(),(),(),n1=13,n2=3,n3=13,n4=3,A,B,D,C,腐蚀深度/mm,腐蚀时间/s,23,三 回归方程的显著性检验,检验回归方程的显著性问题,就是检验随机变量 Y与X之间是否存在线性关系。归根结底,就是检 验回归方程yabx中的b是否为零的问题。一种检验方法是先求出X、Y的相关系数r,然后 再对r进行显著性检验,通过验证X、Y具有相 关 关系,回归方程才有意义。另一种检验方法是在不通过r的计算和检验,直 接运用方差分析进行显著性检验。方差分析程序 例5,24,1 计算总波动平方和ST及自由度f回2 计算回归平方S回和及自由度f回 3 计算残差平方和Se及自由度fe4 作方差分析表,计算方差及F值 5 显著性检验 当FF 0.05(1,n2)时,回归关系不显著;当F 0.05(1,n2)FF 0.01(1,n2)时,回归关系显著;记为*;当FF 0.01(1,n2)时,回归关系高度显著。记为*。,25,例5,运用方差分析对例4建立的回归方程 进行显著性检验。解:由相关系数计算表 回归直线高度显著,26,四 回归直线的应用预测与控制,建立了随机变量X、Y之间的回归方程,并经检验回归方程有意义之后,便可以应用回归方程 对生产进行预测和控制。所谓预测,是指对任一给定的x,推测相应y的散布范围;所谓控制,是指若需使y在y1,y2范围内取值,估计应将变量x控制在什么范围。预测和控制是一个问题的两个方面。残差分布 控制限的确定 例6 考虑回归方程稳定性时的估计与预测问题,27,f(y),y,x,残差分布,只要1,样本数据点就不会全部 落在回归直线上,而是在回归直线附近的一定范围内散布。一般说来,当给定x0时,y0的取值是以 为中心的正态分布,其方差和均方差为:,28,由正态分布表可知:y0落在 范围内的概率约为99.73%;落在 范围内的概率约为95.45%;落在 范围内的概率为68.27%。假若在回归直线 两边分别作平行于、距离为3S的直线。当给定x0时,有99.73%的把握断定,此时y0的值介于y01与y02之间。反之,当需控制y在y1,y2区间取值时,有99.73%的把握断定必须将x的取值控制在x1,x2区间内。,y01,y2,y1,y02,取值范围,y,x,x2,x0,x1,(b0),y01,y2,y1,y02,取值范围,y,x,x2,x0,x1,(b0),y上=a+3Sy+bx,y=a+bx,y下=a-3Sy+bx,y上=a+3Sy+bx,y下=a-3Sy+bx,y=a+bx,利用回归直线进行预测和控制,当事先约定把握性不是99.73%,而是95.45%时,则平行于 的两条直线分别为ya2Sbx。,控制限的确定,y,y,29,根据上例所给数据,当把握度为95.45%时,预测腐蚀时间为870秒时腐蚀深度 y的分布范围;公差要求为1.50.1,此时,腐蚀时间应控制在什么范围 解:由上例,回归方程为即当腐蚀时间控制在843.78,874.38时,合格品率将达到95.45%。,因此有,将x=870代入y上、y下分别得,即此时有95.45%的产品腐蚀深度y散布在范围1.46,1.59内。基本符合公差要求,但 中心值偏上限。当y的要求为1.50.1时,即y11.4,y21.6,将y1代入式y下得,将y2代入式y上得,例6,30,考虑回归方程稳定性时的估计与预测问题,回归方程稳定性是指在除x以外其它试验条件基本不变的情况下,由不同样本观测数据得到的回归直线及回归系数的统计性质回归系数a,b及回归直线的统计性质回归方程稳定性影响因素 x的位置x的取值范围不能随意外推 n的大小估计问题与预测(预报)问题,其中:,31,x值越接近样本数据 时,预测和控制的精度越高;反之 精度越低。这是因为数理统计的理论证明,实际数据点 的波动范围如图中阴影所示。因此,使用 附近的中段 进行预测和控制效 果最佳。,y,x,样本数据的波动范围,y,x,超出x取值范围,原有回归直线的假定有可能不再成立。,x的取值范围不能随意外推,回归范围,X的取值范围不能随意外推,32,估计问题与预测(预报)问题,1 估计:即给定x=x0,求均值 的估计2 预测(预报):即给定x=x0,预测 的取值区间,例7,33,例7,一对变量(x,y)其实验数据如下表。试分析x,y之间的回归关系,并求出当x=95,y=95%时的置信区间和预报区间。,(1)作数据计算表,34,(2)建立回归方程,(3)方差分析,35,(4)区间估计,点估计,区间估计 11.599,11.969,区间半径,(5)预报区间,点估计,区间半径,预报区间 11.283,12.145,36,8.4一元正交多项式回归,一、一元正交多项式回归简述二、等距点上的正交多项式 1 等距点 2 等距点上的正交多项式 3 对于k个等距点来说,最多可展开到k-1阶多项式,但 一般来说,不论k多大,常展开到五阶多项式三、一元正交多项式回归 1 正交多项式回归系数计算公式 2 回归系数的统计分析 3 建立回归方程,37,一元正交多项式回归简述,n阶多项式回归方程:对x、y的任何关系,均可用一元n阶多项式回归(曲线拟和)的方法来得到n阶多项式回归方程。但是由于多项式回归方程各系数的估计是统计相关的。若某一阶系数经显著性检验是不显著的,此时整个回归方程失去意义,回归方程须重新配置。为此以正交多项式回归代替多项式回归。一元正交多项式回归方程:其中P1(x),P2(x)Pn(x)为正交多项式,各多项式系数统计无关。,38,(1)等距点,若有一组点x1,x2xk,该组点可能是k个观测点的自变量取值;也可能是因素x的k个水平。若x为连续变量时,该组点满足式 则称该组点为等距点。给出一组等距点,则可以求出相对这组等距点上的正交多项式,h间隔,39,(2)等距点上的正交多项式,若等距点为x1,x2xk,,40,1 正交多项式回归系数计算公式,若已知(xi、yi)的K组数据;xi为一组等矩点;一元正交多项式回归方程为,j次多项式在正交多项式系数表中的表值,例 已知表中试验数据,试确定选配二阶正交多项式回归方程,解,计算公式,41,解:x为等间隔(h=1),可用正交多项式回归分析方法,回归方程形式:,查正交多项式表,K=7时,对b1:,对b2:,42,2 回归系数的统计分析(显著性检验),(1)总波动平方和及自由度,(4)用方差分析法分别检验其显著性,(3)分解公式,(2)j阶正交多项式波动平方和及自由度,检验程序,例,43,例题:回归系数的统计检验,方差分析表,查正交多项式系数表,对b1:K=7时:,同理,,44,(3)建立回归方程,45,8.5 多元正交多项式回归,例一 试验数据统计分析二 正交多项式回归方程的确立,46,例:某试验目标值为m,因素水平表、试验安排及数据表如下:试建立多项 式回归方程,因素,水平,No.,列号,因素,因素水平表,试验安排及试验数据,47,试验数据的统计分析1 总偏差平方和及自由度,2 均值偏差平方和及自由度,4 波动平方和及自由度分解公式,3 各因素一次项、二次项的波动平方和及自由度,以A因素为例:,同理可求,B、C因素一次、二次项波动平方和及自由度,5 方差分析表,48,方差分析表,49,2 正交多项式回归方程的确立,正交多项式回归方程形式为:,