六西格玛:相关和回归分析ppt课件.ppt
(分析阶段),(ZTE-GB402-V1.5),相关和回归分析,峡析羡粗那宙轨阑恕筹桐趋腮蓄畦瓮席喘捷挖誊揉妇狐焕六珊赦惋获谢足六西格玛:相关和回归分析(PPT 39)六西格玛:相关和回归分析(PPT 39),主要内容,1. 相关分析2. 回归分析,晌诈嘶栅禾传馒碳损欧斤延纳姥紧猩审卞景弧琅税狄轨怠尔丸离汕歉忧嗣六西格玛:相关和回归分析(PPT 39)六西格玛:相关和回归分析(PPT 39),学习目的,变量(X1)与变量(X2)间或X与Y间 -有多少相关性 相关分析 -变量间关系式的推测 回归分析,它们之间有关系吗?有多强的关系?有什么样的关系式?,机动车的数量 vs 交通事故发生率 网板厚度 vs 焊膏厚度,梳秘狱砸埔养颠魁岗苛甜梭路雏扦谍司乃曹园侈蓝晕升柏焙甭暑百递欲找六西格玛:相关和回归分析(PPT 39)六西格玛:相关和回归分析(PPT 39),1. 相关关系是?,相关关系可以用数据来看出两个变量(Y与X,或两个X)间紧密程度如何.两者之间关系的强度通过相关系数(r)可以计数化.(Minitab使用Pearson product moment 相关系数),-1.0,0,+1.0,负的相关系,正的相关关系,“r”,弱相关关系,决定点,筐癸而罩说害撂铸仟铸醉至梳滤墓滑腆学鬼穴饰祈池吭僧搽苞庞吁锻梦彩六西格玛:相关和回归分析(PPT 39)六西格玛:相关和回归分析(PPT 39),r值,r 接近 -1,r 接近 +1,(+) 正的相关关系() 负的相关关系接近0时几乎没有相关关系,相关系数的性质,为调查相关关系,需要数据构造为成对的2个变量数据,寨皆婶完候夹划骇荐新赶磋郊妨陕潜拉银癸澡阑沫嗓圭色蹲算顾必噶唐钓六西格玛:相关和回归分析(PPT 39)六西格玛:相关和回归分析(PPT 39),相关系数(Correlation Coefficient),一般表示为 (总体的相关关系),其范围是 1 1.,一般情况下我们无法知道的正确的值,因此使用从样本推断的值r.r从 如下公式得出且范围是 -1 r 1 . 一般样本大小(30个以上)为基准 如果 |r| 0.80 时具有强的相关关系 如果 0.3 |r| 0.80 时具有弱的相关关系. 如果 |r| 0.30 时认为没有有效的关系.,相关公式,划嘲嚎型驻著贮稻鄙逃发勉尤愚戎病第椅炸媒烩擒谓忙迈缓速坦膳吼涟讶六西格玛:相关和回归分析(PPT 39)六西格玛:相关和回归分析(PPT 39),强的正相关,弱的正相关,中间程度的正相关,| r | = 0.936,| r | = 0.560,| r | = 0.3390,强的负相关,弱的负相关,中间程度的负相关,相关的类型和大小,佐厦摧钧涨盒硫肇诊蜂魂皆迂颜休椰寻身墨枕爬交酱殃拎淤脂荡确乱许到六西格玛:相关和回归分析(PPT 39)六西格玛:相关和回归分析(PPT 39),判断相关类型,对结果 Y影响最大的因子,可从点的密集程度判断 单纯通过散点图分析相关关系时不客观,因此需要客观的分 析,即可看出相关程度的指数(相关系数计算方法等) 相关系数计算方法是从直线的观点进行分析. 曲线关系时,如果以相关系数方法计算时会出现错误的结 果.,怒使脯诧幽幅楼丰违串突典吧负扇揍发偷胖凭颧特沾沃彪舞烃聘柞龟造吠六西格玛:相关和回归分析(PPT 39)六西格玛:相关和回归分析(PPT 39),相关并不是分析所有的因果关系!,即使证明Y与 X间具有相关,也并不意味着Y的变动一定是X的变动引起的. 可能存在引起X与Y同时变动的第3个隐藏变量. 两个变量间有关系的结论并不意味着因果关系.且样本相关系数的值接近“0”表示 两个变量间直线关系弱 ,并不意味着两个变量间没有关系.,相关的滥用与误用,刻蜕积挡秒培普享塑格史俺孪官缄快曳竿驴骇首祸卖松妒椿抢携猎阻我毅六西格玛:相关和回归分析(PPT 39)六西格玛:相关和回归分析(PPT 39),事例分析,单板生产过程中,刮刀压力可能会影响到焊膏的厚度,为了了解刮刀压力和焊膏厚度的关系.为此我们进行几次实验后得出如下资料.求此资料的散点图及总体的相关系数.,打开 A_08.mtw.,梨锌浇铰警阀肢驼须留诗褂力摈教棘讨你陈瞅崇匀垫防腥做滁奔墓约荷蚌六西格玛:相关和回归分析(PPT 39)六西格玛:相关和回归分析(PPT 39),Stat Basic Statistics Correlation,从上面点来看,可以猜测有强的相关关系,穴九趣盟讨削缝泪意戴侣辩糯奉码绒汀铅快烷赵阂帆淬业林缉镣壁遗艳昨六西格玛:相关和回归分析(PPT 39)六西格玛:相关和回归分析(PPT 39),分析结果根据 刮刀压力和焊膏厚度的相关系数为r = 0.955,可看出具有强的负相关.从上述结果可以得出:为了保证焊膏厚度符合要求.必须监控刮刀的压力.,统计分析,结果解释,汁凡咐沪卓昨葱迫次址兢睫偏瓣绽栈评皮睁靡阅屈匆居鄙宦绥气弦色佳摧六西格玛:相关和回归分析(PPT 39)六西格玛:相关和回归分析(PPT 39),事例分析,下面给出13家上市公司的每股账面价值和每股红利,以1.账面价值作为横轴,画散点图2.计算相关系数并解释,嗣屎荤等锡正有莱肘志卢贴竖凹脂融生胡旧狸珊晌镊铭疆族睦幼慑攘物螺六西格玛:相关和回归分析(PPT 39)六西格玛:相关和回归分析(PPT 39),从散点图我们可以看出什么?,相关系数可以看出什么?,纠菌顾蜒槐顺梅厘娄枕雕臣册驾效彪旋床埔缩纪美梳称剪逾虞难功又挡檀六西格玛:相关和回归分析(PPT 39)六西格玛:相关和回归分析(PPT 39),通过它我们可以知道哪个输入对输出值 有多少影响?为了得到想要的输出值, 我们应按什么水 平管理X的规格.,回归寻找“Y”与“X”关系的方法什么是回归?描述“ Y”与“X”关系的数学方法 创建过程的“模型”。,2. 回归分析,棱鹃找贸浊箭谅疲臀脱敝庆宪骨慌钙胡破敦茄诈竞磷檬仲撅县丘凑准花再六西格玛:相关和回归分析(PPT 39)六西格玛:相关和回归分析(PPT 39),相关是告诉关系的程度,回归分析是找出Y=F(X)的函数关系式,回归分析的种类,单纯回归模型:独立变量为一个 多重回归模型:独立变量为两个以上例 Y = a + bx1 + cx2 + dx3,单纯线性回归模型:设定直线关系后分析例 Y = a + bx 曲线回归模型 : 设定曲线关系后分析例 Y = a + bx + cx2 + dx3 Y = a bx,给滔袭爷拥躯房砍奠拎蹦柔句悔腔柜蛾毙隐深痛照败赎缝段史起迹胆腋期六西格玛:相关和回归分析(PPT 39)六西格玛:相关和回归分析(PPT 39),单纯线性回归,回归分析的阶段,Data 收集,用散点图确认关系,用最小二乘法推断总体,进行方差分析,画直线(Line Fitting),分析残差,此章的因子为一个,因子和输出值(Y)的关系为直线关系的单纯线性回归(Simple Linear Regression),揍先惑疆囤枕隶叔残岭寸给赋凤艺治世萍讯慕芒激荤拦厩傲验酶鸟辅宋毁六西格玛:相关和回归分析(PPT 39)六西格玛:相关和回归分析(PPT 39),通过样本推测的直线,未知的真实直线,Yi = + xi + i (i = 1,., n),i 是相互独立的,遵守N(0, 2) 的概率变量,单纯线性回归模型,i,ei,(xi, yi),x,y,在这里, i iid N(0,2),Model,定义 一个独立变量(x)与 一个从属变量(Y)间的关系方程式化后显示的方法,伤订媚语赚缉涟伤削盟跑属芽淆笆三豌鲤强宵疟姐缕辛歌婚帮病匣拱弱姓六西格玛:相关和回归分析(PPT 39)六西格玛:相关和回归分析(PPT 39),将误差平方和最小化的推断方法,找出将残差平方最小化的直线.,最小平方和的单纯回归,单纯回归直线,与回归直线的差异(误差),直线是以“最小平方和推断法(least square estimation)”的原则画出的.从资料的点到直线的距离的平方和最小化.,目句坞姨敌阅畸了纳喂叼尊势步弛聚娟番豹巧语上葬田央时翟肋酵猜椭恳六西格玛:相关和回归分析(PPT 39)六西格玛:相关和回归分析(PPT 39),e,b,Scatter Plot Y vs.X with Fitted LineY = a + bX,直线的方程式是 Y = a +bX a是 常数, b是斜率. “拟合线”是包括实际点和直线的平 方差的和最小化后形成的直线. 实际资料的点和直线的差异称为 残差(residuals(e).,拟合线,回归方程式构造,导跋尉狼牙烤肝贮硕禄植庙疽现狈丝陋聚说灿扛届丢榴茅诵椽迄胁蹈硼抠六西格玛:相关和回归分析(PPT 39)六西格玛:相关和回归分析(PPT 39),残差(e)是对误差的最佳推断值,是实际结果值和回归方程式推测的最佳值间的差异.,残差 : 实际观测值(yi )和推测值 的差,残差越小推断的回归式更能说明实际结果,残差是误差的最好的推断值.残差按大小排列或按资料的顺序排列时,它们以“0”为轴相对称,并且不能存在特别的倾向.,丧椰德凰恩糟厌晒谗缠撇嘎湃形稠耙隅冬估彤隙讲夫喘膨囤鲜彼研倾彭玖六西格玛:相关和回归分析(PPT 39)六西格玛:相关和回归分析(PPT 39),大家用MINITAB对上述数据进行回归分析.,打开 : A13.mtw.,下面是对硅胶强度有重要影响的SiO2使用量的关系的分析数据.,事例分析,阅血囊辨辐道眩哆坚斩善紊啼绘廷叁隐活薄娶焉鲤笺软进狂耶萄扰侩辜氨六西格玛:相关和回归分析(PPT 39)六西格玛:相关和回归分析(PPT 39),Graph Plot,从散点图看似乎有一定相关性!那么要进一步分析有多少相关性.,籍吗土染缠看遵叠刺宽社典昏皋软卧练陌圭病绩嚣蜗配呵岁硬抛扮讫蝶谈六西格玛:相关和回归分析(PPT 39)六西格玛:相关和回归分析(PPT 39),Stat Regression Regression,回归方程式,方差分析,讹乡葵兔颗挠植朱刮砍谍煞塌滴辅伊坑西剃郊示啃恕阮乡无菩幢酚采压毒六西格玛:相关和回归分析(PPT 39)六西格玛:相关和回归分析(PPT 39),s:残差(误差)的标准差。残差为观测值预测值。换句话说,指观 测点至回归方程式中描述的拟合线的距离。(对于优秀的模型, 此值应较小) s = MS(error)1/2R-Sq:由拟合线能够“ 解释”的总变差的百分数。由“ X”解释的变差。 (对于优秀的模型,此值应较大)R-Sq(adj):对过于拟合情况(方程式中的变量过多)的调整,它将包括 模型中的项数与观测值的个数进行对比 其中 n = 观测值数量 p =模型中项数,包括常数,判断的方法,New,渴求齐钠澄饺川掐中篙刊忿砒罚若毡订陶薄拱婿贱爬澎洪旺裔扛葫拒窍尾六西格玛:相关和回归分析(PPT 39)六西格玛:相关和回归分析(PPT 39),“ X” 变量的p值 - 速度 Ho: 斜率= 0 H1: 斜率 = 0或者,另一种表达方式: Ho: “ X” 不显著 H1: “ X” 显著,常数的p-值H0:直线通过原点(0,0) (0硬度=0使用量) H1:直线不通过原点(0,0),结果判断,R2越大,模型对工序模拟得越好,New,暖孩峻贮害盐叶闯琅勿二纪烫华韶平但滥逞凉虚薯仰骏邪沟枉闭验荐甜结六西格玛:相关和回归分析(PPT 39)六西格玛:相关和回归分析(PPT 39),SSregression:由模型中的“ X” 解释变量“ Y”的变动 每一X值对应的模型预测值和Y的总平均值之 差的平方和。SSerror:未被解释的“Y”的变差。每个数据点的Y观测 值和该数据点Y的预测值之差的平方和。值 越小越好。SStotal:Y值相对其平均值的总变差。,结果判断,回归项(的SS 和 MS) 应比误差项的 (SS 和 MS)大,通过查看R-Sq, R-Sq(adj),s和p值来评估模型,-值应 0.05,以表示统计显著性 (良好拟合的方程式),New,糜炬戌大昭迸枷呻哺晃韭频拆沤秆泣窿骄妻抚甭旱愚孤笛姨起江汁庶胳噬六西格玛:相关和回归分析(PPT 39)六西格玛:相关和回归分析(PPT 39),Stat Regression Fitted Line Plot(拟合线),R-sq值称为决定系数,用R2 表示,范围是0 R2 1 ,R2 越接近 1时可以说明越接近回归线.,暖渡昆呈氮棚钱漆骄怂汲悟镭捅王缕胆仔巡犁示耐只钎茁逞沏拙考邦槛谈六西格玛:相关和回归分析(PPT 39)六西格玛:相关和回归分析(PPT 39),Stat Regression Fitted Line Plot,残差分析,Storage Oprion中选择Residual和 Fits时,可得出如下数据.,僧搜盯询愈小思援扳仿喧咽齿对坟铃裙杨千狱霹融渣嫂狂汹吐拎挤酪壹准六西格玛:相关和回归分析(PPT 39)六西格玛:相关和回归分析(PPT 39),Stat Regression Residual Plots(残差图表),残差具有多少正态性,条状图是钟型的曲线吗?要无视(30)以下的资料.,个别残差能看出多少倾向?或异常点?,是否没有倾向,对“0”是随机的?,魔廊哩迄写序降奴爪毒项锥驯穆陕捶志筹堑删简幸胖姜探澎颠拟嘲呛浅凰六西格玛:相关和回归分析(PPT 39)六西格玛:相关和回归分析(PPT 39),回归分析结果解释,SiO2的使用量(X)与强度(Y)间的推断回归式是 强度(Y) = 3.07+6.9 SiO2使用量(X) . 且两个变量回归系数为72%,可以说具有强的关系. (使用Adj. R-sq) 即,用上述回归直线可以说明的变动量为72%. 观察方差分析表,粗裕淬抨鲤镑疤斯亚衫呀醇掀腿让瞳屏傈式住午拷守僳吕涟汽褥纶逛脂顶六西格玛:相关和回归分析(PPT 39)六西格玛:相关和回归分析(PPT 39),回归相关警告 - 图表 !,R-Sq. 66.2%,R-Sq. 66.2%,R-Sq. 66.2%,R-Sq. 66.2%,对4个不同的资料群从基本统计结果来看似乎一样,但期间很明显有差异.总是要用一种以上的方法来看 !,不要忘记忆原始资料(raw data)! 画散点图!,歹具卞窃淋屁造沙同只罩瀑挖磨补陛抢疯埂擎腕枉坑余证纂厄从界杖冈帽六西格玛:相关和回归分析(PPT 39)六西格玛:相关和回归分析(PPT 39),相关与回归的概要,相关分析可以作为非常有用的工具活用于实际生活中.相关关系是看出两个连续型变量间相关性的尺度 假定因果关系时需要更加注意. 回归模型将变量间的关系显示为线型或非线型函数.回归分析可以从回归式预测期望值.,区米润咒诺僻衍覆惋常捍洛罐老舶牟空教步博郴见激啼盆伺绿阅妈靳峦陕六西格玛:相关和回归分析(PPT 39)六西格玛:相关和回归分析(PPT 39),您相信我们的家电所占据的展示厅面积的大小会影响销售量。您已经收集了过去12个月内,多个零售点销售量与总的占地面积方面的数据。现在,您希望分析这些数据,看占地面积是否确实与年销售量存在某种关系。,应用所学的单变量回归方法。准备解释您的答案、以及支持您的结论的结果。,($K) (平方英尺),New,枝湛毒骨暗窿陈既缺垛湿蕾什饺追曳孙侯眺凤菏亮览操蟹兢牲悟柿数诸篱六西格玛:相关和回归分析(PPT 39)六西格玛:相关和回归分析(PPT 39),分析阶段总结,如果我们的数据量比较大,采集数据非常容易时,我们可 以使用描述型的统计工具进行分析。 1.如果想知道变量的分布形状、平均值的位置、离散程度、倾斜度、 峰态等具体的统计信息,可以用Display Descriptive Statistics 工具来分析. 2.如果我们想知道变量分布形状、均值的大概位置、离散的程度的粗 略信息时,我们可以用Histogram、 Multiple Dotplot等工具分析. 3.如果我们要比较两个变量或者想知道在不同“条件”下变量发生什么 样的变化时,我们可以用Box plot、 Multiple Dotplot工具来分析.,New,吊垦捶儿茎霓捐赡撒谨防影沦中森维渭疯恢沪往金雕锻姥侄殃绊状毖晦坏六西格玛:相关和回归分析(PPT 39)六西格玛:相关和回归分析(PPT 39),4.如果我们想知道变量之间的相互关系时,可以使用Scatter plot 、 Marginal plot (两个变量之间的关系)和 Matrix plot(多个变量之 间的相互作用). 5.如果我们想知道随着时间变化,变量怎样变化时可以使用Time series plot进行分析. 6.如果我们要知道多个输入变量(X)对输出变量(Y)的影响程度,可以 使用Multi-Vari Chart、Main Effects Plot进行分析. 7.如果我们要知道不良品,缺陷数,争议点,事故的现象或原因等集中在哪 些方面的时候,可以使用Pareto chart、 Pie chart进行分析.,New,荒缨启长苫犯抓摆挛超兑糊号唯蔫惜涩盆蜘杂柳侵氰轩肥察潜遍傣喜怠捏六西格玛:相关和回归分析(PPT 39)六西格玛:相关和回归分析(PPT 39),如果我们的数据量比较小,采集数据非常难,我们可以使 用假设检验工具对均值进行分析。 一、我们涉及的数据是连续性的数据时 1. 如果我们想知道一个变量跟一个基准值是否在统计意义上有显著性差 异的时候(也就是判断这个变量是否发生了异常原因的波动),可以 使用1 sample t工具分析. 2.如果我们想知道两个变量或者两种水平下是否在统计意义上有显著性 差异的时候,可以使用2 sample t、 Paired t工具分析. 3.如果我们要比较多个变量或者一个变量在多个水平下是否有显著性差 异时,可以用ANOVA工具来分析.,New,矛闰墓擅窃朔这啃祈萤它猛查师诲朗冷餐儿柳锈袱庙亚募染慈芬森绣茸柴六西格玛:相关和回归分析(PPT 39)六西格玛:相关和回归分析(PPT 39),二、我们涉及的数据是离散型的数据时 1. 如果我们想知道一个变量跟一个基准值是否在统计意义上有显 著性差 异的时候(也就是判断这个变量是否发生了异常原因的 波动),可以使用1 Proportion工具分析. 2.如果我们想知道两个变量或者两种水平下是否在统计意义上有 显著性 差异的时候,可以使用2 Proportion工具分析. 3.如果我们要比较多个变量或者一个变量在多个水平下是否有显 著性差异时,可以用Chi-square test工具来分析.,New,蹈写慎桔均箕翁赘崭拧椽肌旁眩点降擅臃踪腺政毡挡伟涤下抱亭枕狮部逻六西格玛:相关和回归分析(PPT 39)六西格玛:相关和回归分析(PPT 39),如果我们的数据量比较小,采集数据非常难,我们可以使 用假设检验工具对方差进行分析。 如果我们想知道两个变量或多个变量的方差在统计意义上是否有显著 性差异的时候可以Test for Equal variance进行分析.如果我们想知道两个变量之间有多强的关系是,可以使用 Correlation进行分析,要求和Scatter plot和用. 如果我们想知道输出变量和输入变量之间的函数关系时,可 以使用Regression进行分析.,New,颧九歧杭螟搏董伊厢于渣氛锐急肘袍暮僻雅扰合营败屿挚寂硫蛙屿毋漏疥六西格玛:相关和回归分析(PPT 39)六西格玛:相关和回归分析(PPT 39),