西格玛教材40-22Unit-4分析47方差分析.ppt
分析(Analyze)阶段,方差分析(One Way ANOVA),Define,Measure,Analyze,Improve,Control,Step 8-Data 分析,Step 9-Vital Few X的选定,Multi Vari Central limit Hypothesis testing Confidence interval ANOVA,T-test Chi-square Correlation,regression,Step 7-Data 收集,路径位置,目 录,ANOVA(方差分析)的概念 One way ANOVA的概念 ANOVA的原理 应用MINITAB 实习 弹射器 再多想一想 简要及 附录,ANOVA的概念(1)-ANOVA是什么?,在什么情况下使用?当有3个以上水平时检验均值差异.One way ANOVA当有2个以上因子时检验均值的差异.Two,Three way ANOVA 用什么原理分析?把所有实验结果的方差,对几个因子的方差和其他误差的方差来区分,并分析均值的差异的方法利用“总方差=因子效果的方差+误差方差”,X数据,有1个X变量,有多个 X 变量,Y 数据,有1个 Y 变量,有多个 Y变量,X Data,离散型,连续型,Y Data,离散型,连续型,One-way ANOVAMeans/Medians Tests,X Data,离散型,连续型,Y Data,离散型,连续型,Chi-Square,Regression,MultipleRegression,Medians Tests,2,3,4 way.,ANOVA,ANOVA的概念(2)-包含在哪里?,当X是离散型或连续型,Y是连续型变量时使用.是对“均值是否相等”的检验方法,ANOVA的概念(3)路径分析,包含3个以上水平X变量的均值比较,稳定性,分布的形态,散布(Spread),中心的位置(Centering),ANOVA,2samplet test,1samplet test,ONE WAY ANOVA的概念(1)概要,我们要观察的一个 input 变量(因子)有多个样本时,我们实际上在实施 单因子实验(Single Factor Experiment).我们要分析对象的 因子是否有水平间的差异确定3个供应商的平均交货期是否有差异确定某个机器的设定值在5个水平间变化时,零件的尺寸是否不同现在开始做第一次实验!观察.,ONE ANOVA的概念(2)例题,考虑如下情景:一个产品开发工程师要研究某个电阻焊接系统中5种不同的电流设置对焊接强度的影响 她要研究的电流范围为15-19安培。她将调查5个水平的输入变量(因子):15A,16A,17A,18A 和 19A。她将对每个水平进行5次实验 输出:焊接强度输入:电流这是一个具有5个水平的单因子实验(电流)该实验的结果参考下页.,One ANOVA的概念(3)例题,存在电流对焊接强度的影响吗?,对于这个设备使用哪个电流,你的结论是什么?为什么?,输入结果DATA的 design matrix同下.实习:打开窗口 Mont52.mtw 制作各列数据的点图.使用对所有变量相同的格式(SCALE)!,ONE ANOVA的概念(3)例题,各均值的 95%置信区间(CI)如下.数据堆叠后 统计方差分析区间图,对电流和焊接强度的关系做什么结论?这结论的置信度是怎样?,ONE WAY ANOVA的概念(3)例题,设定假设!,One ANOVA的概念(4)假设,Ha:至少有一个水平产生不同过程,H0:数据只描述一个过程的自然散布,你认为答案是什么?为什么?,One ANOVA的概念(5)假设,此设计的数学模型是:,Ho 假设处理项是零,数学模型假设,常规假设,Yti=+t+ti其中:yti=来自处理t的单个响应=总平均值 t=处理tti=随机误差,ONE ANOVA的概念(6)变量选定,输入变量作为一个因子。在单因子设计中,因子被当作特征变量处理,即使它可能是间隔值或比率。如果因子自然为连续型的,可以把它分类成子群。-例如,我可以采用低和高来度量生产线的压力值。-我们可以作中值分离(Median Split)来把因子分成两个水平:低和高。-对于我们的例子,因为电流是连续型变量,我们把它分成5个等级。输出一般以间隔值或比率范围来度量(合格率,温度,电压,等等)输出变量可以是分离型或间隔/比率变量,ANOVA的原理(1)总变动,因子A的水平是I个,各水平的反复数都是m次,则数据矩阵 排列成下面的样子,总均值 是用右边的公式求.,利用各个DATA 和总均值 把总均值 分解为两个,同下表示.左边和右边平方时同下.,ANOVA的原理(2)总变动,上面的第三项变为如下.,SS(total)SS(error)SS(factor),同样第8页式从写如下,这意义的略写SS(Sum of Squares)来表示.,ANOVA的原理(3)总变动,SS(total)的自由度 是,SS(factor)的自由度 是,SS(error)的自由度 是,因此,ANOVA的原理(4)自由度,在一个系统中不影响其他变量能够独立移动的数Ex)a*b*c=4 这式中变量的自由度是 2.假如 a,b定为 1,2,c必须是 2.即能够自然的移动的变量。,自由度是?,自由度的计算,ANOVA的原理(5)方差分析表,方差分析表的制作,对错误的均值平方因子,利用A的均值平方的大小 观察 A效果的大小.F越大 A效果越大.(利用F 分布确认 P-value),ANOVA的原理(6)F分布,F分布的参考,自由度 k1,k2的变量的 F值的 F(k1,k2:)按 的大小 占有面积(发生概率).,(显著水平),F(k1,k2),F(k1,k2:),F-分布,6,5,4,3,2,1,0,0,.,7,0,.,6,0,.,5,0,.,4,0,.,3,0,.,2,0,.,1,0,.,0,S,c,o,r,e,s,P,r,o,b,10%,1%,5%,Exercise,某个 coating 工程认为 反应温度对生产的 产品的强度有影响,所以对反应温度变化强度有什么变化,还有温度在什么水平时强度最好,进行了实验.反应温度设为因子水平,各温度反复3回,总共12回实验数据随机整理.这结果同下表.制作方差分析表(ANOVA table).(参考Excel sheet.),ANOVA的原理(7)例题,ANOVA table,ANOVA的原理(8)例题,F分布表中 F是(3,8:0.05)=4.07,F(3,8:0.01)=7.59.那么 A是显著水平 1%中是否采用零假设?还是推翻?-要推翻.,ANOVA的原理(9)统计的假定,输出的总体方差在给定因子所有水平上都相等(方差均一性 Test for Equal Variance)。我们可以用统计 方差分析 等方差检验程序来检验这个假设。响应均值是独立的,并服从正态分布。-如果使用随机化和适当的样本数,这个假设一般有效。-警告:在化学过程中,均值相关的风险很高,应永远考虑随机化。残差(数学模型的误差)是独立的,其分布是均值=0,方差为恒量的正态分布。,单一因子实验分析,实验结果移动到 MINITAB Worksheet.数据有没有异常点利用管理图进行确认.(稳定性分析)利用统计 方差分析 等方差检验程序进行等方差检验.方差同一时实施(p-value 方差分析 单因子方差分析 进行分析.所有的数据在1列时(Stacked):One-way按水平别数据分几列时(Unstacked):采用 One-way(Unstacked.).解释F-ratio.F-value 高 p-value 显著水平时(一般 5-10%)推翻零假设(Ho).推翻零假设时,利用统计 方差分析主效应图 或统计 方差分析区间图对均值差异利用区间图说明.利用Minitab 的 Anova 视窗中的 残差项目(残差 Plot)对残差实施评价.为测试实际的显著性,对有影响的 Epsilon-Squared 进行计算.根据分析结果找出方案.,应用MINITAB分析(1)分析顺序,零假设(Ho):3名作业者刷漆厚度相同.备择假设(Ha):作业者中至少有一名刷的厚度与其他作业者刷的厚度不同(或大或小).,应用MINITAB分析(1)老板的思考,是谁刷漆刷的这么厚?Bob?Jane?Walt?一定要查找出来!(显著水平设为 5%),设置假设,按照下列样式在Minitab中输入数据,打开ANOVA.MPJ的(3 Level ANOVA)worksheet,BobJaneWalt25.296926.005628.426826.057825.940027.508524.070026.006327.582524.819926.435627.401825.985125.992724.9209.,应用MINITAB分析(2)输入数据,1、判信,2、判量,参考MSA章节,参考抽样与样本大小章节,应用MINITAB分析(3)稳定性分析,目的:确认各水平数据中是否有异常现象(逃逸点、不随机等).路径:统计-控制图(参考下图),3、判异,应用MINITAB分析(3)稳定性分析,输出结果,结论 各水平中的数据没发现有异常点 可继续往后分析,应用MINITAB分析(4)正态性分析,目的:确认各水平数据是否服从正态分布.路径:统计-基本统计量-正态检验(参考下图),4、判形,应用MINITAB分析(4)正态性分析,输出结果,结论 各水平中的数据都服从正态分布 可继续往后分析,应用MINITAB分析(5)等方差检验,目的:确认各水平数据之间方差是否相等.数据堆栈:路径:数据-堆叠-堆叠列(参考下图),5、判散,应用MINITAB分析(5)等方差检验,等方差检验 路径:统计-方差分析-等方差检验(参考下图),P值大于0.05,输出结果,结论:故3个人所油漆的厚度数据方差相等,应用MINITAB分析(5)等方差检验,应用MINITAB分析(6)均值检验,目的:确认各水平数据集所对应的总体均值是否相等.路径:(堆叠型)统计-方差分析-单因子(参考左下图)(非堆叠型)统计-方差分析-单因子(未堆叠存放),6、判中,应用MINITAB分析(6)均值检验,应用MINITAB分析(6)均值检验,均值检验输出结果,均值检验结论 各水平数据集所对应的总体之间的均值至少有一个不相等,单因子方差分析:厚度 与 作业者 来源 自由度 SS MS F P作业者 2 80.386 40.193 44.76 0.000误差 87 78.116 0.898合计 89 158.502S=0.9476 R-Sq=50.72%R-Sq(调整)=49.58%,P 值小于显著水平 5%时,得到至少有一个总体均值与其他总体均值不同的结论.(推翻零假设)这时,推翻所有总体均值相同的零假设(Ho)-即至少有一个均值不同.因随机现象得到这样大的F-值,实际上其概率不足 1/10,000.这与抛硬币时,10次连续相同的情况是相同的.,群间方差与群内方差相近时,F值接近1.本例中,F-值很大.,子群大小相同时共有标准差,应用MINITAB分析(7)残差分析,目的:二次检验前面的分析是否有不可信的证据(残差有异常现象)路径:统计-方差分析-单因子点击图形-点四合一,7、判差,应用MINITAB分析(7)残差分析,残差输出结果:,残差分析结论:没有足够的证据证明其残差分析有异常,主效果图、箱图及区间图,应用MINITAB分析(8)Plots,8、附图,主效果图及 箱图,应用MINITAB分析(8)Plots,统计方差分析主效应图,图形箱线图,Interval Plot(95%置信区间),区间图,应用MINITAB分析(8)Plots,应用MINITAB分析(9)SQUARED,Epsilon-Squared虽然是一个有争议的统计量,但其结果提供实质性的显著性情报.Epsilon-Squared 根据适当的 input变量说明的 output变量的大小.该统计量很容易计算.这值是 Sum-of-Squares(Effect)/Sum-of-Squares(Total).在采取措施以前应经常要确认这值.,厚度的变动中有51%是由作业者的差异引起的.,8、判重,应用MINITAB分析(10)结论,知道了是谁刷的厚.单因子方差分析的 P-value 0.05,可采用备择假设(Ha)“作业者中至少有一名刷的厚度与其他不同(或大或小)”.这厚度差异,作业者实际影响的效果占51%.在 95%的置信水平中(显著水平为 5%)确认为Walt有所不同.决定对Walt进行再教育.参考区间图或 主效应图,9、判实,利用Mont52.mtw 分析焊接强度的数据.原因变量是电流.按照分析 roadmap,与旁边的人协作.您准备用不同的方法和结论对提问进行回答.时间是15分!,实习 解释,按组别各准备 CATAPULT 发射者(3名)的变化?(跟球类无关)角度每 2 度变化时(4水平)距离是?(用乒乓球)各条件用同样的条件各 15回 Test利用这 DATA利用 Minitab与前面路径一样实施 ANOVA 分析结果发表,实习 CATAPULT,F值和 t值的关系,对它进行测试-利用投射器(catapult)数据,t-检验(两侧检验)和 F-检验实施.,F-检验和 t-检验,再多想想(1)t-test 比较,F-检验和 t-检验,在前面关于油漆厚度的实验所得到的结果中,针对Bob的结果和 Walt的结果进行比较,将t-test得到的 T值进行平方时就得到与F值相同的结果,再多想想(1)t-test 比较,