西格玛教材40-19Unit-4分析44假设检验.ppt
分析(Analyze)阶段,假设检验(Hypothesis Testing),Define,Measure,Analyze,Improve,Control,Step 8-Data 分析,Step 9-Vital Few X的选定,多变量研究 中心极限定理 假设检验 置信区间 方差分析,均值检验 卡方检验 相关/回归分析,Step 7-Data 收集,路径位置,目 录,假设检验概要假设检验的核心用语假设检验的定义假设检验的阶段假设检验的应用,?,亲爱的 Abby:你在你的专栏里说妇女怀孕期是266天。这是谁说的?我怀我的孩子用了10个月零5天,这是确信无疑的,因为我精确地知道孩子怀上的那一天。我的丈夫在海军服役,这个孩子不可能在其他任何时间怀上,因为我见到他只一次,只有一个小时,而且在孩子出生之前我再也没有和他见面。我不饮酒,也不东奔西跑,而且这个孩子不可能不是他的。所以请在报纸上声明收回关于 266 天怀孕的时间。因为否则我将面临许多的麻烦!-圣地亚哥读者,你将对她说些什么?对他的丈夫说些什么?,假设检验概要,一则有趣的故事,250,260,240,230,270,280,290,300,220,平均,圣地亚哥的读者,平均怀孕时间是266天如果她说怀孕260天,你对她怀疑吗?如果她说怀孕400天,你对她怀疑吗?从哪点起你开始怀疑呢?作一个记号,假设检验概要,医生很早就知道孩子自然出生有以下特征 正态分布 平均怀孕时间=天 标准偏差=天,假设检验概要,产科医生早就知道:正态分布平均=266 天 标准偏差=16 天,假设检验概要,平均=_266_标准偏差=_16_,临产期间分布,圣地亚哥的读者,究竟如何呢?,假设检验概要,在工业生产中,我们经常希望能够确定某个分布的参数是否就是某个具体数值或是否与其有什么关系。也就是说,我们可能希望要检验这样一个假设,即:某个分布的均值或标准差是否是某些数值,或者两个均值之差是否是零。这些检验就需要使用假设检验方法。实际工作中的例子有:1、制造商希望引进一种新产品。为了能够实现利润,它们需要在今后5周的200小时内生产1200件产品。如果生产一件产品的平均时间不超过6小时,那么目标就会实现。生产者可以通过检验平均生产时间等于6小时这一假设来评估其是否具备所需要的生产能力。2、这个制造商还打算修改工艺流程以减少另一种产品所需要的平均时间。它通过检验在工艺流程改变前后的平均生产时间是否相同这一假设来评估流程的修改是否有效。这两种情况都涉及到对总体均值的检验。假设也可以检验标准差或其他参数。,工业案例的启示,假设检验概要,假设检验是抽样推断的一个重要内容。所谓假设检验,就是事先对总体参数或总体分布形式的作出一个假设,然后利用样本信息来判断原假设是否合理,即判断样本信息与原假设是否有显著差异,从而决定应接受或否定原假设。所以,假设检验也称为显著性检验。假设检验可分为两类:一是参数假设检验,简称参数检验;二是非参数检验或自由分布检验,妥善处理不确定 使主观最小化问题假设预防重要信息的遗漏控制判断错误的风险,假设检验概要:目的,是处理实际问题的方法,把实际问题变成统计问题因为我们用(相对小的)样本来估计总体的参数,因而总有可能为我们的实验选择一个“怪异”的样本,它可能不能代表一子群“典型”的观测.因此,推论统计学可利用一些假设,允许我们估计纯粹由于偶然原因导致的得到一个“怪异”结果的概率.比如,如果我们要知道一个硬币是否“公平”,我们可以抛它数次,记录我们看到它出现正面的次数.根据随机我们期望大约看到50%正面.如果我们抛了10次硬币,得到10次正面,我们将清楚的确信这个硬币不“公平”.用一个公平的硬币1000次只有一次机会获得10个正面.因此我们可以说我们对于“不公平”的硬币的判断将有0.1%的错误机会.即只有1000分之1(概率性的)很难得发生的事件却在一次实验中发生了,则我们这时判断为硬币是非正常的。),假设检验概要,在不好的一天我们可以得到一个好的工程而在一个好天里我们可以得到一个坏工程无论哪一种情况,我们都可能作出错误的结论,我们声明我们在工程中取得了改善,而这个改善结果可能只是抽样的函数,假设检验概要,假设是关于某事是对的描述.如果我们抛10次硬币得到了8次正面,我们将说这个硬币是不公平的.在此我们有错误的概率(约5%),但我们愿意承担这个风险.在工厂里我们用同样的方法验证假设我们将把原因归结于非常的事件,而不是纯粹偶然.问题:我们如何鉴别非常事件?我们如何利用统计学来帮助我们作出判断?我们知道样本数据服从自然散布。当某事“真的发生”时我们怎样知道是真实发生还是偶然发生?让我们开始研究这个程序。,假设检验概要,为何使用假设检验?,当无法确定是否存在真实差异时使用假设检验。例如,分层点图显示子群平均值之间没有明显差异:您想知道平均值的微小差异是由于随机变化还是反映了真实差异。假设检验比分层点图提供更明确的结果(如果假设满足的话)。,Reactor 1 Reactor 289 8481 8684 8384 9187 8679 7985 8281 8983 8384 88,Reactor.mtw,让我们看一个制造示例。假设我们改造了两台反应器中的一台反应器。在我们改造所有反应器之前我们想知道这些改善是否“显著地”提高了工程良品率。让我们看一下结果数据。在这个示例中,反应器B是新改造的反应器。,假设检验概要,实际问题:与代表现有工艺的反应器1相比,对反应器2的改造能提高良品率吗?,统计问题:反应器2的平均值(85.54)和反应器1的平均值(84.24)的差异是否足以被认为是显著的?或者说这两个平均值是否足够接近,可被认为是由于偶然因素或日与日之间的散布呢?,差异=1.3%,假设检验概要,Variable N Mean StDev MedianReactor1 10 84.24 2.902 84.500Reactor2 10 85.54 3.65 85.40,B B B B B BB B B B,80.0 82.5 85.0 87.5 90.0 92.5,A AA AAAA A A,反应器 2,反应器 1,这两个反应器代表两个不同的工艺吗?,这两个反应器代表一个基本的工艺吗?,假设检验概要,假设检验的前提假设,如果数据是连续的,我们假设基本分布是正态。您可能需要转换非正态数据(如周期)。当比较不同总体的子群时,我们假设:独立样本。通过随机抽样实现。样本是总体的代表(没有偏差)。当比较不同过程的子群时,我们假设:每个过程都是稳定的。没有特殊原因或随时间的变化(没有与时间相关的差异)。样本是过程的代表(没有偏差)。,主要核心术语,1、实际推断原理:概率小的事件几乎不会发生2、零假设(Null Hypothesis-Ho)又名原假设 它是关于“没有差异”或者“根本没有效果”或“是相同的”陈述的假设,它直到有充分的证据说明其是错误时为止总被认为是真实的。3、备择假设(Alternative Hypothesis-Ha)又名替代假设 它是关于“有差异”或“有效果”,或“不同的”陈述的假设 它在零假设被推翻时生效的另一个假设,根据具体事件有不同的假设;4、类错误:又名“弃真错误”,是指零假设是真的时候而拒绝它5、值:又称显著性水平,是指犯一类错误的概率,值越大,则越有可能 拒绝真实的零假设,该值一般没有统一的基准,通常设定为0.05,如果犯一类错误将会造成严重性的后果,则要求它设定小些。6、P值:显示了犯一类错误的可能性,用来判断是拒绝或接受零假设的。P值越小,犯拒绝零假设错误的可能性越小。一般情况下,如果P0.05,则零假设成立,如果P0.05,则推翻零假设。,7、类错误:又名”取伪错误”,是指零假设是假的时候而接受它.8、值:是指犯二类错误的概率,越大,则越有可能接受不真实的零假设 显著差异(Significant Difference)-用于描述统计性假设检验的结果 的术语,在此差异大的不能合理的随机发生。那里很可能在发生什么特殊事9、检验功效(Power)-统计检验的能力,探测出某事很重要时,实际上 某事确实很重要。常被用来决定在处置中样本的大小是否足以探测到存在差异。零假设不真实时推翻错误零假设的概率,即能够检出假的零假设的概率。(1-)11.检验统计量(Test Statistic)-一个标准化的数值(z、t、F等),代表错误 确认的可能性,分布于一个已知的方式,以便可以决定这个观察到的数值的概率 通常错误确认越可行,检验统计量的绝对值就越小,而且在其分布内观察到 这个数值的概率就越大。,主要核心术语,实际的假设是:新改造的机器将减少不良.这个假设叫做备择假设(Ha),统计假设:旧机器和改善的机器之间没有差异.这个假设叫做零假设(Ho),我们必须证明我们观察到的数值极不可能出自相同的工艺,所以 Ho 肯定错了.,假设检验定义,陈述一个“零假设”(Ho),收集证据(一个实际样本),判定:这个证据支持什么?推翻 Ho?或者 不推翻 Ho?,假设检验程序,关于零假设.,零假设(Ho)被假定是对的这就象被告被假定“无罪”一样。记住:美国的司法系统不是“被证明清白之前有罪”我们不在我们的实验“无影响”的概率小到不能相信之前假设实验有影响。你就是被告的辩护律师。你必须提供证据来消除“合理的怀疑”,“没有罪”,“无罪”,记住:,假设检验定义,一般假设检验 与Y=f(x1,x2.xn)有相同的样式。这式中X对Y有显著影响假设是真实还是假,实施检验。,假设检验的基本,假设和意识决定的风险,我们调查之前对意识决定的风险度(作错误判定的程度,失误)与敏感度(效果的大小和标准偏差的比)具体的制定,异常的样本规格 作决定。然后考虑为合理性的抽样计划所具备的费用、时间、可利用的资源等实质性的界限。,假设检验定义,假设检验中的两种错误,我们基于假设检验所做的任何决定都有四种可能结果:我们可决定这些子群是相同还是不同,以及我们可能是对或错。,在决定推翻与否时,我们可能会犯两类判断错误中的一个:,你的判定,接受 Ho,真理,Ho 对,Ho 错,I类错误(-风险),II类错误(-风险),正确,正确,推翻 Ho,假设检验定义,陪审团的判决,他无罪,真实,实际清白,实际有罪,I类错误(-风险),II 类错误(-风险),正确,正确,他有罪,后果:罪犯获得自由,后果:清白的人进监狱,假设检验定义,示例:机场安检,假设检验定义,报警机的判断,包里没问题,真实,包里没问题,包里有危险品,I类错误(-风险),II 类错误(-风险),正确,正确,包里有危险品,后果:_,后果:_,类错误和类错误的实际含义,两种类型的错误都重要。过于防范一个错误将增大另一个错误发生的风险。增大样本大小:降低类错误的风险。允许您检测到更小的差异。,重要差异与显著差异,显著但不重要的差异有时,您检测到一个统计上显著的差异但它小到 对您的企业没有实际的重要性。示例:安装机器的两种方法新方法明显要比标准方法快大约 10 分钟。要证明实施新方法的成本是适当的,有必要减少 30 分钟。,重要差异与显著差异(续),重要但不显著的差异有时,一个差异在统计上不能说是显著的,但该观测差异对于 您的企业而言却很重要。示例:密封容器的两种方法在实验时观测到每班增加 1000 个容器。增加 1000 个对企业很重要。新技术有更高的平均值,但在统计上却不能宣称有显著的差异(因为 P.05)。观测差异由于随机变化而产生且不存在真正的差异,或者变化太大(或样本大小太小)不能检测到差异。企业领导者需要决定是否值得冒险实施新方法。如果存在真正的差异,您最好实施新方法。但是如果新方法产生相同的结果,则只会徒劳无功。,假设检验:怎样进行?,收集数据后,我们计算以下两种参数:检验统计量(形如信噪比SNR,如Z-或 T-值),和“P-值”.“P-值”是“Ho 正确”发生的概率。P-值基于假设的或实际参考的分布(正态分布,T-分布,Chi-平方分布,F-分布,等.),小的“P-值”大的“Z”或“T”,等Ho 被推翻,大的“P-值”小的“Z”或“T”,等Ho 不被推翻,P 值定义,假设检验比较观测到的各子群之间的差异。假设真实差异为 0(=零假设),P 值等于获得观测差异的概率。P 值范围从 0.0 到 1.0(0%可能性到 100%可能性)。按照惯例,通常将 P.05 视作是差异明显的象征。如果 P.05,则可推断真实差异为 0 的概率很小。,讨论:解释 P 值,有多种方法来陈述根据 P 值得到的结论。您认为下面哪些最容易理解?P 值用于判断观测到的各子群之间差异是否明显大于普通原因(随机)变化(如果 P.05,结论是肯定的)。如果 P.05,则拒绝 H0 而决定使用 Ha。P.05 意味着子群来自相同分布的概率小于 5%。P 值确定观测到的差异是否在统计上看较显著(如果 P.05,结论是肯定的)。假设真实差异为 0,P 值等于获得观测差异的概率。如果 P 值很小(.05),我们说观测差异必须显著,因为如果没有真实差异,我们从样本中观测到这类差异的概率就较小。P 值用于判断抛弃零假设是否有足够的统计证据(如果 P.05,结论是肯定的)。,e,s,t,F,a,c,t,o,r,L,e,v,e,l,s,2,1,P值到处都存在!,N,o,r,m,a,l,P,r,o,b,a,b,i,l,i,t,y,P,l,o,t,One-Way Analysis of VarianceAnalysis of VarianceSource DF SS MS F PFactor 1 0.12 0.12 0.11 0.740Error 48 53.71 1.12Total 49 53.83 Individual 95%CIs For Mean Based on Pooled StDevLevel N Mean StDev-+-+-+-+-Mach 1 25 10.080 0.943(-*-)Mach 2 25 9.980 1.161(-*-)-+-+-+-+-Pooled StDev=1.058 9.60 9.90 10.20 10.50,P-value要多小根据状况有所不同.,通常我们使用 0.05。,我们希望这些观察结果随机发生的机会小于10%(=0.10).5%会更好一些(=0.05).1%感觉非常好(=0.01).的水平取决于我们的假设“没有差别”和所参考的散布类型。但 显著水平根据我们的关心与结果的置信度有所不同.(飞机部品的1%和木筷1%能一样吗.),假设检验的类型,假设检验,目的,t 检验,成对 t 检验,ANOVA(F 检验)(变异数的分析),检验,比较两子群平均值,当数据匹配时比较两子群平均值,比较两子群或多子群平均值比较两子群或多子群变异数,比较两子群或多子群比例,Y(输出),X(输入),连续,离散(比例),离散(“子群”),连续,检验,t 检验成对 t 检验ANOVA,逻辑回归,回归,不同数据类型的适当分析方法,当输入(X)变量是离散变量时,使用假设检验。将离散 X 当作“分子群”或由分层变量来看 X。示例:如果您希望按产品比较周期,那么不同产品类型就是离散 X。如果 X 数据是连续的,则使用回归分析判断它们是否与输出(Y)变量相关。,假设检验,回归分析,我使用哪种分析方法?,否,X 是连续的,回归主题,检验,ANOVA,t,检验,否,Y 是离散的(比例),否,比较更多的子群(平均值或变异数),是,是,是,是,成对 t 检验,否,比较两个独立的子群平均值,将两子群平均值与匹配的数据相比较,X 是否是离散的?(子群),Y 是否 是连续的?,仅比较 2子群吗?,Y1是否与Y2 匹配,在假设检验中处理非正态连续数据,方法找到一种使数据近似为正态的转换方法。对转换的数据进行“假设检验”。,1.定义实际问题 2.陈述目标(产生统计问题)3.建立假设-陈述零假设(Ho)-陈述备择假设(Ha).4.决定合适的统计检验(假设概率分布,z,t,或 F).5.规定的水平(一般 5%)6.规定的水平(一般 10-20%)7.设置影响的大小(差异)8.设置样本的大小,假设检验阶段,假设检验阶段,9.作抽样计划10.选择样本 11.做实验和收集数据 12.从所收集的数据中计算检验统计量(z,t,或 F)13.决定计算出来的检验统计量随机发生概率 14.如果这个概率小于,则推翻 Ho 而接受 Ha。如果 这个概率大于,不要推翻 Ho.15.返回结果,把统计结论翻译成实际解决方法。,假设检验应用,SPC 样式,这个点真的失去控制还是工程的自然散布,假设检验应用,架构,这个架构和其他的相比是真的不同还是自然散布的结果?,检验子群均值的差异,参考用:数据形态,离散型对离散事件的记数(1,2,3,4 个缺陷)定性的描述 民主党/共和党好/坏设备 1/设备 2,注意:我们经常可以把定性数据当作连续型数据处理,只要我们有合适的分辨率(记数的水平)或足够大的样本大小。然而这也具有较大的风险得到“错误”的判断。,路径的目的对于统计工具,给BB一个结构型的方法“你对锤子了解的越多.你越觉得什么看上去都象一个钉子”给统计思考画一个大幅画像 为把 Minitab 和统计工具联系起来提供一个结构型的路径 减少混淆和焦虑“回归,ANOVA 和 Chi-平方”,参考用:关于统计性工具的路径图,参考用:关于统计性工具的路径图,X 数据,单个 X,多个 X,Y数据,单个 Y,多个 Y,多元分析(注:这与 Multi-Vari 图不一样),X 数据,离散型,连续型,Y 数据,离散型,连续型,Chi-平方,对数回归,ANOVA平均值/中值检验,回归,X 数据,离散型,连续型,Y 数据,离散型,连续型,多重回归,中值检验,