欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    离散数据的置信区间和假设检验.ppt

    • 资源ID:6326541       资源大小:599KB        全文页数:51页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    离散数据的置信区间和假设检验.ppt

    第6部分:,离散数据的置信区间和假设检验,目的:,目标:用Pareto图确定少数几个关键类型的缺陷。强调离散数据分析图的使用。理解缺陷比例的置信区间的用法,并计算单样本和双样本的置信区间。理解多个X变量卡方分析的用法(双向表)。使用Minitab绘图并进行分析。,在上一部分,我们借助图形、置信区间和假设检验对连续数据的分析进行了讨论。下面,我们将运用图形、置信区间和几种比例的统计检验方法对离散数据进行分析。,第6部分:离散数据的置信区间和假设检验,工具用途1.Pareto-找出少数关键 的 缺陷类型2.图形-找出变化规律以确定哪些X影响缺陷3.比例的置信区间-量化变差,以确定变化是 和假设检验 否具有统计显著性 四种类型:单样本,p接近.5 双样本,p接近.5 单样本,p.1 双样本,p.14.比例的卡方(2)检验-具有多水平独立变量的比较。-研究两个变量间的关系。,离散数据导图,如果工序产生的数据是离散的,Pareto图表可以帮助我们将注意力集中在研究关键因数上。,合并那些不重要的缺陷有助于简化图形并使其对分析更有益处。,关闭所有打开的工作表和图形。打开工作表文件Pareto.mtw路径为 L:Six Sigmaminitabtrainingminitabpareto.mtw打开:Stat Quality Tools Pareto Chart,在pareto对话框中,有两种数据格式选项:Chart Defects data in:(用于原始缺陷数据,栏C4 和 C5)Chart Defects Table:(用于汇总的缺陷数据栏C1和C5),Minitab可生成Pareto图,累计缺陷%,Pareto图形左边显示最大频数的缺陷,右边显示较小频数的缺陷。,Pareto图形,Pareto图形左边显示最大频数的缺陷,右边显示较小频数的缺陷。图中的曲线显示了累计的缺陷百分比。图形应该可以说明:查找造成80%缺陷的缺陷类型。在上例中,15种缺陷类型中的4种占总缺陷数量的66%,剩余35%的缺陷分别由其余的11种类型的缺陷产生。查找栏高度出现较大差异的位置。如果次品数量之间存在很小的差异,那么,就不能缩小您项目的重点范围。(尝试换一种方式考虑问题,即,考虑财务上的影响,而不是缺陷的数量。),Pareto图形,可以使用对话设置将原始数据对几种不同的因数进行分析。,在图形中保留缺陷的常规顺序。考虑累积缺陷线的高度,它表示特定因素总缺陷数量。在这种情况下,缺陷大多发生在“夜间”。在被分析的因素(周期)之间,查找缺陷水平的差异。在这本例中,傍晚和周末很少产生划痕。,原始数据的Pareto图表,问题:降低客户培训服务电话的比例(百分比)。处理离散的响应变量时,您想知道的是缺陷比例如何随潜在X变量的变化而变化。注释:,n 是样本容量k 是样本的缺陷数量p=k/n 是样本中的缺陷比例p 总体的缺陷比例(未知),离散数据的指引图,正态 泊松(Poisson)近似法 近似法,1个比例比较2个比例多于2个比例(及双向表格),大n(样本容量)p不太 接近0或1 np10和 n(1-p)10,大n(样本容量)比例较小(p0.10),下表总结了我们在本部分中所使用的方法。,(置信区间和假设检验),离散数据分析的类型,p+z*p(1-p)/n,z*p(1-p)*,(p1-p2)+,1 1n1 n2,+,2(卡方),精确二项式检验,Poisson 置信区间,正态 泊松(Poisson)近似法 近似法,大n(样本容量)p不接近0或1np10 和n(1-p)10,大n(样本容量)比例较小(p0.10),下表总结了我们将在这一部分使用的方法。,Z值得自正态分布表,取决于所要求的置信度。,离散数据分析的统计方法,1个比例比较2个比例多于2个比例(及双向表格),下图显示何时使用正态法、何时使用泊松(Poisson)法。合理方法的选择取决于样本容量和缺陷比例。,注:使用卡方检验法比较两个以上的比例,或2个X变量。,0 n=20 50 100 150 200 250,离散数据指引图,另外,我们将使用以下重要的Z-值(来自正态表):,正态分布值,(大n,np10,n(1-p)10),例:保险索赔的精度不准确比例最可能的估计值是:p=缺陷数量/样本容量=k/n=600/2000=.30或30%在总共80,000个记录中,不准确比例置信度为95%的双边置信区间为:解释:(28%,32%)是在整个80,000个记录这个总体中缺陷(不准确)比例的取值范围。,80,000保险数据库中的记录2,000为分析数据准确度而抽样的样本记录(n)1,400(70%)是准确的 600(30%)是不准确的(缺陷数量,k),p+z*p(1-p)/n.300+1.96*.3(1-.3)/2000.300+.020(.280,.320)or 28%to 32%,=,正态近似法:1个比例,假设我们希望上页的置信区间为+.010,而不是+.020,我们需要多大的样本容量?,激发想法,(大n,np10,n(1-p)10),课堂练习:抛币掷币50次。记录头面在上的次数。计算头面在上的比例的 90%(双边)置信区间。,p是什么?应使用什么 Z?置信区间是多少?p=.50是否位于置信区间内?,正态近似法:单比例,GE商品质量举例:服务质量某厂商提供与GE相同的服务,其客户不满意的比例比GE的要高。该厂商声称造成这种现象的原因是样本容量太小,而并不承认是由于自己的服务质量低于GE。确定对该厂商的服务不满意的客户比例是否显著地高于GE,或者说,分析这种差异是否是由于偶然因素产生的。,缺陷数量 k1=3281 k2=48 k1+k2=_样本容量 n1=36054 n2=214 n1+n2=_缺陷比例 p1=k1/n1 p2=k2/n2 p=(k1+k2)=_=_(n1+n2)=_,GE(1)其它提供商(2)总计,比较2个比例(差异的取值范围是什么),GE商品质量举例:服务质量,缺陷数量 k1=3281 k2=48 样本容量 n1=36054 n2=214 缺陷比例 p1=k1/n1 p2=k2/n2=.091=.224,GE(1)其它供应商(2),计算置信区间:,1.96*,z*,(p1-p2)+,=.133+.056=(.077,.189)(7.7%,18.9%),(.224-.091)+,.091(1-.091).224(1-.224)36054 214,+,p1(1-p1)p2(1-p2)n1 n2,+,解释:最可能的估计是GE客户的满意率比另一厂商的高出13%。我们有95%的把握认为,对GE的服务满意的客户比例比对另一厂商的要高出8%-19%。该区间不包括0%,因此我们有95%以上的把握认为,差异的产生是确实存在的,而不是偶然出现的。,比较2个比例(差异的取值范围是什么),例:延迟付款的供应商比例n=42 个样本(被审计的发票数量)k=1 个缺陷(延迟付款)缺陷比例的最可能估算值是:p=k/n=1/42=.024,或 2.4%在缺陷率很低的情况下,正态近似是不准确的。使用Poisson近似法计算一个比例的置信区间。,Poisson近似法:1个比例(大n,缺陷次数少),要计算缺限比例的90%、双边置信区间:1.从表中查找1个缺陷的上限和下限值(.355 和 4.744).2.除以样本容量:下限=.355/42=.0085,或.85%上限=4.744/42=.113,或 11.3%延迟付款的供应商的比例取值范围是(.85%,11.3%)。,Poisson近似法:1个比例,假设您抽取10倍多的样本,发现10倍多的缺陷。现在的置信区间是:下限=6.169/420=.0147 or 1.47%上限=16.96/420=.0404 or 4.04%比较两个置信区间:最可90%2-边样本故障能的置信容量(n)数量(k)(k/n)估算值区间 42 12.4%(.85,11.3)420 102.4%(1.4,4.04)样本容量的增加导致新的置信区间(1.4%,4.04%)比原来的小得多。,较大样本容量的影响,课堂练习:现场检验发动机故障一年中现场检验300台发动机,发现两个缺陷。计算这个总体中存在缺陷的发动机比例95%的双边置信区间。n是什么?K是什么?表格中的缺陷下限是多少?缺陷上限是多少?,Poisson近似法:1个比例(大n,失败次数较少),例:涂漆表层的黑斑涂漆部门希望通过变更油漆供应商,来减少由于黑斑导致的缺陷数量。确定是否有足够的证据证明,在置信度为95的情况下,供应商1比供应商2生产的次品少(单边检验)。由于涉及到的是大样本容量、小缺陷次数的两个比例之间的比较,我们需要使用“精确二项式”方法。此方法请详见附录。,精确二项式检验:比较2个小比例(大n,失败次数很少),Stat Basic Statistics 1 Proportion,成功次数 在此例中指缺陷。,输入,一个比例的检验和置信区间p=0.5与 p 0.5对比检验精确样本 X N 样本 p 95.0%CI P-值 1 600 2000 0.300000(0.279972,0.320616)0.000,用Minitab计算比例,Stat Basic Statistics 2 Proportions,p2,p1,两个样本的检验和置信区间 样本 X N 样本p 1 48 214 0.224299 2 3281 36054 0.091002p(1)-p(2)估值:0.133297p(1)-p(2)的95%CI:(0.0773320,0.189261)检验p(1)-p(2)=0(或 0):Z=4.67 P-值=0.000,用Minitab计算比例,Stat Basic Statistics 1 Proportion,一个比例的检验与置信区间p=0.5与p 0.5的对比检验精确样本 X N 样本 p 90.0%CI P-值1 10 420 0.023810(0.012973,0.040052)0.000,Minitab的区间与我们原有的区间(.014,.404)稍有不同,这是因为Minitab使用了不同的近似方法。,用Minitab计算比例,拟合好坏检验(多比例的互等性):Ho:p1=p2=p3=.=pnHa:至少一个等式不相等(此方法可详见附录),拒绝准则:当p.05时,无法拒绝Ho;当p.05时,接受Ha比较2 的计算值和表中的临界值。,用于双向表格的卡方等式:,Ho:独立(总体间无关系)Ha:非独立(总体间有关系),卡方检验.,举例:冰箱缺陷 我们希望依据以下变量对某一厂家生产的冰箱的缺陷进行分类:(1)缺陷类型(2)生产班次3个班次共有 n=309个冰箱缺陷记录。这些缺陷各属4类之一(1,2,3和4)。检验零假设Ho:缺陷类型与班次无关,而备择假设 Ha:缺陷类型与班次有关,置信度取95%。缺陷1:凹痕缺陷2:密封系统泄漏缺陷3:制冰机开关故障缺陷4:部件遗失,缺陷类型班次1234总计115214513 942263134 5 96333174920119,卡方检验.,*如果预期频率小于5,那么计算得出的卡方值将随fe的改变而发生显著的变化。此时计算值是不太可靠的,需要小心处理。Ho:独立(总体间无关系)Ha:非独立(总体间有关系),拒绝准则:当p.05时,无法拒绝Ho;当p.05时,接受Ha比较2 的计算值和表中的临界值。,双向表的卡方等式:,卡方检验.,假设 Ho:三个班次产生的四类缺陷比例相同 Ha:三个班次产生的四类缺陷比例不同拒绝标准是什么?如果计算值:2=(fo-fe)2/fe大于自由度为(r-1)*(c-1)=(3-1)*(4-1)=6 的表格中的临界值,则拒绝零假设。同样地,如果p值小于.05,则拒绝零假设。按下列格式在Minitab中输入数据:,现在已有了数据,第一步该怎样做?,列联表(Contingency Tables),GraphPlot,在显示框中填写数据,将其绘图!,说明:在缺陷类型与班次之间似乎存在某种依赖关系:缺陷2在班次2中比预期值大。缺陷2在班次3中比预期值小。缺陷4在班次2中比预期值小。,将其绘图!,StatTablesCross Tabulation,列联表,fo,观测频率,df=(3-1)(4-1),“St Resid”(标准残差)大的单元不能与其它单元的型式不一致,对总卡方值产生很大的影响。,标准残差标准残差的平方是该单元的2 值。.422=(13-11.56)2/11.56,fe,预期频率fe=(总行数)x(总栏数)总计fe=94 x 38=11.56 309,列联表,卡方分布,(r-1)(c-1)=df(自由度)其中 r=行数 c=栏数,你的任务是减少医院设备的服务呼叫次数。有5个医院都在使用3种型号相同的设备:MR(1),CT(2),和X-Ray(3)。现在设法确定在医院和需要服务的设备类型之间是否有什么关联。在Minitab中输入以下数据:,课堂练习:服务电话减少,列联表,将数据制图,并加以说明计算自由度运行交叉制表得出结论,分析步骤:,p+z*p(1-p)/n,z*p(1-p)*,(p1-p2)+,1 1n1 n2,+,2(Chi-square),精确二项式检验,Poisson 置信区间,正态 泊松(Poisson)近似法 近似法,单比例比较2个比例超过2个比例(及双向表),大n(样本容量)p不太接近0或1np10及n(1-p)10,大n(样本容量)较小的缺陷比例(p0.10),下表总结了本部分中所用的方法。,Z是为满足置信度要求而从正态分布中产生的值。,离散数据分析的统计方法,下图显示何时使用正态法、何时使用Poisson法。合理方法的选择取决于样本容量和缺陷比例。,注:使用卡方检验法比较两个以上的比例,或具有2个变量的情况。,大样本容量缺陷比例不过小 也不过大 np10 和 n(1-p)10 使用正态近似法,p=10/n,p=.10,Use Poisson Approximation,0 n=20 50 100 150 200 250,1.00.90.80.70.60.50.40.30.20.10.0,比例,样本容量,使用Poisson 近似法,p=1-10/n,收集更多的数据,或采用精确二项式方法,棕色和红色为可接受黄色、橙色、蓝色和绿色为缺陷样本1是一包10盎司装的普通M&M样本2是一包10盎司装的花生M&M1.分别画出以上两个样本的4种类型缺陷的Pareto图形(参见第4至7页)。2.计算两个样本缺陷比例间差异置信度为99%的置信区间。先用手算(16页),然后,再借助minitab(24页)进行计算。3.运用卡方检验检查两个样本的所有六种颜色的比例是否相同。切记将数据画图,参见25-35页(将颜色以数值而非文本的形式输入,只有这样Minitab才能将数据绘制成图)。额外练习:计算两种M&M(普通和花生)中每种颜色所占的比例。将不同颜色的比例 以图形表示,两种不同的M&M以不同的颜色和符号标识。,以适当的方式处理M&M(或让教师适当处理),课堂练习-M&M,关键概念-第6部分离散数据的置信区间 和假设检验,使用Pareto图形确定哪种类型的缺陷出现的频率最高,最应加以重视。对于那些不接近0.0或1.0的比例,可以使用正态近似法计算1个样本和2个样本差值的置信区间和假设检验。对于较小的比例(p.10),可以使用Poisson近似表或精确二项式方法计算1个样本的置信区间和2个样本的假设检验。如果你具有一个双向表,首先将数据制图并寻找其间的关系,然后,运用显著性的卡方检验确定所观察到的差异是否是偶然产生。,附录,其它离散工具,1.属性数据电子表格(Attribute Data Spreedsheet)(小心使用小比例的样本容量计算)计算比例的置信区间 路径:AP1FS01userspccommon6_sigmam2libraryattribut.xls2.后勤回归(Logistics Regression)因变量为离散变量时的回归分析 路径:(In Minitab)StatRegressionBinary Logistic Regression3.判别分析(Discriminante Analysis)根据独立变量(Xs)将观测值(Y)分类到两个或多个组中。路径:(In Minitab)StatMultivariateDiscriminate Analysis4.分类和回归树(CART)-Classification and Regression Trees)根据独立变量(Xs)将观测值(Y)分类到两个或多个组中。参考资料:Breiman,Friedman,Olshen,Stone,Classification and Regression Trees,Chapman&Hall,1984.5.数据采集(Data Mining)根据独立变量(Xs)将观测值(Y)分类到两个或多个组中。参考资料:参见Steve Delaney,I.T.,Poisson近似法:1个比例(大n,小缺陷次数),表中的数据为值,它满足:其中可以是置信度,也可以是(1-置信度),精确二项式检验:比较2个小比例(大n,小缺陷次数),例:涂漆表面的黑斑涂漆部门希望通过变更油漆供应商,来减少由于黑斑导致的缺陷数量。确定是否有足够的证据证明,在置信度为95的情况下,供应商1比供应商2生产的次品少(单边检验)。当缺陷比例较低时,使用“精确二项式”方法对两个工序中的缺陷比例进行比较。,精确二项式检验:比较2个小比例(大n,小缺陷次数),例:涂漆表明的黑斑检验逻辑:如果两个工序相同,缺陷应该是随机地分布于两个样本中。对于相等的样本容量(n1=100,n2=100),当缺陷按50/50平均分布时,每个供应商会有6.5次。如果实际的比例远远偏离50/50,就有足够的证据说明这两个工序是不同的。,精确二项式检验:比较2个小比例(大n,小缺陷次数),我们希望确定以3/10划分(相对于6.5/6.5)是否具有统计显著性每个小组的数量将以“二项式”概率分布使用Minitab来计算3/10或更高的比例划分偶然发生的概率,零假设(p=.50)是否为真?重新启动Minitab给 C1 取名“缺陷数量”,并输入0,1,2,3,,12,13产生一个累积概率:Calc Probability Distributions Binomial,填写如下对话框:,k1+k2=3+10=13,n1/(n1+n2)=100/200=.5,缺陷数量,在对话窗口中显示累积分布:,如果两个总体相同(p=.50),那么,在一个样本中出现的缺陷次数为3或小于3的概率为0.0461,我们得出 100(1-.0461)=95.39%置信度(单边)供应商 1的 涂料产品存在的缺陷少于供应商2的缺陷。,单击累计,拟合好坏检验举例(多比例互等性)有90只老鼠,一个接一个地经过下降通道进入三扇门中的一扇。我们想检验假设:老鼠对其中的任何一扇门没有偏好。Ho:p1=p2=p3=1/3假设每只老鼠经过下降通道一次,观测所得数据如下:n1=23,n2=36,以及 n3=31.每个门道所观察的预期频数应该相等,预期频率=90(1/3)=30=.05DF=2(k-1)2table=5.991门123观测值233631预期值3030302calc=(23-30)2+(36-30)2+(31-30)2=2.8730 30 30由于2.87小于5.991,所以,我们不能拒绝H0。从而得出结论:没有证据显示老鼠对其中的任何一扇门具有偏好。,Ho:p1=p2=p3Ha:至少有1个等式不成立2 检验统计值(近似地)服从自由度为(k-1)的2 分布,,From:Mathematical Statistics with Applications,3rd Edition-Mendenhall,Scheaffer,Wackerly,首先将数据制图:,GraphPlot,如图所示在“Data Display”中填写“Item 1”,为每一类型设备创建一个单独的符号,如图所示在“Data Display”中填写“Item 2”,创建独特的线型以连接每类设备,课堂练习解答:服务电话减少,StatTablesCross Tabulation,交叉制表的对话窗口报告,确实存在某种依赖关系!注意:这并没有说是“好的”或“差的”依赖关系,P值.05,拒绝 Ho,显著的差异主要是由于医院5。,

    注意事项

    本文(离散数据的置信区间和假设检验.ppt)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开