离散数据的置信区间和假设检验.ppt
《离散数据的置信区间和假设检验.ppt》由会员分享,可在线阅读,更多相关《离散数据的置信区间和假设检验.ppt(51页珍藏版)》请在三一办公上搜索。
1、第6部分:,离散数据的置信区间和假设检验,目的:,目标:用Pareto图确定少数几个关键类型的缺陷。强调离散数据分析图的使用。理解缺陷比例的置信区间的用法,并计算单样本和双样本的置信区间。理解多个X变量卡方分析的用法(双向表)。使用Minitab绘图并进行分析。,在上一部分,我们借助图形、置信区间和假设检验对连续数据的分析进行了讨论。下面,我们将运用图形、置信区间和几种比例的统计检验方法对离散数据进行分析。,第6部分:离散数据的置信区间和假设检验,工具用途1.Pareto-找出少数关键 的 缺陷类型2.图形-找出变化规律以确定哪些X影响缺陷3.比例的置信区间-量化变差,以确定变化是 和假设检验
2、 否具有统计显著性 四种类型:单样本,p接近.5 双样本,p接近.5 单样本,p.1 双样本,p.14.比例的卡方(2)检验-具有多水平独立变量的比较。-研究两个变量间的关系。,离散数据导图,如果工序产生的数据是离散的,Pareto图表可以帮助我们将注意力集中在研究关键因数上。,合并那些不重要的缺陷有助于简化图形并使其对分析更有益处。,关闭所有打开的工作表和图形。打开工作表文件Pareto.mtw路径为 L:Six Sigmaminitabtrainingminitabpareto.mtw打开:Stat Quality Tools Pareto Chart,在pareto对话框中,有两种数据格
3、式选项:Chart Defects data in:(用于原始缺陷数据,栏C4 和 C5)Chart Defects Table:(用于汇总的缺陷数据栏C1和C5),Minitab可生成Pareto图,累计缺陷%,Pareto图形左边显示最大频数的缺陷,右边显示较小频数的缺陷。,Pareto图形,Pareto图形左边显示最大频数的缺陷,右边显示较小频数的缺陷。图中的曲线显示了累计的缺陷百分比。图形应该可以说明:查找造成80%缺陷的缺陷类型。在上例中,15种缺陷类型中的4种占总缺陷数量的66%,剩余35%的缺陷分别由其余的11种类型的缺陷产生。查找栏高度出现较大差异的位置。如果次品数量之间存在很
4、小的差异,那么,就不能缩小您项目的重点范围。(尝试换一种方式考虑问题,即,考虑财务上的影响,而不是缺陷的数量。),Pareto图形,可以使用对话设置将原始数据对几种不同的因数进行分析。,在图形中保留缺陷的常规顺序。考虑累积缺陷线的高度,它表示特定因素总缺陷数量。在这种情况下,缺陷大多发生在“夜间”。在被分析的因素(周期)之间,查找缺陷水平的差异。在这本例中,傍晚和周末很少产生划痕。,原始数据的Pareto图表,问题:降低客户培训服务电话的比例(百分比)。处理离散的响应变量时,您想知道的是缺陷比例如何随潜在X变量的变化而变化。注释:,n 是样本容量k 是样本的缺陷数量p=k/n 是样本中的缺陷比
5、例p 总体的缺陷比例(未知),离散数据的指引图,正态 泊松(Poisson)近似法 近似法,1个比例比较2个比例多于2个比例(及双向表格),大n(样本容量)p不太 接近0或1 np10和 n(1-p)10,大n(样本容量)比例较小(p0.10),下表总结了我们在本部分中所使用的方法。,(置信区间和假设检验),离散数据分析的类型,p+z*p(1-p)/n,z*p(1-p)*,(p1-p2)+,1 1n1 n2,+,2(卡方),精确二项式检验,Poisson 置信区间,正态 泊松(Poisson)近似法 近似法,大n(样本容量)p不接近0或1np10 和n(1-p)10,大n(样本容量)比例较小(
6、p0.10),下表总结了我们将在这一部分使用的方法。,Z值得自正态分布表,取决于所要求的置信度。,离散数据分析的统计方法,1个比例比较2个比例多于2个比例(及双向表格),下图显示何时使用正态法、何时使用泊松(Poisson)法。合理方法的选择取决于样本容量和缺陷比例。,注:使用卡方检验法比较两个以上的比例,或2个X变量。,0 n=20 50 100 150 200 250,离散数据指引图,另外,我们将使用以下重要的Z-值(来自正态表):,正态分布值,(大n,np10,n(1-p)10),例:保险索赔的精度不准确比例最可能的估计值是:p=缺陷数量/样本容量=k/n=600/2000=.30或30
7、%在总共80,000个记录中,不准确比例置信度为95%的双边置信区间为:解释:(28%,32%)是在整个80,000个记录这个总体中缺陷(不准确)比例的取值范围。,80,000保险数据库中的记录2,000为分析数据准确度而抽样的样本记录(n)1,400(70%)是准确的 600(30%)是不准确的(缺陷数量,k),p+z*p(1-p)/n.300+1.96*.3(1-.3)/2000.300+.020(.280,.320)or 28%to 32%,=,正态近似法:1个比例,假设我们希望上页的置信区间为+.010,而不是+.020,我们需要多大的样本容量?,激发想法,(大n,np10,n(1-p
8、)10),课堂练习:抛币掷币50次。记录头面在上的次数。计算头面在上的比例的 90%(双边)置信区间。,p是什么?应使用什么 Z?置信区间是多少?p=.50是否位于置信区间内?,正态近似法:单比例,GE商品质量举例:服务质量某厂商提供与GE相同的服务,其客户不满意的比例比GE的要高。该厂商声称造成这种现象的原因是样本容量太小,而并不承认是由于自己的服务质量低于GE。确定对该厂商的服务不满意的客户比例是否显著地高于GE,或者说,分析这种差异是否是由于偶然因素产生的。,缺陷数量 k1=3281 k2=48 k1+k2=_样本容量 n1=36054 n2=214 n1+n2=_缺陷比例 p1=k1/
9、n1 p2=k2/n2 p=(k1+k2)=_=_(n1+n2)=_,GE(1)其它提供商(2)总计,比较2个比例(差异的取值范围是什么),GE商品质量举例:服务质量,缺陷数量 k1=3281 k2=48 样本容量 n1=36054 n2=214 缺陷比例 p1=k1/n1 p2=k2/n2=.091=.224,GE(1)其它供应商(2),计算置信区间:,1.96*,z*,(p1-p2)+,=.133+.056=(.077,.189)(7.7%,18.9%),(.224-.091)+,.091(1-.091).224(1-.224)36054 214,+,p1(1-p1)p2(1-p2)n1
10、n2,+,解释:最可能的估计是GE客户的满意率比另一厂商的高出13%。我们有95%的把握认为,对GE的服务满意的客户比例比对另一厂商的要高出8%-19%。该区间不包括0%,因此我们有95%以上的把握认为,差异的产生是确实存在的,而不是偶然出现的。,比较2个比例(差异的取值范围是什么),例:延迟付款的供应商比例n=42 个样本(被审计的发票数量)k=1 个缺陷(延迟付款)缺陷比例的最可能估算值是:p=k/n=1/42=.024,或 2.4%在缺陷率很低的情况下,正态近似是不准确的。使用Poisson近似法计算一个比例的置信区间。,Poisson近似法:1个比例(大n,缺陷次数少),要计算缺限比例
11、的90%、双边置信区间:1.从表中查找1个缺陷的上限和下限值(.355 和 4.744).2.除以样本容量:下限=.355/42=.0085,或.85%上限=4.744/42=.113,或 11.3%延迟付款的供应商的比例取值范围是(.85%,11.3%)。,Poisson近似法:1个比例,假设您抽取10倍多的样本,发现10倍多的缺陷。现在的置信区间是:下限=6.169/420=.0147 or 1.47%上限=16.96/420=.0404 or 4.04%比较两个置信区间:最可90%2-边样本故障能的置信容量(n)数量(k)(k/n)估算值区间 42 12.4%(.85,11.3)420
12、102.4%(1.4,4.04)样本容量的增加导致新的置信区间(1.4%,4.04%)比原来的小得多。,较大样本容量的影响,课堂练习:现场检验发动机故障一年中现场检验300台发动机,发现两个缺陷。计算这个总体中存在缺陷的发动机比例95%的双边置信区间。n是什么?K是什么?表格中的缺陷下限是多少?缺陷上限是多少?,Poisson近似法:1个比例(大n,失败次数较少),例:涂漆表层的黑斑涂漆部门希望通过变更油漆供应商,来减少由于黑斑导致的缺陷数量。确定是否有足够的证据证明,在置信度为95的情况下,供应商1比供应商2生产的次品少(单边检验)。由于涉及到的是大样本容量、小缺陷次数的两个比例之间的比较,
13、我们需要使用“精确二项式”方法。此方法请详见附录。,精确二项式检验:比较2个小比例(大n,失败次数很少),Stat Basic Statistics 1 Proportion,成功次数 在此例中指缺陷。,输入,一个比例的检验和置信区间p=0.5与 p 0.5对比检验精确样本 X N 样本 p 95.0%CI P-值 1 600 2000 0.300000(0.279972,0.320616)0.000,用Minitab计算比例,Stat Basic Statistics 2 Proportions,p2,p1,两个样本的检验和置信区间 样本 X N 样本p 1 48 214 0.224299
14、2 3281 36054 0.091002p(1)-p(2)估值:0.133297p(1)-p(2)的95%CI:(0.0773320,0.189261)检验p(1)-p(2)=0(或 0):Z=4.67 P-值=0.000,用Minitab计算比例,Stat Basic Statistics 1 Proportion,一个比例的检验与置信区间p=0.5与p 0.5的对比检验精确样本 X N 样本 p 90.0%CI P-值1 10 420 0.023810(0.012973,0.040052)0.000,Minitab的区间与我们原有的区间(.014,.404)稍有不同,这是因为Minita
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 离散 数据 置信区间 假设检验

链接地址:https://www.31ppt.com/p-6326541.html