假设检验与样本数量分析④——单比率检验、双比率检验ppt课件.pptx
《假设检验与样本数量分析④——单比率检验、双比率检验ppt课件.pptx》由会员分享,可在线阅读,更多相关《假设检验与样本数量分析④——单比率检验、双比率检验ppt课件.pptx(80页珍藏版)》请在三一办公上搜索。
1、假设检验及功效和样本数量分析 ,单比率检验双比率检验,功效和样本数量,(Power and Sample Size Analysis),预备知识,总体研究的一类对象的全体组成的集合。个体总体中的每一个考察的对象。样本从总体中抽出的一部分个体的集合。样本数量样本中包含的个体的数量。,总体与样本,噢!这么多健身球,应该全是合格的吧,从中抽出几个,测量一下。看看废品率。,?,我们通过样本来了解总体由样本信息作为总体信息估计值,统计推断是由样本的信息来推测总体性能的一种方法。在通过样本获得一批数据后,要对总体的某一参数进行估计和检验。,建立检验假设(如双侧检验),单样本,例如,我们想了解一种健身球生产
2、过程的不合格品率p是否为p02%,通过对样本的测量获得一批数据,然后对健身球不合格品率p进行推断,这是单样本检验的问题。,H0:p p0H1: p p0,H0:p 0.02H1: p 0.02,不合格品率为2%,不合格品率不是2%,预备知识,总体与样本,2种健身球生产过程的不合格品率应该一样吧,,?,我们通过2个样本来了解2个总体由样本信息推断2个总体相比是否有差异,统计推断是由2个样本的信息来推测2个总体性能,推断特征相比是否有显著差异。,建立检验假设(如双侧检验),双样本,例如,直径为65cm的健身球,新研制出健身球2#生产成本较低,如果生产过程的不合格品率与原来的1#产品一致,则用2#产
3、品替代1#产品。 通过对2个样本的测量获得两部分数据,然后对两种健身球(1#产品和2#产品)的不合格品率进行是否存在差异进行推断(或推断1#产品的不合格品率是否大或小于2#产品的不合格品率),这是双样本比率检验的问题。,健身球1#,健身球2#,样本间的差异是由抽样误差引起的,样本与样本所代表的总体间存在显著差异,不合格品率无差异 不合格品率有差异,H0:p 1p 2H1: p 1p 2,预备知识,二项分布的概念 二项分布(binominal distribution) 是一种重要的离散型分布。 数据属于只有两个可能结果的独立实验的结果,一个表示希望的“事件”,另一个表示“非事件”(每一观察只具
4、有相互独立的一种结果),如,通过与失败、合格与报废、有效或无效、是或否、0 或 1等。 通常,1代表抽到不合格品,0代表抽到合格品。 总体不合格品比率记作 p,样本不合格品比率记作,其中n总体中随机抽取样本个数X出现不合格品数,(X =0,1,2,3,n),二项分布,=0.1,n=5 概率分布图,n=30,n=50,n=100,=0.1, n=30、50、100 二项分布的概率分布图形,预备知识,质量部门对一批 产品进行了检验,长期以来生产过程的不合格品率10%,检验员检测了5件产品(有放回抽样),求检验到的不合格品数。,n = 总体中随机抽取样本个数X = 出现不合格品数,二项分布的概率,不
5、合格品数是0的概率,=0.59049,不合格品数是1的概率,=0.32805,同理计算不合格品数为2、3、4、5的概率,0.59049,0.32805,0.0729,0.0081,0.00045,0.00001,n足够大,分布近似正态分布.,预备知识,比率检验,比率检验,单比率检验1 Proportion-test,一个总体,双比率检验2 Proportion-test,精确检验 超几何分布,两个总体,Z检验 正态近似检验,精确检验二项分布,Z检验正态近似检验,总体服从二项分布,两个总体服从二项分布,Z检验的适用条件:样本含量n足够大, 与 均大于5,此时样本率的分布近似正态分布,可利用正态分
6、布的原理作Z检验。,当两样本含量n1及n2足够大, 及 均大于5可根据正态分布原理,进行Z检验。,Z检验的适用条件:,单比率检验,单比率检验,统计量,式中:,单比率检验1 Proportion-test,样本含量n足够大,n :样本数 :样本的比率p0:比率参考值,Z检验正态近似检验,样本比率 = xn,其中x是观察到的”成功”数,单比率检验用于根据样本数据对总体比率进行推断,确定临界值,H1:p p0,H1:p p0,H1:pp0,双侧检验,左侧检验,右侧检验,单比率检验,单比率检验,显著性水平 与拒绝域,拒绝零假设,拒绝零假设,不拒绝H0范围,Z1- a/2,Z a/2,拒绝零假设,不拒绝
7、零假设, = 0.05,Z检验 正态近似检验,Z a, = 0.05,临界值,1-=95%,Z1- a,不拒绝零假设,拒绝零假设,Z 0.975 =1.96,Z 0.025= -1.96,Z 0.05= -1.645,Z 0.95= 1.645, = 0.05, = 0.05,假设检验的例子(16),我们长园集团有个公司的一台注塑机加工某种电缆附件产品,长期以来生产过程的不合格品率p02%,估计当前生产过程的不合格品率仍为2%。 随机抽取500个产品,测量得到不合格品数为9。,建立检验假设,给定显著水平 = 0.05,1,2,计算统计量,3,双侧检验,H0:p 0.02H1:p 0.02,n=
8、500 x =9,单比率检验,单比率检验,本例样本比率提供了总体比率的估计值样本比率 =xn =95000.018比率参考值p00.02(2%)1- p =0.982,,= -0.3194,接上页,如果| Z | =0.319 Z1- a/2,4,用算得的统计量与相应的临界值作比较,则拒绝原假设;否则无法拒绝原假设。,单比率检验,反查正态分布表(右尾概率)Z临界值为: Z 0.025=1.96,Z 0.025=1.96,用算得的统计量与相应的临界值作比较 | Z | = 0.319 Z 0.025=1.96,5,作出不拒绝零假设的统计结论即:当前生产过程的不合格品率仍为2%。,计算检验 P-
9、值,P(Z-0.31 或Z 0.31)= 0.378 2 = 0.756,P = P(Z -0.31 及 Z 0.31) = 0.378 2 = 0.756,P= 0.748 = 0.05 按=0.05的水平无法拒绝零假设H0,查正态分布表查不到| Z | =0.3194,P = P(Z -0.32 及 Z 0.32) = 0.374 2 = 0.748,P(Z -0.32 及 Z 0.32) = 0.374 2 = 0.748,| Z | 临界值、未落入拒绝域及P0.05是对应的见下页图示,接上页,单比率检验,单比率检验,Z检验 正态近似检验,Z =1.96,Z = -1.96,=0.025
10、,=0.025,不拒绝零假设,拒绝零假设,拒绝零假设,临界值,临界值,双侧检验示意图(显著性水平与拒绝域 ),H0,1 = 0.95 ,Z= 0.319,Z= - 0.319,= 0.3747,Z = - 0.319 Z = 0.319,= 0.3747,P = 0.7494,| Z | 临界值则未落入拒绝域,此处Z的绝对值=0.319小于临界值1.96样本观测值落在“不拒绝零假设”范围内,| Z | 临界值则P0.05(直观易见),此处Z的绝对值=0.319小于临界值1.96假设检验的P值 = 0.7494,直观易见,0.05,0.7494,| Z | = 0.319P = 0.7494,检
11、验功效和样本数量分析,评价检验功效,假设检验的例子16,Z的绝对值=0.319小于临界值Z 0.025=1.96( P值= P = 0.7494 = 0.05 )出了不拒绝零假设的统计结论。,当H0 为假时正确否定它的概率 (p = 1 ),双侧检验,Power = 1 ( 0.02-0.018+1.96 0.0063 ) /0.0059 +( 0.02-0.018-1.96 0.0063 ) /0.0059 = 1 ( 2.4319 )+( -1.7539) = 0.0075 +0.03972 = 0.0472,检验 功效 Power = 0.0472,双侧检验,单比率检验,Power =
12、1 ( ) + ( ),参考比率标准误,样本比率标准误,将 P0 =0.02 、 =0.018 、Z /2 = 1.96(右尾概率分位数、当 = 0.05 ),= 0.0063,= 0.0059,及 p= 0.0063、Sp= 0.0059 代入上式 。, : 标准正态分布的累积分布函数,样本数量,假设检验的例子16中,如果总体比率实际为 0.02 但在样本比率=0.018时,则检测到差异的可能性为 4 .72%如果我们仍然规定可以检测到的最小差值 =0.002,并希望功效 Power =0.9需要抽取产品样本多少个?,将 Z /2 = Z 0.05/2 =1.96 、 Z = Z 0.1 =
13、1.28及 P0 =0.02 、 =0.018 代入上式,双侧检验,容许差值越小,需要样本量越大。(为使差值符合选择,有时需主观规定),检验功效和样本数量分析,双侧检验,单比率检验,接上页,sin-1:反正弦,三角函数采用弧度计算,公式中,= 48882.71733,需要抽取产品样本48883个,假设检验的例子(17),我们有一个公司生产继电保护装置,所在的主板生产中一次通过率只在97%。为了提高主板的一次通过率,六西格玛项目组对流程进行了改进。 为确定改进后主板的一次通过率是否97%。随机抽取800个产品,测量得到不合格品数为16。,建立检验假设,1,单侧检验(左),H0:p 0.03 H1
14、:p 0.03,(希望被证明),单比率检验,n=800 x =16,样本比率 =xn =168000.02比率参考值p00.03(3%),本例用不合格品率计算,可用正态近似检验,给定显著水平 = 0.05,2,计算统计量,3,= -1.66,用通过率计算结果是一样的,不合格率是小数值,一般会将小数值定义为p。,接上页,如果| Z | =1.66 Z1- a,4,用算得的统计量与相应的临界值作比较,则拒绝原假设;否则无法拒绝原假设。,单比率检验,反查正态分布表(右尾概率)Z临界值为:Z = Z 0.05 =1.64,Z 0.05=1.64,用算得的统计量与相应的临界值作比较 | Z | = 1.
15、66 Z 0.05=1.64,5,作出拒绝零假设的统计结论:不合格品率 0.03即:改进后主板的一次通过率97%,计算检验 P- 值,P(Z -1.66 ) = 0.048,P = P(Z -1.66 ) = 0.048,P= 0. 048 = 0.05 按=0.05的水平拒绝零假设H0,查正态分布表查到| Z | =1.66,| Z | 临界值、落入拒绝域及P0.05是对应的见下页图示,接上页,单比率检验,单比率检验,Z检验 正态近似检验, =0.05,拒绝零假设,不拒绝零假设,左侧检验示意图(显著性水平与拒绝域 ),H0,1 = 0.95 ,P = 0.048,Z = - 0.319 Z
16、= 0.319,= 0.3747,左侧检验 Z = -1.66 Z-1.64则落入拒绝域,左侧检验 Z = -1.66 Z-1.64则P= 0.0480.05(直观易见),直观易见,0.05,0.048,Z= -1.66,P(Z -1.66 ) = 0.048,临界值 Z = -1.64,检验功效和样本数量分析,评价检验功效,假设检验的例子17中,检验功效有多大?,当H0 为假时正确否定它的概率 (p = 1 ),左侧检验,Power = ( 0.03-0.02-1.64 0.00603 ) /0.00495 = 0.022384 =0.5089,检验 功效 Power = 0.5089(50
17、. 89%),左侧检验,单比率检验,Power = ( ),参考比率标准误,样本比率标准误,将 P0 =0.03 、 =0.02 、Z = 1.64(右尾概率分位数、当 = 0.05 ),= 0.00603,= 0.00495,及 p= 0.00603、Sp= 0.00495 代入上式 。,样本数量,上页的例子中,检验功效 Power = 0.5089(50. 89%),如果我们仍然规定 =0.01差异可以检测到,并希望检测功效 Power =0.9需要抽取产品样本多少个?(Power =1- =0.9 即 = 0.1),将 Z = 1.64 、 Z = Z 0.1 =1.28 及 P0 =0
18、.03 、 =0.02 代入上式,检验功效和样本数量分析,单比率检验,接上页,sin-1:反正弦,三角函数采用弧度计算,公式中,= 2057.656537,需要抽取产品样本2058个,:犯第II类错误 (当H0为伪时我们接受H0)的概率,左侧检验,或右侧检验,单比率检验,式中:,单比率检验1 Proportion-test,单比率检验用于根据样本数据对总体比率进行推断,精确检验二项分布,不可以做正态近似检验,n = 总体中随机抽取样本个数x = 出现不合格品数,二项分布概率,大多数教科书都使用正态近似方法,此处,补充阅读仅为对精确检验进行手动计算的理解.,精确检验,补充阅读,假设检验的例子(1
19、8),我们有一个公司对新员工的培养周期大约为60天左右,通过率(一次上岗,不需补习)一般在92%。为了适应目前公司的发展需要,对现有培训模式做出优化并缩短培训周期。 为确定改进后的培训通过率是否不低于92%。对50培训后的新员工的考核记录不记名整理如下。,建立检验假设,1,单侧检验(左),H0:p 0.92H1:p 0.92,单比率检验,样本比率 =xn =48500.96比率参考值p00.92(92%),给定显著水平 = 0.05,2,计算概率值,3,不可以做正态近似检验,事件 = 合格,先计算大于48的单侧概率,根据二项分布,= 0.06725,= 0.01547,精确检验,接上页,由于计
20、算小于等于48的单侧累积概率计算量较大,结论:P0.91728 = 0.05显著性水平,不拒绝H0。即:不能拒绝改进后的培训通过率 0.92,4,单侧检验,单比率检验,0.06725,0.01547,计算p值,值 = P X x | p = po,x=0、1、2、48,我们利用总概率等于1 计算小于等于48的单侧累积概率,=1- 0.06725 - 0.01547=0.91728,见前页计算大于48的(49、50)单侧概率,假设检验的例子(18),我们有一个公司对新员工的培养周期大约为60天左右,通过率(一次上岗,不需补习)一般在92%。为了适应目前公司的发展需要,对现有培训模式做出优化并缩短
21、培训周期。 为确定改进后的培训通过率是否不低于92%。对50培训后的新员工的考核记录不记名整理如下。,建立检验假设,1,单侧检验(右),单比率检验,样本比率 =xn =2500.04比率参考值p00.08(8 %),给定显著水平 = 0.05,2,计算概率值,3,不可以做正态近似检验,事件 = 不及格,先计算小于2的单侧概率,根据二项分布,= 0.06725,= 0.01547,例子(18)用不及格率计算,一般会将小数量值定义为p,H0:p 0.08H1:p0.08,精确检验,接上页,结论:P0.91728 = 0.05显著性水平下不拒绝H0即:不能拒绝改进后的培训不及格率 0.08,4,单侧
22、检验(右),单比率检验,0.06725,0.01547,计算p值,与前两页(不能拒绝改进后的培训通过率 0.92)意义相同,值 =P X x | p = po,由于计算大于等于2的单侧累积概率计算量较大,x=2、3、50,利用总概率等于1,=1- 0.01547 -0.06725 =0.91728,见前页计算小于2的(0、1)单侧概率,检验功效和样本数量分析,单比率检验,精确检验,补充阅读,精确检验对于所有样本数量都是准确有效的,双比率检验,双比率检验2 Proportion-test,Z检验 正态近似检验,两个总体服从二项分布,当两样本含量n1及n2足够大,Z检验的适用条件,可进行Z检验,大
23、于5,大于5,统计量,式中:,n1 :样本1个数n2 :样本2个数,样本公共比率,其中X1和 X2 是样本1和样本2中的”成功”数,d : 两总体比率差值,:样本1的比率:样本2的比率,当检验两总体比率差值d=0时,式中:,双比率检验用于根据两个随机样本中的数据对两个总体比率之间的差值进行推断。,双比率检验,检验两总体比率差值 d =p1 p2 = 0,假设检验的例子(19),双侧检验,有两台波峰焊设备,1号设备生产的板件中随机抽取1600个产品,得到优等品的件数为320;2号设备生产的板件中随机抽取2000个产品,得到优等品的件数为360。 为确定两台波峰焊设备产出优等品率是否一致,采用双比
24、率检验。用显著性水平=0.05 进行检验,可用正态近似检验,大于5,大于5,=x1n1 =32016000.2,=x2n2 =36020000.18,两总体”成功”比率合并估计值:,样本1的比率,样本2的比率,=0.189,H0:p 1-p2 =0H1:p 1-p2 0,1,给定显著水平 = 0.05,2,计算统计量,3,建立检验假设,(两个总体比率相等),(两个总体比率存在差异),=1.523,接上页,4,查临界值,反查正态分布表(右尾概率)Z临界值为: Z 0.025=1.96,Z 0.025=1.96,用算得的统计量与相应的临界值作比较 | Z |=1.523 Z 0.025=1.96,
25、5,作出不拒绝零假设的统计结论两台波峰焊设产出优等品率是一致的,计算检验 P- 值,P = P(Z1.52 ) = 0.067,P = P(Z -1.52 及 Z1.52 ) = 0.067 2 = 0.134,P值= 0.134 = 0.05 按=0.05 的水平无法拒绝零假设H0,查正态分布表 | Z | =1.52,双比率检验,双侧检验, /2=0 .025双侧检验临界值= 1.96,显著性水平 =0 .05、 /2=0 .025,(右尾概率),| Z | 临界值与P值0.05是对应的,两台波峰焊设产出优等品率是一致的,双比率检验,假设检验的例子(20),右单侧检验,有两台相同设备,1号
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 假设检验 样本 数量 分析 比率 检验 ppt 课件
链接地址:https://www.31ppt.com/p-1322423.html