研究生统计学讲义第3讲总体均数估计和假设检验.ppt
第四章 第一节 总体均数的估计,一.样本均数的分布和 t 分布(P49),在抽样研究中,即使是严格遵守随机抽样原则,从同一总体中每次抽取样本含量相等(都为n)的样本,计算每一个样本的样本均数,由于变异存在,样本均数有大有小,不尽相同,是随机变量,其分布称为样本均数的分布。这里介绍样本均数的两条常用性质:,情形当抽样来自均数为,方差为 的正态分布总体时,样本均数的分布(抽样分布)有下面的性质,1.的分布是正态的,2.设 分布的均数是,则=,3.设 的方差是,则=,是总体标准误.,情形 当抽样来自均数为,方差为 的非正态分布总体时,样本均数的分布(抽样分布)有下面的性质:,1 的分布是近似正态的,随样本容量的增加,靠近正态的程度就越好一般地,的抽样分布靠近正态分布所需要的样本容量取决于最初分布的外形在几乎所有的情形里面,对 的抽样分布,样本容量在30或以上就可以得到很好的正态近似(均数的这个性质就是众所周知的中心极限定理Central Limit Theorem),2.设 分布的均数是,则=,3.设 的方差是,则=,是总体标准误.,由第1条(均数抽样分布的正态或近似正态)将在后面推出强有力的统计推论两种情形中的第3条表明,与个体观测值相比较,样本均数是变化较小的变量,那是因为标准误总是比标准差小的缘故,二、t 分布,在公式,中用,代替,得到:,用 S 替换产生了一个不同的样本分布如果值未知又必须估计它,用估计值替换所得变量的分布称为 t 分布这个分布是19世纪在英国Guinness 啤酒厂工作的发现,在1908年以笔名“Student”发表因此有时称为Students t 分布,这个分布族取决于参数n1,(4-4),是具有=0,=1的标准正态分布,而 是具有=0,取决于样本容量的t 分布随样本容量的增加,t 分布渐近标准正态分布见图,,t 分布的准确外形取决于被称为自由度(degrees of freedom)的数量像正态分布一样,t 分布是对称的钟形曲线,但是有点平坦,例如,它们有大的标准差对任何t 分布,自由度恰好是样本容量减1:df=n1,作为为多个t 分布的部分累积分布函数的比较已经列在附表 5 里,因为t 分布是概率密度函数,任何t 分布曲线下的面积为1在某些情形,我们必须使用固定概率(一个t 分布下的面积),留心并找出区间端点到中心0的这个概率,设这个概率是1,常常很小,规定为0.05或0.01,于是1=0.95或0.99那么为寻找这个t 0,使得,t 分布里,定位在中间的面积1,t 分布有两条重要性质:(1)从正态总体中每次随机抽取例数为n的样本,按(式4-4)计算的统计量服从自由度为df=n-1的t分布(即样本均数与总体均数相差多少个标准误服从自由度为n-1的t分布)。(2)从相互独立,总体均数分别为1,2,而标准差都为的两个正态总体中,随机抽取样本含量分别为n1,n2的两个样本,分别算出样本均数和标准差为X1和S1,X2和S2,按(式4-5)计算的统计量服从自由度为df=n1+n22的t分布。,t=,自由度df=n1+n22(式4-5),S=,(式4-6),2T 分布的规律 如附表3的 t 界值表(表中只列出正的t值),表中横标目为自由度df,纵标目为概率P,表中数字表示自由度为df时t分布的界值(critical value)。t界值有单侧和双侧两种情况:自由度为df时,t分布的双侧界值记为t/2,df,P(|t|t/2,df)=;t分布的单侧界值记为t,df,P(tt,df)=。例如,自由度df9时,由附表3的t界值表查出0.05的单侧界值t0.05,91.833,双侧界值t0.05/2,92.262,则有:P(t1.833)0.05;P(t 1.833)P(t2.262)0.025;P(t 2.262)P(-2.262 t 2.262)1-20.0250.95。,从 t 分布的界值与标准正态分布的界值可发现,同样的尾部面积,t分布的界值要大于标准正态分布的界值,当自由度df时,t 分布的界值逼近标准正态分布界值。,三.总体均数的估计(P 51),1点估计和区间估计 总体参数的估计有点估计和区间估计。由样本观察值算出总体参数的一个估计值(为统计量)称为该参数的一个点估计(point estimation)。点估计给出未知参数的一个近似值,但没考虑试验误差影响,也未指出这种估计的可靠程度。因为估计量是来自一个随机抽取的样本,每一次取值都有随机性,刚好等于待估计参数的可能性极小,而在参数值左右的情况较多。统计学上更合理的估计是在一定概率(1-)下,由含有未知参数及其点估计值所构成的统计量的分布规律估计出参数可能存在的范围,称为区间估计,(interval estimation),所给出的范围称为该参数的(1-)可信区间或置信区间(confidence interval,简记为CI)。这个范围包含参数值的可靠程度为(1-),称为可信度或置信度(confidence degree)或可信概率。,2可信区间的意义 现以总体均数的95%可信区间为例,总体参数95%可信区间的意义是:考虑总体参数的可信区间取决于所抽取的样本,在同样条件下,进行许多重复的抽样,每抽取一个样本可得到待估计参数的一个可信区间,在这些区间中,有的包含待估计的参数,有的不包含,平均说来每100个中有95个正确。,实践中一般不会去抽取许多个样本,通常只抽取一个样本,计算出一个区间,虽然无法确认这个区间是否包含了待估计的参数,但可知这种估计可信的程度为95,会冒5%犯错误的风险。因5%是小概率,在实际应用中就认为待估计的总体参数在算得的区间内。,3可信区间有两要素:一是准确度,反映在可信度(1-)的大小,即区间包含总体参数的可能性(概率)的大小,准确度越接近1越好,例如,可信度99%比95%犯错误的风险小;二是精密度,反映在区间的长度,区间的长度愈小愈精密。在可信度确定的情况下,增大样本含量,相应的界值(如t界值)减少,标准误也减小,可减小区间长度,提高精密度。在样本含量确定的情况下,可信度(1-)愈大,总体参数估计的准确度愈高,但精密度愈差。二者是矛盾的,为兼顾准确度和精密度,常用95%可信区间。,4.单个总体均数的估计 样本均数是总体均数的一个点估计。已知时,按(式4-3)计算的统计量服从标准正态分布,根据标准正态分布的规律 P(-u/2 u u/2)=1-,有,已知时,正态总体均数的双侧(1)可信区间计算公式为(4-7),未知时,按(式4-4)计算的统计量服从 t 分布,由t分布的规律 P(-t/2tt/2)=1-,而往往未知,有了抽样分布,对任何样本,在预先不知道总体特性的任何知识时,利用抽样分布可以产生总体均数的置信区间,解这个不等式,把关心的参数从中间分离出来,就得到置信度为1的总体均数的置信区间为:,注意t 0和t 0由自由度n1和置信水平确定,和 来自样本自身,所以在没有任何额外知识的情况下就能够确定置信区间,(4-8),t0=t/2,例4.2 从同一批号的逍遥丸中随机抽检5丸,测得其崩解时间(月)为21,18,20,16,15。已知药丸崩解时间服从正态分布,求该批药丸崩解时间总体均数的95%、99%可信区间。,解:5个观测值的样本均数=18,标准差s=2.55,df=5-1=4,查 t 界值表,双侧 t0.05(4)=2.776,t0.01(4)=4.604,则这批药丸崩解时间总体均数的95%可信区间为(14.83,21.17)月,99%的可信区间为(12.75,23.25)月。,置信区间(confidence internal)的意义 在样本被抽出之前计算总体均数的一个置信区间,人们声称在给定的概率下它包含在样本抽出后所计算的置信区间,如同前面所述,它或者包含(P=1)或者不包含(P=0),这就是在公式里使用C(confidence)而不是概率P(probability)的理由换句话说,全部区间的95%实际上包含了见图,具有n=?,科学论文或实验报告中报道一个样本均数时,需要列出平均数加标准误和样本容量,(右上公式)用这种方式报道均数,允许读者作出自己的置信区间来解释统计量与参数的关系,置信区间的两要素 置信区间有两个要素,一是准确度,反映置信度(1-)的大小,即区间包含总体均数的可能性(概率)的大小,准确度越接近1越好,例如,置信度99%比95%犯错误的风险小;二是精密度,反映区间的长度,区间的长度愈小愈精密。在样本含量确定的情况下,二者是矛盾的,不能笼统地认为99%置信区间比95%置信区间好,需要兼顾准确度和精密度。在置信度确定的情况下,一般来说,增大样本含量,相应的界值(如t界值)减少,标准误也减小,可减小区间长度,提高精密度。一般情况下,常用95%可信区间。,置信区间和置信限,95%置信区间,CI,CL,第二节 假设检验,一、假设检验的的基本思想,假设检验(hypothesis testing)亦称显著性检验(significance test),它和参数估计是统计推断的两个重要内容。假设检验是先对总体的特征(如总体的参数或分布、位置)提出某种假设(hypothesis),如假设总体均数(或总体率)为一定值、总体均数(或总体率)相等、总体服从某种分布、两总体分布位置相同等等,然后根据随机样本提供的信息,运用“小概率原理”推断假设是否成立。假设检验通过随机样本认识总体的结论有助于作出正确的专业结论。,所谓小概率原理,就是“在一次试验中,概率很小(接近于零)的事件认为是实际上不可能发生的事件”。例如,假设在1000支复方大青叶注射液针剂中只有一支是失效的,现在从中随机抽取一支,则取得“失效的那支”概率为1/1000,这个概率是很小的,因此,可以认为在一次抽取中是不会发生的,若从中任取一支恰好为“失效的那支”,我们就有理由怀疑“失效概率为1/1000”的假设不成立,而认为失效率不是1/1000,从而否定假设。否定假设的依据就是小概率原理。,例4.3 已知正常成年男子脉博平均为72次/分,现随机检查20名慢性胃炎所致脾虚男病人,其脉博均数为75次/分,标准差为6.4次/分,能否认为此类脾虚男病人的脉博快于健康成年男子的脉博?,这里,两个均数的差异有两种可能:,(1)差异完全由抽样误差引起,即总体是相同的,这类脾虚男病人的脉博均数()与健康人(0=72次/分)相同,=0,=75次/分与0=72次/分的差别完全是抽样误差造成的;,(2)差异主要因总体不同所致,即这类脾虚病人的脉博均数()与健康人(0=72次/分)不同,72次/分,对于这两种可能,统计上通过检验前一种可能来作出判断,假设检验的目的是排除差异完全由抽样误差所致的可能性。方法是:先假设差异完全由抽样误差所致,在这个假设下,计算检验统计量(如t值、u值等),按样本统计量的概率分布规律,求出获得现有样本检验统计量值的概率,如果出现了小概率事件,就拒绝这个假设;如果没有出现小概率事件,则没有理由怀疑这个假设,所以不拒绝这个假设。这种推断方法的特点是依据小概率原理,采用类似于数学中逻辑论证的反证法,但又区别于纯数学中逻辑推理的反证法。因为这里并不是形式逻辑中的绝对矛盾,而是基于人们在实践中广泛应用的小概率原理。所以,可以说假设检验的基本思想是某种带有概率性质的反证法。,假设检验有两种类型:(1)参数检验(nparametric):在许多问题中,总体分布的类型为已知,只是一个或几个参数未知,只对未知参数作出假设,然后根据随机样本提供的信息,选取检验统计量,按检验统计量的分布规律,用“小概率原理”推断假设是否成立。,绍的 t 检验、u 检验,第五章介绍的方差分析等。,(2)非参数检验(nonparametric):是一种与总体分布无关的统计检验方法,它不比较参数,而是比较分布的位置。当不知道样本来自的总体分布类型或已知总体分布与检验所要求的条件不符,可用非参数检验。详见第十一章。,二、假设检验的一般步骤,1.建立假设并确定检验水准,(1)建立假设:,假设需根据研究的目的对总体的特征而提出。假设有两种:一种是检验假设(hypothesis to be tested),假设差异完全由抽样误差造成,常称无效假设(hull hypothesis),用H0表示。,另一种是和H0相对立的备择假设(alternative hypothesis),用H1表示,H1通常是希望证实的情况。假设检验是针对H0进行的,希望用样本数据推断H0是假的,从而证实H1是真的。假设检验的结果是在零假设H0和对立假设H1之间作出抉择。当拒绝H0时,接受H1,认为差异有统计意义;当不拒绝H0时,认为差异无统计意义,则不接受H1。,建立假设涉及检验方向:以H0为准,如果根据专业知识或研究目的,H1不能肯定方向,则假设检验的方向是双侧的,称为双侧检验(two sided test)。如果根据专业知识或研究目的,H1肯定方向,则假设检验方向是单侧的,称为有单侧检验(one sided test)。也就是说,单侧指实验结果向一个方向变化的。,以样本均数(其总体均数为)与已知的总体均数(已知的总体均数用0表示)比较为例,如例4.2,如果根据专业知识已知此类脾虚病人的脉博不会低于健康人,或是研究者只关心此类脾虚病人的脉博是否快于正常人,不关心是否慢于正常人,可用单侧检验。如果如果没有专业知识,不知此类脾虚病人的脉博快于或慢于健康人,两种可能性都存在,或是研究者只关心此类脾虚病人的脉博是否不同于正常人,目的只是推断两总体均数有无差别,不管是此类脾虚病人的脉博快于正常人还是慢于正常人,研究者都同等关心,应当用双侧检验。,例4.2的目的是推断此类脾虚病人的脉博是否快于正常人(正常人的脉博总体均数为0=72次/分),,H0为此类脾虚病对脉博数无影响,即此类脾虚病人的脉博总体均数等于正常人,用符号表示为:,H0:=72次/分,即=0,与之对应的备择假设为该类脾虚病的脉博数快于正常人,用符号表示为:,H1:72次/分,即0,(2)确定检验水准:检验水准(size of a test)亦称显著性水平(significance level),常用符号表示。是假设检验时预先确定的,用以作为判断多小的概率可以认为是小概率的水准,故称为检验水准。的大小视具体情况而定,一般取0.05或0.01,若按=0.05拒绝H0,接受H1,作出这样的判断要冒5%错误的风险。,从图4-2可以看出,同一资料、同一检验水准时,因单侧检验的界值t0.025相当于双侧检验的界值t0.05,双侧 P 为单侧 P 的两倍,所以单侧检验比双侧检验更易拒绝H0。一般认为双侧检验较为稳妥,故较为常用。,强调指出,检验水准的确定,以及选择单侧检验还是双侧检验,都应结合专业知识和研究目的,在实验设计时决定,不能等到样本结果计算完后再根据主观愿望选定。,2选取检验统计量,明确其分布,并由样本计算检验统计量值 检验统计量是指建立在无效假设H0基础上的,用于抉择是否拒绝H0而选定的样本函数。参数检验的检验统计量要求满足以下条件:在H0成立的条件下,它的分布函数是已知的;它必须包含要检验的总体参数;对于给定的样本数据,能计算出该检验统计量的数值。,假设检验通常是以选定的检验统计量来命名的,例如,以u值为检验统计量的假设检验称为u检验,以t值为检验统计量的假设检验称为t检验。检验统计量的选取,因资料不同而不同。如例4.2,样本均数与总体均数比较,如果H0(=0)成立,(0)的绝对值应比较小,一旦很大,就认为H0不成立。,检验统计量可用公式,根据自由度为df=n-1的 t 分布规律作推断,称为 t 检验。t 检验适用于小样本研究。若样本含量在50以上,可选用 u 值作检验统计量,称为 u 检验。,3确定 P 值和作出推断结论 P 值是在 H0 成立时大于等于用样本计算出的统计量值出现的概率,可以根据检验统计量的分布规律估计。用 P 值与检验水准进行比较,根据比较的结果作出统计推断。,实际工作中,已将多种检验统计量的分布规律编制出相应的界值表,只需用样本检验统计量的绝对值查相应的界值表,将检验统计量的绝对值与界值比较,即能得出 P 值,三、假设检验的两类错误,当H0为真,则H a是假的,如果我们接受H0,我们就做对了,如果我们拒绝H0,我们就犯了错误(型错误),定义 P(型错误)=拒绝一个真实的零假设的概率,这个概率用表示,在第3步选择显著性水平时就确定了显著性水平是指在零假设为真的情况下,作为拒绝H0的稀有结果的度量使用0.05,在脆玉米片例子中意思就是说:当零假设为真时,收集20个样本里,有1个特别极端,因此我们怀疑H0的准确性并且拒绝它,导致犯了一个型错误.,当H0为假,则Ha是真的,如果我们接受H0,我们就犯了错误,如果我们拒绝H0,我们就做对了,犯这种类型的错误称为型错误(Type error),定义5.1 P(型错误)=拒绝一个虚假的零假设的概率,这个概率用表示,评价它困难多,因为它取决于下面讨论的一些因素事实上当H0为假的时候,拒绝H0的概率就是1,称它为检验效率(power of the test)见表5.1,表4.5 检验H0的可能结果,因为显著水平是通过实验选择的,是受实验控制并且已知因此,当你拒绝H0时,你知道犯型错误的概率如果接受H0,确定型错误就更困难这是因为确定型错误取决于很多因素,其中一些在试验中未知于是拒绝H0更安全,因为犯错误的概率容易计算,如果显著性水平是犯型错误的概率且在控制之下,为什么不定一个更小的显著性水平(水平)来消除或减少型错误呢?例4.2中为什么不用1/10或1/1000代替1/20呢?有时我们希望做得严密,但是减少水平(型错误)始终要增大犯型错误的概率,小结:在我们控制下,显著性水平通常取0.05、0.01或 0.001按照0.05拒绝H0,我们就说结果有显著性,也就是与我们期望H0为真有显著差异;按照0.01拒绝H0,我们就说结果有高度显著性;按照0.001拒绝H0,我们就说结果有非常高度显著性在一次假设检验里面,我们要么接受、要么拒绝零假设如果我们拒绝H0,我们可能犯型错误(拒绝一个真实的H0),而如果我们接受H0,我们可能犯型错误(接受一个假的H0)因为有两类错误,在任何决定里面都有犯这种错误的潜在可能,我们绝不能够说我们“证明”H0是真的或H0是假的证明暗指不可能有错误当我们接受H0或拒绝H0的时候,正确的说法应该是:资料支持零假设,或资料支持备择假设,四、可信度和检验效能,1可信度(confidence degree)(1)称可信度。若总体间确无差别,按水准能作出正确推断的概率为(1),或者说H0为真时,阴性结论的可信程度,即不发生型错误的概率。,2检验效能(power of test)(1)称为检验效能或检出能力。若总体间确有差别,按检验水准能将真实存在的差异检验出来的概率,也就是不犯假阴性错误的概率为(1),或者说H0为假(H1为真)时,阳性结论的可靠程度,即除去假阴性率有(1)的把握得出差别有显著性意义的结论,故(1)又称为把握度,通常取0.1或0.2,此时检验效能为0.9或0.8。一般检验效能不宜低于0.75,否则可能出现非真实的阴性结果。,检验效能(1)的大小与总体间的差别、检验水准、标准差和样本含量有关:,(1)被试因素的效应越大,H0和H1涉及的不同总体间差别越大,两者在分布上的重叠面积就越小。,(2)由图4-2可见,在分布的重叠面积固定时,与呈反向变化,增大,减小,则(1)增大,故增大可提高检验效能(1)。然而,假设检验的目的大多数是希望提示被试因素的有效性高,应当要求越小越好。因此,实验设计时,必须兼顾与。,(3)标准差愈大,变量的分布愈矮胖,比较组在分布上的重叠面积愈大,(1)就越小,因此,应严格控制实验条件,减小个体差异,使标准差减小到合理水平。,(4)样本含量n增大,标准误=s/减小,均数的抽样误差减小,分布趋于集中,与都减小。由于适当增大样本可使型错误与型错误均减少,所以样本含量应适当大些。,第五节 假设检验应注意的问题(P67页),1要有严密的抽样研究设计 这是假设检验的前提,应保证样本是从同质总体中随机抽取的。组间的均衡性和可比性特别重要,2选用的检验方法应符合应用条件。如正态分布两均数比较(见第五章),不同条件下采用的检验方法、检验统计量公式、统计软件采用的分析模型是不同的,见表4-4。,3假设检验所作出的推断结论是概率性的,不是绝对的肯定或否定,拒绝H0,不能认为H0肯定不成立,因为在H0成立的条件下,出现有检验统计值及更极端情况的概率虽小,但仍有存在的可能出现,只是可能性很小而已;同理,不拒绝H0,不能认为H0肯定成立,所比较的总体可能确有差别,只是由于样本的含量太少,未能检出这种差别。而且,拒绝H0可产生第一类错误,不拒绝H0可产生第二类错误。,4P0.01比P0.05更有理由拒绝H0(假阳性率较小),而并不表示P0.01时比P0.05时实际差别更大。例如表4-5资料,可见在判断被试因素的有效性时,要求在统计上和专业上都有意义,二者必须兼而有之。,表4-5 两降压试验结果(mmHg),5是否拒绝H0,不仅决定于被研究事物被研究总体间有无差别、而且与个体差异的程度、抽样误差的大小和样本例数的多少、检验水准的高低以及单双侧检验都有关。如作均数差别的假设检验,当样本含量足够大时,即使是均数间的差别很小,也能得出较大的t值(因为样本大时,标准误小),从而P值较小,而拒绝H0;反之,当样本含量很小时,即使是样本均数差别较大,也会得出较小的t值,从而P值较大,而不能拒绝H0。,6P 0.05时,要注意差值 D 与标准差 s 的比值D/s,D/s可提示研究的价值,不同研究对D/s要求不同。例如完全随机设计的两样本均数比较,临床疗效研究一般要求D/s大于0.5以上;动物实验大多要求D/s大于0.7以上。若样本含量足够时,D/s 低于一般要求,P0.05就应当作为阴性结果无须进一步增大样本含量研究;若样本含量并不大,而D/s又高于一般要求,则可适当增大样本含量研究。,7P只表明假阳性率超过,并未涉及假阴性率的大小,如果事先未考虑适当的样本含量,假设检验出现P 时,应考虑是否检验效能偏低,检验效能(1-)一般不能低于0.8。,第六节 P 时假阴性率的估算(P69页),根据P推断差异无统计意义,实际上包含了真阴性与假阴性两种可能性,究竟属于真阴性还是假阴性,需要估计假阴性率,才能比较合理地判断。在正态分布的条件下,可以通过u1值查标准正态曲线下的面积表,来估算假阴性率。即先按式(4.20)计算u1值;以u1值查标准正态曲线下的面积表(见附表1),从附表1中查出标准正态曲线下,u1所对应的面积数值;再用1减u1所对应的面积数值,即得假阴性率的估算值。,u1=检验统计量 t 值或 u 值的绝对值u(4.20),检验统计量为 F 值或 2 值时,可利用t 2=F、u2=2(1)的关系转化为 t 值或 u 值后再估算,1配对试验的假阴性率估算,例4.3 用10对大鼠观察两种药物对股骨长度的影响,结果两组平均差值为4.5mm,差值的标准差为7.8mm,配对 t 检验的 t 值=1.824,P0.05,按=0.05水准不能拒绝H0,结论为两组差异无统计意义。判断此结论的可靠性。,为判断结论的可靠性,计算其配对 t 检验的假阴性率值,步骤如下:,(1)从附表3(标准正态曲线下的面积表)中查出双侧u0.05=1.96,,(2)按式(4.20)计算u1:u1=检验统计量t值u0.05=1.8421.96=0.136,(3)以0.136查附表3,从附表3中查出标准正态曲线下,u值0.136所对应的面积数值为0.444,估计假阴性率=10.444=0.555。故尚不能接受差异无统计意义的结论,根据样本差值D=4.5,标准差s=7.8,比值D/s=0.5770.50,提示有研究的价值,所以建议增大样本含量研究。根据差值D=4.5,若要求=0.05,=0.10,利用查表法或计算法,估计约需34对。,2两样本均数比较的假阴性率估算,例4.4 临床研究某药的疗效,用药组为n=20,均数标准差=1.8741.000;对照组为n=20,均数标准差=1.2001.067,成组 t 检验的统计量t值=2.061,P0.05,按=0.05水准不能拒绝H0,结论为两组差异无统计意义。判断此结论的可靠性。,双侧u0.05=1.96,按式(4.20):u1=检验统计量t值u0.05=2.0611.96=0.101 以u=0.101查附表3,从附表3中查出标准正态曲线下,u值=0.101所对应的面积数值为0.540,估计假阴性率=10.540=0.460,故尚不能接受该药无效的结论。根据样本差值D=0.674,合并标准差sc=1.034,比值D/sc=0.6520.50,提示有研究的价值,所以建议增大样本含量研究。根据差值D=0.674,若要求=0.05,=0.10,利用查表法或计算法,估计每组约需52例。,3样本率比较的假阴性率估算,例4.5 某中医院研究新疗法对某难治病的疗效,结果常规疗法组65例,治愈率30%,新疗法组65例,治愈率45%,两样本率比较u检验的统计量u值=1.788,P0.05,按单侧=0.05水准不能拒绝H0,结论为两组差异无统计意义。判断此结论的可靠性,单侧u0.05=1.645;按式(4.20):u1=检验统计量u值u0.05=1.7881.645=0.143 以u=0.143查附表1,从附表1中查出标准正态曲线下,u值=0.143所对应的面积数值为0.556,估计假阴性率=10.556=0.444,因假阴性率过大,并且新疗法组比常规疗法组治愈率高出50%,提示有实践意义,故尚不能接受两组差异无统计意义的结论,所以建议增大样本含量研究。根据差值D=30%45%=15%,若要求=0.05,=0.10,利用查表法或计算法,估计每组约需175例。,第七节 可信区间与假设检验的关系(P70页),假设检验和可信区间回答的问题不同,假设检验用于推断两总体均数有无差别(指质的不同),而可信区间用于推断总体均数在哪个范围(指量的大小)。但值得注意的是:,1可信区间与假设检验的结论是一致的,2可信区间比假设检验有可提供更多信息之处 可信区间不但能回答差别有无统计意义,已知有实际意义的界值时,还能提示差别有无实际意义。如图4-6。,3可信区间不能完全取代假设检验 尽管可信区间用之于统计推断可提供较多的信息,但它只能在规定的水准上告诉我们有无统计意义,而不能象假设检验得到的 P 值可以较精确地说明结论的概率保证,