[临床医学]第四章总体均数的估计与假设检验.ppt
《[临床医学]第四章总体均数的估计与假设检验.ppt》由会员分享,可在线阅读,更多相关《[临床医学]第四章总体均数的估计与假设检验.ppt(177页珍藏版)》请在三一办公上搜索。
1、第四章,总体均数的估计与假设检验,第一节 均数的抽样误差与标准误,一、抽样误差与标准误,概念:抽样研究的目的就是要用样本信息来推断总体特征。由于存在变异,抽样后各个样本均数往往不等于总体均数,且各样本均数间也不一定相等。这种由抽样造成的样本均数与总体均数的差异或各样本均数之间的差异称为抽样误差,抽样误差是不可避免的。,若某市某年14岁健康女生身高资料服从=155.4cm,=5.30cm的正态分布。从该正态分布N(155.4,5.32)的总体中随机抽样,每次样本含量n=10,共抽取100次,得到100个样本的样本均数和标准差,频数分布见表。,100个样本均数的分布,样本均数的频数分布图,提示样本
2、均数的抽样分布具有如下特点:1.样本均数未必等于总体均数;2.各样本均数间存在差异;3.样本均数围绕总体均数,呈正态分布;4.样本均数的变异范围较原变量的变异范围大为缩小。(100个样本均数的均数为155.52cm,标准差为1.63cm),理论可以证明:若从正态总体 中,反复多次随机抽取样本含量固定为n 的样本,这些样本均数 也服从正态分 布,即 的总体均数仍为,样本均数 的标准差为。,1.从正态总体中重复随机抽取样本含量为n的样本,样本均数也服从正态分布;2.从偏态总体中重复随机抽样,当样本含量n足够大时(n 50),样本均数也近似服从正态分布;3.样本均数的总体均数 等于原总体均数;,数理
3、统计推论与中心极限定理,抽样分布,抽样分布示意图,抽样分布,抽样分布示意图,4.样本均数的标准差比原个体值的标准差要小,标准差为:(理论值)(估计值),标准误的意义(SE):即样本均数的标准差,反映样本均数间 的离散程度,也反映样本均数与总体均数 间的差异,说明均数抽样误差的大小。标 准误越大,说明抽样误差越大,用样本统计 量作为总体参数估计值的可靠程度越差。,二、标准误的用途,1.表示抽样误差的大小:标准误越小说明 抽样误差越小,样本均数与总体均数越 接近,用样本均数推论总体均数的可靠 性越大;2.用于估计总体均数的可信区间;3.用于均数的假设检验。,例:为了解某地1岁婴儿的血红蛋白浓度,从
4、该地随机抽取36名1岁婴儿,算得血红蛋白的平均浓度为121.3g/L,标准差为8.2g/L。计算该次抽样的标准误。,(g/L),大量研究资料显示,当地1岁婴儿血红蛋白的平均浓度为123.7g/L,标准差为11.9g/L。计算该次抽样的标准误。,(g/L),三、标准差与标准误的区别和联系,区别:1.意义:标准差:描述观察值之间的离散程度,标准差越小,表示观察值围绕均数的分布比较集中,说明均数的代表性较好;标准误:描述样本均数的离散程度,表示抽样误差的大小,标准误小,表示抽样误差小,样本均数与总体均数较接近,用样本均数推断总体均数的可靠性大。,2.表示方法:标准差:标准误:3.计算公式:标准差:标
5、准误:,4.用途:标准差:用于估计变量值的分布范围,制定医学参考值范围。标准误:用于估计总体均数的可信区间、假设检验。,5.与样本含量的关系:标准差:随着样本含量的增多,逐渐趋于稳定(一般200例以上)。标准误:随着样本含量的增多,逐渐减少.若样本含量趋近于总体观察单位的数量,则标准误趋近于0,抽样误差几乎消失。,联系:1.两者均是表示变异程度大小的指标:说明观察值之间的变异程度用标准差,说明统计量之间的变异程度用标准误。2.标准误与标准差的大小成正比,当样本含量不变时,标准差越大标准误也越大。,第二节 t 分布,一、t 分布的概念,随机变量XN(m,s2),标准正态分布uN(0,12),s,
6、0,m,1,N(m,s2/n),标准正态分布uN(0,12),m,0,1,N(m,s2/n),标准正态分布uN(0,12),m,0,1,在实际工作中,通常未知,常用S作为的估计值,但 已不再服从标准正态分布,而是服从自由度为=n-1的 t 分布。,二、t 分布的图形与特征,不同自由度下的 t 分布图,1.t 分布的图形,t 分布曲线是一簇曲线。当自由度不同时,曲线的形状不同。当时,t分布趋近于标准正态分布,但当自由度较小时,t分布与标准正态分布的差异较大。t分布曲线的形状随自由度的大小而变化。,2.t 分布的特征,.单峰分布,以0为中心,左右对称;.自由度 越小,则t 值越分散,t分布的峰部越
7、矮而尾部翘得越高;因此,t分布曲线下面积为95%或99%的界值不是一个常量,而是随自由度大小而变化的;,.当时,t分布逼近标准正态分布,故标准正态分布是t分布的极限分布(特例)。.t分布的唯一参数是自由度。,t 分布界值表,t 分布界值表,表示方法:单尾概率t值:t,双尾概率t值:t/2,3.t界值表的特点:(1).在同一自由度下,|t|值越大,概率P值越 小;(2).在相同|t|值时,双侧概率P值为单侧概 率P值的两倍;(3).概率P值一定的情况下,自由度越大,|t|值越小;自由度越小,|t|值越大;,(4).当100时,双侧t的界值接近标准正态分布的u值,=时,t 值=u值。(5).表示方
8、法:单尾概率t值:t,双尾概率t值:t/2,。,三、t分布的应用 1.总体均数的区间估计;2.t 检验。,第三节 总体均数的估计,一、可信区间(CI)的概念,1.点值估计:用相应样本统计量直接作为 其总体参数的估计值。优点:估计方法简单易行;缺点:没有考虑抽样误差的大小;缺乏概率的保证。,2.区间估计:按预先给定的概率,所确定 的包含未知总体参数的可能范围。该范围 称为总体参数的可信区间或置信区间;预先 给定的概率1称为可信度或置信度,常取 95%或 99%。若无特别说明,一般取双侧 95%。,.可信区间确切涵义:从总体中作随机抽样,根据每个样本可算得一个可信区间,如95%的可信区间,意味着作
9、100次抽样,算得100个可信区间,有95个可信区间包含总体均数(估计正确),有5个可信区间不包含总体均数(估计错误)。5%是小概率事件,对一次抽样而言出现的可能性很小,因此,在实际应用中,就认为总体均数在算得的可信区间内。,图4-2 模拟抽样成年男子红细胞数100次的95%可信区间示意图,*,*,*,*,*,*,.可信区间通常由两个数值即可信限构成,较小的称下限,较大的称上限,可信区间是开区间。.可信区间是随机的,总体参数是固定的,所以可信区间包含总体参数的可能性为1-.,可信区间的两个要素 1.准确度:反映在可信度的大小,1-越接 近1,可信区间包含的概率越大。2.精密度:反映在区间的宽度
10、,区间宽度愈 窄,精密度越高。若在样本量确定的情况下,两者是矛盾的,视情况而定。但不能笼统地认为99%可信区间比95%可信区间好,一般95%较为常用。要同时提高准确度和精密度,须增加样本含量。,二、总体均数可信区间的计算,1.未知,n较小:按t 分布计算:,双侧:,单侧:,例:为了解某地1岁婴儿的血红蛋白浓度,从该地随机抽取25名1岁婴儿,测得其 血红蛋白平均数为123.7g/L,标准差 为11.9g/L。估计该地1岁婴儿血红蛋 白的平均浓度。,2.已知或未知,但是n足够大(100)时,按正态分布原理计算可信区间。,已知:,未知,但n足够大:,双侧:,双侧:,单侧:,单侧:,例:某地抽得正常人
11、200名,测得其血清 胆固醇的均数为3.64mmol/L,标准 差为1.20mmol/L,试估计其95%可 信区间。,三、可信区间与医学参考值范围的区别,1.意义:医学参考值范围:绝大多数正常人的解剖、生理、生化等指标的波动范围;个体值的波动范围 总体均数的可信区间:按预先给定的概率,确定的未知总体参数可能所在的范围;总体均数可能所在的范围。,医学参考值范围:,双侧:,百分位数法:,单侧:,2.计算公式:,已知或未知,但n足够大:,未知,n较小:,双侧:,双侧:,或:,总体均数的可信区间:,3.应用:医学参考值范围:进行统计描述;绝大多数观察对象某项指标的分布范围;判断某项指标正常与否 总体均
12、数的可信区间:进行统计推断;估计未知的总体均数所在范围;进行均数的假设检验。,第四节 假设检验(hypothesis testing),一、假设检验的基本思想:,根据研究目的,先对总体的参数或分布做出某种假设,然后用适当的统计方法,根据样本提供的信息,对所做出的假设进行检验,依据检验结果做出是否拒绝该假设的判断,这种方法称为假设检验(又称显著性检验)。,是利用小概率反证法思想,从问题的对立面H0出发,间接判断要解决的问题H1是否成立。然后在H0成立的条件下计算检验统计量,最后通过所获得的P值加以判断。当P值小于或等于预先规定的概率值,即是小概率事件。根据小概率事件的原理:小概率事件在一次抽样中
13、发生的可能性很小,如果它发生了,则有理由怀疑原假设H0,认为其对立面H1成立,该结论可能犯大小为的错误.,例:根据大量调查,已知健康成年男子的脉搏均数为72次/分。某医生在某山区随机调查25名健康成年男子,求得脉搏均数为74.2次/分,标准差为6.0次/分,能否认为该山区的成年男子的脉搏均数高于一般成年男子的脉搏均数?,由于样本均数有抽样误差,对一个样本均数X与一个已知的或假设的总体均数0作比较,它们之间差别可能有两种原因造成:,由于抽样误差所致,山区男子脉搏的总体 均数与一般成年男子的脉搏总体均数相同,也是72次/分,现在所得样本均数74.2 次/分,仅仅是由于抽样误差造成的,统计上称之为差
14、异无统计学意义。,2.由于环境条件的影响,两个均数间有本质 差异,即山区男子脉搏总体均数与一般男 子脉搏的总体均数不同。现在所得样本 均数74.2与总体均数72有本质性差别,不 是抽样误差的原因。统计上称之为差异有 统计学意义。为判断由何种原因引起的差异,必须通 过假设检验来回答这个问题。,如何判断?利用反证法的思想,假设它们属于同一总体,如果差异不大,可以用抽样误差解释,则可以认为它们属于同一总体;如果差异很大,不能用抽样误差解释,则可以认为它们不属于同一总体。多大的差异算是由抽样误差造成的?,根据抽样分布理论计算t值或u值,求得P值来判断。如果差异大,检验统计量就大,所对应的 P值就小;当
15、P值小于预先规定的概率值(0.05或0.01)则为小概率事件,即在一次抽样中发生的可能性很小,如果它发生了,就有理由认为假设不成立,认为假设的对立面成立。这个结论的正确性冒着犯5%错误的风险。,二 假设检验的一般步骤:,1、建立检验假设,确定检验水准(1)H0:0(检验假设、无效假设)(2)H1:0(备择假设、对立假设)注意:检验假设针对的是总体,非样本;H0和H1相互联系、对立的假设,缺一不可;H0的形式一般为:某两个(或多个)总体参数相等、两总体参数差为0,或无效;H1的内容要反映出检验的单双侧。,单侧、双侧检验:.一般情况用双侧检验,较为稳妥。.双侧检验:甲组均数大于乙组均数或乙组均数大
16、于甲组均数的情况均可能出现,宜用双侧检验;.单侧检验:根据专业知识,已知甲组均数不会小于乙组均数,可应用单侧检验;.单侧检验较双侧检验更容易得出“有统计学意义”的结论,应在有充分专业依据时使用;应用单侧检验时应说明。,(3):检验水准,是预先规定的概率值,它确定了小概率事件水准。在实际工作中常取0.05,但并非一成不变,可以根据不同的目的给予不同的设置。检验水准:是预先规定的拒绝域的概率值(犯型错误的概率)。,假设检验中,先提出假设,然后在假设成立的前提下看实际抽到的样本是否属于小概率事件,若属于小概率事件,则拒绝该假设;若不属于小概率事件,则不拒绝该假设。,2、选定检验方法,计算检验统计量
17、应根据变量和资料的类型、设计方案、统计推断的目的、方法的适用条件等选择检验统计量。所有检验统计量都是在H0成立的前提条件下计算出来的。,3、确定P值,作出推断结论 P值的含义:指从H0 规定的总体中随机抽 得等于及大于和/或等于及小于现有样本获 得的检验统计量值的概率。P值的大小一般通过一个检验统计量的值 来衡量。将获得的事后概率P,与事先规定的 概率检验水准进行比较得出结论。推断的结论:统计结论和专业结论,将获得的概率P值与检验水准进行比较,得出结论。P,拒绝H0,接受H1,可以认为总体参数有差异(可以认为样本统计量差异有统计学意义)P,不拒绝H0,不可以认为总体参数有差异(不可以认为样本统
18、计量差异有统计学意义),P时,拒绝H0,接受H1。作出这一结论的理由是:在H0成立的条件下,出现等于及大于现有检验统计量的概率P,是小概率事件,在一次抽样研究中不大可能发生,即现有样本的检验统计量所提供的信息不支持H0因而拒绝它;相反,P即样本信息支持H0,就没有理由拒绝它。,结果判断:=0.05 P0.05 差别无统计学意义 0.01 P 0.05 差别有统计学意义 P 0.01 差别有高度统计学意义,第四节 t检验和u检验,1.t 检验的应用:主要用于样本含量较小(n60)、或总体标准差未知的情况。.样本均数与已知总体均数的比较;.两个小样本均数的比较;.配对设计资料均数的比较。2.t 检
19、验的应用条件:.正态性;.方差齐性。,2.u检验的应用:要求样本含量较大,或n较小但已知。.样本均数与已知总体均数的比较;.两个大样本均数的比较。,一.样本均数与总体均数的比较,进行样本均数与已知总体均数的比较,比较的目的:推断样本所代表的未知总体均数与已知的总体均数有无差别。已知总体均数:理论值、标准值或经过大量观察所得的稳定值。,检验统计量t 的计算公式及自由度:,例5.1:根据大量调查,已知健康成年男子的脉搏均数为72次/分,标准差为6.0次/分。某医生在某山区随机调查25名健康成年男子,求得脉搏均数为74.2次/分,能否认为该山区的成年男子的脉搏均数高于一般成年男子的脉搏均数?,对资料
20、进行分析:1.资料提供的信息:计量资料 已知总体均数0=72次/分,n=25,S=6.0次/分。2.应进行样本均数与总体均数比较的 t检验。3.目的:推断样本所代表的未知总体均 数与已知的总体均数有无差别。,(1)建立检验假设,确定检验水准 H0:=0,山区成年男子脉搏均数与一般成年男子的脉 搏均数相同 H1:0,山区成年男子脉搏均数与一般成年男子的脉 搏均数不同=0.05,(3)确定P值,作出统计推断结论 以=n-1=25-1=24,查t界值表,t0.052,24=2.064,tt0.052,24,P0.05,按=0.05水准尚不拒绝H0,两者的差异无统计学意义。据此资料还不能认为山区成年男
21、子的脉搏均数与一般健康成年男子的脉搏均数不同。,(2)计算统计量,(1)建立检验假设,确定检验水准 H0:=0,山区成年男子脉搏均数与一般成年男子的脉 搏均数相同 H1:0,山区成年男子脉搏均数高于一般成年男子的 脉搏均数 单侧=0.05,(3)确定P值,作出统计推断结论 以=n-1=25-1=24,查t界值表,t0.05,24=1.711,tt0.05,24,P0.05,按=0.05水准拒绝H0,接受H1,两者的差异有统计学意义。可以认为山区成年男子的脉搏均数高于一般健康成年男子的脉搏均数。,(2)计算统计量,0=72次/分,=?次/分,山区人群(未知总体),一般人群(已知总体),假设:=0
22、,0,1.833,1.711,2.492,0.01p0.05,例5.2 以往通过大规模调查已知某地新生儿出生体重为3.30kg,从该地难产儿中随机抽取35名新生儿作为研究样本,平均出生体重为3.42kg,标准差为0.40kg。问该地难产儿出生体重是否与一般新生儿体重不同?,对资料进行分析:1.资料提供的信息:计量资料 已知总体均数0=3.30kg,n=35,S=0.40kg。2.应进行样本均数与总体均数比较的 t检验。3.目的:推断样本所代表的未知总体均 数与已知的总体均数有无差别。,(1)建立检验假设,确定检验水准 H0:=0,该地难产儿与一般新生儿平均出生体重相同 H1:0,该地难产儿与一
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 临床医学 临床医学第四章 总体均数的估计与假设检验 第四 总体 估计 假设检验
链接地址:https://www.31ppt.com/p-4600907.html