人群健康研究的统计学方法计量资料的统计推断.ppt
《人群健康研究的统计学方法计量资料的统计推断.ppt》由会员分享,可在线阅读,更多相关《人群健康研究的统计学方法计量资料的统计推断.ppt(77页珍藏版)》请在三一办公上搜索。
1、计量资料的统计推断,总体均数的估计总体均数的假设检验,第一节 总体均数的估计,均数的抽样误差与标准误 u、t分布 总体均数的估计,为什么进行抽样?,均数的抽样误差,概念:抽样引起的总体参数与样本统计量之间的差异称为抽样误差(sampling error)。均数的抽样误差:抽样引起的样本均数与总体均数的差异称为均数的抽样误差。,欲了解某地成年男子血红蛋白含量总体均数?,样本均数 样本1 样本2 样本k 各样本均数相不相同?为什么?,总体,数理统计的中心极限定理,从正态分布N(,2)中,以固定n抽取样本,样本均数的分布仍服从正态分布;即使是从偏态分布总体抽样,只要n足够大,的分布也近似正态分布;样
2、本均数的总体均数仍为,样本均数的标准差为。,标准误(standard error),样本均数的标准差称标准误,是说明均数抽样误差大小的指标,大,抽样误差大;反之,小,抽样误差小。标准误 的计算:标准误 的估计值:,影响标准误大小的因素,的大小与成正比 与样本含量n的平方根成反比,表8.1 模拟结果100个样本均数,t分布,t分布的由来t分布的特征t分布曲线下的面积,t分布的由来,变量变换,总体,样本均数,中心极限定理,标准正态分布,变量变换,未知,如果抽取例数n=5的样本k个,每个样本又都可以按公式(13.4)计算出一个t值,可将k个t值编制成频数表,作出直方图,当k无限增大时,则可得到一条光
3、滑的曲线。(式13.4)同理,如果抽取例数n=15时,仍能得到一条t分布曲线,因此,当n变化时,就可以得到不同的t分布曲线,如图13-1:,图13-1 自由度分别为1、5、的t分布,自由度,随机变量能够自由取值的个数=n-限制条件的个数,t分布的特征,t分布是一簇单峰分布曲线。t分布以0为中心,左右对称且均匀下降。其形态变化与自由度的大小有关。自由度越小,则t值越分散,曲线越低平;自由度逐渐增大时,t分布逐渐逼近u分布(标准正态分布);当=时,t分布即为u分布。,t分布曲线下面积规律,t分布曲线下总面积仍为1或100%t分布曲线下面积以0为中心左右对称。由于t分布是一簇曲线,故t分布曲线下面积
4、固定面积(如95%或99%)的界值不是一个常量,而是随自由度的大小而变化,如附表二。,附表二,t分布表的特点,附表二的第一列为自由度,其余各列为概率P,表中数值为其相应的t界值,记作t,。附表二只列出正值,若计算的t值为负值时,可用其绝对值查表。附表二右上附图的阴影部分表示t,以外尾部面积的概率。,单侧t0.05,30=1.697,其通式为单侧:P(t-t,)=或P(tt,)=双侧:P(t-t/2,)+P(tt/2,)=图中非阴影部分面积的概率为,P(-t/2,tt/2,)=1-,总体均数的估计,用样本指标估计总体指标称为参数估计,是统计推断的一个重要方面。总体均数估计的两种方法点估计:是直接
5、用统计量估计总体参数.区间估计:由于抽样误差的客观存在,因而按一定的概率(100(1-)%)估计总体均数所在的范围(亦称可信区间)。,点估计,11名18岁男大学生身高均数资料得,=172.25cm,s=3.31cm,试估计该地18岁男大学生身高总体均数?答:该地18岁男大学生身高总体均数为172.25cm,区间估计,概念:即按预先给定的概率(100(1-)%)估计参数所在的范围。该范围亦称可信区间或置信区间。,在 到 之间的概率为1-。,在 到 之间的概率为1-。,可信区间的计算,未知,且n小 未知,但n足够大 已知,例:为了解某地1岁婴儿的血红蛋白浓度,从该地随机抽取了1岁婴儿25人,测得其
6、血红蛋白的平均数为123.7g/L,标准差为11.9g/L。试估计该地1岁婴儿的血红蛋白的平均浓度。,故该地1岁婴儿血红蛋白平均值95%的可信区间为(118.79,128.61)g/L。,例 某地抽得正常成人200名,测得其血清胆固醇的均数为3.64mmol/L,标准差为1.20mmol/L,试估计该地正常成人血清胆固醇均数的95%可信区间。,故该地正常成人血清胆固醇均数的95%可信区间为(3.47,3.81)mmolL。,例13.3 某地150名3岁女孩平均身高为92.8cm,标准误为0.38cm,试估计该地3岁女孩身高总体均数的95%可信区间。,该地3岁女孩身高总体均数的95%可信区间为(
7、92.1,93.5)cm。,可信区间有两个要素,准确度:反映在可信度(1-)的大小上,即可信区间包含总体均数的可能性大小,从准确度的角度看,愈接近1愈好,如可信度99%比95%好。精密度:反映在可信区间的长度上,即长度愈小愈好。在抽样误差确定的情况下,二者是相互矛盾的,若提高了可信度,可信区间势必增大,精密度下降。因此,需要同时兼顾准确度与精密度,一般情况下,常用95%可信区间。,第二节 假设检验,假设检验(hypothesis test)亦称显著性检验(significance test),是统计推断的另一个重要方面。,例 据大量调查知,健康成年男子脉搏的均数为72次/分,某医生在山区随机调
8、查了25名健康成年男子,其脉搏均数为74.2次/分,标准差为6.5次/分,能否认为该山区成年男子的脉搏高于一般人群?,两均数不相等的原因有两种可能:由于抽样误差所致。样本来自另一总体(由于环境条件的影响,山区成年男子的脉搏确实高于一般)。,假设:山区成年男子平均脉搏数与一般人群相等 在已知总体中进行抽样,能得到这个样本的概率P为多少?通过t界值表可以确定P值,如果P是个小概率,则可认为假设不成立,反之亦然,已知总体72次/分,样本,假设检验的基本思想,小概率反证法,假设检验的基本步骤,建立检验假设,确定检验水准 选定检验方法,计算检验统计量 确定P值,作出统计推断,建立检验假设,确定检验水准,
9、假设有两种:一是无效假设(null hypothesis)或称零假设,用H0示之;二是备择假设(alternative hypothesis),用H1示之。H0和H1都是根据统计推断的目的提出的对总体特征的假设,是相互联系且对立的一对假设。建立假设前,先要根据分析目的和专业知识明确单侧检验还是双侧检验。,如何确定单侧检验还是双侧检验,样本均数(其总体均数为)与已知总体均数0的比较 目的 H0 H1双侧检验是否0=0 0单侧检验是否0=0 0或是否0=0 0,检验水准,检验水准(significance level),符号为,常取0.05。检验水准应在设计时根据专业知识和研究目的预先确定单侧检验
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人群 健康 研究 统计学 方法 计量 资料 统计 推断
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-2204638.html