3.数值变量资料的统计推断(两组资料).ppt
本科班医学统计学 Dr.朱彩华 制作,数值变量资料的统计推断两组资料均数的比较,计量资料,预防医学教研室 朱彩华,两组资料均数的比较,第一节 均数的抽样误差第二节 t分布与可信区间第三节 t检验第四节 假设检验的步骤 及其有关概念,预防医学教研室 朱彩华,统计推断,统计推断 statistical inference,如:样本均数 样本标准差S 样本率 p,如:总体均数 总体标准差 总体率,内容:参数估计(estimation of parameters)包括:点估计与区间估计2.假设检验(test of hypothesis),随机,预防医学教研室 朱彩华,统计推断,第一节 均数的抽样误差,如:样本均数 样本标准差S 样本率 P,如:总体均数 总体标准差 总体率,抽样误差(sampling error):由于个体差异导致的样本统计量与总体参数以及各样本统计量间的差别。,预防医学教研室 朱彩华,一、抽样试验,从正态分布总体N(5.00,0.50)中,每次随机抽取样本含量n5,并计算其均数与标准差;重复抽取1000次,获得1000份样本;计算1000份样本的均数与标准差,并对1000份样本的均数作直方图。按上述方法再做样本含量n10、样本含量n30的抽样实验;比较计算结果。,预防医学教研室 朱彩华,抽样试验(n=5),预防医学教研室 朱彩华,抽样试验(n=10),预防医学教研室 朱彩华,抽样试验(n=30),预防医学教研室 朱彩华,1000份样本抽样计算结果,X,标准误(即抽样误差)的大小:与S成正比与n成反比;S一定时,增大n可减小抽样误差,预防医学教研室 朱彩华,3个抽样实验结果图示,预防医学教研室 朱彩华,抽样实验小结,均数的均数围绕总体均数上下波动。均数的标准差即标准误 与总体标准 差 相差一个常数的倍数,即 样本均数的标准误(Standard Error)=样本标准差/从正态总体N(m,s)中抽取样本,获得均数的分布仍近似呈正态分布N(m,s/n)。,预防医学教研室 朱彩华,二、中心极限定理 central limit theorem,即使从非正态总体中抽取样本含量足够大时(如n30),所得均数分布仍近似呈正态。随着样本量的增大,样本均数的变异范围也逐渐变窄。,预防医学教研室 朱彩华,X 1S1X 2 S2 X ISiX nSn,x,标准误示意图,预防医学教研室 朱彩华,标准误的应用(1)表示抽样误差的大小;(2)表示样本均数(x)代表总体均数()的可靠程度:x Sx;(3)估计总体均数的可信区间;(4)假设检验。,预防医学教研室 朱彩华,第二节 t 分布与可信区间,一、t分布(t distribution)二、总体均数的估计 1.总体均数的点估计(point estimation)与区间估计 2.总体均数的可信区间(confidence interval,CI)3.总体均数差的可信区间 4.大样本总体均数的可信区间三、可信区间的解释,预防医学教研室 朱彩华,一、t分布,随机变量N(m,s),标准正态分布N(0,1),u 变换,均数 N(,),标准正态分布N(0,1),t分布自由度:n-1,预防医学教研室 朱彩华,t分布的概率密度函数,式中 为伽玛函数;圆周率(Excel函数为PI())为自由度(degree of freedom),是t 分布的唯一参数;t为随机变量。以t为横轴,f(t)为纵轴,可绘制t分布曲线。,预防医学教研室 朱彩华,t分布曲线,t分布有如下性质:单峰分布,曲线在t0 处最高,并以t0为中心左右对称与正态分布相比,曲线最高处较矮,两尾部翘得高(如V=5或1)随自由度增大,曲线逐渐接近正态分布;分布的极限为标准正态分布。,=(t u),=5,=1,预防医学教研室 朱彩华,t分布曲线下面积(附表9-1),双侧t0.05/2,92.262 单侧t0.025,9单侧t0.05,91.833双侧t0.01/2,93.250 单侧t0.005,9单侧t0.01,92.821双侧t0.05/2,1.96 单侧t0.025,单侧t0.05,1.64,预防医学教研室 朱彩华,根据 t 分布的变化特征,归纳以下两点:在相同的P条件下,越小,t值越大、越大,t值越小。在相同的条件下,P越小,t值越大。即:t值越大、P越小 t值越小、P越大 在相同的t值、条件下,双侧概率P为单侧概率P的两倍、或单侧概率P为双侧概率P的一半。,即t 值表规律:自由度()一定时,P 与 t 成反比;概率(P)一定时,与 t 成反比;,预防医学教研室 朱彩华,二、总体均数的估计,总体均数的点估计(point estimation)与区间估计:,参数的估计,点估计:由样本统计量 直接估计 总体参数,区间估计:考虑抽样误差的影响、在一定可信度(Confidence level)下,计算出包含有未知总体均数的一个范围,即为。,预防医学教研室 朱彩华,可信度与可信区间,区间的可信度(如95或99)是重复抽样(如1000次)时,样本(如n=5)区间包含总体参数(m)的百分数(概率)。常用(1-)表示可信度 值一般取0.05或0.01。,预防医学教研室 朱彩华,预防医学教研室 朱彩华,总体均数区间估计(1):虽 不知,但 n 足够大(100或50)时,的平均数 接近正 态分布则:按正态分布原理总体均数95%可信区间:1.96 S 总体均数99%可信区间:2.58 S,-,-,预防医学教研室 朱彩华,大样本总体均数的可信区间(1),预防医学教研室 朱彩华,总体均数区间估计(2):当 已知,无论 n 多大,用正 态分布法则:总体均数95%可信区间:1.96 总体均数99%可信区间:2.58,-,-,预防医学教研室 朱彩华,总体均数区间估计(3):当 不知,且 n 为小样本(如100或50)时,则:按 t 分布法,预防医学教研室 朱彩华,总体均数的可信区间,例:,预防医学教研室 朱彩华,三、可信区间的解释,95可信区间:从总体中作随机抽样,作100次抽样,每个样本可算得一个可信区间,得100个可信区间,平均有95个可信区间包括(估计正确),只有5个可信区间不包括(估计错误)。,95可信区间 99可信区间 公式 区间范围 窄 宽 估计错误的概率 大(0.05)小(0.01),预防医学教研室 朱彩华,可信区间与参考值范围的区别,预防医学教研室 朱彩华,可信区间与参考值范围的区别,