书签分享收藏举报版权申诉 / 244

立即下载加入VIP免费专享

当前位置：首页 > 生活休闲 > 在线阅读 > 《预防医学》人群健康研究的统计方法课件.ppt

《预防医学》人群健康研究的统计方法课件.ppt

上传人：牧羊曲112

文档编号：1574262

上传时间：2022-12-07

格式：PPT

页数：244

大小：1.79MB

《《预防医学》人群健康研究的统计方法课件.ppt》由会员分享，可在线阅读，更多相关《《预防医学》人群健康研究的统计方法课件.ppt（244页珍藏版）》请在三一办公上搜索。

1、,人群健康研究的统计方法,统计学,医学统计学的基本概念和步骤,计量资料的统计描述,计量资料的统计推断,计数资料的统计描述,计数资料的统计推断,相关与回归,医学统计学简介,一、医学统计学的定义,统计学是一门研究数据的科学。它指导人们在科学实践中如何有效地获取数据、正确地分析数据以及合理地解释所得到的结果。,医学统计学是统计学的一个分支。它是把概率论和数理统计学的基本原理和方法应用于医学科学领域，涉及医学研究设计、数据搜集、数据整理和数据分析的一门应用性学科。,医学研究的对象是人，而人既具有生物属性，又具有社会属性，其变异性大，影响因素错综复杂。例如：1）同样是健康人，即使年龄和性别相同，其身高、

2、体重、血压等数值有所不同；2）同一个人，即使在同一天中，其不同时间段的血压等数值有所不同；3）采用同样方案治疗某病，即使年龄、性别、病情、病程均相同，其治疗效果有所不同；,上述几例都是由于个体存在变异的结果。变异是人群的特征，医学统计学研究的对象就是来自人群的、具有变异特征的数据资料。,偶然现象,合理的,统计分析,客观规律性,如：1948年，链霉素治疗结核病的对照研究临床试验随机化原则将病人分别分配到链霉素疗效观察组与对照组(不用链霉素)。6个月治疗后观察组 55名结核病人死亡4人对照组 52名结核病人死亡14人 X光检查，观察组病人的病情比对照组有更大的改善,又如：孕期补充维生素

3、(叶酸)与婴儿神经管缺陷80年代初，有文章报道孕期补充维生素(叶酸)可以减少生育神经管缺陷婴儿的危险。据报道，先服用维生素后怀孕的妇女比怀孕后才开始服用维生素的妇女和拒绝参加试验的怀孕妇女所生的婴儿神经管缺陷的发生率要低。,参加服用维生素试验和拒绝试验的孕妇之间存在某些生理特征上的系统差别，致使在解释试验结果时发生困难。这不能不认为是因实验设计缺乏周密考虑所造成的经验教训。补救随机化分配受试者叶酸补充组安慰剂组样本人数过少无法作出肯定的科学结论,1991年大样本的随机化试验获得了肯定的科学结论怀孕妇女新生儿神经管缺陷安慰剂组 602名 21名叶酸补充组 592名 6名统计

4、学分析证实，叶酸对预防新生儿神经管缺陷确有明显的效果,学习医学统计学的重要性医学统计学在医学领域里具有不可低估的重要性，是医学科学工作者不可缺少的知识和技能。,第一节统计学中的几个基本概念,第一章医学统计学的基本概念和步骤,一、总体和样本,总体（population）根据研究目的确定的同质的全部研究对象。有限总体：总体中个体的总数是有限的。无限总体：总体的时间、空间未加以限制，总体中的个体数可无限增加。如研究糖尿病人的血压测定值；由于无时间和空间的限制，全部糖尿病人的血压测定值为无限总体。,样本（sample）根据随机化的原则从总体中抽出有代表性的一部分观察单位。抽样：

5、抽取样本的过程。统计推断：对样本进行观察，用样本的特征推断总体的特征。是研究人群健康经常用到的方法。,二、同质和变异,同质（homogeneity）指被研究指标的非实验因素相同.,变异（variation）指在同质的基础上各观察单位（或个体）之间的差异。同性别、同年龄、同地区、同体重儿童的某项指标有高有低，称为某项指标的变异。,被研究指标：儿童身高影响较大、易控制的因素：性别、年龄、民族、地区（相同）,三、参数和统计量,参数（parameter ）描述总体的统计指标。如研究中国12岁以上男性的吸烟率，观察12岁以上的全部中国男性，登记他们的目前吸烟情况，计算出的吸烟率即为参数。,统计

6、量（statistic）描述样本的统计指标。用随机的方法从总体中抽出一部分12岁的男性，计算的吸烟率称作统计量。,四、误差,误差(error)：观察值与实际值之差。主要有3种：系统误差，随机测量误差，抽样误差,1. 系统误差在资料的搜集过程中，因试剂未标定、仪器未校正、标准未统一等而导致测量结果有倾向性的误差。应严格控制，它影响结果的准确度。,2. 随机测量误差在试剂、仪器已校正，操作方法已统一的情况下，由于偶然因素的影响，导致同一研究对象在多次测定中结果不一致的情况。应控制在允许范围内。,3.抽样误差由于抽样而使某变量值的统计量与总体参数不相同。抽样误差不可避免，但它可以用

7、统计学方法处理。,五、概率,概率(probability)描述随机事件发生可能性大小的数值，常用P表示。小数或百分数。 P值的范围：介于0和1之间。 P值愈接近1，表示事件发生的可能性愈大； P=1，表示该事件一定会发生； P值愈接近0，表示事件发生的可能性愈小； P=0，表示该事件一定不会发生；,在医学统计学中，主要是处理大概率和小概率的问题。大小概率的分界点为0.05（5%）。习惯上称P0.05为小概率事件，表示在一次实验或观察中该事件发生的可能性很小。统计分析中的很多结论都是带有概率性的。,六、变量及变量值,变量（variable）：观察对象的特征或指标如，性别，年龄，体重变量值(

8、value of variable)：测量的结果如，性别男、女年龄数值，体重测量值,第二节统计资料的类型,定量,计量资料 measurement data用定量的方法对观察单位进行测量取得的资料。如身高、体重、血压等。,计数资料 enumeration data用定性的方法取得的资料。如性别，职业等,等级资料 rank data将观察对象按照某种属性分为几个等级的资料。如将贫血分为轻、中、重3个等级，治疗效果分为显效、好转、有效和无效4个等级等。,资料类型不同，选择的统计分析方法也不同较常见的是计量资料和计数资料，区分方法：计量资料：（1）可以是任意数，如整数、小数、正数、负数；（2）有

9、明确的计量单位，如 kg, cm。计数资料：（1）只能是正整数；（2）无计量单位。,资料间的相互转化：,血红蛋白正常与异常（计数资料）,正常否,重度贫血，中度贫血，轻度贫血，正常，血红蛋白增高（等级资料）,含量多少,血红蛋白含量（g/L）（计量资料）,第三节统计工作的基本步骤,1.设计 2.搜集资料 3.整理资料 4.分析资料四个步骤相互联系,科学、周密、严谨的设计是搜集准确可靠资料的保证；准确、完整、及时地搜集资料、恰当地整理资料是统计分析的基础；选择正确的方法分析资料和表达资料可获得科学的结论。,一、设计（design）,调查设计,实验设计,专业设计,统计设计,资料搜集,资料整理,

10、资料分析,三个原则,对照,重复,随机,二、资料搜集 (data collection) 资料来源： 1. 统计报表医院工作报表、疫情报表 2. 报告卡传染病、职业病、肿瘤、出生、死亡 3. 日常医疗卫生工作记录门诊及住院病历 4. 专题调查或实验要求：及时、完整、准确参与搜集资料人员的选择是关键。高素质、有相关专业基础、以往曾有类似研究经历严格培训和管理,三、资料整理(data sorting)目的：将搜集到的原始资料系统化、条理化，便于进一步计算统计指标和深入分析。整理前：要对资料再次检查与核对，发现缺项或错项较多的调查表，须补查或剔除。审查无误后，设计分组分组方式常用的有两种：

11、,1. 质量分组将观察单位按属性和类别分组，如按性别、职业、病种等分组。2. 数量分组将观察单位按数值大小分组，如划分年龄组、身高组等。,手工汇总或计算机汇总,四、资料分析(data analysis) 根据研究设计的目的、要求、资料的类型和分布特征选择正确的统计方法进行统计分析：统计描述统计推断,第四节医学统计学的应用,一、拓宽医学研究思路二、医学科研设计科学合理三、资料准确可靠四、选择合适分析方法及正确解释结果,小结 SUMMARY,一、医学统计学定义运用概率论和数理统计的基本原理和方法，结合医学实际，研究数据收集、整理和分析的一门应用性科学。二、几个基本概念,1.总体和样本总体

12、：同质的全部研究对象。有限总体，无限总体样本：总体中有代表性的一部分,2.同质和变异同质：被研究指标的非实验因素相同变异：在同质的基础上各观察单位之间的差异,3.参数和统计量参数：总体统计量：样本4.误差观察值实际值主要有3种：系统误差，随机测量误差，抽样误差,5. 概率可能性大小，常用P表示。 P值的范围：0-1 分界点为0.05（5%）。P0.05为小概率事件。6. 变量及变量值变量：指标变量值：观察值,三、统计资料类型计量资料、计数资料、等级资料四、统计工作的基本步骤 1.设计：专业、统计 2.搜集资料：准确、完整、及时 3.整理资料：质量分组，数量分组 4.分析资

13、料：统计描述，统计推断五、医学统计学的应用,返回目录,第二章计量资料的统计描述,第一节计量资料的频数分布,例某农村地区2001年14岁女孩的身高资料如下，请编制频数表和观察频数分布情况。表某农村地区2001年14岁女孩的身高资料（cm）,一、频数分布表及其制作 1计算极差或全距（range）常用R表示 R=最大值-最小值即R162.6-125.9=36.7（cm） 2决定组段和组距组段：10个左右下限，上限组距（class interval）：相邻两组段下限值之差。等距，“极差组段数”的整数值,本例：分10个组段组距极差组段数=36.7/10=3.67（cm）取整为4

14、cm 第一个组段的下限应略小于最小值，即取124cm 最末组上限要略大于最大值，即取164cm。3列表划记,某农村地区2001年14岁女孩的身高资料（cm）,频数分布图,两个重要的特征,集中趋势（central tendency）身高的测量值虽然高低不等，但向中间集中，中等身材（140-144cm）的人数最多离散趋势 (tendency of dispersion)随着身高测量值逐渐变大或变小，人数越来越少，向两端分散,第二节集中趋势指标,一、均数（mean）-算术均数描述一组计量资料集中趋势（或平均水平）的指标。总体均数：（读作mu）样本均数：适用条件：资料呈正态或近似正态分布。,

15、作用：描述数值变量资料的平均水平常用指标：算术均数、几何均数、中位数,1. 直接法,观察例数不多（如样本含量n小于30）公式：,：求和，读作sigma，xi：各观察值， n：总例数,例有8名正常人的空腹血糖测定值（mmol/L）为6.2，5.4，5.7，5.3，6.1，6.0，5.8，5.9，求其均数。,5.8（mmol/L）,2. 加权法,观察例数很多，先编制频数表，再计算,（自学）,fi 每组的频数 xi 组中值- （下限+上限）/2,二、几何均数（geometric mean）表示法：G 适用条件： 1.资料呈偏态分布，但经对数变换后呈正态分布； 2.观察值间呈倍数关系或近似倍数

16、关系的资料。如抗体的平均滴度、药物的平均效价等。,计算方法： 1.直接法：观察例数不多（如样本含量n30）,例有8份血清的抗体效价分别为 1:5, 1:10, 1:20, 1:40, 1:80, 1:160, 1:320, 1:640, 求平均抗体效价。,将各抗体效价的倒数代入公式，得：,=lg-1(1.752575)=57即血清的抗体平均效价为1：57,2. 加权法：观察例数很多时采用,（自学）,三、中位数和百分位数 (一)中位数（median）定义：一组由小到大排列的观察值中位置居中的数值中位数是一个位置指标，以中位数为界，将观察值分为左右两半。表示法：M适用条件：资料呈明显

17、的偏态分布；开口资料；资料分布不清楚,计算方法： 1. 直接法（n较小时）（1）将观察值按大小顺序排列；（2）n为奇数 n为偶数,例（1）有7个人的血压（收缩压）测定值（mmHg）为： 120，123，125，127，128，130，132，求中位数。（2）若又观察了一个人的血压值为118(mmHg)，求中位数。,（1）M=127 (mmHg),（2）M=(125+127)/2=126(mmHg),2. 频数表法（n较大时）参见百分位数计算公式,（二）百分位数（percentile）把一组数据从小到大排列，分成100等份，各等份含1%的观察值，分割界限上的值就是百分位数。它

18、是一个位置指标。 Px中位数是第50百分位数，用P50表示。第25，第75，第95百分位数记为P25, P75, P95是统计学上常用的指标。,计算：（1）将观察值编制成频数表；（2）按所分组段由小到大计算累计频数和累计频率；（3）找出百分位数所在组（如P95所在组为累计频率为 95%的所在组）,L：Px 所在组段下限i：组距 n:总例数f：Px所在组段频数fL：小于L的各组段累计频数,例某传染性疾病的潜伏期（天）见下表，求潜伏期的第95百分位数P95,某传染性疾病的潜伏期（天）的百分位数计算表,18.4（天）,求平均潜伏期M。,10.33（天）,对于任何分布的资料都可以用中位数反映平均水

19、平。中位数不受个别特大或特小值的影响，只受位置居中的观察值波动的影响。若资料呈对称或正态分布，中位数=均数百分位数用于描述一组资料在某百分位置上的水平，常常用于正常值范围的估计。,第三节离散趋势指标,三组同龄男孩体重（kg）如下：,甲组 26 28 30 32 34 均数=30 （kg）乙组 24 27 30 33 36 均数=30 （kg）丙组 26 29 30 31 34 均数=30 （kg）,平均水平指标仅描述一组数据的集中趋势，可作为总体均数的一个估计值。由于变异的客观存在，需要一类指标描述资料的离散趋势。,常用指标：全距，四分位数间距，方差，标准差，变异系数,一、全距（ra

20、nge）定义：一组资料中最大值与最小值之差。表示法：R R最大值最小值意义：反映个体变异范围的大小。 R越大，变异度（离散程度）越大。缺点：仅考虑两端数据的差异，未考虑其它数据的变异情况，不能全面反映一组资料的离散程度，且不稳定，易受极端值的影响。,二、四分位数间距（quartile interval）定义：上四分位数QU（P75）与下四分位数QL（P25）之差，即包括了全部观察值中间的一半。表示法： Q意义： Q值越大，说明变异程度越大。常用于描述偏态分布资料的离散程度。缺点：该指标比全距稍稳定，但仍未考虑每个观察值。,某传染性疾病的潜伏期（天）,QL(P25)所在组在潜伏期为8组，

21、L=8, fx=48,i=4, fL=26;QU(P75)所在组为12组，L=12，fx=25，i=4，fL=74，分别代入公式得,三、方差（variance）和标准差（standard deviation）克服极差和四分位数间距不能反映每个观察值之间的离散情况这一缺点离均差总和=总体中每个观察值xi与总体均数之差的总和 =（ xi - ）=0 离均差平方和=（ xi - ）2 受观察单位数的影响取离均差平方和的均数：方差,方差（variance）：离均差平方和的均数,样本方差用S2表示，公式,总体方差用2表示，公式,标准差（standard deviation）：方差开平方，取平方

22、根的正值。（恢复原度量单位）总体标准差、样本标准差的公式分别为：,（n-1）和（fi-1）为自由度（degree of freedom）,适用条件：对称分布，特别是正态或近似正态分布资料,意义：说明资料的变异程度，其值越大，说明变异程度越大,S甲=3.16（kg）； S乙=4.74（kg）； S丙=2.92 （kg）,标准差的应用：1.表示观察值的变异程度。标准差愈小，说明观察值的离散程度愈小，从而也反映了用平均数反映平均水平，其代表性愈好。 2. 估计医学参考值范围。标准差在科技论文报告中经常与算术均数一起使用。3. 计算标准误。4. 计算变异系数。,四、变异系数（coefficien

23、t of variation）表示法：CV 适用条件：比较度量单位不同或均数相差悬殊的两组（或多组）资料的变异程度。公式：,例某地调查110名20岁男大学生，其身高均数为 172.73cm，标准差为4.09cm；其体重均数为 55.04kg，标准差为4.10kg，试比较两者变异度。,身高 CV=（4.09/172.73）100%=2.37%体重 CV=（4.10/55.04） 100%=7.45%,该地20岁男大学生体重的变异度大于身高的变异度,第四节正态分布和医学参考值范围,一、正态分布正态分布（normal distribution）,高峰位于中央（均数所在处）、两侧逐渐降低

24、且左右对称、不与横轴相交的光滑曲线。正态分布是一种重要的连续型分布。,正态分布和标准正态分布的概率密度函数（probability density function）,正态分布的概率密度函数为：,标准正态分布的概率密度函数为：,正态分布,u=(X- )/ ,标准正态分布,二、正态分布的特征,正态曲线（normal curve）在横轴上方均数处最高；正态分布以均数为中心，左右对称；正态分布有两个参数，即均数与标准差，常用N(, 2)表示，用N（0，1）表示标准正态分布。其位置与均数有关，形状与标准差有关。标准差大，离散程度大，正态分布曲线则“胖”，反之，则“瘦”；正态分布的面积分布有一定的规

25、律性。,三、正态曲线下面积的分布规律,四、医学参考值范围,（一）参考值（reference ranges）的意义医学参考值：正常人指标测定值的波动范围。,（二）制定参考值的基本步骤,1从正常人总体中抽样按随机化原则和方法进行抽样研究抽取样本含量要足够大，最好在100例以上,2决定取单侧还是双侧 3. 选定合适的百分界限参考值范围是指绝大多数正常人的测定值应该所在的范围。习惯上指80、90、95或994选定适当的方法进行参考值范围的估计,(三) 参考值范围的估计方法,利用某农村地区2001年14岁女孩的身高资料（cm）求95%的参考值范围。从图可以看出该资料基本服从正态分布，因此采用正

26、态分布法公式。本例的，S=6.58，双侧95%的参考值范围为：,=（130.18155.98）（cm）,总结,一、集中趋势指标（说明一组同质资料的平均水平）均数，几何均数，中位数二、离散趋势指标（说明一组同质资料的离散度大小）全距，四分位数间距，方差，标准差，变异系数三、正态分布和医学参考值范围 1.正态分布图形，特征，面积分布规律 N(,2)，N（0，1） 2.参考值范围,参考值范围的估计方法,百分范围（%）,单侧,双侧,95,99,返回目录,第三章计量资料的统计推断,统计分析,统计描述,统计推断,用统计指标、统计表和统计图来描述资料的分析规律及其数量特征,总体参数估计,假设

27、检验,统计推断（statistical inference）通过样本统计量信息推断相应总体参数的方法。包括对总体参数的置信推断及参数间差异的假设检验。,第一节均数的抽样误差和总体均数的估计,一、均数的抽样误差和标准误1. 均数的抽样误差( sampling error of mean ) 由抽样而造成的样本均数与总体均数的差异或各样本均数的差异。2.标准误 standard error( SE, SEM ) 样本均数的标准差。反映均数抽样误差大小的指标。,: 总体标准差 n：样本含量,S : 样本标准差,计算公式,标准误越小，说明样本均数与总体均数越接近，样本均数的代表性越好,意义,用途,（

28、1）衡量抽样误差大小（2）估计总体均数的置信区间（3）用于假设检验,例：对某地成年男性红细胞数的抽样调查中，随机抽取了100名成年男性，调查得到其均数是5.381012/L，标准差为0.441012/L，求其标准误。,n=100 s=0.441012/L,（1012/L）,二、 t 分布（t-distribution）,X1,X2,X3, N ( , 2 ),N (0,1 ),u 分布,X1,X2,X3, N ( , 2x ),N (0,1 ),Sx,t 分布,x,Sx,(nu)t分布形状,N(0,1),=n-1n:样本含量,表示法：双侧单侧,用途：1. 总体均数置信区间的估计 2. 用于

29、t检验,自由度相同时，P值， t值 P值相同时，自由度， t值自由度时， t值=u值,三、总体均数置信区间的估计 1、总体均数的点值估计（point estimation） 2、总体均数的区间估计（interval estimation）置信度（ confidence level）：估计正确的概率（1-） 95%，99% ：错误概率，0.05，0.01 置信区间 confidence interval（CI）：,按一定的置信度估计总体均数所在的区间,按一定的置信度估计得到的区间,n 较大时，总体均数的95%可信区间,n 较小时，总体均数的95%可信区间,例从某年某地20岁健康男

30、大学生中抽得110名的一个样本, 求得身高的均数为172.73cm, 标准差为4.09cm, 试估计该地20岁健康男大学生身高均数的95置信区间。,该地20岁健康男大学生身高均数的95置信区间为(171.97, 173.49) cm,(172.731.960.39 , 172.731.960.39) =(171.97, 173.49) cm,例从某年某地20岁健康男大学生中抽得11名的一个样本, 求得身高的均数为172.25cm, 标准差为3.31cm, 试估计该地20岁健康男大学生身高均数的95置信区间。,该地20岁健康男大学生身高均数的95置信区间为(170.03, 174.47) cm

31、,=11-1=10，查附表9-1得t0.05/2（10）=2.228(172.252.2280.996, 172.252.2280.996)=(170.03, 174.47),总体均数的95置信区间,100次抽样，可得到100个置信区间，平均有95个置信区间包括客观存在的总体均数，只有5个置信区间未包括总体均数,第二节假设检验的基本思想和基本步骤,例根据大量调查，已知健康成年男子脉搏均数为72次/分。某医生在山区随机抽查25名健康成年男子，获得其脉搏均数为74.2次/分，标准差为6.5次/分，问该山区成年男子的脉搏是否不同于一般？,一、假设检验的基本思想引起两个样本均数不相等的原因有两种

32、可能： 1、来自相同的总体，由于抽样误差所致； 2、来自不相同的总体，由于本质差异所致。假设检验就是在这两者中作出决策的过程。,二、假设检验的基本步骤,1、建立检验假设，确定检验水准（1）两种假设 H0: 无效假设（null hypothesis）差异由抽样误差所致 H1: 备择假设（alternative hypothesis）（2）两侧检验：单侧，双侧（3）检验水准（显著性水平） =0.05,双侧检验： H0: H1: =0.05单侧检验： H0: H1: （或） =0.05,2、计算统计量 3、确定P值，作出统计推断结论,u 值 p值结论0.05 不拒绝 H0，差异无统计学意

33、义（1.645）1.96 0.05 拒绝 H0，差异有统计学意义（1.645）,t检验,单样本t检验：样本均数与总体均数的比较,成组t 检验：两个样本均数的比较,配对 t 检验：配对资料的比较,第三节 t检验和u检验,u检验,适用条件：正态分布，总体方差齐同,一、样本均数与总体均数的比较,例根据大量调查，已知健康成年男子脉搏均数为72次/分。某医生在山区随机抽查25名健康成年男子，获得其脉搏均数为74.2次/分，标准差为6.5次/分，问该山区成年男子的脉搏是否不同于一般？,总体均数:大量观侧得到的稳定值或理论值。0,1、建立检验假设，确定检验水准2、计算检验统计量t,3、确定概率,=n-1

34、=25-1=24,查t界值表：t0.05/2（24）2.064 t=1.6920.054、判断结果按=0.05水准，不拒绝H0，尚不能认为该山区成年男子的脉搏不同于一般。,1、建立检验假设，确定检验水准2、计算检验统计量t,3、确定概率,=n-1=25-1=24,查t界值表：t0.05（24）1.711 t=1.6920.054、判断结果按=0.05水准，不拒绝H0，尚不能认为该山区成年男子的脉搏高于一般。,该山区成年男子的脉搏是否高于一般？,二、配对资料的比较,差数的均数,差数的标准差,差数均数的标准误,n 对子数,【例】某医院用某中药治疗高血压病人10名，治疗前后舒张压的变化情况如

35、下，试问此药有无降压作用？,1.建立检验假设，确定检验水准 H0： H1：2.计算统计量t值已知,则,3.确定P值由t界值表得 t0.05/2,9 = 2.262, t0.01/2,9 = 3.250本例t=3.936 t0.01/2,9 P0.01,4.判断结果在概率水平下拒绝H0，可以认为该中草药有降血压的作用。,三、两个样本均数的比较,的标准误,合并方差,【例】用两组小白鼠分别给以高蛋白和低蛋白饲料，实验期间自出生后28天至84天共8周，观察各鼠所增体重（mg），结果如下。问两组膳食对小白鼠增加体重有无不同? 高蛋白组 134 146 104 119 124 161 107 83

36、 113 129 97 123 低蛋白组 70 118 101 85 107 132 94,1、建立假设,确定检验水准,2、计算统计量t值,已知,则,3、确定概率,t=1.891 ， ,4、判断结果,在的概率水平下不拒绝H0；即尚不能认为两组膳食对增加小白鼠体重的影响的差异有显著性意义。,n150 and n250,例：某地抽样调查了部分健康成人的红细胞数，其中男性360人，均数为4.661012/L，标准差为0.5751012/L；女性255人，均数为4.1781012/L，标准差为0.2911012/L，试问该地男、女红细胞数的均数有无差别？,u检验正态近似检验,用途：两个或两个以上样本

37、均数的比较使用条件：1.样本来自正态总体 2.样本相互独立 3.总体方差齐同,第四节方差分析（Analysis of variance，ANOVA）,例：随机抽取50-59岁男性正常者、冠心病人、脂肪肝患者各11人，测定空腹血糖值(见下表)，试推断这三类人群总体均值是否相同?,正常组冠心病组脂肪肝组 4.75 6.26 5.78 4.75 4.36 6.68 4.77 5.24 5.44 4.61 4.67 5.86 4.49 4.55 5.67 4.02 5.18 5.24 5.03 4.61 5.42 4.57 5.12 5.14 4.21 5.26 6.09 4.88 4.83 5

38、.74 4.62 5.59 5.72,单因素方差分析（one-factor ANOVA）,单方向方差分析（one-way ANOVA）,一、单因素方差分析,变异 SS 与自由度（1）总变异 SS总= 总=N-1 （N：总例数）全部观察值与总均数差异的平方和（2）组内变异 SS组内= 组内=N-k （k：组数）全部组内观察值与组均数差异的平方和（3）组间变异 SS组间= 组间= k-1 各组均数与总均数差异的平方和,SS总= SS组内+ SS组间,总= 组内+ 组间,2. 均方 MS （1）组内均方 MS组内= SS组内/ 组内（2）组间均方 MS组间= SS组间/ 组间3. F 值

39、 F = MS组间/ MS组内,单因素方差分析步骤,1. 建立检验假设，确定检验水准,H0: 1=2 = a H1: i j , =0.05,2. 计算统计量F （1）计算各部分离均差平方和：,SS总= =,SS组间= =,SS组内= SS总-SS组间,（2）计算自由度：,总=N-1 组间= k-1 组内=N-k,（3）计算均方：,（4）计算统计量F：,F = MS组间/ MS组内,MS组间= SS组间/ 组间 MS组内= SS组内/ 组内,单因素分析的方差分析表,3. 确定概率，判断结果,查F表，得到F0.05，（组间, 组内) 的临界值，如果FF0.05，（组间, 组内) ，则p0.05，

40、拒绝H0。,4. 列方差分析表,变异来源,SS,MS,F,P,总,组间,组内,正常组冠心病组脂肪肝组 4.75 6.26 5.78 4.75 4.36 6.68 4.77 5.24 5.44 4.61 4.67 5.86 4.49 4.55 5.67 4.02 5.18 5.24 5.03 4.61 5.42 4.57 5.12 5.14 4.21 5.26 6.09 4.88 4.83 5.74 4.62 5.59 5.72,ni,50.70 55.67 62.78 169.15 ( ),11 11 11 33 ( N ),4.61 5.06 5.71 5.13 ( ),234.52 2

41、84.71 360.12 879.35 ( ),（1）计算离均差平方和,H0: 1=2 =3 , H1: 1、2、3不等或不全相等 =0.05,1. 建立检验假设，确定检验水准,2. 计算统计量F,SS总= =879.35-867.02=12.33,SS组间=,SS组内= SS总-SS组间=12.33-6.70=5.63,（3）计算均方,（4）计算统计量F F= MS组间/ MS组内=3.35/0.19=17.63,（2）计算自由度,总=N-1=33-1=32 组间= k-1 =3-1=2 组内=N-k=33-3=30,MS组间= SS组间/ 组间=6.70/2=3.35 MS组内= SS

42、组内/ 组内=5.63/30=0.19,4. 列方差分析表,查F表得到：F0.05(2,30)=3.32， F0.01(2,30)=5.39 F=17.635.39，则 p0.01,拒绝H0 可认为三组人群的空腹血糖有显著性差异,3. 确定概率，判断结果,方差分析表,变异来源,SS,MS,F,P,组间,组内,总,6.70 2 3.35 17.63 0.01,5.63 30 0.19,12.33 32,MS误差:误差均方（单因素：MS组内） : 残差离均差的自由度 = n-k a: 组间跨度， a= j i +1 查q值表，如果 | q | 则P ,拒绝H0。,二、多个样本均数间的两两比较 q

43、-检验,样本均数排序，编秩次,a=3，组内 =30，q 0.01(30,3)=4.458.46，p0.01，拒绝H0。,Group 脂肪肝组冠心病组正常组 Mean 5.71 69.30 4.61 Rank （1) (2) (3),H0: A=B H1: A B , =0.05,1. 建立检验假设，确定检验水准,2. 计算统计量q:,3. 确定概率，判断结果,两两比较计算用表,比较组,组间跨度a,统计量 q,q(30,a)临界值,P值,（1）,（2）,（3）,=0.05,=0.01,（4）,（5）,（6）,(1)与(3),3,8.46,3.49 4.45,0.01,(1)与(2),(2)与

44、(3),2,5.00,2,3.46,2.89 3.89,2.89 3.89,0.01,0.05,结论：在0.05水平上，三组均数差别都有显著性差异，脂肪肝组和冠心病组均高于正常组，脂肪肝组高于冠心病组。,第五节假设检验中的二类错误及注意事项,第类错误（type error）拒绝了实际上成立H0。“弃真”() 第类错误（type error）接受了实际上不成立的H0。“存伪”(),一、两类错误,（1- ）：检验效能（power of test）当两个总体确实存在差异时，所使用的统计检验能够发现该差异的能力。,二、注意事项资料必须合乎随机化原则选用的假设检验方法应符合其应用条件实际

45、差别大小与统计学意义的区别判断不能绝对化单双侧检验的选择,总结,一、均数的抽样误差及总体均数的估计二、假设检验的基本思想和基本步骤三、t检验和u检验四、方差分析五、假设检验中的两类错误及注意事项,标准误,返回目录,例：1. 某地某年为了解该地区居民饮用含氟过高水人群氟斑牙情况，调查了甲区560人，乙区1200人。其中，甲区患病人数为106人，乙区为122人。甲乙两地农村蛲虫感染情况调查,甲地蛲虫感染156人,乙地蛲虫感染101人。,第四章计数资料的统计描述,计数资料：绝对数,一、相对数的概念 1.绝对数在调查研究中所获得的某种性质类别一系列原始计数数据。反映事物的绝对水平或实际水

46、平。仅由绝对数还不能进行更深入的分析比较。例1 患病情况乙区比甲区多（122-106）=16人能否说乙区比甲区患病情况严重？例2 蛲虫感染人数甲地比乙地多（156-101）=55人能否肯定甲地比乙地人群蛲虫感染程度更为严重？,例1 甲区患病率=（106/560）100%=18.93% 乙区患病率=（122/1200）100%=10.17% 甲区患病情况比乙区严重。例2 已知甲地调查244人,乙地调查158人甲地感染率156/244 10063.9 乙地感染率101/158 10063.9 两地人群蛲虫感染的严重程度是一样的。,2.相对数两个有关联的数据之比。用以说明事物的相对

47、关系, 便于对比分析。,相对数与绝对数的关系：互相补充,二、常用相对数1. 构成比 proportion: 作用：表示事物内部某一构成部分在全部构成中所占的比例公式：事物内部某一构成部分的观察单位数构成比 100 事物各构成部分观察单位数的总和 A = 100 A+B+C+,说明：,（1）构成比的特点是各部分的数值总和为100%。,（2）构成比中某一部分所占比重的增减，相应会影响其他部分的比重。,（3）构成比只能说明比重大小，不能反映事物发生的频率或严重程度。（率与构成比的区别）,某地区5种急性传染病的死亡情况 1990年 1998年病名死亡人数构成() 死亡人数构成()

48、伤寒-副伤寒 33 10.96 14 10.61 流脑 27 8.97 23 17.42 痢疾 210 69.77 71 53.79 白喉 26 8.64 13 9.85 百日咳 5 1.66 11 8.33 合计 301 100.00 132 100.00,举例：,2. 率 rate 定义：一定时间内，某现象实际发生数与可能发生该现象的总数之比作用：说明某现象发生的强度或频率公式：某现象实际发生的例数率比例基数可能发生该现象的总例数比例基数 %，1/万，1/十万,某地某时期某病新发病例总数发病率该地同期平均人口数某地某时期死亡总数死亡率该地同期平均人口数,注意

49、：（1）比例基数可根据习惯用法确定，算得的率保留一、二位整数，如死亡率，自然增长率等用%，肿瘤死亡率用 1/十万。（2）计算率时，分母不宜太小。（3）率不能直接相加。,举例：某县某年恶性肿瘤死亡统计年龄人口数死亡数死亡专率(1/10万) 0 356980 11 3.08 15 232505 22 9.46 30 205032 142 69.26 50 121882 443 363.47 85 20047 107 533.75 合计 936446 725 77.42,定义：两个有关指标之比,作用：反映两者的对比水平。通常以倍数或百分数()表示。,公式: 相对比甲指标/乙指

50、标(或 100),3、相对比 relative ratio,举例：某年某地出生婴儿中，男性婴儿数为316人, 女性婴儿数为303人, 则出生婴儿性别比例,316/3031.04,4、动态数列( dynamic series ),定义：一系列按时间顺序排列的统计指标(包括绝对数、相对数和平均数)。,作用：说明事物在时间上的变化和发展趋势,常用指标：绝对增长量，发展速度与增长速度，平均发展速度与平均增长速度,（1）绝对增长量,1) 累计增长量=报告期指标-基期指标2) 逐年增长量=报告期指标-前一期指标,（2）发展速度与增长速度,1) 定基发展速度=（报告期指标/基期指标）100%2) 环比发