卫生统计学绪论课件.ppt

资源ID：1917785 资源大小：904.50KB 全文页数：100页
资源格式： PPT 下载积分：16金币

快捷下载

会员登录下载

三方登录下载：

下载资源需要16金币

邮箱/手机：
温馨提示：	用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）
支付方式：
验证码：	换一换

加入VIP免费专享

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

卫生统计学绪论课件.ppt

卫生统计学刘金辉宝坻区疾病预防控制中心,第一章绪论,统计学概念：统计学是处理数据中变异性的科学与艺术，内容包括数据的收集、分析、解释和表达，目的是求得可靠的结果。以往教材中概念：是研究数据的收集、整理、分析和推断的一门科学。,第一节概述,根据研究领域和研究对象的不同，统计学又分为：数理统计、经济统计、生物统计、卫生统计、医学统计医学统计学（medical statistics）：用统计学的原理和方法研究医学中的问题。卫生统计学（health statistics）：与医学统计学基本相同，但更侧重于社会、人群的卫生问题。,采用统计学方法，发现不确定现象背后隐藏的规律。变异是个体间存在的差异，是绝对的，是社会和生物医学中的普遍现象。变异使得实验或观察的结果具有不确定性，如每个人的身高、体重、血压等各有不同。,为什么要学习统计学？,最大值=6.18, 最小值=3.29, 极差=2.89,2. 用统计学思维方式考虑有关医学研究中的问题 “阳性”结果是否是虚假联系？某感冒药治疗1周后，治愈率为90%，能否说该感冒药十分有效？ “阴性”结果是否是样本含量不足？有人曾对发表在Lancet, N Engl J Med，JAMA等著名医学杂志上的71篇阴性结果的论文作过分析，发现其中有62篇（ 93%）可能是由于样本含量不足造成的假阴性。,3. 保证你的研究论文能通过统计学审查据国外6080年代对不同医学杂志发表论文的调查，有统计错误的论文的百分比最高达72%，最低也有20%。国内1984年对中华医学杂志、中华内科杂志、中华外科杂志、中华妇产科杂志、中华儿科杂志595篇论文的调查结果，相对数误用为11.2%，抽样方法误用15.9%，统计图表误用11.7%。某研究者1996年对4586篇论文统计（中华医学会系列杂志仅占6.9%），数据分析方法误用达55.7%。,4. 获得循证医学证据的主要手段“良好愿望的医学”（well-meaning medicine）转入“以证据为基础的医学” （evidence-based medicine，EBM）需要有统计学方法的支持。全世界的医学期刊每年大约刊登600万学术论文，但能作为可靠“证据”的论文并不多。,第二节医学统计工作内容及资料类型,一、原始统计数据的来源：常规保存数据医院信息系统（HIS）、统计报表等2. 现场调查记录3. 实验记录4. 其他,一、研究设计二、搜集资料三、整理资料四、分析资料五、结果表达,二、统计工作的内容,设计的内容包括资料的收集、整理和分析全过程的设想和安排。常有：1.调查设计（survey design）对研究对象不施加任何干预，通常建立随机抽样（random sampling）方案。2.实验设计（experiment design）对研究对象施加干预，如动物实验研究、临床试验，通常建立随机分组（random allocation）方案。,（一）、研究设计,实验设计的三个基本原则1. 随机化（randomization）2. 对照（control）3. 重复（replication）,（二）、收集资料,收集资料要遵循完整、准确、及时三个原则。卫生工作中统计资料主要来源于三个方面： 1.统计报表：由国家统一设计，要求医疗卫生机构定期逐级上报。如传染病防治法。 2.经常性工作记录：如经常性卫生监测记录等。 3.专题调查和实验：我们常把前两个来源称经常性资料，后者称为一时性资料。,（三）、整理资料,目的是将搜集到的原始资料系统化、条理化，便于进一步计算与分析。编码，将数据输入计算机纠错改错、补漏等,（四）、分析资料（data analysis）,运用各种统计分析方法，结合专业知识，从经过整理的资料中，计算出各种指标，进行统计描述和统计推断，反映数据的综合特征，阐明事物的内在联系与规律。1. 统计描述（descriptive statistics）：指用统计指标、统计表、统计图等方法对资料的数量特征及分布规律进行测定和描述。2.统计推断（inferential statistics）：指如何抽样，以及如何由样本信息推断总体特征问题。总体均数、总体率的可信区间及其假设检验两个总体均数、总体率差值的可信区间及其假设检验多个总体指标之间的假设检验。,（五）、结果表达,使用的统计学方法使用的统计学软件（SAS、SPSS）假设检验的统计量、P值等结论,三、资料的类型: 只有认识了数据的特点，才能正确地选用统计分析方法,基本概念：变量及变量值研究者对每个观察单位的某项特征进行观察和测量，这种特征称为变量，变量的测得值叫变量值（也叫观察值），全部变量值的集合也称为资料。,按变量值的性质可将资料分为：计量资料计数资料等级分组资料,1.计量资料（定量资料、数值变量）,定义：通过度量衡的方法，测量每一个观察单位的某项研究指标的量的大小，得到的一系列数据资料。例如：体重与身高特点：表现为数值大小有度量衡单位多为连续性资料 (通过测量得到),定义：将全体观测单位按照某种性质或特征分组，然后再分别清点各组观察单位的个数。特点：没有度量衡单位多为间断性资料（通过枚举或记数得来）可分为二项与多项定性资料,2. 定性资料（分类资料、分类变量）,定义：介于计量资料和计数资料之间的一种资料，通过半定量方法测量得到。特点：每一个观察单位没有确切值各组之间有性质上的差别或程度上的不同。示例：检查尿蛋白，观察单位是每一份尿标本，按结果等级不同可分为、、等。,3. 等级分组资料（有序变量）,1、定性数据（二项与多项）分类数据计数数据2、定量数据计量数据区间数据数值数据3、等级资料有序资料,定性与定量数据的别名,三类数据间的关系,例：一组2040岁成年人的血压（变量）,以12kPa为界分为正常与异常两组，统计每组例数,8 低血压 8 正常血压 12 轻度高血压 15 中度高血压 17 重度高血压,定量数据,等级数据,定性数据,三类数据的编码与计算(1),例：一组2040岁成年人的血压,以12kPa为界分为正常（0）与异常（1）两组，统计每组例数,8 低血压 4 1 8 正常血压 10 2 12 轻度高血压 13 3 15 中度高血压 16 4 17 重度高血压 18 5,定量数据,等级数据,定性数据,三类数据的编码与计算(2),1.定量数据:允许计算均数、标准差等（可采用t、F检验等，可当做有序或定性数据处理）2.定性数据:编码是任意的，不能对编码执行均数标准差等计算，但可计算率或比（可采用卡方检验等）调查14名男子的婚姻状况,3. 有序数据：允许基于顺序的计算，如计算中位数、百分位数（可当做定性数据处理）,第三节统计学中常用的几个基本概念,1、总体与样本2、抽样方法3、同质与变异4、误差5、频率与概率 6、参数与统计量,1.总体与样本（population & sample ）,总体：根据研究目的确定的同质的、所有观察单位的某种变量值的集合。例：2009级陕西中医学院本科女生身高； 2007年陕西中医学院大学生的身高；全国女大学生的身高（高血压病人；肥胖病人）,分类：有限总体：理论上说，观察单位的数量是可知的、有限的。无限总体：没有时间和地点的限制，观察单位总数量是不可知的。目标总体研究总体,鉴于总体的巨大或不可知性,能否研究其中的一部分？,不可能或没有必要对全体中的每一个对象进行研究,样本,概念：从总体中随机抽取的、具有代表性的部分研究对象，其实测值的集合。如何从总体中得到有代表性的一部分？得到多少合适呢？,2.随机抽样,为了保证样本的可靠性和代表性，需要采用随机的方法抽取样本（在总体中每个个体具有相同的机会被抽到样本中）。,Target population（目标总体） Population sampled（抽样总体） Sample（样本）能不能成功的达到从样本推断总体的目的，关键是抽样方法，样本的代表性和推断的技术，这些是统计学的核心内容。,概率（随机）抽样,等概率抽样,非等概率抽样,简单随机抽样,机械抽样,分层抽样,整群抽样,抽样方法：,简单随机抽样：将全部调查单位进行编号，再用随机数字表或抽签等方法随机抽取部分观察单位组成样本。,机械抽样：间隔抽样，将总的观察对象按某种顺序编号，从这些编号中按照一定的间隔抽取样本。,分层抽样：按照某种性质或者特征将总体分为若干组别、类别或区域（层），再从每一种层中用随机的方法进行抽样，获得样本。,整群抽样：将总体按照某些特征分成多个组，用随机的方法从这些组中抽取部分组作为研究对象。组中的全部观察这组成样本。,3. 同质与变异,同质与变异: 研究对象具有的相同的状况或属性等共性称同质或同质性；对于同质的各观察单位，其某变量值之间的差异，称为变异。同质事物个体间的差异来源于一些未加控制或无法控制的甚至不明原因的因素。,例如：研究某新药治疗胃溃疡的效果，所有研究对象都必须是确诊为胃溃疡的病人且病情相似，在这种同质的基础上观察治疗效果，有的人治愈，有的人未愈，这种差异就是变异。从本质上说,统计学就是研究变异的科学,4. 误差,定义：统计上所说的误差泛指测量值与真值之差，样本指标与总体指标之差。主要有以下三种：系统误差随机误差抽样误差,系统误差：指数据搜集和测量过程中由于仪器不准确、标准不规范等原因，造成观察结果呈倾向性的偏大或偏小，这种误差称为系统误差。特点：具有累加性,随机误差：由于一些非人为的偶然因素使得结果或大或小，是不确定、不可预知的。特点：随测量次数增加而减小。（随机测量误差,抽样误差）。,在消除了系统误差的前提下，由于非人为的偶然因素，对于同一样本多次测定结果不完全一样，结果有时偏大有时偏小，没有倾向性，这种误差叫随机测量误差。特点：没有倾向性，多次测量计算平均值可以减小甚至消除随机测量误差。,随机测量误差,由于抽样原因造成的样本指标与总体指标之间的差别。特点：有抽样发生抽样误差就不可避免。统计上可以计算并在一定范围内控制抽样误差。,抽样误差,（1）改进抽样方法，增加样本的代表性；样本量 n 相等的情况下：整群抽样单纯随机抽样系统抽样分层抽样（2）增加样本量n ；（3）选择变异程度较小的研究指标。,减少抽样误差的方法:,频率：样本的实际发生率称为频率。设在相同条件下，独立重复进行n次试验，事件A出现m次，则事件A出现的频率为f = m /n。概率：随机事件发生的可能性大小，用大写的P 表示；取值0，1。,5、频率与概率,必然事件 P = 1随机事件 0 P 1不可能事件 P = 0 统计学上把P 0.05（5）或P 0.01（1）称为小概率事件(习惯) ，认为不大可能发生。,Certain,Impossible,0.5,0,1,通常我们把经常遇到的事件分为三种类型:,频率与概率间的关系： 1. 样本频率总是围绕概率上下波动； 2. 样本含量n越大，波动幅度越小，频率越接近概率。,6、参数与统计量（parameter and statistic）,参数：总体的统计指标，如总体均数、总体标准差，分别用希腊字母记为、。固定的常数,推断inference,统计量：样本的统计指标，如样本均数、标准差，采用拉丁字母分别记为。参数附近波动的随机变量。,第二章集中趋势的统计描述,主要内容,2.1 频数分布2.2 平均数,第一节频数分布表9-1 2002年某市150名正常成年男子的尿酸浓度（mol/L） 142.3 148.8 142.7 144.4 144.7 145.1 143.3 154.2 152.3 142.7 156.6 137.9 143.9 141.2 139.3 145.8 142.2 137.9 141.2 150.6 142.7 151.3 142.4 141.5 141.9 147.9 125.9 139.9 148.9 154.9 145.7 140.8 139.6 148.8 147.8 146.7 132.7 149.7 154.0 158.2 138.2 149.8 151.1 140.1 140.5 143.4 152.9 147.5 147.7 162.6 141.6 143.6 144.0 150.6 138.9 150.8 147.9 136.9 146.5 130.6 142.5 149.0 145.4 139.5 148.9 144.5 141.8 148.1 145.4 134.6 130.5 145.2 146.2 146.4 142.4 137.1 141.4 144.0 129.4 142.8 132.1 141.8 143.3 143.8 134.7 147.1 140.9 137.4 142.5 146.6 135.5 146.8 156.3 150.0 147.3 142.9 141.4 134.7 138.5 146.6 134.5 135.1 141.9 142.1 138.1 134.9 146.7 138.5 139.6 139.2 148.8 150.3 140.7 143.5 140.2 143.6 138.7 138.9 143.5 139.9 134.4 133.1 145.9 139.2 137.4 142.3 160.9 137.7 142.9 126.8,频数分布及其制作对某个随机事件进行重复观察，其中某变量值出现的次数被称作频数。当汇总大量的原始数据时，把数据按类型分组，其中每个组的数据个数，称为该组的频数。频数表是用于反映各组及其相对应的组频数之间的关系。频数表的制作步骤如下,以例2.1为例：,1. 计算极差R(最大值和最小值的差值) 本例中R=5.95-3.82=2.13 (1012/L ) 2. 决定组数(10-15组,最常用10-12组) 3. 计算组距i (等于极差与组数的比值,取整数和取偶数的原则) 本例中i=2.13/10=0.213 1012/L ，取整数等于0.2 1012/L,写组段(第一组段应包含最小值,最后一组段包含最大值,每个组段为前闭后开区间,最后一个组段为闭区间。也应遵循取整数和偶数的原则) 本例中第一组段应包含最小值3.82，取3.80为第一组段的下限，写为前闭后开区间，3.80。最后一组段应包括最大值,写为闭区间5.806.00。5. 列表划记(组段和频数是频数表的基本要素),表2-2 某地140名正常男子红细胞数的频数表（ 1012/ L）,图 2-1 140名正常男子红细胞数频数分布的直方图,对频数表和图的观察，可以看出两个重要特征： 1.集中趋势：平均水平,向中间集中,中等数据的人数最多。 2.离散趋势：变异水平,即随着红细胞数测量值逐渐变大或变小，人数越来越少,向两端分散。,频数表的主要用途,1.作为陈述资料的形式,可以替代繁杂的原始资料，便于进一步分析2.便于观察数据的分布类型3.便于发现资料中某些远离群体的特大或特小的可疑值4.当样本含量比较大时,可用各组段的频率作为概率的估计值5. 计算集中趋势指标与离散趋势指标,数据的分布类型,对称分布和不对称分布正态分布：图形中间的直条最高，高峰在中央，两边对称或基本对称地减少。偏态分布：若高峰不在中央，而位于一侧。若高峰位于左侧，称正偏态分布，如高峰位于右侧，称负偏态分布。,对数据的描述指标也分为两类：描述集中趋势或平均水平的指标。2. 描述离散趋势或变异水平的指标。,第二节平均数,常用几种平均值：1.算术均数2.几何均数3.中位数,集中趋势常用平均值来描述。平均值是一组数据的典型或有代表性的值。由于这样典型的值趋向于落在根据数据大小排列的数据的中心，因此可以用于度量集中位置（位置指标）,算术平均数（简称为均数）一、定义：一组已知性质相同的数值之和除以数值个数所得的商。以（总体）（样本）表示。二、特征：（X- ）=0 估计误差之和为0。,三、适用资料类型： 1.描述正态分布和近似正态分布资料集中趋势的最好指标。 2. 适用于大多数正常人的生理、生化指标。四、计算方法： 1.直接法 2.加权法,直接法适用条件：当观察例数不多时，或观察例数虽然很多，但有计算机及统计软件，宜选择直接法。式（2-1）例2.1 见书P10,加权法适用条件：当无原始数据或观察例数很多又缺乏计算机及统计软件时，若用直接法很容易出错，可以用加权法处理。式（2-2）利用表2-2资料，用加权法计算140名正常男子红细胞数浓度的均数，计算见表1,表1 某地140名正常男子红细胞数均数和标准差（ 1012/ L ）加权法计算用表,加权法计算的结果,根据表1得： =669.80/140=4.78（ 1012/ L ）而将该资料输入计算机用统计软件和直接法计算，得到均数为4.77 (1012/ L) 。由此可见，加权法得到的均数是近似值，但这种算法的近似程度很好。,算术平均数有如下特征：（1）对于以定量化测量所得的计量数据存在唯一的均数。（2）样本均数具有抽样的稳定性与对总体均数的可估性特征；能方便地作进一步计算分析。,（3）均数对极值特别敏感，极大值或极小值通常将均数拉向自己。（4）每个变量值到均数距离的和为零。（5）每个变量值到均数距离的平方和为最小。,几何均数一、定义：将n个观察值x的乘积再开n次方所得的根，用G表示。,二、适用条件： 1、当一组观察值不呈正态分布、且其差距较大时，用均数表示其平均水平会受少数特大或特小值影响； 2、原始数据分布不对称，观察值呈倍数关系或近似倍数关系，经对数变换后呈正态分布的资料，又称对数正态分布资料。 3、免疫学或微生物学领域中的某些指标，如抗体滴度、药物的平均效价等。,直接法适用条件：当观察例数不多时，宜选择直接法。式（2-3）例2.2见书P11,加权法适用条件：当观察例数较多或无原始数据，仅有频数表资料时，宜选择加权法。式（2-4）例2.3 见书P11,表2-3 胎盘浸液钩端螺旋体菌苗接种两个月后血清IgG抗体滴度的计算用表,G=lg-1(698.9792/326)=139该地326名农民胎盘浸液钩端螺旋体菌苗接种两个月后血清IgG抗体的平均滴度为：1：139,几何均数的特征：（1）变量x服从对数正态分布，即表示变量log(x)服从正态分布。几何均数用以描述一群服从对数正态分布的测量值在对数量值上的集中性特征与平均水平。（2）变量x在取对数后的log(x)具有算术均数的所有特征。,中位数（Median）和百分位数一、定义：中位数是把一组观察值，按大小顺序排列，位置居中的那个数值。中位数是一个位置指标，它将所有观察值分为两个相同的部分，各占除中位数以外的观察值的百分之五十。用M表示。,百分位数也是一个位置指标，先把一组数据从小到大排列，将数据中的所有观察值看成一个整体，即100%。则百分位数将自身以外的观察值分成了两个部分，其中有x%的观察值比它小，而（100-x）%的个体具有比它大的观察值。中位数就是一个特殊的百分位数，即50。,中位数和百分位数二、适用资料：偏态分布的资料开口资料分布未明的资料某些毒物指标，如血铅，发汞值；某些传染病或食物中毒的潜伏期；生存时间等,中位数和百分位数三、计算方法：直接法：适用于有原始数据；样本例数不太多；容易将原始数据排序。频数表法,Take Median for example (n=odd number),100%,X1 X2 X3 X4 X5 X6 X7,X4,Median(P50),50%,(100-50)%=50%,结论：Median=X4,中位数的计算公式直接法：,当n=奇数时，中位数即为第（n+1）/2位的数值例1见书P12,Take Median for example (n=even number),100%,X1 X2 X3 X4 X5 X6 X7 X8,Median(P50),50%,(100-50)%=50%,结论：Median=1/2(X4+X5),X4 X5,中位数的计算公式直接法：,当n=偶数时，中位数并非直接对应某一数值，而是在两个数值之间，于是，取与中点位置相邻的两个变量值的算术平均数为中位数。例1见书12,Px的含义,100%,X1 X2 X3 X4 Xn-2 Xn-1 Xn,(100-X)%,结论：Pxis a limit value or position index,X%,PX,频数表法适用于：无原始数据，只有频数表提供的信息；原始数据太多，排序比较麻烦此计算公式的前提条件为：假设观察值在每个组段内是均匀分布的。,表2 健康男子血清铅的浓度组距为5 （mol/L）血清铅水平频数累计频数累计频率（mol/L） 0 18 18 0.0796 5 51 69 0.3053 10 43 106 0.4690 15 36 142 0.6283 20 30 172 0.7611 25 26 198 0.8761 30 14 212 0.9381 35 6 218 0.9646 40 3 221 0.9779 45 3 224 0.9912 50 1 225 0.9956 55 0 225 0.9956 60 1 226 1.0000,PX所在组段的下限,PX所在组段的频数,PX所在组段的组距,PX所在组段前一组段的累计频数,表3 一健康男子骑自行车的行程情况距起点的距离时间累计时间累计时间构成% （公里）（分钟）（分钟） 0 18 18 0.0796 5 51 69 0.3053 10 43 106 0.4690 15 36 142 0.6283 20 30 172 0.7611 25 26 198 0.8761 30 14 212 0.9381 35 6 218 0.9646 40 3 221 0.9779 45 3 224 0.9912 50 1 225 0.9956 55 0 225 0.9956 60 1 226 1.0000,假设该男子在每段距离内是匀速前进的问：时间过去一半，即113分时，该男子距起点的距离为多少?,第一步：找到在113分钟时，该男子所在的组段。,组距为5公里，用时36分钟，速度为5/36（公里/分钟）,距起点15公里，到达时间为106分,距起点20公里。离开时间为142分,这段距离时间速度（113-106）5/360.97公里,惊人地相似！,表2-4 某地630名正常女性血清甘油三脂含量的频数表,例2.4见书P12,表4 某传染病的潜伏期（天）的中位数和百分位数计算表潜伏期（天）人数累计频数累计频率（%）（1）（2）（3）（4） 4 26 26 24.07 8 48 74 68.52 12 25 99 91.67 16 6 105 97.22 20 3 108 100.00,中位数的特征：（1）以定量化测定所得的计算数据存在惟一的中位数，反映观测值在位次上的集中与平均特征。（2）中位数对极值不敏感。（3）中位数并未考虑到每个观察值，因此对进一步分析的统计学特征与计算不具有更多的应用价值。,THE END,谢谢！,

注意事项

本文（卫生统计学绪论课件.ppt）为本站会员（小飞机）主动上传，三一办公仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三一办公（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。

卫生统计学 绪论课件.ppt

卫生统计学 绪论课件.ppt

卫生统计学绪论课件.ppt

卫生统计学绪论课件.ppt