流行病学资料的收集分析与表达.ppt
《流行病学资料的收集分析与表达.ppt》由会员分享,可在线阅读,更多相关《流行病学资料的收集分析与表达.ppt(133页珍藏版)》请在三一办公上搜索。
1、第八章流行病学资料的收集分析与表达,内 容,第一节 资料的收集与整理第二节 资料的描述性分析第三节 资料的推断性统计分析第四节 资料的表达,(一)资料的收集,资料的收集(data collection)过程,就是按照研究设计所拟定的方法与过程,通过对研究对象的观察及实验,测量并记录其结果,以形成研究的效应的原始统计数据。,第一节资料的收集与整理,1.资料来源根据信息来源可将数据分为三类:,2、收集计划包括:,选择收集资料的地点、人员和时间;收集资料人员的培训方案;预调查或实验方案的拟定;资料的记录方式;调查表的拟定和印刷;调查或实验仪器、试剂的准备;调查资料的抽样复核比例和方法;收集资料所需经
2、费的准备等。,调查表的构成,标题:概括说明调查的主题。应简明扼要,易引起回答者的兴趣。说明:简短的指导或说明信。目的,意义,填表须知,交表时间,地点。被访者基本情况:社会人口学特征:性别,年龄,民族,家庭人口,婚姻,文化程度,职业等。调查主要内容编码:调查表编码号,调查项目编码,回答选项编号 过录框。作业证明的记载:调查员:姓名,调查日期,时间等,电话号码,确定每个项目的提问形式和类型直接性 假设性 问答题 间接性开放性 问答题 封闭性半封闭性,直接性问答题:是指在调查表中能够通过直接提问方式得到答案的问答题。直接性问答题通常给被访者一个明确的范围,所问的是个人基本情况或意见。例如:“您的性别
3、?”,“您的文化程度?”,间接性问答题是指那些不便直接询问的问答题(通常是会让被访者产生顾虑、不敢或不愿真实地回答的项目),常采用间接提问的方式得到所需回答。,假设性问答题:是通过假设某一情景或现象存在而向被访者提出的问答题。例如:“有人认为目前医疗费上涨太快,您的看法如何?”,“如果您可以选择,您愿意生一个、两个还是多个孩子?”,开放性问答题:是指所提出的问题并不列出所有可能的答案,而是由被访者自由作答。如:您没有去看病的原因是什么?优点:适用于较深层次问题的探讨,有利于调动调查对象的主动性,便于获取更丰富的建设性的信息。缺点:答案无法预估,种类繁多,容易离题,拒绝回答率较高,费时,费力,所
4、收集的数据不易整理和分析,难以进行相互比较。,封闭性问答题:是指已事先设计了各种可能的答案、被访者只要从中选定一个或几个现成答案的提问方式。优点:答案统一、标准、易回答,节约时间,拒绝回答率很低,汇总归纳方便。缺点:被访者只能在规定的范围内回答,可能无法反映其他各种真实的想法。此外,它的设计受设计者相关知识范围影响。,半封闭性问答题:是设计者根据可能情况提出固定答案备选,做出回答后,进一步表述调查对象的看法与认识。如您生病后去地段医院就诊吗?是否请说明其主要原因,调查表制定中的注意问题,说明要简单明了,打动人心;避免用不确切的词:如“很久”、“经常”、“一些”等;如:您是否经常生病?地点?您在
5、哪儿出生?避免提断定性问题;您一天抽多少支烟?应在前面加上“过滤性”问题。,调查表制定中的注意问题,避免提双重、双否定的设问:如:您赞成还是反对医疗费用支付方式是投保记账或现金支付?赞成反对双重设问正确的是:您对医疗费用改革的态度是赞成反对;您愿意采纳那种医疗费用支付方式?现金支付投保记账如:医院管理者不重视医院急诊工作不是一个重要问题,您同意吗?完全同意同意未决定不完全同意反对医院管理者是否重视医院急诊工作时一个重要问题,,调查表制定中的注意问题,避免引导性(诱导式)提问:暗示;如:询问术后病人情况时,问“佩戴这个止痛盒后,疼痛比以前减轻了吧?”有人认为被动吸烟会导致肺癌,您同意吗?”大忌,
6、偏倚避免令被访者难堪和禁忌的敏感问题(1)释疑法(2)假定法(3)转移法,调查表制定中的注意问题,避免提笼统、抽象或不确切的问题:年龄、收入、家庭人口等;避免一问多答的问题:您的父母是知识分子吗注意提问的顺序:先易后难;从简单到复杂;封闭性问题在前,开放型问题在后;专业性强、敏感性问题在后,注意逻辑顺序。定量指标最好定量调查,不行的话可设计成半定量指标。,3、收集资料的方式,观察法 采访 询问 直接 开会 询问法 访谈 信访 间接 电话 电子邮件,资料的测量方法,查体法:临床医生凭借生物感觉对病人的体征进行观察,如望闻问切。仪器测量法:身高计、体重计、血压计、超声波、心电图、CT。实验室测量:
7、通过化学、生物化学、微生物、血清学、免疫学等实验对病人的生理病理现象进行测量。血液检查、尿液检查、肝功能检查等。询问法:如疼痛、头昏、失眠、关节僵硬、呼吸困难、咽部不适、忧郁、压抑等,目前尚无较好的客观定量测量方法,主要是通过询问或问卷的方式,由病人根据自己的主观感觉做出回答,4.要求,真实性系统性和完整性深刻性,5.基本原则收集资料要遵循的原则,坚持实事求是注意分析研究采用科学的方法和技术注重研究对象的利益、符合伦理,(二)资料的整理,整理资料(data sorting)是将原始资料进行科学加工,去粗取精,去伪存真,净化原始数据,使其系统化、条理化,便于进一步计算和分析。在数据分析前需要对原
8、始的流行病学调查研究数据进行一次审查,发现可能存在的错误、遗漏的研究变量取值和其他问题,并采取相应的措施进行处理。,回忆变量的类型,数值变量(计量资料),变量类型,无序分类变量(计数资料),分类变量,有序分类变量(等级资料),(一)计量资料(measurement data)对每个观察单位用定量的方法测定某项指标的具体数值所得资料称为计量资料,又称定量资料(quantitative data),亦称数值变量(anumerical variable)。这类资料一般有度量衡单位。例如每个观察对象的血压(kPa)、脉搏(次/分)、身高(cm)、体重(kg)及临床上诸多定量检测指标的检测结果,都属于计
9、量资料。,离散型变量(discrete variable):只能取整数值的变量,如一月中的手术病人数,一年里的新生儿数连续型变量(continuous variable):可以取实数轴上的任何数值,多数由测量而得,如血压、身高、体重、ALT等,(二)计数资料(enumeration data)将观察单位按性质或类别分组,然后清点每组的个数所得资料称为计数资料,又称定性资料(qualitative data),亦称分类变量(categorical variable)。这类资料一般没有度量衡单位,所得数据是各组观察单位的个数。例如药物治疗的有效人数与无效人数;化验结果的阳性人数与阴性人数;某病的患
10、病人数与未患病人数;某人群中A、B、AB、O各种血型的人数及临床上诸多定性检测指标的检测结果,都属计数资料。,(三)等级资料(ranked data)将观察单位按某种属性的不同程度分组计数,得到各组观察单位个数,称为等级资料。等级资料具有计数资料的性质,又兼有半定量的性质,因其按等级大小排序,有人亦称之为有序分类变量(ordinal categorical variable)。例如疗效考核中的治愈、好转、未愈、死亡;症状中的重、中、轻、无;某些检测结果中的、等,都属等级资料。三种资料可以转化,3.等级资料(ranked data),亦称有序变量(ordinal variables)是将观察单位
11、按测量结果的某种属性的不同程度分组,所得各组的观察单位数。等级资料具有计数资料的性质,又兼有半定量的性质,因其按等级大小排序,有人亦称之为有序分类变量(ordinal categorical variable)。例如疗效考核中的治愈、好转、未愈、死亡;症状中的重、中、轻、无;某些检测结果中的、等,都属等级资料。,1.资料核查(data cleaning),完整性核查:对调查表全部项目进行检查,核对填写是否完整无缺,如有漏项,应立即补填。完整性检查应在调查现场进行,否则难于弥补。(随时对资料进行核查)逻辑核查法:主要检查逻辑上的矛盾。如出生日期与死亡日期的矛盾等。对数据变量要检查其最小值(min
12、imum)、最大值(maximum)、均数(mean)、中位数(median),并查看是否有异常取值(outlier),如极小值及极大值。异常值若影响显著时应删除,2.资料的数量化,数值变量资料则可以直接用原始数值;二分类变量一般以0和1表示;多分类的变量数值化方法比较复杂:若某多分类变量为有序变量,我们可参照等级变量赋值,但排序时应慎重,应有充分的排序依据。若多分类为变量为无序变量,可考虑将其拆分成几个二分类变量分别分析。,如:分类变量种族 白人1 黑人2 西班牙裔人3 亚太裔4 其它种族5注意:分类变量在进行多因素分析时,必须转换成哑变量(dummy variable),不能直接将前述的取
13、值1、2、3、4、5放入方程中进行分析。,有序变量的数量化顺序合理,则可以直接进行分析 如:教育程度 文盲:0 小学:1 中学:2 高中及中专:3 大学:4 硕士及以上:5,变量的转化:只能由高级向低级转化,不能作相反方向的转化 连续变量有序变量无序变量二分类变量,3.资料的分组,绝大多数研究都需要对资料进行分组,以便进行组间比较或更细致的描述。若利用计算机分组,就应在建立数据库时给以相应的数字标识,统计分析时计算机可按指令迅速自动分组,并整理出频数。,分类变量:按其原有的分类进行分组,若有必要,可将性质相近或差别不大的类别进行合并。如按教育程度、性别分组。,数值变量:按照实际的生理、病理或临
14、床意义分组,如体重指数:低体重、正常体重、超重和肥胖按使用的方便程度和专业上惯用的方法分组,如年龄在某一个合适的范围内每5岁或10岁分成一组。按分位数分组,即首先找出四分位数(quartile)或五分位数(quintile)的界值,然后应用这些界值将研究对象平均分成4组(每组25%的研究对象)或5组(每组20%的研究对象)。,(二)数据的转换1、非正态数据的变量转换原理:正态分布 参数检验(parametric test)非正态数据非参数检验(non-parametric test)(不是对原始数据检验)如:秩和检验(是对原始数据的秩次检验)检验:正态性检验、方差齐性检验 方法:对数变换;平方
15、根变换;倒数变换,2、分类变量转换成哑变量原理:分类变量是二分类尺度及顺序尺度,则可直接应用其原有的数量化数值。名义尺度因为各类别间没有顺序关系,在进行不同分析(包括多元分析、logistic回归、Cox回归等)时,不能使用原始的计算机录入数值,必经进行变量转换。即将该变量转换成(水平数-1)个哑变量,再将这些新转换的变量放入多因素模型中。,方法:例如:将种族原始取值转换成哑变量(新变量)表1.分类变量转换成哑变量的方法,新变量以白人为参照,X11表示黑人与白人比较,依此类推,统计方法分类,根据研究目的分为:统计描述(statistical description)统计推断(statistic
16、al inference),复习,第二节 资料的统计描述,一、统计描述的方法一、资料基本情况的描述二、主要研究项目的描述性统计分析,描述数值变量资料的统计指标,复习,描述分类变量资料的统计指标,一、资料基本情况的描述,(一)应答率(response rate)失访率(loss rate)(二)基本特征,(一)应答率或失访率,现况调查研究和病例对照研究的资料 应答率反映调查资料的完整性和纳入统计分析样本的代表性。一般要求应答率在85以上。队列研究的资料 失访率 由于某种原因导致被试验对象中途退出 失访率最好控制在15以内,(二)基本特征,被观察对象的人口学特征:性别、年龄别构成、职业分布特点、民
17、族构成等;其次,描述某种现象或事物的特征:如糖尿病的类型、病情、病程等构成情况,主要研究项目的描述性统计分析,调查研究或实验研究都需要对主要观察项目进行描述性统计分析(descriptive statistical analysis),以便使读者了解主要观察指标的高低及分布情况。根据研究内容不同,通常描述性统计分析多从疾病或健康状况、研究因素等方面进行描述。,案例1:,刘卓等人在“非典”流行高峰在武汉市四所大学对本科生进行了健康相关行为的调查。鉴于篇幅所限,摘录部分基本特征分析(如表8-18-2)与研究项目分析(见表8-3)。通过阅读这些统计表可以清楚地了解到当时调查的大学生性别、年龄等特征的
18、分布以及健康相关行为特点。,表8-1 大学生性别、年龄分布,表8-1 大学生性别、年龄(岁)分布,表8-2 武汉市大学生各专业年级分布,表8-3“非典”流行高峰时期的大学生行为,常见错误,双氢青蒿素与磷酸喹哌治疗恶性疟疗效比较,测量1000例高脂血症患者的血脂水平:单纯高胆固醇血症(80例):患病率8%单纯高甘油三酯(760例):患病率76%两者均增高(160例):患病率16%,常见的统计学错误,描述性分析中常见的错误计量资料:误用正态分布的描述性统计指标描述呈偏态或几何分布的资料。计数资料:错误的将构成比当做率使用 错误的计算平均率 计算相对数时分母过小,第三节 资料的推断性统计分析,一、统
19、计推断的方法 单因素分析 多因素分析二、资料的重复性评价三、研究结果的解释,一、统计推断,统计推断:利用样本所提供的信息对总体进行估计或推断,主要包括参数估计:利用样本指标估计总体参数。常用点估计和区间估计,如均数的可信区间、率的可信区间假设检验:利用样本提供的信息比较两个或多个总体之间有无差别,如t检验、2检验等,资料的分析方法:,1.比较性研究的数据分析2.关联性研究的数据分析,1.比较性研究的数据分析,(1)标准比较法(2)两两比较法(3)多组比较法,(1)标准比较法,标准比较法,即把研究对象的某一特征与公认的,或者正式颁布的标准进行比较,即样本与总体的比较。比如,空气、水、食物中有害物
20、质的浓度是否超过标准;某个人群的身高体重是否与一般人群不同等。,偏态分布用秩和检验,(2)两两比较法,对于计数资料,当样本含量n较大,样本率P与(1-p)均不太小时,样本率的分布近似正态分布。可用u检验。当不满足u检验的条件时,若样本含量大于等于40,并且理论频数大于5时,可用卡方检验,若1T5,采用校正卡方检验,若n40或T1,用精确概率法两组构成比比较,用行乘列卡方检验。等级资料比较用秩和检验。,案例:,刘永有等人对吸毒患者进行心理干预,比较了干预前后的焦虑状况自评(SAS),见表8-6。从表中可以看出干预前两组的焦虑得分平均值差别无统计学意义,干预后与干预前后的差值的差别均有统计学意义。
21、,(3)多组比较法,根据研究需要,有时要求同时比较某个变量在多个组之间的差异。如比较某种药物对多个不同群体的疗效。,对于计量资料,若为完全随机设计,当任何观察值都是独立地来自具有等方差的正态总体,采用完全随机设计的单因素方差分析;若为随机区组设计,则采用随机区组设计的方差分析。需要进行多个样本均数间的两两比较,常用的方法有LSD-t检验、Dunnett-t检验、SNK-q检验等。若不满足以上条件,则需要考虑非参数方法。,对于分类变量资料多组率或构成比的比较,可采用2K表或RC表的卡方检验资料的卡方检验,单应注意理论数小于1的格子数不能超过1/5,否则应采取增加样本含量等措施。,案例:,刘永有等
22、人研究吸毒组与正常对照组之间职业构成的比较,表8-7。,2.关联性研究的数据分析,确定事物间的关系,定量表述事物间关系的方向、大小或强弱。如分析儿童的年龄与身高之间的关联性,吸烟与肺癌之间因果关系。,对于计量资料,两个变量或因变量服从正态分布,研究一个自变量对一个应变量影响的数量依存关系则用直线回归分析方法,计算回归系数与截距,建立回归方程并进行显著性检验;若通过绘制散点图发现两者的关系不呈直线关系,可考虑进行数据变换拟合非线性回归。,若需要说明变量间的直线相关关系,两个变量均服从正态分布,则用相关分析,计算Pearson相关系数,并检验相关系数的显著性;非正态双变量资料,可进行等级相关分析,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 流行病学 资料 收集 分析 表达

链接地址:https://www.31ppt.com/p-6307835.html