卫生信息分析.ppt
第十二章 卫生信息分析,第一节 卫生信息分析概述第二节 卫生信息分析方法第三节 卫生信息分析应用:症状监测,主要内容,信息分析的概念信息分析(information analysis)的定义:信息分析是一种以信息为研究对象,根据拟解决的特定问题的需要,收集与之有关的信息进行分析研究,旨在得出有助于解决问题的新信息的科学劳动过程。,第一节 卫生信息分析概述,信息分析的步骤课题选择 制订课题研究计划 信息收集 信息整理、鉴别与分析 报告编写,第一节 卫生信息分析概述,一、时间序列分析二、关联规则挖掘三、聚类分析,第二节 卫生信息分析方法,(一)时间序列分析概述 1.时间序列数据 时间序列(time series)又称动态数列或时间数列,就是把所研究的事物在各个不同时间的统计指标的数值,按其发生时间先后顺序排列起来所形成的数列。,一、时间序列分析,全球霍乱发病例数报告,摘自Global Health Observatory Data Repository,http:/apps.who.int/ghodata/?vid=2250,一、时间序列分析,2.时间序列数据的种类倾向变动/趋势变动,用 T(Trend)表示,统计数据在长时间内表现出的变化倾向,它按照某种规律持续上升或持续下降,或保持在某一水平上;周期变动,用 C(Cyclical)表示,指若干年为周期的变化,周期长短不等,上下波动大小也不一致,但明显地呈现起伏变化;季节变动,用 S(Seasonal)表示,指每年重复出现的周期变化,一般以月或季度为一个周期;不规则变动/随机变动,用I(Irregular)表示,指由各种偶然事件或影响因素引起的上述三类变化以外的任何变化。,一、时间序列分析,3.时间序列分析的概念与原理 时间序列分析(time series analysis)就是根据系统观测得到的时间序列数据,应用数理统计方法(曲线拟合和参数估计)来建立数学模型,对时间序列数据加以分析处理,以预测未来事物的发展。时间序列分析的基本依据是:(1)承认事物发展的延续性。(2)考虑到事物发展的随机性。,一、时间序列分析,4.时间序列分析主要用途 系统描述。系统分析。预测未来。决策和控制。,一、时间序列分析,(二)时间序列分析方法的种类,一、时间序列分析,(三)时间序列分析的基本步骤收集数据:用观测、调查、统计、抽样等方法取得被观测系统时间序列动态数据。整理数据:根据动态数据作相关图。分析数据:对动态数据进行拟合或者修正。,一、时间序列分析,(四)时间序列数据的修正 算术平均法 分段平均法 移动平均法 指数平滑法,一、时间序列分析,(五)时间序列数据的拟合多项式曲线法指数曲线法生长曲线法,一、时间序列分析,(一)关联规则挖掘概述 1.关联规则及关联规则挖掘的定义 关联规则(association rule)是指在同一个事件中出现的不同项的相关性,如顾客在商场购物可以看作是一个事件,所购买各种的商品就是其中的项,在这里的关联规则就是指在一次购物中所购商品的相关性。关联规则反映了一个事件和其他事件之间依赖或依存的关系,如果我们确定两项或多项属性之间存在着关联,那么我们就可以根据其中一项的属性值来预测其他属性的值。关联规则挖掘就是从大量的数据中挖掘出描述数据项之间相互联系有价值的知识。,二、关联规则挖掘,2.关联规则挖掘的意义 购物篮分析3.关联规则的表现类型 关联规则是一种形如X Y的规则,其中X 和Y 是项目的集合。它说明如果X 在数据库中发生,那么Y 也会以一定的概率发生。,二、关联规则挖掘,根据规则中所处理的值类型:布尔关联规则(Boolean association rule):性别=“女”职业=“秘书”量化关联规则(quantitative association rule):性别=“女”avg(收入)=2300根据规则中涉及的数据维:单维关联规则(single dimensional association rule):啤酒 尿布多维关联规则(multi dimensional association rule):性别=“女”职业=“秘书”根据规则集所涉及的抽象层:多层关联规则(multilevel association rule):台式机 Sony打印机单层次关联规则(single-level association rule):IBM台式机 Sony打印机,二、关联规则挖掘,(二)关联规则挖掘的基本过程 1.找出所有频繁项集 根据定义,这些项集出现的频繁性至少和预定义的最小支持计数一样。2.由频繁项集产生强关联规则 根据定义,这些规则必须满足最小支持度和最小置信度。支持度:P(AB),即A和B这两个项集在事务集D中同时出现的概率。置信度:P(BA),即在出现项集A的事务集D中,项集B也同时出现的概率。支持度描述一个规则的重要性,而可信度描述规则发生的可能性。一般,我们用0和100之间的值表示支持度和置信度。,二、关联规则挖掘,(三)关联规则挖掘的Apriori 算法Apriori算法由Agrawal等人于1993年提出,它是挖掘频繁项集的基本算法。其核心方法是基于频集理论的递归方法,针对的是在单维单层次布尔关联规则的挖掘,这是关联分析中最简单形式的关联规则挖掘。具体做法就是:首先找出频繁1-项集,记为L1;然后利用L1来挖掘L2,即频繁2-项集;不断如此循环下去直到无法发现更多的频繁K-项集为止。每挖掘一层LK就需要扫描整个数据库一遍。,二、关联规则挖掘,(三)关联规则挖掘的Apriori 算法下面以超市商品的数据库为例来说明Apriori 算法的基本操作。假设有5位顾客购买商品的清单如下表。,二、关联规则挖掘,某超市5位顾客购买商品清单,(三)关联规则挖掘的Apriori 算法,二、关联规则挖掘,Apriori 算法的基本操作步骤举例,(四)关联规则的生成同时满足最小支持度阈值和最小置信度阈值的规则称为强规则。对于给定的一个事务集D,挖掘关联规则就是支持度和可信度分别大于用户给定的最小支持度和最小可信度的强关联规则。(五)关联规则挖掘在卫生信息分析中的实例,二、关联规则挖掘,(一)聚类分析的定义聚类分析(cluster analysis)是将一组物理的或抽象的对象,根据它们之间的相似程度,分为若干组,使得同一个组内的数据对象具有较高的相似度,而不同组中的数据对象是不相似的。聚类分析与分类不同:对于分类问题,事先了解训练样本的分类属性,将数据对象分到不同的已知类中,如在人口统计中将每个调查对象分类到老年组、中年组等;而聚类分析,则是在划分的分类体系未知的情况下,将数据对象分组成不同类,需在训练样本中找到这个分类属性。,三、聚类分析,(二)聚类分析的基本步骤 1.计算对象间的相似性2.将聚类对象分到各个类别,三、聚类分析,1.计算对象间的相似性 通常就是利用(各对象间)距离来表示相似性。常用距离度量公式有欧几里得(Euclidean)距离公式。,三、聚类分析,1.计算对象间的相似性上述的数据矩阵经过计算对象间的欧几里得距离之后,得到的是对象间的相似矩阵。,三、聚类分析,相似矩阵,2.将聚类对象分到各个类别层次方法(hierarchical method)就是通过分解所给定的数据对象集来创建一个层次,直到满足某种条件为止。自底向上(凝聚):从每个对象均作为一个单独的组开始,逐步将这些(对象)组进行合并,直到组合并在层次顶端或满足终止条件为止;自顶向下(分裂):从所有对象均属于一个组开始,每一次循环将其组分解为更小的组,直到每个对象构成一组或满足终止条件为止。,三、聚类分析,2.将聚类对象分到各个类别四个广泛使用的计算聚类间距离的度量方法如下:,三、聚类分析,其中|P-P|为两个数据对象或点P和P之间的距离,mi是聚类Ci的平均值,ni 是聚类Ci中的对象个数。,3.聚类分析在卫生信息分析中的实例某市各县区8 类疾病的发病率指标,三、聚类分析,输入到SPSS中的数据矩阵,3.聚类分析在卫生信息分析中的实例,三、聚类分析,一、症状监测及相关概念二、症状监测的基本步骤与方法三、重要疾病爆发与流行监测系统,第三节 卫生信息分析应用:症状监测,症状监测的概念目前,症状监测(syndromic surveillance)被广为接受的定义是美国CDC给出的定义,即“症状监测是对临床确诊前的健康相关数据和疾病可能暴发的信号进行监测,以利于作出进一步公共卫生反应”。该定义体现了症状监测与疾病监测的区别,它是以监测诊断前的非特异性的症状和现象为基础的。,第三节 卫生信息分析应用:症状监测,症状监测的基本步骤与方法症状群定义和数据来源;症状监测数据的采集;症状监测数据的分析;对异常信号的调查。,第三节 卫生信息分析应用:症状监测,重要疾病爆发与流行监测系统社区疾病流行早期报告电子监测系统(Electronic Surveillance System for the Early Notification of Community-based Epidemics,ESSENCE)实时暴发与疾病监测系统(Real-time Outbreak and Disease Surveillance,RODS),第三节 卫生信息分析应用:症状监测,