培训资料-spss统计软件培训数据分析.ppt
SPSS统计软件数据分析,宿 昆重庆市疾控慢病所,2023/10/28,重庆市疾控慢病所 宿昆,2,主要内容,统计描述均数比较:t检验、方差分析2 检验简单线性回归二分类Logistic回归基于秩次的非参数检验,2023/10/28,重庆市疾控慢病所 宿昆,3,1.1 统计描述,连续变量的统计描述分类变量的统计描述,2023/10/28,重庆市疾控慢病所 宿昆,4,1.2.1 连续变量的统计描述,集中趋势:算术均数、中位数、几何均数、众数、调和均数等。离散趋势:全距、方差和标准差、百分位数、四分位数/间距、变异系数。分布特征:对正态分布而言,偏度系数和峰度系数等。其他趋势:单峰、双峰、对称、偏态,2023/10/28,重庆市疾控慢病所 宿昆,5,1.2.1 连续变量的统计描述(续),算术均数:用于描述服从正态分布的变量值的平均水平。中位数:用于描述服从偏态分布资料的平均水平。几何均数:用于描述等比或等差数列变量值的平均水平。方差:主要用于正态分布资料;标准差:主要用于正态分布资料;四分位数间距:主要用于偏态分布资料(QP75P25);变异系数:用于度量单位不同或均数相差悬殊的资料。,2023/10/28,重庆市疾控慢病所 宿昆,6,1.2.1 连续变量的统计描述(续),SPSS中的相应功能:“频率”过程,2023/10/28,重庆市疾控慢病所 宿昆,7,1.2.1 连续变量的统计描述(续),SPSS中的相应功能:“描述”过程,2023/10/28,重庆市疾控慢病所 宿昆,8,1.2.1 连续变量的统计描述(续),SPSS中的相应功能:“探索”过程,2023/10/28,重庆市疾控慢病所 宿昆,9,1.2.2 分类变量的统计描述,频数分布情况的描述:绝对频数、百分比集中趋势的描述:众数使用相对数进行深入描述:比、构成比、率SPSS中的相应功能:“频率”过程、“描述”过程和“探索”过程,2023/10/28,重庆市疾控慢病所 宿昆,10,1.2 比较均值,完全随机化设计单组计量资料的均数与总体均数比较的t检验某个小区1000个6岁男孩的身高与重庆市所有6岁男孩的身高平均值的比较配对设计两组相关计量资料均数间比较的t检验自身配对:如治疗前后某项指标比较。异体配对:如对两只兔子两种处理方法的结果比较。完全随机化设计两组独立计量资料均数间比较的t检验如男女BMI比较完全随机化设计多组独立计量资料均数间比较的单因素ANOVA如比较不同乡镇BMI,2023/10/28,重庆市疾控慢病所 宿昆,11,1.2 比较均值,2023/10/28,重庆市疾控慢病所 宿昆,12,1.3 2检验,完全随机设计的单样本计数资料的率/构成比与已知总体率/构成比比较完全随机设计的两(多)独立样本计数资料的率(构成比)比较配对设计的两组相关样本计数资料的率/构成比比较与Kappa一致性检验完全随机设计的分层2检验,2023/10/28,重庆市疾控慢病所 宿昆,13,1.4 简单线性回归模型,回归的最初含义:生物学含义 英国的遗传学家F.Galton和K.Pearson注意到一个有趣的现象,即父亲高,儿子也高,父亲矮,儿子也矮,但儿子的身高离平均水平更近些,即子代身高有向人群的平均身高回归(regression to the mean)的趋势,这就是“回归”的生物学内涵,Galton称该现象为“普遍回归法则(law of universal regression)”。这是很自然的,否则,岂不一代比一代无限制地远离平均值,导致身高两级分化?回归的现在含义:完全不同了,回归分析是研究事物或现象之间的数量依存关系,控制/预测,2023/10/28,重庆市疾控慢病所 宿昆,14,1.4 简单线性回归模型(续),模型:,(随机误差),2023/10/28,重庆市疾控慢病所 宿昆,15,1.4 简单线性回归模型(续),线性回归分析的一般步骤(1)确定因变量和自变量(2)绘制散点图(3)从样本数据出发确定变量之间的数学关系式,并对回归方程的各个参数进行估计.(4)对回归方程进行各种统计检验.:回归方程的显著性检验;拟合优度检验;残差(Y的估计值与实测值的差)分析(y/残差-x/X or)(5)利用回归方程进行预测与控制;,2023/10/28,重庆市疾控慢病所 宿昆,16,1.4 简单线性回归模型(续),2023/10/28,重庆市疾控慢病所 宿昆,17,1.5 二分类Logistic回归,相关(correlation)与回归(regression)简介在大量的医学研究中还需要对两个变量之间的关系进行量化研究,一是确定两个变量间是否有联系及联系的程度如何,二是定量地确定它们之间的互依关系,相关与回归就是研究这种关系的统计方法。变量间的关系(1)函数关系(确定性关系):如:圆面积和圆半径.(2)统计关系(非确定性关系):不象函数关系那样直接,但却普遍存在,且有强有弱,如:身高与体重.(变异)相关和回归分析的研究对象:统计关系,2023/10/28,重庆市疾控慢病所 宿昆,18,1.5 二分类Logistic回归(续),Logistic回归:应变量为分类变量,自变量:连续/分类变量,研究该分类变量与一组自变量之间的关系0/1:治愈/未治愈,或患病/未患病有序分类:治愈/好转/未治愈无序分类:腺癌、鳞癌、大细胞癌,2023/10/28,重庆市疾控慢病所 宿昆,19,1.5 二分类Logistic回归(续),模型中参数的意义0为常数项:自变量取值全为0时的基线状况,未必有实际意义i为偏回归系数,代表固定其它Xj时,Xi改变一个单位引起logit(P)平均值的改变量当其它自变量(Xj)取值保持不变时,Xi取值增加一个单位引起OR自然对数值的变化量,因此在使用上OR值要远比i本身更常用,2023/10/28,重庆市疾控慢病所 宿昆,20,1.5 二分类Logistic回归,2023/10/28,重庆市疾控慢病所 宿昆,21,1.5 二分类Logistic回归(续),哑变量 偏回归系数表示其它自变量Xj不变,Xi每改变一个单位,所导致logitP的平均变化量x为连续性/二分类变量:没有问题x为多分类变量:不太合适无序多分类:民族,各族之间不存在大小问题有序多分类:家庭收入分为高、中、低三档,它们之间的差距无法准确衡量在以上这些情况时,我们就必须将原始的多分类变量转化为数个哑变量(Dummy Variable),,2023/10/28,重庆市疾控慢病所 宿昆,22,哑变量每个哑变量只代表某两个级别或若干个级别间的差异,这样得到的回归结果才能有明确而合理的实际意义对于取值具有n个水平的自变量Xi,可以生成n-1个哑变量模型中哑变量遵循“同进同出”的原则,1.5 二分类Logistic回归(续),2023/10/28,重庆市疾控慢病所 宿昆,23,1.6 基于秩次的非参数检验,完全随机化设计单组样本的基于秩次的非参数检验完全随机设计两组独立样本的基于秩次的非参数检验配对设计两组相关样本的基于秩次的非参数检验完全随机设计多组独立样本的基于秩次的非参数检验,2023/10/28,重庆市疾控慢病所 宿昆,24,1.6 基于秩次的非参数检验(续),