SPSS第三部分高级分析.ppt
统计软件应用,华东交通大学经济管理学院韩胜娟,第六章 SPSS 基本统计分析,相关分析回归分析聚类分析因子分析,相关分析,什么是相关分析 相关分析是一种测度事物间统计关系强弱的一种手段和工具,旨在研究事物之间或称变量之间关系密切程度 线性相关分析研究两个变量间线性关系的程度,相关系数是描述这种线性关系程度和方向的统计量,通常用r表示。相关系数是一个无量纲的量,其值在11之间。SPSS中的相关分析包括二变量相关分析、偏相关分析和距离分析,相关分析,二元变量的相关分析 包括两个连续变量的相关和两个等级变量的秩相关,可以通过不同的选项选择不同的分析方法 AnalyzeCorrelate Bivariate(分析-相关-双相关)Variables:选择分析变量 Correlation Coefficients:相关系数选择 Pearson相关系数用来度量定距变量间的线性相关关系 Kendalls tau-b等级相关系数用来度量顺序水准变量间的线性相关关系,相关分析,二元变量的相关分析 AnalyzeCorrelate Bivariate(分析-相关-双相关)Correlation Coefficients:相关系数选择 Spearman等级相关系数用来度量顺序水准变量间的线性相关关系 Test of Significance:显著性检验 Two-tailed:双尾检验 One-tailed:单尾检验 Flag significant correlations:对显著的相关系数加“*”Options,相关分析,偏相关分析 在控制其他变量对待分析的两个变量影响的条件下,分析两变量的线性相关关系 偏相关分析的工具是计算偏相关系数 AnalyzeCorrelate Partial(分析-相关-偏相关)Variables:选择分析变量 Controlling for:选择控制变量,相关分析,偏相关分析 AnalyzeCorrelate Partial(分析-相关-偏相关)Test for Significance:显著性检验 双侧检验 单侧建议 Display actual significance level:显示相伴概率 Options:,线性回归分析,侧重考查变量间的数量变化规律,并通过一定的数量表达式(回归方程)来描述这种关系基本步骤 确定回归方程中的自变量和因变量 确定回归模型 根据样本数据建立回归方程 对回归方程进行各种检验 利用回归方程进行预测,线性回归分析,AnalyzeRegressionLinear(分析-回归-线性)Dependent:选择一个变量作为因变量 Independents:选择一个或多个变量作为自变量 Method:选择自变量筛选方法 Enter:所有变量全部进入回归模型 Stepwise:逐步筛选法 Backward:向后筛选法 Forward:向前筛选法,线性回归分析,分析回归线性 Selection Variable:选择变量 Rule:equal to等于 not equal to不等于 less than小于 less than or equal to小于等于 greater than大于 greater than or equal to大于等于 Case Labels:指定作图时以什么变量作为各样本数据点的标志变量,线性回归分析,分析回归线性 Statistics:输出统计量选择项 Regression Coefficients Estimates:回归系数相关统计量 Confidence interval:系数置信区间 Covariance matrix:协方差矩阵 Model fit:显示判定系数、调整后判定系数、F检验等 R squared change:显示每一步中判定系数的变化,线性回归分析,分析回归线性 Statistics:输出统计量选择项 Descriptives:描述统计量(均值)Part and partial correlations:显示自变量与因变量的偏(部分)相关系数 Collinearity diagnostics:共线性诊断 Residuals:DurbinWatson:DW统计量 Casewise diagnostic:每一个观测的残差诊断,线性回归分析,分析回归线性 Plots:绘图选择项 Scatter:散点图 Standardized Residual Plots:标准化残差图 Histogram Normal probability plot Produce all partial plot:对每一个自变量残差和因变量残差做散点图,线性回归分析,分析回归线性 Save:数据处理结果的保存 Predicted Values:预测值 Residuals:残差 Distances:距离(度量对回归模型有很大影响的个案)Prediction Intervals:预测区间 Influence Statistics:影响统计量 Save to New File Export model information to XML file,线性回归分析,分析回归线性 Options:选择项 Stepping Method Criteria:设定自变量筛选的参数 Use probability of F Use F value Include canstant in equation Missing Values,曲线回归分析,分析回归曲线估计,聚类分析,建立分类的方法,将一组样本数据按照它们在性质上的亲疏程度在没有先验知识的情况下自动进行分类。系统聚类分析(Hierachical Cluster)基本思想:首先,每个样本自成一类;然后,按照某种方法度量所有样本之间的亲疏程度,把最亲密的聚成一类,反复进行该过程,直到所有样本聚成一类。,聚类分析,系统聚类分析(Hierachical Cluster)AnalyzeClassifyHierachical Cluster(分析-分类-系统聚类)Variables:选择参与分析变量 Label Cases by:选择标注变量 Cluster:选择聚类方式 Case:Q型聚类(个案)Variable:R型聚类(变量)Display输出:Statistics/Plots,聚类分析,系统聚类分析(Hierachical Cluster)分析分类系统聚类 Statistics:输出统计量选项 Agglomeration schedule:合并进程表 Proximity matrix相似性:邻近距离矩阵 Cluster Membership:类成员 None Single solution Range of solution,聚类分析,系统聚类分析(Hierachical Cluster)分析分类系统聚类 Plots:图表选项 Dendrogram:聚类分析树型图 Icicle:冰柱图 All clusters Specified range of clusters None orientation方向:Vertical/Horizontal,聚类分析,系统聚类分析(Hierachical Cluster)分析分类系统聚类 Method:聚类方法 Cluster Method:类间距离 Between/Withingroups linkage Nearest/Furthest neighbor Centroid clustering Median clustering Wards method,聚类分析,系统聚类分析(Hierachical Cluster)分析分类系统聚类 Method度量标准:聚类方法 Measure:样本间距离 Interval:适用于连续型变量 Squared Euclidean distance Euclidean distance Counts:适用于顺序或名义水准变量 Binary:适用于二值数据,聚类分析,系统聚类分析(Hierachical Cluster)分析分类聚类分析 Method:聚类方法 Transform values:Standardize:数据标准化方法 Z Scores By variable/By case Save:Cluster Membership:保存样本类属,聚类分析,快速聚类分析(KMeans Cluster)基本思想:首先,指定希望聚成K类;然后,确定K类的初始类中心;再次,计算所有样本到K个类中心的欧式距离,并按距离最短原则把样本分配到各类,形成新的K类,重新计算K个类的类中心;重复上述过程,直到达到指定的迭代次数或达到中止迭代的判断要求。AnalyzeClassifyK-Means Cluster(分析-分类-K均值聚类),聚类分析,快速聚类分析(K均值聚类)分析分类K均值聚类 Variables:选择聚类依据的变量 Label Cases by:选择标识变量 Number of Clusters:聚类数目 Method:选择类中心的确定方法 Iterate and classify:迭代聚类 Classify only仅分类:类中心保持不变,聚类分析,快速聚类分析(K均值聚类)分析分类K均值聚类 Iterate:迭代终止条件 Maximum Iterate:最大迭代次数 Convergence Criterion:迭代收敛标准 Use running means使用运行均值 Save Cluster membership:保存样本类属 Distance from cluster center,聚类分析,快速聚类分析(K均值聚类)分析分类K均值聚类 Options选项 Statistics:输出统计量 Missing Values Centers:聚类中心 Cluster Centers指定初始类中心 Read initial from File:读取类中心 Write final as File:保存类中心,因子分析,因子分析是以最少的信息损失将原始的众多指标综合成较少的几个因子变量的方法因子分析的众多变量间应具有较强的相关关系AnalyzeData ReductionFactor(分析-降维-因子分析)Variables:选择参与因子分析的变量 Selection Variable:根据指定的选择变量选取部分样本作因子分析,因子分析,分析降维因子分析 Descriptives描述:统计量选项 Statistics Univariate descriptives:单变量描述统计量 Initial solution:初始分析结果 Correlation Matrix:相关矩阵组 Coefficients:相关系数 KMO and Bartletts test of sphericity,因子分析,分析降维因子分析 Extraction抽取:因子提取选择项 Method方法:因子提取方法 Principal components:主成分法 Analyze分析:因子分析的基础矩阵 Correlation matrix/Covariance matrix Display输出:Unrotated factor solution:未旋转因子解/Scree plot:碎石图,因子分析,分析数据降维因子分析 Extraction抽取:因子提取选择项 Extract抽取:确定因子个数的标准 Eigenvalues over:提取特征值大于该值的因子 Number of factor:提取因子个数 Maximum Iteration for Convergence:最大收敛性迭代次数 Rotation Method:旋转方法(Varimax),因子分析,分析数据降维因子分析 Rotation:旋转 Display:输出 Rotated solution:旋转解 Loading plots:因子载荷图 Maximum iterations for Convergence Scores:因子得分选择项 Save as variables:保存为变量 Display factor score coefficient matrix:显示因子得分系数矩阵,