第五讲分析的研究的课件.ppt
《第五讲分析的研究的课件.ppt》由会员分享,可在线阅读,更多相关《第五讲分析的研究的课件.ppt(65页珍藏版)》请在三一办公上搜索。
1、第五讲 分析研究资料,重点内容:统计分析、因果分析、矛盾分析难点内容:推断统计与交互分类,第五讲 分析研究资料重点内容:统计分析、因果分析、,主要内容,第一节 基本统计分析第二节 相关分析与回归分析第三节 比较分析与类型分析第四节 矛盾分析与因果分析,主要内容第一节 基本统计分析,第一节 基本统计分析,一、频数分析二、描述统计三、探索分析四、交叉表分析五、报告摘要分析,第一节 基本统计分析一、频数分析,SPSS 统计分析功能概述,有了数据,可以利用SPSS的各种分析方法进行分析,但选择何种统计分析方法,即调用哪个统计分析过程,是得到正确分析结果的关键。SPSS有数字分析和作图分析两类方法,9/
2、24/2022,SPSS 统计分析功能概述 有了数据,可以利用SPSS的各种,SPSS 数值分析过程,SPSS 数值统计分析过程均在Analyze菜单中,包括:a、基本统计分析:Reports,Descriptive Statisticsb、均值比较与检验:Compare Meansd、方差分析:ANOVA Modelsb、相关分析:Correlatee、回归分析:Regression f、聚类与判别:Classifyg、因子分析:Data Reduction h、非参数检验:Nonparametric Tests 等等,9/24/2022,SPSS 数值分析过程 SPSS 数值统计分析过程均
3、在Ana,基本统计分析,基本统计分析是进行其他更深入的统计分析的前提,通过基本统计分析,用户可以对分析数据的总体特征有比较准确的把握,从而选择更为深入的分析方法对分析对象进行研究。在SPSS的Analyze菜单中包括了一系列统计分析过程。其中Reports和Descriptive Statistics命令项中包括的功能是对单变量的描述统计分析。Descriptive Statistics包括的统计功能有:Frequencies:频数分析Descriptives:描述统计量分析Explore:探索分析Crosstabs:多维频数分布交叉表(列联表)Reports包括的统计功能有:OLAP Cub
4、es:OLAP报告摘要表Case Summaries:观测量列表Report Summaries in Row:行形式输出报告Report Summaries in Columns:列形式输出报告,9/24/2022,基本统计分析基本统计分析是进行其他更深入的统计分析的前提,,一、频数分析(Frequencies),1、了解变量的取值分布情况对整体把握数据的特征是非常有利的。2、求分类(定类、定序)变量的频数和作Bar图3、求定距变量(连续变量)的分布情况和作直方图Histogram 比Descriptives 多百分位,在Statistics选项和 Format选项)4、对连续变量进行分组(
5、recode)后再求频数,如老中青(35,60)的比例,文化程度(中学、大学及以上)的人数及比例等5、Analyze+Descriptive Statistics+Frequencies6、例子p105-106:对1991年美国社会研究情况数据(data08-01)进行统计处理。分析不同年龄(age变量)和最高受教育年限(educ变量)各水平的频数分布情况。,9/24/2022,一、频数分析(Frequencies)1、了解变量的取值分,二、描述统计分析Descriptives,1、功能:了解数据的基本统计特征和对指定的变量值进行标准化处理(标准化后的新变量的均值为0,标准差为1,目的是为了消
6、除各变量间变量值在数量级上的差异,从而增强数据间的可比性)。2、描述统计分析过程通过平均值(Mean)、算术和(Sum)、标准差(Std Dev)、最大值(Maximum)、最小值(Minimum)、方差(Variance)、范围(Range)、平均数标准误(S.E.Mean)等统计量对变量进行描述。3、一般是求定距变量的描述统计量,从中分析差异性(max,min)4、Analyze+Descriptive Statistics+Descriptives5、例子:1985年美国联邦研究局对50个州各种犯罪情况研究的数据(data08-02)进行描述统计分析50个州总的情况不同地区region的
7、情况(2种方法:Split File+Descriptives,第8章的Means),9/24/2022,二、描述统计分析Descriptives1、功能:了解数据,三、探索分析 Explore,1.考察数据的奇异性和分布特征奇异性:数据的过大或过小(找出、分析原因、是否剔除)分布特征:数据是否来自正态分布总体考察方法:统计量和统计图形(箱图、茎叶图(频数、茎和叶)、方差齐次性检验Spread vs level图)2.一般是考察定距变量3.Analyze+Descriptive Statistics+Explore因(分析)变量(Dependent List):定距变量分组变量(Factor
8、List):分类变量标识变量(Label Cases by):为方便查找输出观测量如id4.例子p112:考察银行数据(data08-03)中的不同性别的工资情况,9/24/2022,三、探索分析 Explore1.考察数据的奇异性和分布特,四、交叉表分析,二维或多维交叉频数表(列联表),分析事物(变量)之间的相互影响和关系Analyze+Descriptive Statistics+Crosstabs行变量(Row):需分类变量列变量(Column):需分类变量分层变量(Layer):条件(若有,需分类变量)Statistics选项:Chi-square复选项及其四种检验结果Correlat
9、ions复选项:相关系数例子:银行数据(data08-03)中:如求男女的民族分布情况,可得到白种人多,男性多的结论(注意cell选项,一般选频数和百分比),如求每一工种的男女分布情况(人数)P118:1991年美国社会研究情况数据(data08-01):男女对生活的认识。,9/24/2022,四、交叉表分析二维或多维交叉频数表(列联表),分析事物(变,1.5 OLAP报告摘要表OLAP Cubes,OLAP(Online Analytical Processing)在线分析处理过程以分组变量为基础,计算各组的总计、均值和其他统计量。而输出的报告摘要则是指每个组中所包含的各种变量的统计信息。A
10、nalyze+Reports+OLAP CubesSummary Variables:要进行统计汇总的数值型变量Grouping Variables:分组变量(分类变量),注意:此分组变量在实际的运算过程中并不发挥分组的功能,而是确定进入统计的观测量的范围。如选择数学成绩作为摘要分析变量,而性别作为分组变量,要计算数学平均成绩,则结果中显示的并不是男生的数学平均成绩和女生的数学平均成绩,而是所有男女生观测量的数学成绩的总平均值。即所有性别有值(非Missing Value)的Case,才参与分析计算Statistics选项:Sum和、Number of Cases观测量数目、Mean均值、Me
11、dian中位数、Maximum最大等等例子p122:1991年美国社会研究情况数据(data08-01):对不同种族race的孩子childs和教育educ情况进行报告摘要分析。,9/24/2022,1.5 OLAP报告摘要表OLAP CubesOLAP(On,补充:Reports的其他分析过程,Reports的其他分析过程有:Case Summaries:观测值摘要分析Report Summaries in Row:行形式输出报告Report Summaries in Columns:列形式输出报告,9/24/2022,补充:Reports的其他分析过程Reports的其他分析,Case S
12、ummaries:观测量列表,察看或打印所需要的变量值Analyze+Reports+Case SummariesVariables:要显示的变量名Grouping Variables:分组变量(分类变量)结果显示:多行或单行,9/24/2022,Case Summaries:观测量列表察看或打印所需要的变,行形式输出报告,Summary 按行,如:sum、mean、max、min、count、std dev、variance、percentage(above,below,inside)等菜单:Analyze+Reports+Report Summaries in RowsData Colum
13、n:报告变量Break Column:分组变量及其Summary(多个交叉)Report:可对全部数据进行描述统计(Grand Total)Display Cases:是否显示每一个观测量,9/24/2022,行形式输出报告Summary 按行,如:sum、mean、m,列形式输出报告,Summary 按列,如:sum、mean、max、min、count、std dev、variance、percentage(above,below,inside)等菜单:Analyze+Reports+Report Summaries in ColumnsData Column:报告变量一一对应的Summa
14、ryInsert Total:汇总列,可汇总两列或多列的信息Break Column:分组变量(多个交叉)及SubtotalReport:可对全部数据进行描述统计(Grand Total),9/24/2022,列形式输出报告Summary 按列,如:sum、mean、,第二节 相关与回归分析,一、相关分析的概念和过程二、两个变量间的相关分析三、偏相关分析四、距离分析五、回归分析的概念和模型六、回归分析的过程,9/24/2022,第二节 相关与回归分析一、相关分析的概念和过程9/24/2,一、相关分析的概念与过程,研究变量间密切程度的一种常用统计方法1、线性相关分析:研究两个变量间线性关系的程度
15、。用相关系数r来描述。2、偏相关分析:它描述的是当控制了一个或几个另外的变量的影响条件下两个变量间的相关性,如控制年龄和工作经验的影响,估计工资收入与受教育水平之间的相关关系3、相似性测度:两个或若干个变量、两个或两组观测量之间的关系有时也可以用相似性或不相似性来描述。相似性测度用大值表示很相似,而不相似性用距离或不相似性来描述,大值表示相差甚远,一、相关分析的概念与过程研究变量间密切程度的一种常用统计方法,线性相关分析,研究两个变量间线性关系的程度。相关系数是描述这种线性关系程度和方向的统计量,用r表示。如果变量Y与X间是函数关系,则r=1或r=-1;如果变量Y与X间是统计关系,则-10,如
16、果x,y变化的方向相反,如吸烟与肺功能的关系,则称为负相关,r0.95 存在显著性相关;|r|0.8 高度相关;0.5|r|0.8 中度相关;0.3|r|0.5 低度相关;|r|0.3 关系极弱,认为不相关,线性相关分析研究两个变量间线性关系的程度。相关系数是描述这种,线性相关分析(续),相关系数的计算有三种:Pearson、Spearman和KendallPearson相关系数:对定距变量的数据进行计算,公式P207Spearman和Kendall相关系数:对分类变量的数据或变量值的分布明显非正态或分布不明时,计算时先对离散数据进行排序或对定距变量值排(求)秩。公式P208,线性相关分析(续
17、)相关系数的计算有三种:Pearson、Sp,相关分析的SPSS过程,在Analyze+Correlate下的三个子菜单:1、Bivariate-相关分析,计算指定的两个变量间的相关关系,可选择Pearson相关、Spearman和Kendall 相关;同时对相关系数进行检验,检验的零假设为:相关系数为0(不相关)。给出相关系数为0的概率2、Partial-偏相关分析,计算两个变量间在控制了其他变量的影响下的相关关系,对相关系数也进行检验,检验的零假设为:相关系数为03、Distance-相似性测度,对变量或观测量进行相似性或不相似性测度,9/24/2022,相关分析的SPSS过程在Analy
18、ze+Correlate下,二、两个变量间的相关分析,两两变量间的相关:包括两个连续变量间的相关(Pearson相关)和两个等级(分类)变量间的秩相关(Spearman和Kendall 相关)菜单:Analyze+Correlate+Bivariatea、连续变量间的相关:Pearson。P211 Data07-03 银行职工的起始工资salbegin和现工资salary与雇员本人各方面条件的关系(年龄age、工作时间jobtime、以前工作经验prevexp):比较有用的结果:Pearson相关系数r和其相应的显著性概率Sig(Pearson相关系数均很小),9/24/2022,二、两个变量
19、间的相关分析两两变量间的相关:包括两个连续变量,二、两个变量的相关分析,b、等级(分类)变量间的秩相关:Spearman和Kendall。P212 Data07-03 银行职工的起始工资salbegin和现工资salary与雇员的职务等级jobcat、受教育程度educ关系(比较有用的结果:Kendall秩相关系数r和其相应的显著性概率Sig(Kendall秩相关系数均.5,认为中度相关)P213 Data10-02 某次全国武术女子前10名运动员长拳和长兵器两项得分数据,要求分析这两项得分是否存在线性相关(比较有用的结果:秩相关系数r和其相应的显著性概率Sig(秩相关系数均.5,认为中度相关
20、),9/24/2022,二、两个变量的相关分析b、等级(分类)变量间的秩相关:Sp,三、偏相关分析的概念,线性相关分析计算两个变量间的相关关系,分析两个变量间线性关系的程度。往往因为第三个变量的作用,使相关系数不能真正反映两个变量间的线性程度。如身高、体重与肺活量之间的关系。如果使用Pearson相关计算其相关系数,可以得出肺活量与身高和体重均存在较强的线性关系。但实际上,如果对体重相同的人,分析身高和肺活量,是否身高越高,肺活量就越大呢?不是的。原因是身高与体重有线性关系,体重与肺活量存在线性关系,因此得出身高和肺活量之间存在着较强的线性关系的错误结论。偏相关分析的任务就是在研究两个变量之间
21、的线性相关关系时控制可能对其产生影响的变量。分析身高与肺活量之间的相关性,就要控制体重在相关分析中的影响。实际生活中有许多这样的关系,如可以控制年龄和工作经验两个变量的影响,估计工资收入与受教育程度之间的相关关系。可以在控制了销售能力与各种其他经济指标的情况下,研究销售量与广告费用之间的关系等。,9/24/2022,三、偏相关分析的概念 线性相关分析计算两个变量间的相关关系,偏相关分析的SPSS过程和实例,菜单:Analyze+Correlate+PartialVariables:分析变量Controlling for:控制变量实例P220Data10-03 使用四川绵阳地区3年生中山柏的数据
22、,分析月生长量hgrow与月平均气温temp、月降雨量rain、月平均日照时数hsun、月平均湿度humi这四个气候因素的哪个因素有关。将月生长量hgrow作为分析变量,然后分四次,分别将其中的一个因素作为分析变量,而其他三个作为控制变量用Pearson相关系数结果P223:中山柏生长量与气温temp关系最为密切,相关系数0.9774,显著性概率p=0.000;其次是湿度humi,相关系数0.7310,显著性概率p=0.025;日照时数hsun,相关系数0.6318,显著性概率p=0.068;与降雨量没有线性关系,降雨量过大,还会影响其生长。,9/24/2022,偏相关分析的SPSS过程和实例
23、菜单:Analyze+Cor,四、距离分析,是对观测量之间或变量之间相似或不相似程度的一种测度,是一种广义的距离。有关的统计量。不相似性测度:a、对等间隔(定距)数据的不相似性(距离)测度可以使用的统计量有Euclid欧氏距离、欧氏距离平方等。b、对计数数据使用卡方。c、对二值(只有两种取值)数据,使用欧氏距离、欧氏距离平方、尺寸差异、模式差异、方差等相似性测度:a、等间隔数据使用统计量Pearson相关或余弦。b、测度二元数据的相似性使用的统计量有20余种。距离分析分为观测量之间距离分析和变量之间距离分析。,9/24/2022,四、距离分析是对观测量之间或变量之间相似或不相似程度的一种,距离
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第五 分析 研究 课件
链接地址:https://www.31ppt.com/p-2110971.html