资料的统计分析.ppt
《资料的统计分析.ppt》由会员分享,可在线阅读,更多相关《资料的统计分析.ppt(137页珍藏版)》请在三一办公上搜索。
1、广东省社会科学院 张桂金参考书:社会科学研究方法新解 唐盛明 上海社会科学出版社社会统计学 卢淑桦 北京大学出版社社会研究方法教程 北京大学出版社应用回归分析 何晓群 刘文卿 中国人民大学出版社,社会统计方法,第二部分 多元分析,1、详析模式与多元分析2、相关分析3、多元方差分析4、多元线性回归分析5、路径分析6、聚类分析7、因素分析,第一部分 卡方检验,第三部分 非线性回归分析,第一部分:参数检验 非参数检验,一、参数检验二、非参数检验三、卡方检验,一、参数检验,参数检验即对于总体参数的检验。常用的参数检验方法有三种:Z检验、t检验和F检验。1、Z检验:条件一是样本必须是随机抽取的,二是变量
2、必须是定距层次的变量,三是应呈正态分布。Z检验适用于大样本(n30)以下情况适用于Z检验:(1)大样本的总体均值、总体成数,大样本的总体均值差、成数差检验,G相关系数的检验。,2、t 检验 要求一是被检验总体成正态分布,二是样本必须是随机抽取的,三是变量应为定距尺度的变量。,适用于小样本的总体均值、均值差检验,配对样本的比较。配对T检验,3、F检验,是检验一个定类变量和一个定距变量关系存在与否的方法,它要求一是样本必须是随机抽取的,二是有一个变量是定距变量,三是要求各子总体为正态分布并具有相等的方差,一般适用于(1)方差分析的检验(2)对两个总体或多个总体的差异的检验(3)r相关系数与回归系数
3、的检验,二、非参数检验,适用于定序变量(顺序衡量)的分析。介绍曼惠特尼U检验方法。其它方法参照卢淑桦社会统计学(第三版)第十四章 P415-439)虚无假设:对相比较的变量而言,样本所代表的两个总体不相一致。,其中、分别为第一个、第二个样本所有顺序的总和。经简化可知,在实际应用中,必须比较U与U值的大小,并选其中的较小值。曼惠特尼U所使用的推断统计方法是Z检验。,其中U为U或U的较小值,最后一步比较Z的计算值与Z的临界值。,左边例子关于男女两组学生关于早恋问题的数据(z的临界值为1.96):得出U=78,U=43 因为U比U小,所以在Z检验中采用43.其它数值计算略Z1.15因为Z的绝对值1.
4、15小于Z的临界值1.96,因此无法排除虚无假设。,卡方检验与T检验和方差分析不同,它对总体的形态分布没有特殊要求。卡方检验的目的在于发现两个名称衡量或顺序衡量等级的变量在总体中是否相关。研究的是两个变量在总体中相关。卡方检验的计算以实测频数与期望频数的比较为基础卡方检验的先决条件有两条:1)样本通过独立的随机取样获得 2)自变量与应变量都是分隔变量,三、卡方检验,工资,总计,高,中,低,男,女,性别,总计,期望频数的计算公式:,列子:实测频数与期望频数(见下表),工资,总计,高,中,低,男,女,性别,总计,卡方值的计算:,自由度Df(r-1)(c-1),当概率水平设在0.05时,卡方检验(自
5、由度为2)的临界值为5.991,如果卡方检验计算值大于临界值,那么我们就可以排除虚无假设,作出两个变量之间互相关联的决定;反之,无法排除虚无假设,即检验的结果为两个变量在总体中互不相关。,第二部分 多元分析,第一章、详析模式,一、详析模式,(一)、两变量的交互分类 资料分析的第一步就是检验这些假设所预言的这种关系是否存在,如果存在或不存在,第二步就是要分析为什么。对两变量间关系进行描述的最基本方法是“交互分类”法,又称列联表。(见下表),(二)、引入检验因素,为了解释和检验两变量之间的真实关系,常引入第三变量的方法。这种引入新变量对两变量间原有关系进行检验,以确定或解释真实关系的过程,称为分析
6、的详析化。被引入的变量称作检验因素或控制变量 检验的具体作法是采用分表法。,由上例,引进和控制家庭经济条件这一变量后。,“分表法”的具体做法:1.首先描述变量X与Y的关系(如上表一),这时的关系称为原关系;2.将检验因素分成不同层次或类型,然后在每一类别中做X与Y的分列联表(如上表二),分表中X与Y的关系为部分关系;3.对各分表中X与Y的关系(即部分关系)进行考察,若X与Y的原关系在各分表中均消失了,证明原关系主要由检验因素引起;若X与Y间的原关系在各分表中存在,说明其不受检验因素的影响。,(三)详析范式,1、复证:它指的是引入控制变量后,原有的两变量关系并没有改变。这也就进一步加强了原关系为
7、真的信心。2、辨明:两变量之间的初始关系被证实是虚假的因为引入控制变量后原关系消失了这样一种详析模式结果。(控制先导变量后一组净关系降至零。3、阐明:它表示的研究结果是说控制变量是原初相关关系的中间变量,也就是说,自变量通过影响控制变量和影响因变量。(控制中介变量后一组净关系降至零)4、标明:它表示的是详析结果是说引入控制变量后,两变量之间的初始关系在某些子群中继续存在,而在另外一些子群中则不复存在。这个事后,我们就要标明初始关系存在的条件。比如,存在与男性中间,而不存在在女性之间。,(四)范式的调整,两个概念:1、抑制变量:在详析模式中,使得初始关系不能显现的检验变量。2、曲解变量:在详析模
8、式中,颠倒零阶关系的方向的变量。,(三)详析的一般程序,1.首先确定两变量间关系的类型。2.确定关系的真伪。3.将两变量关系具体化。4.寻找两变量间的因果链。5.检验是否存在条件关系,以帮助解释、澄清、说明变量间的关系。,(五)、详析模式的作用,详析模式的一个主要作用是使调查研究可分享实验设计的一些优点。它可以充分利用统计调查资料将分析引向深入。一方面它可对变量关系作出精确的描述,另 一方面它还可以揭示两变量关系的真伪、存在的条件和存在的原因等。详析在解释上的贡献很大,是建立理论的重要工具。,第二章、多元方差分析,一、方差分析的概念,1、方差分析,就其内容来说,是分析或者检验总体间的均值是否有
9、所不同,而不是方差是否有所不同。但就其检验所用的方法或手段来说,则是通过方差来进行的。故有人建议改成“均值差分析”。2、方差分析分一元方差分析以及多元方差分析3、方差分析条件:(1)样本通过独立的随机取样获得(2)自变量为分隔变量(定类或定序变量),应变量为定距或定比变量。(3)总体的分布形态为正态分布(4)总体的方差相等。,1、定义,定义:一元方差分析测试某一个控制变量的不同水平是否给观察变量造成了显著差异和变动。自变量只有一个定类变量,因变量为定距变量。例如,培训是否给学生成绩造成了显著影响;不同地区的考生成绩是否有显著的差异等。,二、一元方差分析,2、计算公式:采用的统计推断方法是计算F
10、统计量,进行F检验。总的变异平方和记为SST,分解为两个部分:一部分是由控制变量引起的离差,记为SSB(组间Between Groups离差平方和);另一部分随机变量引起的SSW(组内Within Groups离差平方和)。于是有:SST=SSB+SSW,其中,组内平方和组际平方和,F统计量是平均组间平方和与平均组内平方和的比,计算公式为,F(K-1,N-K),3、谢菲检验,上一节的单因素分析中,虚无假设为u1=u2=u3。替换假设用下列3个式子表述:由于F的计算值小于F的临界值,因此我们无法排除虚无假设。一般而言,如果无法排除虚无假设,即可以直接得出报告结论;但是,如果虚无假设得到排除,我们
11、就要进行进一步的检验。有必要确定究竟是哪一对,或者哪几对的差异具有真正的统计意义。,统计计算公式:,1、计算统计值C。其中:MSw为方差分析中的组内平均方差。2、计算C的临界值。3、比较C与C的临界值的大小。,SPSS中实现过程,表3-1三组学生的数学成绩,1、定义和计算公式,定义:多因素方差分析中的控制变量在两个或两个以上,它的研究目的是要分析多个控制变量的作用、多个控制变量的交互作用以及其他随机变量是否对结果产生了显著影响。例如,在本章开始讲述的例子,在获得教学效果的时候,不仅单纯考虑教学方法,还要考虑不同风格教材的影响,因此这是两个控制变量交互作用的效果检验。,三、多元方差分析,多因素方
12、差分析不仅需要分析多个控制变量独立作用对观察变量的影响,还要分析多个控制变量交互作用对观察变量的影响,及其他随机变量对结果的影响。因此,它需要将观察变量总的离差平方和分解为3个部分:,多个控制变量单独作用引起的平方和;多个控制变量交互作用引起的离差平方和;其他随机因素引起的离差平方和。,以上F统计量服从F分布。SPSS将自动计算F值,并根据F分布表给出相应的相伴概率值。,SPSS中实现过程,研究问题,表3-2三组不同性别学生的数学成绩,实现步骤,在菜单中选择“Univariate”命令,第3章、相关分析,描述变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程为相关分析。可根据研究的目
13、的不同,或变量的类型不同,采用不同的相关分析方法。本章介绍常用的相关分析方法:定类变量的相关关系、定距变量的相关分析、定序变量的相关分析、偏相关分析。,4.1 定类变量,入系数 设有rxc列联表例子:入【(40+30)60】I(100-60)=0.25,3.2 定距变量的相关分析,定义:定距变量的相关分析是指通过计算定距变量间两两相关的相关系数,对两个或两个以上定距变量之间两两相关的程度进行分析。定距变量的取值之间可以比较大小,可以用加减法计算出差异的大小。例如,“年龄”变量、“收入”变量、“成绩”变量等都是典型的定距变量。,Pearson简单相关系数用来衡量定距变量间的线性关系。如衡量国民收
14、入和居民储蓄存款、身高和体重、高中成绩和高考成绩等变量间的线性相关关系。,计算公式如下。Pearson简单相关系数计算公式为,对Pearson简单相关系数的统计检验是计算t统计量,公式为 t统计量服从n2个自由度的t分布。,3.3 定序变量的相关分析,定义:定序变量又称为有序(ordinal)变量、顺序变量,它取值的大小能够表示观测对象的某种顺序关系(等级、方位或大小等),也是基于“质”因素的变量。例如,“最高学历”变量的取值是:1小学及以下、2初中、3高中、中专、技校、4大学专科、5大学本科、6研究生以上。由小到大的取值能够代表学历由低到高。,(1)Gamma等级相关,Gamma系数的检验H
15、o:总体等级相关为0统计量为Z,Spearman和Kendalls tua-b等级相关系数用以衡量定序变量间的线性相关关系,它们利用的是非参数检验的方法。计算公式如下。Spearman等级相关系数为,(2)斯皮尔曼等级相关系数,对Spearman等级相关系数的统计检验,一般如果个案数n30,将直接利用Spearman等级相关统计量表,SPSS将自动根据该表给出对应的相伴概率值。,二元变量的相关分析在一些情况下无法较为真实准确地反映事物之间的相关关系。例如,在研究某农场春季早稻产量与平均降雨量、平均温度之间的关系时,产量和平均降雨量之间的关系中实际还包含了平均温度对产量的影响。同时平均降雨量对平
16、均温度也会产生影响。在这种情况下,单纯计算简单相关系数,显然不能准确地反映事物之间地相关关系,而需要在剔除其他相关因素影响的条件下计算相关系数。偏相关分析正是用来解决这个问题的。,3.4 偏相关分析,定义:偏相关分析是指当两个变量同时与第三个变量相关时,将第三个变量的影响剔除,只分析另外两个变量之间相关程度的过程。偏相关分析的工具是计算偏相关系数r12,3。,定义和计算公式,表3-1 早稻产量与降雨量和温度之间的关系 求降雨量对产量的偏相关,实现步骤,图6-9 在菜单中选择“Partial”命令,图6-10“Partial Correlations”对话框,图6-11“Partial Corr
17、elations:Options”对话框,结果,3.5、复相关分析,复相关分析是一种以一个统计值来简化多个自变量与一个因变量之间关系的统计分析方法。要求所有的变量都是定距以上层次的变量,第四章 回归分析,在数量分析中,经常会看到变量与变量之间存在着一定的联系。要了解变量之间如何发生相互影响的,就需要利用相关分析和回归分析。在上一章讲述了相关分析有关内容。本章介绍回归分析基本概念,线性回归分析的主要类型:一元线性回归分析、多元线性回归分析。,相关分析和回归分析都是研究变量间关系的统计学课题。在应用中,两种分析方法经常相互结合和渗透,但它们研究的侧重点和应用面不同。在回归分析中,变量y称为因变量,
18、处于被解释的特殊地位;而在相关分析中,变量y与变量x处于平等的地位,研究变量y与变量x的密切程度和研究变量x与变量y的密切程度是一样的。,在回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量;而在相关分析中,变量x和变量y都是随机变量。相关分析是测定变量之间的关系密切程度,所使用的工具是相关系数;而回归分析则是侧重于考察变量之间的数量变化规律,并通过一定的数学表达式来描述变量之间的关系,进而确定一个或者几个变量的变化对另一个特定变量的影响程度。,具体地说,回归分析主要解决以下几方面的问题。通过分析大量的样本数据,确定变量之间的数学关系式。对所确定的数学关系式的可信
19、程度进行各种统计检验,并区分出对某一特定变量影响较为显著的变量和影响不显著的变量。利用所确定的数学关系式,根据一个或几个变量的值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确度。,在实际中,根据变量的个数、变量的类型以及变量之间的相关关系,回归分析通常分为一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析和逻辑回归分析等类型。,定义:一元线性回归分析是在排除其他影响因素或假定其他影响因素确定的条件下,分析某一个因素(自变量)是如何影响另一事物(因变量)的过程,所进行的分析是比较理想化的。其实,在现实社会生活中,任何一个事物(因
20、变量)总是受到其他多种事物(多个自变量)的影响。,通过样本数据建立一个回归方程后,不能立即就用于对某个实际问题的预测。因为,应用最小二乘法求得的样本回归直线作为对总体回归直线的近似,这种近似是否合理,必须对其作各种统计检验。一般经常作以下的统计检验。,(1)拟合优度检验 回归方程的拟合优度检验就是要检验样本数据聚集在样本回归直线周围的密集程度,从而判断回归方程对样本数据的代表程度。,回归方程的拟合优度检验一般用判定系数R2实现。该指标是建立在对总离差平方和进行分解的基础之上。,(2)回归方程的显著性检验(F检验)回归方程的显著性检验是对因变量与所有自变量之间的线性关系是否显著的一种假设检验。回
21、归方程的显著性检验一般采用F检验,利用方差分析的方法进行。,(3)回归系数的显著性检验(t检验)所谓回归系数的显著性检验,就是根据样本估计的结果对总体回归系数的有关假设进行检验。之所以对回归系数进行显著性检验,是因为回归方程的显著性检验只能检验所有回归系数是否同时与零有显著性差异,它不能保证回归方程中不包含不能较好解释说明因变量变化的自变量。因此,可以通过回归系数显著性检验对每个回归系数进行考察。,回归参数显著性检验的基本步骤。提出假设 计算回归系数的t统计量值 根据给定的显著水平确定临界值,或者计算t值所对应的p值 作出判断,合成纤维的强度与其拉伸倍数有关,测得试验数据如表4-1所示。求合成
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 资料 统计分析

链接地址:https://www.31ppt.com/p-5318741.html