832Spss统计应用实务问卷分析与应用统计.ppt
Spss统计应用实务-问卷分析与应用统计,主要内容,统计基本原理与常用统计方法 统计基本思想及基本概念 统计数据整理与显示方法 统计描述 统计推断-参数估计假设检验 多变量关系研究-相关与回归,单(双)因素方差分析 常用的统计模型:因子分析、聚类分析定量研究与统计分析 量化研究的基本概念 量表分析步骤 数据的建立 量表项目分析 量表效度与信度 信度与效度的概念 信度与效度的检验方法统计应用实例及EXCEL、Spss,统计基本原理与常用统计方法 1.1统计基本思想与基本概念,1.1.1 什么是统计学?统计学是用以(1)收集数据、(2)分析数据、(3)由数据得出结论的一组概念、原则和方法。1.1.2 统计学的基本思想 随机性和规律性:关系密切的孪生子 规律性中的随机性1.1.3 统计学的中几个基本概念变量、值和个体 定义:分类:定类变量、定序变量、定距变量、定比变量随机事件和随机变量 总体、样本总体参数和样本统计量概率,统计基本原理与常用统计方法 1.1统计学的基本思想与基本概念,1.1.4 统计研究的基本过程 数据收集-数据整理-数据分析1.1.5 数据收集观测数据和实验数据变量的定义和变量的选择数据收集的方法:文献资料法、调查法、测量等选择合适的样本:简单的随机抽样、分层抽样、整群抽样收集数据时的错误和误差衡量某一调查的结果所要考查的因素:样本是否是合适的样本响应率(response rate)提问题时所用的实际措辞在调查中该问题被安排在什么地方?访问员是谁抽样误差(sample error)、系统误差、过失误差、随机误差未响应误差(nonresponse error)响应误差(response error),统计基本原理与常用统计方法 1.2不同数据类型整理与展示方法,1.2.1 数据的分类定类变量-分类数据定序变量-顺序数据定距变量-数值型数据时间序列数据多变量数据1.2.2分类数据的整理与展示频数与频数分布图示:条型图、饼图,统计基本原理与常用统计方法 1.2不同数据类型整理与展示方法,1.2.3顺序数据的整理与展示累积频数累积频率,【例】在一项城市住房问题的研究中,研究人员在甲乙两个城市各抽样调查300户,其中的一个问题是:“您对您家庭目前的住房状况是否满意?1非常不满意;2不满意;3一般;4满意;5非常满意。,统计基本原理与常用统计方法 1.2不同数据类型整理与展示方法,甲城市家庭对住房状况评价的累积频数分布,统计基本原理与常用统计方法 1.2不同数据类型整理与展示方法,统计基本原理与常用统计方法 1.2不同数据类型整理与展示方法,1.2.4数值型数据整理与展示方法数据的分组,分组方法,分组方法,统计基本原理与常用统计方法 1.2不同数据类型整理与展示方法,统计基本原理与常用统计方法 1.2不同数据类型整理与展示方法,组距分组确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。确定组距:组距(Class Width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即 组距(最大值-最小值)组数 统计出各组的频数并整理成频数分布表,实例,用Excel制作频数分布表,【例】某电脑公司2002年前四个月各天的销售量数据(单位:台)。试对数据进行分组。,直方图,某电脑公司销售量分布的直方图,折线图,折线图与直方图下的面积相等!,140,150,210,某电脑公司销售量分布的折线图,190,200,180,160,170,220,230,240,茎叶图,箱线图,不同数据分布的箱线图,不同分布的箱线图,统计基本原理与常用统计方法 1.2不同数据类型整理与展示方法,1.2.5时间序列数据-线图,【例】已知19912000年我国城乡居民家庭的人均收入数据如表。试绘制线图,线图,统计基本原理与常用统计方法 1.2不同数据类型整理与展示方法,1.2.5多变量数据-雷达图,【例】2000年我国城乡居民家庭平均每人各项生活消费支出构成数据如表。试绘制雷达图。,今天的主食是面包,雷达图,总结,统计基本原理与常用统计方法 1.3描述统计,1.3.1数据集中趋势测度指标众数(Mode)中位数(Median)、分位数(quartile)平均数(Mean)1.3.2数据离散趋势测度指标异众比率全距(Range)四分位距(quartile deviation)标准差(Std.deviation)方差(Variance)变异系数(离散系数)1.3.4数据偏态与峰态测度指标偏态系数、峰态系数1.3.5相对位置测量标准分,众数、中位数、平均数与分布,众数、中位数、平均数的特点和应用,众数不受极端值影响具有不惟一性数据分布偏斜程度较大时应用中位数不受极端值影响数据分布偏斜程度较大时应用平均数易受极端值影响数学性质优良数据对称分布或接近对称分布时应用,相对位置-标准分,经验法则表明:当一组数据对称分布时约有68%的数据在平均数加减1个标准差的范围之内约有95%的数据在平均数加减2个标准差的范围之内约有99%的数据在平均数加减3个标准差的范围之内,应用标准分制定评价标准,偏态与峰态分布的形状,偏态,峰态,EXCEL统计实例,统计基本原理与常用统计方法 1.4统计推断,1.4.1抽样与抽样分布1.4.2参数估计1.4.3假设检验,统计推断的过程,统计基本原理与常用统计方法 1.4统计推断,1.4.1抽样与抽样分布抽样方式,统计基本原理与常用统计方法 1.4统计推断,1.4.1抽样与抽样分布抽样分布,在重复选取容量为n的样本时,由每一个样本算出的该统计量数值的相对频数分布或概率分布 是一种理论分布随机变量是 样本统计量样本均值,样本比例,样本方差等结果来自容量相同的所有可能样本提供了样本统计量长远我们稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据,抽样分布示意,统计基本原理与常用统计方法 1.4统计推断,1.4.1抽样与抽样分布样本均值的抽样分布,现从总体中抽取n2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为,统计基本原理与常用统计方法 1.4统计推断,1.4.1抽样与抽样分布样本均值的抽样分布,计算出各样本的均值,如下表。并给出样本均值的抽样分布,统计基本原理与常用统计方法 1.4统计推断,1.4.1抽样与抽样分布样本均值的抽样分布,=2.5 2=1.25,总体分布,中心极限定理,中心极限定理:设从均值为,方差为 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布,统计基本原理与常用统计方法 1.4统计推断,1.4.2参数估计 根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量,统计基本原理与常用统计方法 1.4统计推断,由样本统计量所构造的总体参数的估计区间称为置信区间统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间 用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个,均值的抽样分布,(1-)%区间包含了%的区间未包含,置信区间实例,一个由大学四年级男生组成的样本中,平均身高是71英寸,标准差是2.1英寸。用这组数据的构造的总体平均身高的95%的置信区间是70.4英寸71.6英寸之间。美国成年男的身高的均值是69.1英寸,你如何理解这个置信区间?从这个置信区间来看,大学四年级男生的身高和所有男性身高是否有区别?【例】某种零件的长度服从正态分布,从某天生产一批零件中按重复抽样方法随机抽取9个,测得其平均长度为21.4cm。已知总体标准差为=0.15cm。试估计该批零件平均长度的置信区间,置信水平为95%,统计基本原理与常用统计方法 1.4统计推断,解:已知:=0.15cm,n=9,x=21.4,1-=95%,即:21.40.098=(21.302,21.498),该批零件平均长度的置信区间为21.302cm21.498cm之间,统计基本原理与常用统计方法 1.4统计推断,1.4.3假设检验假设检验的基本原理某种带有概率性质的反证法,即:小概率事件在一次观察中实际上不可能发生的统计原则。假设备择假设与原假设所犯的两种错误及显著性水平1“弃真”错误 2“取伪”错误统计量及拒绝域基本步骤1 提出原假设H0 2 选择计算统计量 3 取a=0.05或0.01并计算临界值 4 比较判断得出结论单侧检验与双侧检验,什么是假设?(hypothesis),对总体参数的具体数值所作的陈述总体参数包括总体均值、比例、方差等分析之前必需陈述,我认为这种新药的疗效比原有的药物更有效!,什么是假设检验?(hypothesis test),先对总体的参数(或分布形式)提出某种假设,然后利用样本信息判断假设是否成立的过程有参数检验和非参数检验逻辑上运用反证法,统计上依据小概率原理,原假设(null hypothesis),研究者想收集证据予以反对的假设又称“0假设”总是有符号,或4.表示为 H0H0:=某一数值 指定为符号=,或 例如,H0:10cm,研究者想收集证据予以支持的假设也称“研究假设”总是有符号,或 表示为 H1H1:某一数值,或 某一数值例如,H1:10cm,或 10cm,备择假设(alternative hypothesis),【例】一种零件的生产标准是直径应为10cm,为对生产过程进行控制,质量监测人员定期对一台加工机床检查,确定这台机床生产的零件是否符合标准要求。如果零件的平均直径大于或小于10cm,则表明生产过程不正常,必须进行调整。试陈述用来检验生产过程是否正常的原假设和备择假设,提出假设(例题分析),解:研究者想收集证据予以证明的假设应该是“生产过程不正常”。建立的原假设和备择假设为 H0:10cm H1:10cm,【例】某品牌洗涤剂在它的产品说明书中声称:平均净含量不少于500克。从消费者的利益出发,有关研究人员要通过抽检其中的一批产品来验证该产品制造商的说明是否属实。试陈述用于检验的原假设与备择假设,提出假设(例题分析),解:研究者抽检的意图是倾向于证实这种洗涤剂的平均净含量并不符合说明书中的陈述。建立的原假设和备择假设为 H0:500 H1:500,500g,【例】一家研究机构估计,某城市中家庭拥有汽车的比例超过30%。为验证这一估计是否正确,该研究机构随机抽取了一个样本进行检验。试陈述用于检验的原假设与备择假设,提出假设(例题分析),解:研究者想收集证据予以支持的假设是“该城市中家庭拥有汽车的比例超过30%”。建立的原假设和备择假设为 H0:30%H1:30%,原假设和备择假设是一个完备事件组,而且相互对立在一项假设检验中,原假设和备择假设必有一个成立,而且只有一个成立先确定备择假设,再确定原假设 等号“=”总是放在原假设上 因研究目的不同,对同一问题可能提出不同的假设(也可能得出不同的结论),提出假设(结论与建议),备择假设没有特定的方向性,并含有符号“”的假设检验,称为双侧检验或双尾检验(two-tailed test)备择假设具有特定的方向性,并含有符号“”或“”,称为右侧检验,双侧检验与单侧检验,双侧检验与单侧检验(假设的形式),两类错误与显著性水平,假设检验中的两类错误,1.第类错误(弃真错误)原假设为真时拒绝原假设第类错误的概率记为被称为显著性水平2.第类错误(取伪错误)原假设为假时未拒绝原假设第类错误的概率记为(Beta),H0:无罪,假设检验中的两类错误(决策结果),假设检验就好像一场审判过程,统计检验过程,错误和 错误的关系,影响 错误的因素,1.总体参数的真值随着假设的总体参数的减少而增大2.显著性水平 当 减少时增大3.总体标准差 当 增大时增大4.样本容量 n当 n 减少时增大,显著性水平(significant level),1.是一个概率值2.原假设为真时,拒绝原假设的概率被称为抽样分布的拒绝域3.表示为(alpha)常用的 值有0.01,0.05,0.104.由研究者事先确定,假设检验中的小概率原理,什么是小概率?1.在一次试验中,一个几乎不可能发生的事件发生的概率2.在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设3.小概率由研究者事先确定,统计量与拒绝域,根据样本观测结果计算得到的,并据以对原假设和备择假设作出决策的某个样本统计量对样本估计量的标准化结果原假设H0为真点估计量的抽样分布,检验统计量(test statistic),标准化的检验统计量,显著性水平和拒绝域(双侧检验),抽样分布,显著性水平和拒绝域(双侧检验),显著性水平和拒绝域(双侧检验),显著性水平和拒绝域(双侧检验),显著性水平和拒绝域(单侧检验),显著性水平和拒绝域(左侧检验),显著性水平和拒绝域(左侧检验),显著性水平和拒绝域(右侧检验),显著性水平和拒绝域(右侧检验),决策规则,给定显著性水平,查表得出相应的临界值z或z/2,t或t/2将检验统计量的值与 水平的临界值进行比较作出决策双侧检验:I统计量I 临界值,拒绝H0左侧检验:统计量 临界值,拒绝H0,利用 P 值 进行决策,什么是P 值?(P-value),在原假设为真的条件下,检验统计量的观察值大于或等于其计算值的概率双侧检验为分布中两侧面积的总和反映实际观测到的数据与原假设H0之间不一致的程度被称为观察到的(或实测的)显著性水平决策规则:若p值,拒绝 H0,双侧检验的P 值,左侧检验的P 值,右侧检验的P 值,假设检验步骤的总结,陈述原假设和备择假设从所研究的总体中抽出一个随机样本确定一个适当的检验统计量,并利用样本数据算出其具体数值确定一个适当的显著性水平,并计算出其临界值,指定拒绝域将统计量的值与临界值进行比较,作出决策统计量的值落在拒绝域,拒绝H0,否则不拒绝H0也可以直接利用P值作出决策,统计基本原理与常用统计方法 1.4统计推断,均值假设检验单样本t检验检验某个变量的总体均值与指定的检验值之间是否存在显著差异。前提要求是样本来自的总体应服从正态分布。例1:随机抽样得到若干个周岁儿童身高的样本数据。现在需要通过这些样本数据,分析周岁儿童的平均身高是否为75厘米?例2:已知某运动饮料中,维生素C含量服从正态分布,按规定,维生素C的平均含量不得小于21毫克。现从一批饮料中抽取17罐,平均C含量为23毫克,标准差为3.98毫克,问该批饮料维生素C含量是否合格?,统计基本原理与常用统计方法 1.4统计推断,均值假设检验独立样本t检验就是根据样本数据对它们来自的两独立总体的均值是否有显著差异进行推断。这个检验的前提要求是:(1)两样本应是相互独立的。即从一总体中抽取一批样本对从另一总体中抽取一批样本没有任何影响。(2)样本来自两总体应服从正态分布。例:从北京和上海两个城市,分别随机抽取若干个周岁儿童身高的样本数据,现在需要分析两城市周岁儿童的平均身高是否存在显著差异。例:现将各方面条件及技术水平基本相似的12名跳远运动员随机的分成两组,分别实施不同的训练,半年后,每人增长的成绩如下(单位:厘米)17 12 16 11 138 9 9 10 8 7试问两种训练的效果是否有显著性差异?(=0.01),统计基本原理与常用统计方法 1.4统计推断,均值假设检验配对样本t检验是根据样本数据对样本来自的两配对总体的均值是否有显著差异进行推断。前提要求:一是,两样本应是配对的。(两样本观察值数目相同;其次,两样本的观察值的顺序不能随意更改)二是,样本来自的两样本总体应服从正态分布。,统计基本原理与常用统计方法 1.5多变量关系研究,1.5.1基本思路问题一:从数据看变量间有关系吗?问题二:如果变量间有关系,这个关系有多强?问题三:是否不仅在样本中,而且在总体 中也有这种关系?问题四:这个关系是不是因果关系?,1.5.2两分类变量:列联表 卡方检验例:不同的国家的人们用同样的眼光来看待陌生人吗?调查的问题:“一般说来,你是同意大多数人都是可信赖的呢,还是认为和人们相处时再怎么小心也不过分?”,统计基本原理与常用统计方法 1.5多变量关系研究,统计基本原理与常用统计方法 1.5多变量关系研究,1.5.2两分类变量:列联表 卡方检验,有没有关系?两变量关系的强度?总体中关系?提出零假设检验零假设 p-值判断),统计基本原理与常用统计方法 1.5多变量关系研究,1.5.3一分类变量(自变量)与数值型变量的方差分析实例:下表汇总了儿童看护花费的数据资料。请用方差分析的方法来判断不同看护方式之间的收费是否也不相同。解:第一、看看两变量之间的关系(作图)第二、具体分析两变量之间的强度 第三、描述总体的这种关系,进一步分析这种不同产生的原因。,1,2,ANOVA每小时费 SSdfMSFSig.组间 10.03933.3468.543.003组内 4.70112.392 Total 14.73915,统计基本原理与常用统计方法 1.5多变量关系研究,1.5.4两数值型变量的相关与回归分析,从右图看数据关系?如果一种食物如果含有两倍于另一种食物的脂肪,其热量是否也为另一食物的两倍。,统计基本原理与常用统计方法 1.5多变量关系研究,1)作散点图看有没有关系,统计基本原理与常用统计方法 1.5多变量关系研究,2)求关系强度-相关系数相关系数r是在-1到1之间的描述两数值变量间关系强度的一个指标。我们把它称为线性相关系数(linear correlation coefficient)、(Pearsons correlation coefficient)或乘积相关系数(product-moment correlation coefficient)相关系数的性质(正负及大小)一般认为:r(-.78,-1)很强的负相关,r(.78,1)很强正相关;r(-.30,-.78),r(.30,.78)表示一个适中的关系;r(-.25,.25)关系很弱。散点图与相关系数 由散点图可以看出相关程度的强弱;另外可以发现异常值,所以在进行相关分析和回归分析之前,应作一散点图观测一下数据。对r相关系数的解释 r 到底又有怎样的含义,另外R的平方又代表了什么意义?,统计基本原理与常用统计方法 1.5多变量关系研究,3)进一步研究两变量关系形式-回归分析,在使误差值取得最小时即:值取得最小时,我们就可根据“最小二乘法原理”来确定a,b的值。,统计基本原理与常用统计方法 1.5多变量关系研究,判定系数-方程拟合优度指标总体相关性检验-方差分析表系数的假设检验-T检验,自变量(脂肪含量),残差变量,因变量(热量),?,?,统计基本原理与常用统计方法 1.6统计高级模型,1.6.1因子分析模型多指标设计的带来的问题:1、增加收集的工作量,使分析工作变得烦琐2、耗费大量的人力物力,但存在大量的信息重叠。解决办法:采用因子分析减少指标,而不造成重要信息的丢失。它将众多指标综合成几个较少的几个综合指标,这些综合指标称为因子变量。,统计基本原理与常用统计方法 1.6统计高级模型,因子变量的特点,统计基本原理与常用统计方法 1.6统计高级模型,因子分析简介1、因子分析数学模型及相关概念假设研究的变量为P个(x1,x2,xp)其中xi是平均数为0标准差为1的标准化变量;F1,F2,Fm为m个因子变量mP,于是有:,A为因子载荷矩阵,aij为因子载荷,E为特殊因子。,统计基本原理与常用统计方法 1.6统计高级模型,因子分析相关概念,统计基本原理与常用统计方法 1.6统计高级模型,统计基本原理与常用统计方法 1.6统计高级模型,因子分析的步骤,统计基本原理与常用统计方法 1.6统计高级模型,因子分析的步骤1、确定待分析的原有若干变量是否适合作因子分析。采用相关分析方法得出变量的相关系数矩阵,统计基本原理与常用统计方法 1.6统计高级模型,因子分析的步骤1、确定待分析的原有若干变量是否适合作因子分析。采用相关分析方法得出变量的相关系数矩阵,统计基本原理与常用统计方法 1.6统计高级模型,因子分析的步骤1、确定待分析的原有若干变量是否适合作因子分析。,统计基本原理与常用统计方法 1.6统计高级模型,因子分析的步骤2、确定因子变量和因子载荷矩阵 采用主成分分析的方法,统计基本原理与常用统计方法 1.6统计高级模型,因子分析的步骤3、因子变量命名解释,研究问题引入(小学五年级数学学习情况),研究问题、假设及统计方法,研究问题、假设及统计方法,问卷设计与分析,问卷的项目分析-反向重新计分,问卷的项目分析-计算各维度总和,问卷的项目分析-分析各题目区分度,对各维度总分进行排序,找27%低分组和27%高分组进行独立样本T检验,差异不显著的应该删除该题目.或者对各题目分数与总分数进行相关性检验,把不显著相关的题目删除,效度分析,专家效度(适合,修改后适合,不适合)计算适合的比率评价专家效度效标效度:和某一有效标准的测量值进行相关分析内容效度:分析题目的难度和区分度结构效度:因子分析探讨主因素结构和理想结构的一致性.,信度分析,信度:分析各维度的信度系数以及总量表的信度系数重测信度分半信度:将变量按奇偶分半记分,求两部分间的相关系数,