《统计分析软件应用》教学讲义.ppt
统计分析软件应用,薛薇中国人民大学统计学院2011.2,第一章 SPSS 概述,SPSS概述,SPSS:Statistical Package for Social ScienceStatistical Product and Service SolutionsSPSS的发展:60年代:美国斯坦福大学三位研究生研制70年代:SPSS总部成立于芝加哥,推出SPSSX中小型机版80年代:SPSS公司(SPSS/PC+微机版13)90年代:SPSS公司(SPSS WINDOWS版514),SPSS 主要特点,操作简便。绝大多数操作是通过菜单、按钮、对话框完成的。无需计算机编程、需记忆大量命令和参数。分析方法丰富、分析结果清晰、直观。可以直接读取其他软件格式的数据文件,如:dbf、xls、sas等。最新版本采用分布式分析系统,适应互联网,支持动态收集、分析数据和HTML报告与一般的办公软件直接兼容不方便,SPSS主要窗口:数据编辑窗口,窗口标题:data editor 功能:对SPSS的数据文件进行录入、修改、管理等基本操作的窗口。组成:窗口主菜单、工具栏、数据编辑区、状态显示区特点:SPSS运行过程中自动打开SPSS中各统计分析功能都是针对该窗口中的数据进行的窗口中的数据文件以.sav存于磁盘上两个视图:数据视图和变量视图,SPSS主要窗口:数据输出窗口,窗口标题:viewer功能:SPSS统计分析报表及图形的输出的窗口。组成:窗口主菜单、工具栏、结果显示区、状态显示区特点:在进行第一次分析时自动打开,也可手工打开可以手工打开若干个可相互切换的viewer窗口;状态栏上的!表示当前输出窗口输出窗口可以关闭,窗口内容以.SPO存于磁盘上两个视图:目录视图和内容视图,SPSS主要窗口:数据输出窗口,驾驭数据出输出窗口一般操作结果文件的打开和保存加密保存窗口元素的移动和删除标准的拖放式操作在大纲视图中操作最方便结果的导出以纯文本格式导出、以HTML格式导出如何在WORD中引用分析结果统计表格:拷贝或拷贝对象统计图:拷贝对象,表格的编辑表格状态的确定单元格内容编辑行列转置Autofit表格样式的变换,SPSS基本运行方式,完全窗口菜单方式:所有分析操作过程都是通过菜单和按钮及对话框方式进行的.是经常使用的一种运行方式,适用于一般分析和SPSS的初学者.,SPSS基本运行方式,程序运行方式:手工编写SPSS命令程序一次性提交计算机运行适用于大规模的分析工作和熟练的SPSS程序员.实现方法:(1)打开SYNTAX语句窗口并编写和修改SPSS程序(2)点击语句窗口中的RUN菜单项,选择运行方式运行,Syntax语句窗口,窗口标题:syntax editer 功能:编写和修改SPSS程序的窗口.特点:打开:FILE-NEW-SYNTAX或FILE-OPEN-.SPS扩展名窗口中的程序以.SPS存于磁盘上菜单项RUN中提供四种程序执行方式:All、Selection、Current、To end,SPSS 基本运行方式,菜单程序混合运行方式:先通过菜单选择分析过程和参数,不立即提交(OK)执行,而是按动PASTE按钮.计算机自动将用户刚定义的分析过程和参数转换成SPSS的命令,并显示到SYNTAX语句窗口中.用户可对其进行必要的修改后再提交给计算机执行.一般适用于熟练的SPSS程序员.,利用SPSS进行数据分析的步骤,建立SPSS数据文件定义数据文件结构录入修改和编辑待分析数据数据的统计分析统计分析之前的预处理统计分析数据和分析结果的保存结果的说明和解释,思考复习,SPSS有哪两个主要窗口?功能是什么?有哪些特点?SPSS有哪些运行方式?特点是什么?,第二章 SPSS数据文件的建立和管理,一份简单的调查问卷,单项选择题提供几个备选择答案,从其中选择一个答案变量类型:分类数据、定序数据数据类型:字符型填空题变量类型:定距数据数据类型:数值型,如何利用SPSS组织数据,SPSS数据文件是一种有结构的数据文件,年级 性别问题1问题n,11.4222.,文件结构,数据,个案case,变量名,变量,用字符或数字表示字符型数据SPSS数据文件一般只能通过SPSS软件打开,一份简单的调查问卷,多项选择题提供几个备选择答案,从其中选择多个答案如:在下列品牌中您信任哪些品牌?被诊断为高血要后你采取了以下哪些辅助治疗手段?如:高考时报考学校(1)北京大学(2)清华大学(3)人民大学(4)北京理工大学(5)北京师范大学(6)北京外国语大学多项选择题不能在SPSS中直接存储,因为SPSS的一个变量只能有一个取值,如何利用SPSS组织数据,多项选择题的处理方法思路:将一个问题定义成几个变量,用这几个变量来描述该问题的几个可能被选择的答案。编码方式:多选项二分法(multiple dichotomize method)多选项分类法(multiple category method),多选项二分法 将每个答案作为一个变量,每个变量只有两个取值(0或1)。例如:,如何利用SPSS组织数据,多选项分类法:预先估计多选项问题可能被选择的最多答案数.为每个答案建立一个变量,取值为多选项问题的可选答案.例如:,如何利用SPSS组织数据,频数数据:,如何利用SPSS组织数据,设置三个变量:专业方向、性别、人数,SPSS数据文件的结构,(一)变量名(Variable name):变量名是变量存取的唯一标志。起名规则:不多于8个字符组成不区分大小写允许汉字作为变量名默认变量名为VARn,如:var00001,SPSS数据文件的结构,(二)变量的类型(type)和显示宽度(width)1、数值型:标准数值型(Numeric):默认类型 8.2如:12345678、12345.67、-1234.56 带逗号的数值型(Comma):从个位开始三位一个逗号8.2如:1,234.56科学计数法(Scientific Notation):表示很大或很小的数据 8.2如:1.2E+05带美元符号(Dollar):表示货币格式很多,如:$12.30,SPSS数据文件的结构,2、字符型(String):存储字符数据 8位如:beijing 处理时用双引号扩起来3、日期型(Date):存储日期数据 格式很多,如:20-AUG-19994、其他:如:圆点数值型(dot)、用户自定义型(customer)注意:显示宽度不影响数据的存储,SPSS数据文件的结构,(三)变量名标签(Variable label):对变量名的一些解释说明,增强分析结果的可视性。可以省略。(四)变量值标签(Value label)对变量所取值的一些解释说明,增强分析结果的可视性。可以省略。一般用于品质数据 如:1-男 2-女、1-高 2-中 3-低,SPSS数据文件的结构,(五)变量列格式(Column Format)对齐方式(Text Alignment)左对齐(Left):字符型默认。右对齐(Right):数值型默认。居中对齐(Center)列宽度(Column Width)默认值为变量的总长度。,SPSS数据文件的结构,(六)缺失值(Missing Values)1、什么是缺失值?漏填数据明显错误的数据2、对缺失值的一般处理事先指定:指定某个特定值为缺失值(用户缺失值)其他处理方法,如:以均值、众数替代等3、SPSS缺失值 用户缺失值 系统缺失值:数值型:点()字符型:空,SPSS数据文件的结构,(七)变量计量尺度(Measurement)scale:定距数据,一般为数值型数据。如:收入、人数。ordinal:有固有顺序的顺序水准的数值型或字符型数据。如:职称、年龄段nominal:无固有顺序的名义水准的数值型或字符型数据。如:性别、民族,定义SPSS数据文件结构,操作方法:利用变量视图如何查看变量定义的情况 菜单选项:Utilities-Variables,SPSS数据的录入与保存,录入时应注意:黑框确定当前数据单元录入带有变量值标签的数据:手工输入代码,屏幕显示变量值标签冻结第一列数据保存:操作保存格式:(1)*.sav:SPSS数据文件(默认)。(2)*.dbf:dbase数据文件。(3)*.xls:Excel工作表文件。注意:有些信息会丢失,SPSS数据的编辑,(一)打开数据文件菜单选项:File-Open-.sav(二)数据定位按个案号码定位菜单:Data-Go to case-输入样本号按值定位光标定位到某列变量上-Edit-Find.,SPSS数据的编辑,(三)插入和删除一个个案插入:data-insert case删除:选定待删行,鼠标右键找到Cut(四)插入和删除一个变量插入:光标定位到某列变量上-Data-Insert Variable(插到某列前)或鼠标右键删除:选定列,鼠标右键Cut项,SPSS数据的编辑,(五)数据移动、复制和删除定义源数据块鼠标右键:cut copy clear确定目标单元鼠标右键:paste,数据文件的合并,目的:将两个SPSS数据文件合并到一个数据文件中文件合并的方式:纵向合并横向合并,(一)纵向数据合并(1)含义:将磁盘上的一个SPSS数据文件追加到当前data editor窗口中的数据文件中。(2)前提:两个SPSS数据文件应可以合并的内容,且最好有相同的变量名和变量类型。(3)菜单选项:data-merge file-add cases,数据文件的合并,数据文件的合并,(二)横向数据合并(1)含义:将磁盘上的一个SPSS数据文件中的若干个变量增加到当前data editor窗口的数据文件中。(2)前提:a.两个数据文件必须有一个共同的变量名为关键字段-合并的依据;b.两个数据文件应事先按关键字段升序排序。,数据文件的合并,(二)横向数据合并(3)菜单选项:data-merge file-add variable(4)选项说明:math cases on key variables in sorted files:以关键字作为合并标志。Both files provide cases:合并后的文件的数据由两个文件共同提供。External file is keyed table:以data editor的数据为基础。Working data file is keyed table:以磁盘文件的数据为基础。,与其他软件数据共享,共享dbf和xls格式文件菜单选项:Data-Open(1)*.dbf:dbase数据文件。字段名、字段类型自动转成SPSS数据文件中的变量名和类型。一条记录为一个个案。(2)*.xls:Excel文件(Read variable name选项)共享数据库文件建立ODBC数据源,第三章 SPSS数据文件的基本加工和处理,SPSS数据文件的基本加工和处理,数据文件的整理 个案排序、个案选取数据加工 变量计算、计数数据分组 自动分组、手工分组数据文件的其他处理功能 指定加权变量,目的:将所有个案按照用户指定的某一个或多个变量的变量值的升序或降序重新排列。菜单选项:data-sort cases注意:(1)Ascending:升序、Descending:降序。(2)多重排序,选择变量名的次序很关键。,个案排序,排序在数据分析中的作用?,个案选取,目的:从现有数据中挑选出部分数据。菜单选项:data-select cases选取个案的几种不同方式(1)选择符合一定条件的个案(If condition is satisfied)(2)随机选取个案(Random sample of cases)近似选取、精确选取(3)选取某一区域内的个案(Based on time or case range)(4)使用过滤变量(use filter variable)注意:以后的操作和分析都在该个案选取的基础上进行.,个案选取在数据分析中的作用?,变量计算,目的:产生新变量或对原变量进行必要的转换处理(如:预测问题 产生比率数据 偏态数据的正态处理 时间序列的平稳处理等)(1)含义:根据用户给出的SPSS算术表达式,对所有或部分样本数据进行加工。(2)菜单选项:transform-compute if 按钮(3)SPSS算术表达式(Numeric Expression):由算术运算符(+、-、*、/、*)、SPSS函数以及SPSS变量名组成的式子。,变量计算,算术函数统计函数分布函数逻辑函数字符串函数缺失值函数日期时间函数其他函数,(4)SPSS函数,算术函数Abs():求绝对值sqrt():求平方根rnd():四舍五入后取整trunc():截取小数部分取整mod():取余Ln():自然对数Lg10():以10为底的对数,(4)SPSS函数,变量计算,统计函数:mean():均值sd():标准差sum():求总和cfvar():求变异系数max()min():求最大最小值,(4)SPSS函数,变量计算,分布函数:normal():产生服从标准正态分布的随机数序列uniform():产生均匀分布的随机数序列rv.():产生指定分布的随机数序列,如:rv.t(10)cdf.():计算指定分布的累计概率值idf.():计算指定分布的临界值,(4)SPSS函数,变量计算,逻辑函数:range():判断变量值是否在指定的区间内any():判断变量值是否为指定的若干值字符串函数:index(S1,S2):判断字符串S2在S1中首次出现的位置length():求字符串长度lower()upcase():字符串的大小写转换lpad():用指定字符补齐字符串为指定长度ltrim():压缩字符串空格substr():取子串,(4)SPSS函数,变量计算,缺失值函数missing():判断变量是否取系统或用户缺失值sysmis():判断变量是否取系统缺失值其他函数:Lag():便于进行差分计算,(4)SPSS函数,变量计算,变量转换,(5)SPSS条件表达式:条件表达式:由SPSS关系运算符、逻辑运算符、SPSS函数以及SPSS变量名组成的式子。关系运算符:(大于)、=(大于等于)、32、sr=700,逻辑运算符:&(AND):并且|(OR):或者(NOT):非 如:(nl32)and(sr700)not xb=1,计数,(1)含义:对所有或部分个案,计算若干个变量中有几个变量的值落在指定的区域内,并将结果存入新变量中。(2)菜单选项:transform-count-define value,产生计数变量,(3)指定区域的定义Value:指定一个值system-missing:系统缺失值system-or user missing:系统或用户缺失值range through:指定一个闭区域,给出最大和最小值range:lowest through n:最小值到某个给定值range:n through highest:某个给定值到最大值,数据文件的分类汇总,(1)含义:按指定的分类变量的变量值对个案分组;计算每组个案的汇总变量的基本统计量;将计算结果生成到一新文件中,即:在新文件中对应分类变量的每一个分类值产生一个个案。,原始数据,按性别变量汇总数据,数据文件的分类汇总,(2)菜单选项:data-aggregate(3)说明:多重分组时,变量名的选择顺序。生成的新文件名默认为:aggr.sav。可修改。生成的新变量名默认为原变量名后加_1。可修改。可以在新文件中存贮个分组个案数.,数据分组,目的:了解数据的总体分布状况思路:指定按哪个变量分组,即:指定分组变量定义分组变量的分组区间(不重、不漏)指定一个存放分组结果的标志变量分组方法:自动分组手工分组,数据分组,(一)自动分组单变量值分组(1)含义:分组变量值相同的个案分在同一组,同组中的标志变量相同。标志变量依照分组变量值的大小次序给定。(单变量分组,通常只适合于离散变量且变量值较少的情况)(2)菜单选项:transform-automatic recode分位值自动分组(1)含义:将定距型变量按分位数要求自动划分成相应类(2)菜单选项:transform-categorize variables,数据分组,(二)手工分组(组距分组)(1)含义:人工定义分组区域,对所有个案或符合一定条件的个案进行等距或非等距分组。(2)方法:分组结果存入原变量、分组结果存入新变量,数据分组,(3)分组结果存入原变量:定义分组区域:定义某一区间的原变量值分组后所对应的新值是什么.未定义的原变量值保持不变。菜单选项:transform-recode-into same variables说明:可以指定对符合一定条件的个案进行分组。,数据分组,(4)分组结果存入新变量:定义分组区域:定义某一区间的原变量值分组后所对应的新值是什么.未定义的原变量值在新变量中为系统缺失值。菜单选项:transform-recode-into different variables定义原变量分组后产生的相应新变量(CHANGE钮)可以指定对符合一定条件的个案进行分组。单值区间可以实现数据转换(问卷分析中的反向题重新计分),问卷分析中的反向题重新计分举例,性格打分(内向、一般、外向)1、与生人交往会“自来熟”(1)从不(2)偶尔(3)有时(4)经常 2、与不熟悉的异性交往,会脸红(1)从不(2)偶尔(3)有时(4)经常3、在公众场合下你会大声发表自己的意见(1)从不(2)偶尔(3)有时(4)经常极为内向:3分 较为内向:6分 较为外向:9分 极为外向:12分,指定加权变量,(1)含义:指定某一变量为加权变量。如:平均蔬菜价格、男足打分(2)菜单选项:data-weight case(3)说明 如果取消加权变量应重新定义:data-weight casedo not weight cases,作业,根据给定的两个关于学生成绩的SPSS数据文件做如下处理:合并两个数据文件(数据不一定是一一对应的)计算每个同学的总成绩、平均成绩、标准差计算每个同学的得优率和得良率根据得优率排名将各门课程的成绩按优、良、中、及格和不及格重新分组分别计算男生和女生的各科的平均成绩、标准差,并保存计算结果到SPSS数据文件。,第四章 SPSS的基本统计分析,基本统计分析,频数分析计算基本描述统计量(分布特征测度)图形分析工具列联分析,频数分析,目的粗略把握变量值的分布状况。例:研究被调查者的特征(如:性别、年龄、收入)研究被调查者对某个问题的总体看法(如:教学方式、选修课程)研究被调查者某方面的状态(如:购买家电的类型、居民月支出状况)采用的方法计算频分布表:包括计算频数、百分比、累计百分比绘制统计图形:条形图、饼图,频数分析,基本操作步骤(1)菜单选项:analyze-descriptive statistics-frequencies(2)选择几个待分析的变量到variables框.(3)chart选项,选择所需要的图形,频数分析,应用举例储户的职业分析特点:定类数据频数分布表输出按频数升降序输出储户收入水平分析特点:定序数据除使用频数、百分比、总数外,还可以充分使用累计百分比,频数分析,频数分析中的其他分析计算分位数:适用于定距数据数据按升序排序后,找到若干个分位点上的变量值quartiles:计算四分位数25%(QL)、50%(中位数)、75%(QU)cut points for n equal groups:n等份percentile:自定义百分位点分位数的应用 在排除极端值影响的条件下,通过计算分位数差,比较两组样本数据的离散程度例:(QL=50,QU=80)和(QL=70,QU=75)的比较分位数、中位数、众数的应用举例不同户口所在地的储户取款金额比较利用分位数(不显示频数分析表),计算描述统计量,目的精确把握变量的总体分布状况,了解数据的集中趋势、离散趋势、对称程度、陡峭程度。基本方法计算基本描述统计量,计算描述统计量,描述集中趋势的统计量均值(mean):表示某变量所有变量值集中趋势或平均水平的统计量。适用于定距数据。特点:利用了全部数据,易受极端值的影响。描述离散程度的统计量标准差(standard deviation-Std Dev):表示某变量的所有变量值离散程度的统计量。SPSS中计算的是样本标准差。方差(variance):标准差的平方。SPSS中计算的是样本方差。极差(range):最大值(maximum)最小值(minimum),计算描述统计量,描述对称程度的统计量 偏度(skewness):描述某变量分布形态的偏斜程度和方向的统计量.偏度为0表示对称;大于0表示正偏差大(右偏),频数最大的值比均值小,极值大于均值;小于0表示负偏差大(左偏),计算描述统计量,描述陡峭程度的统计量峰度(kurtosis):描述某变量所有变量值分布形态陡缓程度的统计量。峭度为0表示与标准正态分布峭度相同。大于0表示比标准正态分布陡,尖峰。小于0表示比标准正态分布缓;平峰。,计算描述统计量,其他统计量 标准误差(standard error S.E):抽样分布中的标准差,反映样本误差。均值标准误差(means of S.E)中心极限定理认为:样本均值N(u,2/n)反映样本均值与总体真值间的平均离散程度样本数越大,样本均值的离散程度越小,对真值的估计越准确,计算描述统计量,基本操作步骤(1)菜单选项:analyze-descriptive statistics-descripive(2)选择将参加计算的数值型变量名到variables框。分析比较不同户口所在地储户取款情况比较集中趋势比较离散趋势比较偏斜程度比较陡峭程度实现方式:数据拆分,其他功能数据标准化处理新变量的均值为0,标准差为1;小于0表示在平均水平下,大于0反之.正态分布的数据标准化后呈标准正态分布(68.2%,95.4%,99.7%)save standardized values as variables选项将变量作标准化后,结果存入名为“Z+原变量名”的新变量中.数据标准化处理应用举例你能以较简便的方法快速找到取款数目出众的储户吗?,计算描述统计量,基本统计分析的图形工具,以制作条形图为例,以制作条形图为例第一种模式下的三种图形:用于某变量在各分类情况的比较,基本统计分析的图形工具,以制作条形图为例第二种模式下的三种图形:用于若干变量的统计量的比较,基本统计分析的图形工具,箱线图(箱线图中以四分位差的1.5倍为标准剔除值),基本统计分析的图形工具,直方图和P-P图,基本统计分析的图形工具,交叉分组下的频数分析,目的 了解不同变量在不同水平下的数据分布情况 例:学习成绩与性别有关联吗?(两变量)例:职业、性别、爱逛商店有关联吗?(三变量)分析的主要步骤产生交叉列联表分析列联表中变量间的关系,产生交叉列联表,基本操作步骤(1)菜单选项:analyze-descriptive statistics-crosstabs(2)选择一个变量作为行变量到row框.(3)选择一个变量作为列变量到column框.(4)可选一个或多个变量作为控制变量到layer框.控制变量的层次设置:同层为水平数加;不同层为水平数积.(5)是否显示各分组的棒图(display clustered bar charts),产生交叉列联表,应用举例户口与收入水平有关联吗吗?行变量:户口;列变量:月收入不同户口不同收入水平的储户对物价水平的看法一致吗?行变量:收入水平;列变量:物价水平;控制变量:户口,产生交叉列联表,应用举例,不同户口不同收入水平的储户对物价水平水平的看法一致吗?,产生交叉列联表,进一步计算 cells选项:选择在频数分析表中输出各种百分比.row:行百分比(Row pct);column:列百分比(Col pct);total:总百分比(Tot pct);,分析列联表中变量间的关系,目的:通过列联表分析,检验行列变量之间是否独立。方法:卡方检验:对品质数据的相关性进行度量,分析列联表中变量间的关系,卡方检验 年龄与工资收入交叉列联表 低 中 高 青 400 00 中 0 5000 老 0 0600 低 中 高 青 0 0500 中 0 6000 老 400 00,分析列联表中变量间的关系,卡方检验基本步骤(1)H0:行列变量之间无关联或相互独立(2)构造卡方统计量统计量服从(r-1)*(c-1)个自由度的卡方分布count:观察(实际)频数expected count:期望频数(期望频数反映的是H0成立情况下的数据分布特征)Residual:剩余(观察频数-期望频数),分析列联表中变量间的关系,卡方检验基本步骤(3)计算卡方统计量的值,并得到该统计量值的概率P值(4)决策。概率P与显著性水平比较,小于等于则拒绝H0,否则不能拒绝实现步骤statistics选项cells选项,分析列联表中变量间的关系,应用举例户口对平均收入水平的分布会产生影响吗?独立性检验:从一个总体中随机抽样。按某两个属性变量将样本进行分类不同行业人对的自己职业的选择标准是否存在差异?一致性检验:从两个总体中独立抽样,根据一个属性变量将样本进行分类。制造业 服务业 物质报酬 105 45 稳定性 40 35,分析列联表中变量间的关系,卡方检验的要求:一般要求列联表中期望频数小于5的格子数不超过20%,否则会夸大卡方值,容易得出拒绝结论,可以合并单元格。卡方值会受样本数的影响,分析列联表中变量间的关系,行列变量相关性的其他测度指标phi系数:适用于22列联表当行列变量独立时:有:当行列变量完全相关时:有:越接近于1,相关性越强。越接近0,相关性越弱,分析列联表中变量间的关系,行列变量相关性的其他测度指标列联C系数(contingency coefficient),通常为0,1),取值受到行列数的影响(见EXCEL)V系数 0,1值越大表示行列变量的相关性越大,多选项分析,多选项分析的基本思路定义多选项变量集多选项频数分析多选项交叉分组下的频数分析,多选项分析,定义多选项变量集目的:将已分解的变量定义为一个集合,便于进行多选项分析菜单选项:analyze-multiple response-define sets从原变量中选取被分解的变量(数值型)到variables in sets框指定被分解的变量是按多选项二分法(dichotomize)分解还是按多选项分类法(categories)分解的为变量集命名。系统自动在名字前加字符$.,多选项分析,多选项频数分析菜单选项:analyze-multiple response-frequencies多选项交叉分析下的频数分析菜单选项:analyze-multiple response-crosstabs,多选项分析,多选项分析实例分析居民的储蓄目的采用多选项分类法组织数据在某次市场调查中收集了北京、上海和广州三个城市的受访者对几种常见饮料的喜好情况,可选的饮料有茶、牛奶、咖啡、果汁、矿泉水。(数据是从原始数据库中抽出的一小部分资料),作以下分析:采用二分法组织数据受访人群中最受欢迎的饮料是哪种?男、女喜爱的饮料有无差异?三个城市的人群对饮料的喜好有无差异?,作业,根据第三章的关于学生成绩的合并后的SPSS数据文件做以下处理:对各门课程分组后,做频数分析,绘制某两门课程成绩的直方图绘制男女生构成的饼图分别计算男女生各门成绩的基本描述统计量,并对数据的集中趋势、离散程度和偏度加以比较(数字和图形的对比),第五章 SPSS参数检验,假设检验概述,假设检验是一种根据样本数据来推断总体的分布或均值、方差等总体统计参数的方法。根据样本来推断总体的原因:总体数据不可能全部收集到。如:质量检测问题收集到总体全部数据要耗费大量的人力和财力假设检验包括:参数检验非参数检验,假设检验的基本原理,基本信念:利用小概率原理进行反证明。小概率事件在一次实验中不可能发生。例如:对人民大学男生平均身高进行推断H0:平均身高为173样本平均身高为178,由于存在抽样误差,不能直接拒绝H0。而需要考虑:在H0成立的条件下,一次抽样得到平均身高为178的可能性有多大。如果可能性较大,是个大概率事件(与相比较),则不能认为H0不正确。否则,如果可能性较小,是个小概率事件,但确实发生了,则只能认为H0不正确。概率P值即为观测结果或更极端现象在零假设成立时出现的概率,假设检验的基本步骤,(1)根据检验的目标,对待推断的总体参数或分布作一个基本假设H0(2)构造检验统计量,且该统计量服从某种已知分布.(3)利用收集到的样本数据和基本假设计算检验统计量的值,并得到相应的相伴概率P值,即:检验统计量在某个特定的极端区域取值在H0成立时的概率.(4)如果概率P值小于用户给定的显著性水平a,则拒绝H0.否则,不拒绝H0.,SPSS中的参数检验方法,单样本t检验两独立样本t检验两配对样本t检验,SPSS单样本t检验,(一)含义:检验某变量的总体均值与指定的检验值之间是否存在显著差异。例如:周岁儿童的平均身高是否为75厘米(二)要求:样本来自的总体服从正态分布,为什么?,SPSS单样本t检验,(三)基本思路:H0:u=u0,总体均值与检验值之间不存在显著差异.构造检验统计量.从样本均值的分布出发,即:N(u0,2/n).于是:总体方差未知时构造t统计量D=X-u0t统计量服从n-1个自由度的t分布计算t统计量和对应的相伴概率P(绝对值大于等于的双侧概率)结论:P,则拒绝H0,认为总体均值与检验值之间有显著差异.P,不能拒绝H0.,SPSS单样本t检验,(四)基本操作步骤(1).菜单选项:Analyze-compare means-one-samples T test(2).指定检验值:在test后的框中输入检验值,SPSS单样本t检验,(五)option选项confidence interval:指定输出0的置信区间.默认值为95%.Missing values:缺失值的处理(单样本检验时以下选项没有差别)exclude cases analysis by analysis:当分析时涉及到有缺失值变量时再剔除相应的个案exclude cases listwise:剔除所有含缺失值的个案后再分析,SPSS单样本t检验,(六)应用举例周岁儿童的平均身高为75厘米吗?根据以前的大量调查,已知顾客对某产品的满意度评分在72分左右,现该产品进行了重新包装,收集了一批顾客的满意度评分,现在的评价是否显著高于以前?,SPSS两独立样本t检验,(一)含义:根据两独立样本的数据,对两总体均值是否有显著差异进行推断。例如:男生和女生的计算机平均成绩有显著差异吗?(二)要求:两样本必须相互独立,即:抽取其中一批样本对抽取另一批样本没有任何影响.(如:北京周岁儿童与上海儿童的平均身高)两总体服从正态分布,为什么?,SPSS两独立样本t检验,(三)基本思路:H0:u1-u2=0,两总体均值无显著差异.构造检验统计量.从两样本均值差的分布出发,即:N(u1-u2,2x1-x2).于是两总体均方差未知时构造t统计量:两总体均值差的抽样分布标准差:方差相等:用合并方差方差不等:计算t统计量和对应的相伴概率P(绝对值大于等于该值的双侧概率),SPSS两独立样本t检验,(三)基本思路:结论:方差齐性F检验利用Levene F检验确定两总体方差是否齐性.H0:两总体方差无显著差异.该检验首先计算每个个案与所属组均值之差并取绝对值.然后对其进行单因素方差分析.,SPSS两独立样本t检验,(三)基本思路:结论:首先,如果F检验的P,则拒绝F检验的H0,认为方差不齐性;其次看Unequal行的t检验概率.如果,则拒绝t检验的H0,认为两总体均值有显著差异;如果,则不拒绝t检验的H0.首先,如果F检验的P,则不能拒绝F检验的H0,认为方差齐性;其次看equal行的t检验概率.其余同上,SPSS两独立样本t检验,(四)基本操作步骤(1).菜单选项:analyze-compare means-independent-samples T(2).选择若干变量作为检验变量到test variables框(3).选择代表不同总体的变量作为分组变量到grouping variable 框(4).定义分组变量的分组情况Define Groups.:use specified values:定义分组变量的分组标志值分别是什么cut point:分组变量为连续变量.输入一个数字,将大于等于该值的分成一组,小于该值的分成另一组.,SPSS两独立样本t检验,应用举例上海周岁儿童的平均身高与北京周岁儿童的平均身高有显著差异吗?某商场为某种产品进行了促销活动,请比较前后数日的销售额,以确认促销活动对销量有无作用。A、B两种减肥产品的作用有明显差异吗?随机选了200名肥胖者服用A种减肥产品,其中:92人体重明显减轻了;另随机选了183名肥胖者服用B减肥产品,其中:161人体重明显减轻了。,SPSS两配对样本t检验,(一)含义:根据配对样本对两总体均值是否有显著差异进行推断.例如:某种减肥茶是否有效(二)要求:两样本数据必须两两配对,即:样本个数相同,个案顺序相同.如:减肥茶的效果、不同广告形式对销售额的影响.(控制了个案自身的影响)两总体服从正态分布,SPSS两配对样本t检验,(三)基本思路H0:两总体均值无显著差异,差值序列的均值u0=0.构造统计量:同单样本均值检验D=X-u0 S为差值序列的标准差实质是先求出每对测量值的差值;然后检验差值序列的均值是否与0有显著差异.如果差值的均值与0有显著差异,则认为两总体均值存在显著差异;否则,与0无显著差异,则认为两总体均值不存在显著差异.,SPSS两配对样本t检验,(三)基本思路计算t统计量和对应的相伴概率P(绝对值大于等于的双侧概率)结论:P,则拒绝H0,认为两总体均值有显著差异.P,不能拒绝H0.,SPSS两配对样本t检验,(四)基本操作步骤(1).菜单选项:analyze-compare means-paired-samples T(2).选择一对或若干对配对变量作为检测变量到paired variables框.(3)option选项同独立样本的T检验,SPSS两配对样本t检验,应用举例某种减肥茶真起到减肥作用了吗?对促销人员培训前和培训后销售额的比较,以确认业务培训有无效果。,作业,一、给幼鼠以不同的饲料,研究每天钙的留存量是否有显著不同。以下两种方法涉及实验样本:方式1:同一鼠喂不同的饲料鼠号 1 2 3 4 5 6 7 8 9饲料1 33.1 33.1 26.8 36.3 39.5 30.9 33.4 31.5 28.6饲料2 36.7 28.8 35.1 35.2 43.8 25.7 36.5 37.9 28.7方式2:甲组12只喂饲料1,乙组9只喂饲料2甲组:29.7 26.7 28.9 31.1 31.1 26.8 26.3 39.5 30.9 33.4 33.1 28.6乙组:28.7 28.3 29.3 32.2 31.1 30.0 36.2 36.8 30.0二、根据学生成绩数据,分析:是否有男女生平均成绩存在明显差异的课程判断学生在哪些课程上的平均成绩差别不明显,第六章 方差分析,方差分析概述,一、问题的提出最优方案的设计如何获得最佳的产品销售量哪些因素是影响销售量的主要因素哪些因素的那种情况更利于提高销售量哪些因素的组合更利于提高销售量可以利用方差分析的方法来实现,方差分析概述,二、方差分析目的:方差分析从分析数据的差异入手,分析哪些因素是影响数据差异的众多因素中的主要因素.相关概念:(1)观测变量:作为观测的对象(如:亩产量、推销量等).(2)控制因素:人为可以控制的因素(如:施肥量、品种、推销策略、价格、包装方式等),在方差分析中称为控制因素.将控制变量的不同情况称为控制变量的不同水平.(3)随机因素:人为很难控制的因素(如:气候、推销人员的形象、抽样误差等),方差分析中主要指抽样误差。,方差分析概述,三、核心问题从数据差异角度看:观测变量的数据差异=控制因素造成+随机因素造成当控制因素对实验结果有显著影响时,和随机