《统计分析基础教程62页.ppt》由会员分享,可在线阅读,更多相关《统计分析基础教程62页.ppt(62页珍藏版)》请在三一办公上搜索。
1、SPSS统计分析基础教程,主讲人:彭超,课程目的,应用统计学理解统计数据分析主要方法的基本理论掌握基本统计方法在实践中的应用能熟练运用SPSS软件实现数据分析建立起独立运用统计方法解决实际问题的基础能力,参考书目:,1、统计学:从数据到结论(第2版)吴喜之著,中国统计出版社,2006。2、统计分析与SPSS的应用,薛薇编著,中国人民大学出版社,2001。3、SPSS统计分析教程,李志辉等主编,电子工业出版社,2003。4、社会统计方法SPSS软件应用,郭志刚主编,中国人民大学出版社,1999。,第一章 一些基本概念,什么是统计呢?报表?数字?你觉得你们需要统计吗?为什么?,1.1 统计是什么?
2、,统计是人类思维的一个归纳过程站在一个路口,看到每过去20辆小轿车时,也有100辆自行车通过而且平均每10个轿车载有12个人于是,你认为小汽车和自行车在这个路口的运载能力为24:100这是一个典型的统计思维过程,1.1 统计是什么?,一般来说,统计先从现实世界收集数据(信息),如经济增长然后,根据数据作出判断,称为模型模型是从数据产生的模型也需要根据新的信息来改进不存在完美的模型模型的最终结局都是被更能够说明现实世界的新模型所取代,1.1 统计是什么?,比如说,经济生产的模型,统计学可以应用于几乎所有的领域:,精算,农业,动物学,人类学,考古学,审计学,晶体学,人口统计学,牙医学,生态学,经济
3、计量学,教育学,选举预测和策划,工程,流行病学,金融,水产渔业研究,遗传学,地理学,地质学,历史研究,人类遗传学,水文学,工业,法律,语言学,文学,劳动力计划,管理科学,市场营销学,医学诊断,气象学,军事科学,核材料安全管理,眼科学,制药学,物理学,政治学,心理学,心理物理学,质量控制,宗教研究,社会学,调查抽样,分类学,气象改善,博彩等。,1.1 统计是什么?,一句话,统计学(statistics)是用以收集数据,分析数据和由数据得出结论的一组概念、原则和方法。,以归纳为主要思维方式的统计不是以演绎为主的数学统计可应用于各个不同学科,在有些学科已经有其特有的方法和特点;如生物统计(biost
4、atistics)、经济计量学(econometrics)以及目前很热门的生物信息(bioinformation)和数据挖掘(Data Mining)的方法主体都是统计。,你想过下面的问题吗?,当你买了一台电视时,被告知三年内可以免费保修。你想过厂家凭什么这样说吗?说多了,厂家会损失;说少了,会失去竞争,也是损失。到底这个保修期是怎样决定的呢?大学排名是一个非常敏感的问题。不同的机构得出不同的结果;各自都说自己是客观、公正和有道理的。到底如何理解这些不同的结果呢?,你想过下面的问题吗?,任何公司都有一个信用问题。当然,在这些公司试图得到贷款时并没有不还贷的不良记录。如何根据它们的财务和商业资料
5、来判断一个公司的信用等级呢?我国东部和西部的概念是一个比较笼统的概念。如何能够根据需要,选择一些指标来把各省,或各市县甚至村进行分类呢?疾病传播时,如何能够通过感染者入院前后的各种因素得到一个疾病传染方式的模型呢?,你想过下面的问题吗?,如何通过大众调查来得到性别、年龄、职业、收入等各种因素与公众对某项事物(比如商品或政策)的态度的关系呢?一个从来没有研究过红楼梦的统计学家如何根据比较写作习惯得出红楼梦从哪一段开始就不是曹雪芹的手笔了呢?如何才能够客观地得到某个电视节目的收视率,以确定广告的价格是否合理呢?,你如何理解下面说法?,“明天降水概率为40”“我冬天去新加坡度假的概率为10”“该节目
6、收视率是30%”“调查结果表明20%的观众喜欢某节目”“抽样调查结果的误差为3%”“支持率的95置信区间为(25%,30%)”“某学校排名第一”“某县是贫困县”,你如何理解下面说法?,“某国的综合竞争力排名第43位”“该国家属于发展中国家”“该药品疗效99%”“该国贫富差距大”“这个县收入比那个县高”“该结果统计显著”“消费价格指数为120%”“他的血压已经正常了”,可以想象出的统计应用例子,如何确定观众/听众是否忠实于某节目(专栏)如何对电视节目排名次什么因素影响一个节目的收视率如何按照各种不同环境估计某商店的顾客人数如何按照各种指标评价雇员如何把地区(市县镇等)按照各种指标分类如何确定红楼
7、梦第几回不是曹雪芹所写如何确定一个产品的可靠性如何进行偏差较少的民意调查如何根据一些财务数据发现漏税的嫌疑单位?,你相信统计结果吗?,数据可以有误或作假统计方法(有意或无意)使用不当可以误导。有低级误导和高级误导。常识判断和直觉是重要的,关于美国选举的两个例子(1),谁会在1936选举中获胜?Alf London还是 F.D.R.(罗斯福)?Literary Digest(文摘)送出一千万份问卷(返回二百四十万份)后,预测London 会赢.而Gallop(盖洛普)只问了5000人说 Roosevelt(罗斯福)会赢.最后罗斯福和盖洛普都赢了.文摘倒闭了.,谁会在1948选举中获胜?Thoma
8、s Dewey还是Harry Truman(杜鲁门)?Crossley,Gallop(盖洛普),Roper所有都预测Dewey 会赢(每个机构用了5000个问卷).最后(包括盖洛普)他们都输了,而杜鲁门赢了.,关于美国选举的两个例子(2),统计的一些做法,统计可以指导我们收集数据.当拥有来自一些变量(指标)的数据或记录,但缺乏模型来描述这些变量之间关系的情况下,可用统计方法建立模型.在有了一定的模型时,统计可以确定手中数据是否令人信服地支持某种论点.模型也用来对未来进行预测.统计直观的图表展示,可以使各个领域的专家容易理解,中国统计的独特历史环境,中国统计过去分为“统计学”(文科的列宁主义统计
9、)和“数理统计”(数学类的国际意义上的统计),国内一些学者把统计称为是经济学科的一部分,则是中国特有的与前苏联关联的国情所造成;读者可以从苏联大百科全书的统计学条款得到答案。但前苏联的经济学中的统计学概念是其意识形态和计划经济体系的产物,其模型多属于小学数学水平,很难称为数学模型。这与现代经济学所需要的大量的统计和数学形成鲜明对照.前苏联式的“统计学”不是目前国际流行意义上的统计学或统计学的分支。,统计的内容和需要的知识,数学的几乎所有内容(不一定事先知道需要什么)用计算机做统计计算其他(对象)领域的知识,统计和数学的区别,数学思维是以演绎为主统计思维是以归纳为主,兼有演绎统计各领域利用几乎所
10、有存在的数学内容.但统计本身的数学是为具体目标服务的,自己一般不形成数学体系,计算机的重要性,由于统计和数据打交道,没有计算机的发展统计就没有前途.计算机和统计的发展相辅相成,1.2现实中的随机性和规律性,从中学起,我们就知道自然科学的许多定律,例如物理中的牛顿三定律,物质不灭定律以及化学中的各种定律等等。但是在许多领域,很难用如此确定的公式或论述来描述一些现象。比如,人的寿命是很难预先确定的。一个吸烟、喝酒、不锻炼、而且一口长荤的人可能比一个很少得病、生活习惯良好的人活得长。因此,可以说,活得长短是有一定随机性的(randomness)。这种随机性可能和人的经历、基因、习惯等无数说不清的因素
11、都有关系。,现实中的随机性和规律性,但是从总体来说,我国公民的平均年龄却是非常稳定的。而且女性的平均年龄也稳定地比男性高几年。这就是规律性。一个人可能活过这个平均年龄,也可能活不到这个年龄,这是随机的。但是总体来说,平均年龄的稳定性,却说明了随机之中有规律性。这种规律就是统计规律。,概率和机会,你可能经常听到概率(probability)这个名词。例如在天气预报中会提到降水概率。大家都明白,如果降水概率是百分之九十,那就很可能下雨;但如果是百分之十,就不大可能下雨。因此,从某种意义说来,概率描述了某件事情发生的机会。显然,这种概率不可能超过百分之百,也不可能少于百分之零。换言之,概率是在0和1
12、之间的一个数,说明某事件发生的机会有多大。,有些概率是无法精确推断的,比如你对别人说你下一个周末去公园的概率是百分之八十。但你无法精确说出为什么是百分之八十而不是百分之八十四或百分之七十八。其实你想说的是你很可能去,但又没有完全肯定。实际上,到了周末,你或者去,或者不去;不可能有分身术把百分之八十的你放到公园,而其余的放在别处。,有些概率是可以估计的,比如掷骰子。只要没有人在骰子上做手脚,你得到6点的概率应该是六分之一。得到其他点的概率也是一样。得到6的概率或者机会是可以知道的,但掷骰子的结果还只可能是六个数目之一。这个已知的规律就反映了规律性,而得到哪个结果则反映了随机性。如果你掷1000次
13、骰子,那么,大约有六分之一的可能会得到6;这也是随机性呈现有规律的一个体现。,1.3 变量和数据,一节火车车厢有多少坐位是一个固定的数目,称为常数(constant)或者常量。但是,开车后,坐在这节车厢的旅客有多少就没准了。这有随机性。该车厢的乘客数为变量(variable)。,1.3 变量和数据,一个学校的注册在校男女生比例是固定的,为常量但是,该校任意一群学生的男女生比例就不一定和全校的比例一样了,它为变量(variable)。,1.3 变量和数据,当变量按照随机规律所取的值是数量时该变量称为定量变量或数量变量(quantitative variable);因为是随机的,也称为随机变量(r
14、andom variable)。如身高体重,购买某商品的人数等等SPSS主要为Numeric,1.3 变量和数据,象性别,观点之类的取非数量值的变量就称为定性变量或属性变量或分类变量(qualitative variable,或categorical variable)。这些定性变量也可以由定量变量来描述,如男女生的数目,持有某观点的人数比例等等。,1.3 变量和数据,定性变量只有用数量来描述时,才有可能建立数学模型,并使用计算机来分析。数据中它们通常用哑元(dummy variable)代表,比如性别用0、1代表,三种收入用0、1、2代表(或用字母代表)SPSS中没有特别的变量,往往用数值表
15、示,1.3 变量和数据,有了变量,何谓数据?不同机构调查所得到的北京收入万元以上市民的比例都不一样,这是变量而这些调查产生一些数目,这些数目就是数据(data)数据是关于变量的观测值。,1.3 变量和数据,通过数据可验证有关的理论或假定。比如通过抽样调查验证美国选民对共和党候选人的支持率是否超过50%通过抽样,可以检验某批产品是否合格等等,1.4 变量之间的关系,现实世界紧密联系的人们想知道投资方式和经济效益之间的关系、旅客人数和经济发展之间的关系等等不讨论变量之间的关系,就无从谈起任何有深度的应用,统计的基本概念就仅仅是摆设而已。,1.4.1 定量变量间的关系,例1.1广告投入和销售之间的关
16、系。下表(数据ads.sav)显示了某企业的广告投入和销售额之间的关系(万元)。,横坐标代表广告投入,而纵坐标代表销售收入。看得出有何种关系吗?,1.4.1 定量变量间的关系,能否从该数据回答下面问题:这两个变量是否有关系?如果有,它们的关系是否显著?这些关系是什么关系,能否用数学模型来描述?这个关系是否带有普遍性?这个关系是不是因果关系?,1.4.1 定量变量间的关系,关于因果关系在可控制的试验中,较容易找到因果关系;比如治疗方式和疗效的关系等但是,一般来说,变量之间有关系这个事实并不意味着一定存在明确的因果关系。,1.4.1 定量变量间的关系,比如,北京GDP在一年中是快速增长的,而一个刚
17、出生的巴拿马婴儿在这一年中的体重也是快速增长的如果画出图来,它们有类似线性的关系但它们显然没有因果关系,1.4.1 定量变量间的关系,只要有关系,即使不是因果关系也不妨碍人们利用这种关系来进行推断。比如利用公鸡打鸣来预报太阳升起;虽然公鸡打鸣绝对不是日出的原因(虽然打鸣发生在先),1.4.1 定量变量间的关系,简单的办法(诸如画图)可以得到一些信息,但不一定能够给出满意的答案需要更多的工具和手段来进行数值分析得到更加严格和精确的解答因此,需要继续我们的课程,1.4.2 定性变量间的关系,例1.2下面是对123人进行关于某项政策调查所得结果的一个简单的三维表,它显示了人们的收入和性别对该项政策的
18、观点。(table7.sav)。,计算机软件所应用的数据形式,1.4.2 定性变量间的关系,从这个数据,希望可以看出收入、性别对观点是否有影响及如何影响如果要得到更加精确的结论,就要进行进一步的分析和计算这是后面列联表分析或多项分布对数线性模型的内容,1.4.3 定性和定量变量间的混和关系,有些数据不是仅有定性变量或仅有定量变量需要知道包括定性和定量两种变量的一些变量之间的关系下面数据就包含两种变量,Asthma.sav数据,1.4.3 定性和定量变量间的混和关系,该数据有2个定性变量(性别,污染程度)、一个定量变量(年龄)以及发生哮喘的人数我们希望知道哮喘和这三个变量之间的关系这将在Pois
19、son对数线性模型中讨论,1.5 统计、计算机与统计软件,现代生活越来越离不开计算机了最初的计算机仅仅是为科学计算而设计和建造的。统计是大型计算机的最早用户,现在仍然是数值计算的主要用户,1.5 统计、计算机与统计软件,计算机的使用,从计算机语言到“傻瓜式”地点击鼠标输出结果也从数字输出到各种可以想象得到的形式。输入数据,点鼠标做一些选项,就可得到漂亮结果但其中充满了危险的陷阱,1.5 统计、计算机与统计软件,计算机无法识别你的统计方面的错误错误的方法、错误的数据形式都必然输出错误的结果(虽然看上去可能很漂亮),得到大量垃圾另外,统计软件输出的结果太多、很难都理解,1.5 统计、计算机与统计软
20、件,统计软件的种类很多。书中仅介绍最常见的几种。只要学会使用一种“傻瓜式”软件或编程软件,使用其他类似的软件也不会困难;最多看看帮助和说明即可。学习软件的最好方式是需要时在使用中学。,统计软件,SPSS:这是一个很受欢迎的统计软件;它容易操作,输出漂亮,功能齐全,价格合理。对于非统计工作者是很好的选择。SAS:这是功能非常齐全的软件;尽管价格不菲,许多公司还是因为其功能众多和某些美国政府机构认可而使用。尽管现在已经尽量“傻瓜化”,仍然需要一定的训练才可以进入。对于基本统计课程则不那么方便。STATA:这是众多统计软件的后起之秀;它操作灵活、简单、易学易用,同时具有数据管理软件、统计分析软件、绘
21、图软件、矩阵计算软件和程序语言的特点。占用计算机系统资源少,绘图漂亮,对有简单编程基础者来讲十分容易上手,有专门出版的专业刊物。以上三种软件并称为新的国际三大权威统计软件,统计软件,Excel:它严格说来并不是统计软件,但作为数据表格软件,必然有一定统计计算功能。而且凡是有Microsoft Office的计算机,基本上都装有Excel。但要注意,有时在装Office时没有装数据分析的功能,那就必须装了才行。当然,画图功能是都具备的。对于简单分析,Excel还算方便,但随着问题的深入,Excel就不那么“傻瓜”,需要使用函数,甚至根本没有相应的方法了。多数专门一些的统计推断问题还需要其他专门的
22、统计软件来处理。,统计软件,S-plus:这是统计学家喜爱的软件。不仅由于其功能齐全,而且由于其强大的编程功能,使得研究人员可以编制自己的程序来实现自己的理论和方法。它也在进行“傻瓜化”以争取顾客。但仍然以编程方便为顾客所青睐。R软件:这是一个免费的,由志愿者管理的软件。其编程语言与S-plus所基于的S语言一样,很方便。还有不断加入的各个方向统计学家编写的统计软件包。同时从网上可以不断更新和增加有关的软件包和程序。这是发展最快的软件,受到世界上统计师生的欢迎。是用户量增加最快的统计软件。对于一般非统计工作者来说,主要问题是它没有“傻瓜化”。,统计软件,Minitab:这个软件是很方便的功能强
23、大而又齐全的软件,也已经“傻瓜化”,在我国用的不如SPSS与SAS那么普遍。Statistica:也是功能强大而齐全的“傻瓜化”的软件,在我国用的也不如SAS与SPSS那么普遍。Eviews:这是一个主要处理回归和时间序列的软件。GAUSS:这是一个很好用的统计软件,许多搞经济的喜欢它。主要也是编程功能强大。目前在我国使用的人不多。FORTRAN:这是应用于各个领域的历史很长的非常优秀的编程软件,功能强大,也有一定的统计软件包。计算速度比这里介绍的都快得多。但需要编程和编译。操作不那么容易。MATLAB:这也是应用于各个领域的以编程为主的软件,在工程上应用广泛。编程类似于S和R。但是统计方法不多。,统计软件,当然,还有其他的软件,没有必要一一罗列。其实,聪明的读者只要学会使用一种“傻瓜式”软件,使用其他的仅仅是举一反三之劳;最多看看帮助和说明即可。如果只有英文帮助,那还可以顺便提高你的英文阅读能力。,想想看,举出你所知道的统计应用例子。举出日常生活中随机性和规律性的例子。你使用过统计软件或者利用过其他软件中的统计功能吗?你有什么经验和体会?,
链接地址:https://www.31ppt.com/p-5443397.html