吴喜之统计学基本概念和方法第一章.ppt
应用统计学,参考书目:,1、统计学:基本概念与方法吴喜之译著,高等教育出版社2、统计建模与R软件,薛毅编著,清华大学出版社3、复杂数据统计方法基于R的应用吴喜之编著,中国人民大学出版社,关于课程,统计的基本思想学会用统计处理问题统计软件的使用(Matlab,R,.),第一章 一些基本概念,什么是统计学?,1.数据搜集:取得数据2.数据分析:分析数据 3.数据表述:图表展示数据4.数据解释:结果的说明,收集、分析、表述和解释数据的科学,统计学的作用,我国著名的经济学家马寅初指出“学者不能离开统计而治学,政治家不能离开统计学而施政,事业家不能离开统计而执业”。美国著名的科幻作家威尔斯说“对于追求效率的公民而言,统计思维总有一天会和读写能力一样重要”。在诺贝尔经济学获奖者中,2/3以上的研究成果与统计和定量分析有关。美国总统的年薪已经达到40万美元,在各国元首中名列前茅,但根据美国工作等级年鉴一书的排名,总统一职并未进入最好的职业之列。在美国,最好的职业是统计学家。,以归纳为主要思维方式的统计不是以演绎为主的数学统计可应用于各个不同学科,在有些学科已经有其特有的方法和特点;如生物统计(biostatistics)、经济计量学(econometrics)以及目前很热门的生物信息(bioinformation)和数据挖掘(Data Mining)的方法主体都是统计,统计的特点,统计的一些例子,一些例子,大家经常在报刊杂志上看到类似的报道:通用汽车37%的销售额来源于北美以外;我国失业率下降到25年来的最低点4%;上证指数接近2000点。我曾在网上利用“百度”搜索引擎对互联网上有关网页进行搜索,得到的结果是:包含“旅游管理”这一词汇的网页高达25,500,000项,包含“公共事业管理”这一词汇的网页有100,000,000项。以上数据实际上都是通过数据收集,统计得来的。生活中我们也会不自觉地用到统计,比如说,我们可能经常去高中同学所在的学校去玩,他给你介绍同寝室的张三,要你猜他是哪儿人,只见他足有一米八,身材魁梧,你可能会问:你是北方人吧?反之,你可能会认为他是南方人。这实际是应用了统计中平均值的知识。,一些例子,每当季节交替之时,商场都要对有关商品进行打折销售,那么为什么商家要进行打折销售,它怎么才能保证打折后的利润不会有损失?至少是打折后的利润要好于不打折的利润,那么这个折扣的度是要事先进行分析的。商家在销售之前通常都会对销售量和打折的度进行一个简单的估计,这里所用到的就是统计学中的参数估计理论。有观点认为,红楼梦的后40回不是曹雪芹所著而是高鹗所写的。在1981年,首届国际红楼梦研讨会在美国召开,威斯康星大学的陈炳藻就发表这样的一篇论文,从词汇上的统计作者的问题。他从字、词出现频率入手,通过计算机进行统计分析,对红楼梦后40回系高鹗所作这一流行看法提出异议,认为120回均系曹雪芹所作。这个就是利用了统计学中的假设推断理论进行分析的。,随着人类文明的出现,就产生了最初的统计实践活动。统计实践活动随着国家的产生而不断加强和完善。早在四千多年前的中国夏禹王朝,为了治国治水的需要,曾进行初步的国情统计,查明当时中国有人口约1355万人,土地约2431万顷,并将全国分为九州。公元前3000多年,古埃及为了建造金字塔征集经费、劳力,对全国的财产、人口进行了数次普查。我国在春秋战国时期,管仲就明确指出“不明于计数,犹如无舟楫欲径于水,险也”;商鞅提出了“强国知十三数”,系统地列出了治理国家必须了解的十三项指标,包括人口、土地、粮食等。我国的周易正义中写到原始社会:“事大,大结其绳;事小,小结其绳;结之多少,随物众寡”,这就是人们对社会现象进行的简单的记录和计量活动,于是产生了最早的统计萌芽。,统计实践的出现,1.创始人:海门尔康令Herman Conring(1606-1681,德国)继承者:格特弗里德阿亨瓦尔Gottfried Achenwall(1719-1772,德国)2.他们在德国的大学开设了一门新课程“国势学”,主要讲述有关国情国力的系统知识,包括土地、人口、政治、军事、财政、货币、科学、艺术和宗教等。阿亨华尔首先将“国势学”正式命名为“统计学”。3.但是由于他没有将数量分析引入进来,因此“国势学派”有“统计学”之名而无“统计学”之实。,古典统计学时期(17世纪中叶至18世纪末),近代统计学时期(19世纪初至20世纪初),数理统计学派的代表人物比利时的凯特勒博士深受拉普拉斯影响,在其社会物理学中将概率论引入统计学,在生物统计和天文学研究中成功地运用了二项分布和正态分布方法。凯特勒博士认为要促进科学的发展,就必须更多的应用统计学,大力提倡采用统计方法对自然现象和社会现象的规律性进行观察。社会统计学派的代表人物有克尼斯,梅尔和恩格尔等。社会统计学派继承和发展了“政治算术学派”的理论体系,完善了统计有关描述性的分析方法,建立了较为完整的统计指标方法和社会统计学科体系,对当时的政府统计工作和统计学理论的推广产生了积极的促进作用 讨论题 恩格尔指数及其应用?恩格尔系数(%)=食品支出总额/家庭或个人消费支出总额100%国际上常常用恩格尔系数来衡量一个国家和地区人民生活水平的状况。根据联合国粮农组织提出的标准,恩格尔系数在59%以上为贫困,50-59%为温饱,40-50%为小康,30-40%为富裕,低于30%为最富裕。,20世纪初,大工业的发展对产品质量检验问题提出了新的要求,即只抽取少量产品作为样本对全部产品的质量好坏作出推断。因为大批量产品要做全面的检验,既费时、费钱,又费人力,加之有些产品质量的检验要做破坏性检验,全部检验已不可能。1908年,英国的威廉.希利.高赛特提出了小样本t统计量,利用它就可以从大量的产品中只抽取较小的样本完成对全部产品质量的检验和推断,这样就使统计学进入了现代统计学的新阶段(主要是推断性统计学)。之后由费歇尔、卡尔皮尔逊、奈曼、瓦尔德等为代表的一代统计学大师,共同完成了现代统计学的理论框架,使统计学成为一门严谨的学科,同时数理统计学逐渐成为了主流统计学。1950年以后,受计算机和新兴科学的影响,这一时期统计学的研究和应用范围越来越广。,现代统计学的发展时期(20世纪初到现在),大数据时代,淘宝中的统计,男人和女人理财消费有什么不同?浙江和北京民众理财习惯有何不同?天秤座和处女座谁更爱理财数据显示,男性用户对于在淘宝上买理财产品,总体上比女性更积极。在淘宝理财的总用户中,男性用户占比56.3%,多于女性。在现有的理财用户中,浙江人热情最高,占据所有用户的18%,遥遥领先全国。而北京用户出手则最大气,人均购买理财产品9920元,几乎是全部用户人均3417元的3倍。天秤座无疑是理财意识最高的星座,该星座用户占总用户的21%,而金牛座则是理财意识最淡薄的星座,该星座用户仅占总用户的6%。不同星座的男女,在购买金额上也是表现各异。男性用户中,摩羯座出手最豪爽,人均购买金额达到6889元,而巨蟹座出手最谨慎,人均购买金额仅3001元;在女性用户中,天蝎座出手最豪爽,人均购买金额为7401元,而天秤座出手最谨慎,人均仅2400元。,一些例子,某企业开发出一种新的化妆品,在正式投产之前,需要根据市场需求情况制定其价格和销售策略。该企业委托某市场调查公司在全市200万户家庭中抽取1000户家庭试用,然后了解该化妆品的销售前景。如何科学地从该市200万家庭中抽出这1000户家庭进行调查,并由这1000户家庭反馈的市场信息科学地推断出全市200万户家庭对该化妆品的购买意愿这一数量规律,这就需要应用统计学当中的抽样方式的知识。更高级一点的统计理论呢,也能在我们的日常生活中反映出来,我们在做汤时,尝一下咸淡 这个过程上升到统计理论的范畴,包括抽样方法(简单随机抽样)、分布理论(均匀分布)、推断理论(以样本推总体)。,你相信统计结果吗?,数据可以有误或作假统计方法(有意或无意)使用不当可以误导。有低级误导和高级误导。常识判断和直觉是重要的,关于美国选举的两个例子(1),谁会在1936选举中获胜?Alf London还是 F.D.R.(罗斯福)?Literary Digest(文摘)送出一千万份问卷(返回二百四十万份)后,预测London 会赢.而Gallop(盖洛普)只问了5000人说 Roosevelt(罗斯福)会赢.最后罗斯福和盖洛普都赢了.文摘倒闭了.,关于美国选举的两个例子(2),谁会在1948选举中获胜?Thomas Dewey还是Harry Truman(杜鲁门)?Crossley,Gallop(盖洛普),Roper所有都预测Dewey 会赢(每个机构用了5000个问卷).最后(包括盖洛普)他们都输了,而杜鲁门赢了.,统计学的分类,一、描述统计(descriptive statistics),研究数据收集、整理和描述的统计学分支 内容搜集数据整理数据展示数据描述性分析 目的描述数据特征找出数据的基本规律,二、推断统计(inferential statistics),研究如何利用样本数据来推断总体特征的统计学分支内容参数估计假设检验目的对总体特征作出推断,三、理论统计学(Theoretical statistics)和应用统计学(Applied statistics),根据统计学研究方法和统计方法的应用范围不同,统计学分为理论统计学和应用统计学。理论统计学主要研究统计学的基本原理和基本方法,研究如何将数学原理和计算机技术应用于统计学,发展出新的统计学方法和技术。应用统计学主要是研究如何将统计学的方法和原理与实际问题相结合,使用统计学的方法解决实际问题。,统计的一些做法,统计可以指导我们收集数据.当拥有来自一些变量(指标)的数据或记录,但缺乏模型来描述这些变量之间关系的情况下,可用统计方法建立模型.在有了一定的模型时,统计可以确定手中数据是否令人信服地支持某种论点.模型也用来对未来进行预测.统计直观的图表展示,可以使各个领域的专家容易理解,统计学的目的,任何客观事物都是必然性与偶然性的对立统一。同样,任何一个数据也都是必然性与偶然性共同作用的结果。必然性反映了事物本质的特征和联系,是比较稳定的,因而它决定了事物的内在本质是有规律可循的。偶然性则反映了改事物每个表现形式的差异。如果事物只有必然性一个方面的特征,事物的表现形式就会比较简单,就可以比较容易把握它的规律性。正是由于偶然性的存在,形成数据表现形式的千差万别。这样,必然性的数量规律性就被掩盖在表面的差异之中了。统计学的目的就是要从偶然性中探索到内在的、本质的数量规律。从统计方法上看,统计学提供了一系列的方法,专门用来收集数据、整理数据、显示数据的特征,进而分析和探索出事物总体的数量规律性。,统计的内容和需要的知识,数学的几乎所有内容(不一定事先知道需要什么)用计算机做统计计算其他(对象)领域的知识,统计和数学的区别,数学思维是以演绎为主统计思维是以归纳为主,兼有演绎统计各领域利用几乎所有存在的数学内容.但统计本身的数学是为具体目标服务的,自己一般不形成数学体系,第五节、“虚假”的统计学,统计数据的有效性:白血病,环保好样本和坏样本:买桔子调查中的非技术因素:措辞(stock),社会文化的不同(自杀),案例分析(魅力),比如有两条这样的新闻,他们都是关于高压电线是否会导致附近的儿童得白血病,它的理论是因为电流会产生磁场,磁场往往会引起白血病,所以生活在有电的环境里,会使人暴露在磁场中,那么住在高压电线附近,会增加这种暴露的程度。第一条 新闻是找了一位能说会道的母亲,她的孩子得了白血病,刚好她家就在高压电线附近,因此这位母亲向观众介绍了在高压电线附近是如何的危险这一情况;另一条新闻呢,是国家癌症所的一则报道,他们用了5年的时间和100万资金,走访了全国十几个省进行高压电线附近的儿童白血病情况的调查,最后得出结论,在白血病和暴露在高压电线所在的磁场之间,找不到任何的相关关系。那么对于这样的两条新闻,我想一般的观众都会倾向于后者,这主要的原因可能就是在于统计数字的魅力,人们往往对具有统计数字的新闻和文章都比较信服。,案例分析(方式),某个机构花费了很多的资金在某一城市做一个调查,他们将城区分成两个部分,一个上层区,一个下层区,分别对应工资的高与低,目的是想了解,哪个层区的住户更加注重资源的回收,他们所采用的度量变量就是路边资源回收垃圾每周的重量。结果得出上层区均超过下层区,由此,这个机构得出结论认为上层区的居民更加注重资源回收。那么对于这样的数据报告,我们就要表示怀疑了,事实上,这个事件的本身是跟这个机构的分析结果不符合的。因为上层区在丢回收箱的物品都比较重,而下层区的就比较轻,比如单拿饮料来说,上层区的多半的丢入的是玻璃瓶的酒,而下层区的丢入的多半是塑料的饮料。这样的话,单单从重量上来比较,统计数据就不是那么有效了。,案例分析(质量),当我们看到一则新闻和一篇统计报告的时候,往往不知道它的样本是如何取得的,这样就给文章的可信度打了折扣。样本也有好样本和坏样本的区分。我们首先来看看坏样本,比如:我们要检查一车桔子是不是优质的,那么最容易的方法就是在摆在每箱最上面的桔子中抽取,然而这样得出的结论就值得怀疑了,首先在运送的过程中,在下部的桔子是最容易受到碰撞的,其次如果供货商也了解这一点的话,把最好的桔子都放在上部,那么对于这样的统计结论就没有很大的意义。这样的果,我们用统计学的术语来说是,有偏的。也就是说样本的情况对于整个总体来说是有偏误的。解决方法:利用随机抽取的形式,来消除有偏性。比如,随机数字表,电脑随机生成数字坏样本还有一个特性就是它的高变异性,不过它可以利用扩大样本容量的方法来消除。这个我们在以后的章节再详细说。可能大家对于坏样本的有偏和变异还不是很理解,这里我讲一个非常直观的概念,就是射箭原理。偏差:意思是我们的瞄准有问题,射出的箭都往同一个方向偏离靶心:样本值没有以总体值为中心点。变异性:箭着点在靶上分散得很广“重复抽样所得结果并不接近,彼此间差异很大。有时候会出现低变异性,高偏差或者低偏差,高变异性的情况。,案例分析(措辞),有一个调查机构想做一个关于居民拥有股票的比例的问卷调查,他在采访中问道:“是否拥有stock”(股票,也是家禽),结果大部分的农场主的回答都是yes,可是他们实际拥有股票的却很少。那么这样的统计分析结果往往很容易迷惑到不了解数据来源的读者。stock=(股票,也是家禽),案例分析(文化),在调查全球的自杀率问题中,社会文化就占有很大的因素,在日本这样的国家,有遇到耻辱就光荣自杀的传统,这就使得日本的自杀事件报道的比例较高,而在大部分信奉天主教的国家,他们都以自杀为耻辱,因此所公布的自杀率自然比其他的国家低很多。而随着文化的发展,很多国家都将抑郁症视为生理上的疾病,而不是个性上的弱点,自杀是这种病的悲剧性结束,而不是道德瑕疵。这使得这些国家的家属和医生更愿意将自杀列为死因。也使着自杀率在逐年升高,这个并非真的数据在增加,而是人们的观念发生了变化。因此我们在看待类似这样的数据报表的时候,不能被数据值的外表迷惑,要弄清楚数据的来源是怎样的,他调查的方式又是怎样的。,计算机的重要性,由于统计和数据打交道,没有计算机的发展统计就没有前途.计算机和统计的发展相辅相成,现实中的随机性,从中学起,我们就知道自然科学的许多定律,例如物理中的牛顿三定律,物质不灭定律以及化学中的各种定律等等。但是在许多领域,很难用如此确定的公式或论述来描述一些现象。比如,人的寿命是很难预先确定的。一个吸烟、喝酒、不锻炼、而且一口长荤的人可能比一个很少得病、生活习惯良好的人活得长。因此,可以说,活得长短是有一定随机性的(randomness)。这种随机性可能和人的经历、基因、习惯等无数说不清的因素都有关系。,现实中的规律性,但是从总体来说,我国公民的平均年龄却是非常稳定的。而且女性的平均年龄也稳定地比男性高几年。这就是规律性。一个人可能活过这个平均年龄,也可能活不到这个年龄,这是随机的。但是总体来说,平均年龄的稳定性,却说明了随机之中有规律性。这种规律就是统计规律。,概率和机会,你可能经常听到概率(probability)这个名词。例如在天气预报中会提到降水概率。大家都明白,如果降水概率是百分之九十,那就很可能下雨;但如果是百分之十,就不大可能下雨。因此,从某种意义说来,概率描述了某件事情发生的机会。显然,这种概率不可能超过百分之百,也不可能少于百分之零。换言之,概率是在0和1之间的一个数,说明某事件发生的机会有多大。,有些概率是无法精确推断的,比如你对别人说你下一个周末去公园的概率是百分之八十。但你无法精确说出为什么是百分之八十而不是百分之八十四或百分之七十八。其实你想说的是你很可能去,但又没有完全肯定。实际上,到了周末,你或者去,或者不去;不可能有分身术把百分之八十的你放到公园,而其余的放在别处。,有些概率是可以估计的,比如掷骰子。只要没有人在骰子上做手脚,你得到6点的概率应该是六分之一。得到其他点的概率也是一样。得到6的概率或者机会是可以知道的,但掷骰子的结果还只可能是六个数目之一。这个已知的规律就反映了规律性,而得到哪个结果则反映了随机性。如果你掷1000次骰子,那么,大约有六分之一的可能会得到6;这也是随机性呈现有规律的一个体现。,变量和数据,一节火车车厢有多少坐位是一个固定的数目,称为常数(constant)或者常量。但是,开车后,坐在这节车厢的旅客有多少就没准了。这有随机性。该车厢的乘客数为变量(variable)。,变量和数据,一个学校的注册在校男女生比例是固定的,为常量但是,该校任意一群学生的男女生比例就不一定和全校的比例一样了,它为变量(variable)。,变量和数据,当变量按照随机规律所取的值是数量时该变量称为定量变量或数量变量(quantitative variable);因为是随机的,也称为随机变量(random variable)。如身高体重,购买某商品的人数等等,变量和数据,象性别,观点之类的取非数量值的变量就称为定性变量或属性变量或分类变量(qualitative variable,或categorical variable)。这些定性变量也可以由定量变量来描述,如男女生的数目,持有某观点的人数比例等等。,变量和数据,定性变量只有用数量来描述时,才有可能建立数学模型,并使用计算机来分析。数据中它们通常用哑元(dummy variable)代表,比如性别用0、1代表,三种收入用0、1、2代表(或用字母代表),变量和数据,有了变量,何谓数据?不同机构调查所得到的北京收入万元以上市民的比例都不一样,这是变量而这些调查产生一些数目,这些数目就是数据(data)数据是关于变量的观测值。,变量和数据,通过数据可验证有关的理论或假定。比如通过抽样调查验证美国选民对共和党候选人的支持率是否超过50%通过抽样,可以检验某批产品是否合格等等,变量之间的关系,现实世界紧密联系的人们想知道投资方式和经济效益之间的关系、旅客人数和经济发展之间的关系等等不讨论变量之间的关系,就无从谈起任何有深度的应用,统计的基本概念就仅仅是摆设而已。,定量变量间的关系,广告投入和销售之间的关系。下表(数据ads.txt)显示了某企业的广告投入和销售额之间的关系(万元),横坐标代表广告投入,而纵坐标代表销售收入。看得出有何种关系吗?,定量变量间的关系,能否从该数据回答下面问题:这两个变量是否有关系?如果有,它们的关系是否显著?这些关系是什么关系,能否用数学模型来描述?这个关系是否带有普遍性?这个关系是不是因果关系?,定量变量间的关系,关于因果关系在可控制的试验中,较容易找到因果关系;比如治疗方式和疗效的关系等但是,一般来说,变量之间有关系这个事实并不意味着一定存在明确的因果关系。,定量变量间的关系,比如,北京GDP在一年中是快速增长的,而一个刚出生的巴拿马婴儿在这一年中的体重也是快速增长的如果画出图来,它们有类似线性的关系但它们显然没有因果关系,定量变量间的关系,只要有关系,即使不是因果关系也不妨碍人们利用这种关系来进行推断。比如利用公鸡打鸣来预报太阳升起;虽然公鸡打鸣绝对不是日出的原因(虽然打鸣发生在先),定量变量间的关系,简单的办法(诸如画图)可以得到一些信息,但不一定能够给出满意的答案需要更多的工具和手段来进行数值分析得到更加严格和精确的解答因此,需要继续我们的课程,定性变量间的关系,例下面是对123人进行关于某项政策调查所得结果的一个简单的三维表,它显示了人们的收入和性别对该项政策的观点。,定性变量间的关系,从这个数据,希望可以看出收入、性别对观点是否有影响及如何影响如果要得到更加精确的结论,就要进行进一步的分析和计算这是后面列联表分析或多项分布对数线性模型的内容,统计、计算机与统计软件,现代生活越来越离不开计算机了最初的计算机仅仅是为科学计算而设计和建造的统计是大型计算机的最早用户,现在仍然是数值计算的主要用户,统计、计算机与统计软件,计算机的使用,从计算机语言到“傻瓜式”地点击鼠标输出结果也从数字输出到各种可以想象得到的形式。输入数据,点鼠标做一些选项,就可得到漂亮结果但其中充满了危险的陷阱,统计、计算机与统计软件,计算机无法识别你的统计方面的错误错误的方法、错误的数据形式都必然输出错误的结果(虽然看上去可能很漂亮),得到大量垃圾另外,统计软件输出的结果太多、很难都理解,统计、计算机与统计软件,统计软件的种类很多。书中仅介绍最常见的几种。只要学会使用一种“傻瓜式”软件或编程软件,使用其他类似的软件也不会困难;最多看看帮助和说明即可。学习软件的最好方式是需要时在使用中学。,统计软件,SPSS:这是一个很受欢迎的统计软件;它容易操作,输出漂亮,功能齐全,价格合理。对于非统计工作者是很好的选择。Excel:它严格说来并不是统计软件,但作为数据表格软件,必然有一定统计计算功能。而且凡是有Microsoft Office的计算机,基本上都装有Excel。但要注意,有时在装Office时没有装数据分析的功能,那就必须装了才行。当然,画图功能是都具备的。对于简单分析,Excel还算方便,但随着问题的深入,Excel就不那么“傻瓜”,需要使用函数,甚至根本没有相应的方法了。多数专门一些的统计推断问题还需要其他专门的统计软件来处理。SAS:这是功能非常齐全的软件;尽管价格不菲,许多公司还是因为其功能众多和某些美国政府机构认可而使用。尽管现在已经尽量“傻瓜化”,仍然需要一定的训练才可以进入。对于基本统计课程则不那么方便。,统计软件,S-plus:这是统计学家喜爱的软件。不仅由于其功能齐全,而且由于其强大的编程功能,使得研究人员可以编制自己的程序来实现自己的理论和方法。它也在进行“傻瓜化”以争取顾客。但仍然以编程方便为顾客所青睐。R软件:这是一个免费的,由志愿者管理的软件。其编程语言与S-plus所基于的S语言一样,很方便。还有不断加入的各个方向统计学家编写的统计软件包。同时从网上可以不断更新和增加有关的软件包和程序。这是发展最快的软件,受到世界上统计师生的欢迎。是用户量增加最快的统计软件。对于一般非统计工作者来说,主要问题是它没有“傻瓜化”。,统计软件,Minitab:这个软件是很方便的功能强大而又齐全的软件,也已经“傻瓜化”,在我国用的不如SPSS与SAS那么普遍。Statistica:也是功能强大而齐全的“傻瓜化”的软件,在我国用的也不如SAS与SPSS那么普遍。Eviews:这是一个主要处理回归和时间序列的软件。GAUSS:这是一个很好用的统计软件,许多搞经济的喜欢它。主要也是编程功能强大。目前在我国使用的人不多。FORTRAN:这是应用于各个领域的历史很长的非常优秀的编程软件,功能强大,也有一定的统计软件包。计算速度比这里介绍的都快得多。但需要编程和编译。操作不那么容易。MATLAB:这也是应用于各个领域的以编程为主的软件,在工程上应用广泛。编程类似于S和R。但是统计方法不多。,想想看,举出你所知道的统计应用例子。举出日常生活中随机性和规律性的例子。你使用过统计软件或者利用过其他软件中的统计功能吗?你有什么经验和体会?,