《统计学》第一章绪论.ppt
1,应用统计学,授课教师:程兰芳(经济与管理学院,应用经济学科部)课程性质:专业基础课使用教材:贾俊平编著统计学(第四版),中国人民大学出版社,2,课程性质:专业基础课,学时总数:48学时(第1-16周)总评成绩的组成:第一部分:平时成绩(占30%)第二部分:考试成绩(占70%),两部分加权平均 总评成绩,课 前 说 明,3,课前说明,1、授课方式:授课与上机实践相结合,根据教学进度有可能的话,安排12次的课堂讨论。2、有个人考勤、小组作业等考核内容。3、学生最好能利用课余时间上机熟悉Excel实现统计计算的过程。4、期末考试为闭卷。5、总评成绩由平时成绩(出勤情况、个人作业、小组作业等)和期末考试等部分构成。,4,教学参考书(中文版),庞皓 杨作廪主编统计学,西南财经大学出版社,2000年3月第二版黄良文主编统计学原理,中国统计出版社2000年6月第一版Gudmund R.Iversen,吴喜之等译统计学基本概念和方法(Statistics the conceptual approach高等教育出版社,2000年3月第一版 贾俊平等主编统计学,中国人民大学出版社,2004年10月第二版吴喜之编著统计学:从数据到结论,中国统计出版社,2004年8月,5,教学参考书(英文版),Davie L.Anderson,Statistics for Business and Economy 6th Edition(影印版),机械工业出版社1998年7月Douglas A.Lind,William G.Marchal,Robert D.Mason,Statistical Techniques in Business and Economics 11th Edition,(影印版),中信出版社,2002年5月(CFA系列)Jessica M.Utts,Robert F.Heckard,Mind on Statistics(影印版),机械工业出版社,2002年10月,6,第 一 章 导论,1.1 统计学及其应用领域1.2 统计数据的类型1.3 统计中的几个基本概念1.4 几种常用的统计软件,7,学习目标,1.理解统计学的含义2.理解统计数据与统计学的关系3.了解统计学的应用领域4.了解数据的类型5.理解统计中的几个基本概念,8,1.1 统计学及其应用领域,统计学与统计规律统计的应用领域历史上著名的统计学家,9,你想过下面的问题吗?,当你买了一台电器产品时,被告知三年内可以免费保修。那么厂家这样说的依据是什么?因为说多了厂家会损失;说少了则会失去竞争力,也是损失。到底这个保修期是怎样决定的呢?在同一年级中,同样统计学的课程可能由一些不同教师讲授。教师讲课方式当然不一样;考试题目也不一定相同。那么如何比较不同班级的统计学成绩是否有差异呢?,10,你想过下面的问题吗?,大学排名是一个非常敏感的问题。不同的机构得出不同的结果;各自都说自己是客观、公正和有道理的。到底如何理解这些不同的结果呢?任何公司都有一个信用问题。如果这些公司试图得到贷款时并没有不还贷的不良记录。如何根据它们的财务和商业资料来判断一个公司的信用等级呢?,11,你想过下面的问题吗?,如何通过问卷调查来得到性别、年龄、职业、收入等各种因素与公众对某项事物(比如商品或政策)的态度的关系呢?如何才能够比较客观地得到某个电视节目的收视率,以确定插播的广告价格是否合理呢?最简单的问题,如怎样计算国家和地区的平均发展速度?如何衡量和反映全国城镇镇居民家庭的收入水平的高低及其增长速度?反映某地区的物价变动 情况的CPI又是如何得到的?,12,什么是统计学?,1.数据搜集:取得数据2.数据分析:分析数据 3.数据描述:图表展示数据4.数据解释:结果的说明,贾俊平等认为“收集、分析、表述和解释数据的科学”(摘自贾俊平等主编统计学第二版,P1),什么是统计学?,13,什么是统计学?,吴喜之认为:“统计学(statistics)是用以收集数据、分析数据、以及由数据得出结论的一组概念、原则和方法。”(摘自吴喜之编著统计学:从数据到结论P2),14,什么是统计学?,黄良文认为:“统计学是关于数据搜集、整理、归纳、分析的方法论科学。”(摘自黄良文主编统计学原理,P1),15,What is Meant by Statistics?,Statistics is the science of collecting,organizing,presenting,analyzing,and interpreting numerical data to assist in making more effective decisions.Cited by Douglas A.Lind,William G.Marchal,Robert D.Mason,Statistical Techniques in Business and Economics 11th Edition,(影印版),16,statistics的定义(不列颠百科全书),statistics:the science of collecting,analyzing,presenting,and interpreting data.Copyright 1994-2000 Encyclopaedia Britannica,Inc.(不列颠百科全书),17,统计学研究的对象,统计研究的对象是大量现象总体的数量方面。统计学的研究对象是现象总体的数量特征和数量关系,通过这些数量方面反映社会经济现象的规律性。数量方面的表现形式:(1)静态统计数据(2)动态统计数据(3)相关统计数据,18,统计研究的特点之一,(一)数量性统计的研究对象是现象的数量方面,例如社会经济现象的规模、水平、现象间的数量关系,以及决定现象质量的数量界限。统计研究对象的数量性,是统计区别于其他社会经济调查研究活动的根本特点。,19,统计研究的特点之二,(二)总体性 统计研究对象不是个体现象的数量方面,而是由许多个体现象构成的总体的数量方面。统计研究对象的总体性的特点是由社会经济现象的特点和统计研究的目的决定的,20,统计研究的特点之三,(三)具体性统计所研究对象的数量是具体的数量,不是抽象的数量,这是统计和数学的重要区别。如果抽掉具体的内容,不是在一定时间、地点和条件下进行研究,那就不能说明任何问题,也就不成其为统计,其数据也就不是统计数据。,21,统计研究的特点之四,(四)变异性统计研究的对象总是处在变化之中的,这种变化不仅表现在数量上,同时也会表现在品质上,因此,统计研究的对象不仅是在一定的特定阶段是静态的,同时更多地表现为动态的,这也增加了统计研究的难度。,22,统计研究的过程,实际问题,23,随机性和规律性,随机性和规律性:关系密切的孪生子,24,例如,人的寿命是很难预先确定的。一个吸烟、喝酒、不锻炼、而且喜好油荤食物的人可能比一个很少得病、生活习惯良好的人活得长。因此,可以说,活得长短有一定的随机性(randomness)。这种随机性可能和人的经历、基因、习惯等等无数不易说清的因素都有关系。,随机性和规律性,25,随机性和规律性,但是从总体来说,我国公民的预期寿命却是非常稳定的,而且由于生活水平的提高在逐步增长;比如1996年的平均预期寿命为70.80岁,而2000年为71.40岁。这就是规律性。一个人可能活过这个平均年龄,也可能活不到这个年龄,这是随机的。但是总体来说,预期寿命的稳定性,却说明了随机之中有规律性。这种规律就是统计规律。,26,通过对看起来随机的现象进行统计分析,我们开始认识这个世界。统计思想的基础知识能够帮助把随机性归纳于可能的规律性中。统计思想:从我们如何观察事物和事物本身如何真正发生两方面,帮助我们理解随机性和规律性的重要性。因此,统计可以看作是一项对随机现象中的规律性的研究。,随机性和规律性,27,随机性和规律性,然而,甚至规律也表现出某种随机性。如果你再掷100次硬币,正面朝上的次数几乎不会和前100次完全一样。在第一个100次中,也许有48次硬币的正面朝上,然而在第二个100次中,也许就有53次正面朝上。这表明了统计的一个重要的本质特征。不管我们是否再进行一次或一组新的观察,每次观测得到的结果,并不能得到和上次观察一模一样的结果。,28,这种偏差不仅仅发生于掷硬币时,而且发生于调查、实验和其它任何一种方式的数据收集中。如果在某次调查中,人们被问到他们如何看待当今的某一重要问题,某一比例的人会有某一特定的观点。如果对不同的人再做同样的调查,则有不同于上述比例的人支持这一观点。这两个比例之间的差异主要是由于数据本身的随机性引起的。在这种意义下来说,统计就成了对数据中的偏差问题的研究。,随机性和规律性,29,根据作为统计基础的数学理论(概率论),我们可以确定一项调查中的某一比例有多大的随机性,以及在下一次的重复调查中,这个比例可能有多大的偏差。我们甚至可以指出,这两个比例之间的差异,是否大到了随机性本身所不能解释的地步。我们将在以后章节中引申和详细讨论这些思想。,随机性和规律性,30,随机性和规律性,在规律性中,变化趋势时有出现。比如,随着逐渐增加的汽车安全带的使用和保险气囊的安装,发生车祸的比例也许在上升,但造成的司机损伤呈下降趋势。统计把单独的、随机的事件置于规律性中,并揭示其变化趋势。如果在不同时期,交通事故发生次数的(两种规律性的)差异超出了随机性本身可以解释的地步,那么变化趋势就发生了。,31,让我们回顾一下20世纪50年代小儿麻痹症疫苗的投入使用过程。小儿麻痹症是一种可怕的疾病,通常能使患者(大部分是儿童)瘫痪或死亡。在这种病经过多年流行之后,一种疫苗最终被研制出来。科学家们希望该疫苗能够预防这种可怕的疾病,但是没有人清楚这种疫苗是否真能像人们期待的那样起作用。,研究随机性和规律性的例子,32,尽管实验室和动物实验的结果很令人振奋,然而唯一检验这种疫苗是否起作用的方法还是人体实验。因为小儿麻痹症是一种较罕见的疾病,疫苗必须试用于相当一大批孩子们的身上,所以研究者们决定在20万个孩子身上做实验。此外,研究者们还决定用另外相同数目的孩子作为对照组。对照组的孩子仅仅得到安慰剂一种看起来像疫苗的替代品以便为观察疫苗是否真的起作用。,研究随机性和规律性时的例子,33,当孩子们被注射了疫苗或安慰剂以后,研究者们开始在下一个“小儿麻痹症季节”中观察实验结果。在对照组中,有138个孩子感染了此病。这个数字当然有一定的随机性,研究者们并不能确定它意味着什么。如果另外一组的20万个孩子也被注射安慰剂,那么不一定会有同样多的孩子感染此疾病。根据随机性的大小,可能有130或140或其它数目的孩子们染上小儿麻痹症。,研究随机性和规律性时的例子,34,在被注射了疫苗的那一组(称之为试验组)中,有56个孩子患了小儿麻痹症,这个数字当然也有随机性。问题的关键之处在于,患该疾病的56个孩子和138个孩子的差别是否超过了随机性所能解释的程度。如果是的话(即56与138之差是显著的大),那么研究者们就能够有把握说,疫苗起作用了。利用后面介绍的方法,我们可以看到,138和56的差别超出了随机性本身所能解释的范围,因此该疫苗被宣布为能有效降低该疾病发病率的作用,其研制是成功的。,研究随机性和规律性时例子,35,从此以后,这种疫苗在许多国家根除了小儿麻痹症。全世界的健康组织所做的进一步的努力,将使不发达国家的孩子们,在不远的将来,也有可能不再遭受小儿麻痹症所带来的痛苦。在某种重要的意义上说,统计推理为发展和检验疫苗的研究者们提供了有力的理论支持。,研究随机性和规律性时例子,36,概率和机会,概率(Probability)是一个取值在0和1之间的数,它用以度量某一随机事件以多大的机会或可能性发生。,37,这是 Museum of Science,Boston,US,有关正态分布和概率的介绍。,38,概率和机会,有些事件发生的概率是无法精确推断的。比如,你对别人说你这个中秋节准备去旅游的概率大概是80%。但是,有些简单随机事件的概率是可以知道和计算出来的。比如,掷一枚均匀的骰子。但掷出骰子之后究竟会得到哪一种结果事先是无法预知的。这体现了随机性。但是,只要没有人在骰子上做手脚,你事先知道得到6点那一面的概率应该是六分之一。得到其它点的概率也是一样。当然,根据我们学过的古典概率还可以计算出比较复杂随机结果发生的概率值,这反映了掷骰子的规律性。,39,统计方法体系,40,统计方法之一类:描述统计(descriptive statistics),内容搜集数据整理数据展示数据描述性分析 目的描述数据特征找出数据的基本规律,41,统计方法之另一类推断统计(inferential statistics),内容参数估计假设检验目的对总体特征作出推断,42,描述统计与推断统计的关系,反映客观现象的数据,描述统计(统计数据的搜集、整理、显示和分析等),43,统计的应用领域,44,统计的应用领域,actuarial work(精算)agriculture(农业)animal science(动物学)anthropology(人类学)archaeology(考古学)auditing(审计学)crystallography(晶体学)demography(人口统计学)dentistry(牙医学)ecology(生态学)econometrics(经济计量学)education(教育学)election forecasting and projection(选举预测和策划)engineering(工程)epidemiology(流行病学)finance(金融)fisheries research(水产渔业研究)gambling(赌博)genetics(遗传学)geography(地理学)geology(地质学)historical research(历史研究)human genetics(人类遗传学),45,统计的应用领域,hydrology(水文学)Industry(工业)linguistics(语言学)literature(文学)manpower planning(劳动力计划)management science(管理科学)marketing(市场营销学)medical diagnosis(医学诊断)meteorology(气象学)military science(军事科学)nuclear material safeguards(核材料安全管理)ophthalmology(眼科学)pharmaceutics(制药学)physics(物理学)political science(政治学)psychology(心理学)psychophysics(心理物理学)quality control(质量控制)religious studies(宗教研究)sociology(社会学)survey sampling(调查抽样)taxonomy(分类学)weather modification(气象改善),46,历史上著名的统计学家,Jacob Bernoulli(伯努利)(1654-1705)Edmond Halley(哈雷)(1656-1742)De Moivre(棣美佛)(1667-1754)Thomas Bayes(贝叶斯)(1702-1761)Leonhard Euler(欧拉)(1707-1783)Pierre Simon Laplace(拉普拉斯)(1749-1827)Adrien Marie Legendre(勒让德)(1752-1833)Thomas Robert Malthus(马尔萨斯)(1766-1834),Thomas Robert Malthus(马尔萨斯),Pierre Simon Laplace(拉普拉斯),Leonhard Euler(欧拉),47,历史上著名的统计学家,Friedrich Gauss(高斯)(1777-1855)Johann Gregor Mendel(孟德尔)(1822-1884)Karl Pearson(皮尔森)(1857-1936)Ronald Aylmer Fisher(费歇)(1890-1962),Jerzy Neyman(1894-1981)Egon Sharpe Pearson(皮尔森)(1895-1980)William Feller(费勒)(1906-1970).,Friedrich Gauss(高斯),Johann Gregor Mendel(孟德尔),48,一、分类数据、顺序数据、数值型数据二、观测数据和实验数据三、截面数据和时间序列数据,1.2 统计数据的类型,49,什么是统计数据?(data),对各类现象进行计量的结果 不是指单个的数字,而是由多个数据构成的数据集合 不仅仅是指数字,它可以是数字的,也可以是文字的 从实质上说,数据是指某变量的具体取值。当然,数据可以是文字、也可以是数字,50,这里要明确变量与数据的区别与联系,变量(名):是表明某事物某个特征的概念和名称,且可以取不同的值。例如,人的性别、物体颜色、学历、产品等级、婚姻状况、所属民族、年龄、身高、体重、收入、肤色、国籍,等等,变量的分类,名义变量,顺序变量,数值变量,51,一、统计数据的分类,统计数据的分类,52,一、统计数据的分类(按计量尺度的大小分类),分类数据(categorical data)对事物进行分类的结果数据表现为类别,用文字来表述例如,人口按性别分为男、女两类;物体按颜色不同分为红、黄、蓝;顺序数据(rank data)对事物类别顺序的测度数据表现为类别,用文字来表述例如,产品按等级分为一等品、二等品、三等品、次品等、学历、职称 数值型数据(metric data)对事物的精确测度结果表现为具体的数值例如:身高为175cm、168cm;年龄为21、20、19岁,53,二、统计数据的分类(按收集方法分),观测的数据(observational data)通过调查或观测而收集到的数据在没有对事物人为控制的条件下而得到的有关社会经济现象的统计数据几乎都是观测数据试验的数据(experimental data)在试验中控制试验对象而收集到的数据比如,对一种新药疗效的试验,对一种新的农作物品种的试验等自然科学领域的数据大多数都为试验数据,54,三、统计数据的分类(按时间状况不同来分类),截面数据(cross-sectional data)在相同或近似相同的时间点上收集的数据描述现象在某一时刻的变化情况比如,2010年我国各地区的国内生产总值数据时间序列数据(time series data)在不同时间上收集到的数据描述现象随时间变化的情况比如,1996年至2010年国内生产总值数据,55,区分不同类型的数据是至关重要的,因为不同类型的数据,其统计分析方法也不同见P7,56,1.3 统计中的几个基本概念,一、总体和样本二、参数和统计量三、变量,57,一、总体和样本,总体(population)所研究的全部元素的集合。其中的每一个元素称为个体 分为有限总体和无限总体有限总体的范围能够明确确定,且元素的数目是有限的无限总体所包括的元素是无限的,不可数的样本(sample)从总体中抽取的一部分元素构成的集合构成样本的元素的数目称为样本容量,58,二、参数和统计量,参数(parameter)研究者想要了解的总体的某种特征值总体分布中的参数主要有总体均值()、标准差()、总体比例()等总体参数通常用希腊字母表示 统计量(statistic)根据样本数据计算出来的一个量,是样本的函数最重要的样本统计量有样本均值(x)、样本标准差(s)、样本比例(p)等样本统计量通常用小写英文字母来表示,59,三、变 量(Variable),说明现象某种特征的概念如商品销售额、受教育程度、产品的质量等级等变量的具体表现称为变量值,即数据(可以是文字性数据)变量可以分为分类变量(categorical variable):说明事物类别的一个名称顺序变量(rank variable):说明事物有序类别的一个名称数值型变量(metric variable):说明事物数字特征的一个名称 离散变量:间隔性的取有限个值 连续变量:可以取无穷多个值,60,统计中的几个基本概念小结,61,1.4 几种常用的统计软件,典型的统计软件SASSPSSMINITABSTATISTICAExcel,62,常用统计软件,Excel:它严格说来并不是统计软件,但作为数据表格软件,必然有一定统计计算功能。而且凡是有Microsoft Office的计算机,基本上都装有Excel。但要注意,有时在装Office时没有安装数据分析的功能,那就必须安装了才行。当然,画图功能是已经具备的了。对于简单分析,Excel还算方便,但随着问题的深入,Excel就不那么“傻瓜”,需要使用宏命令来编程;这时就没有相应的简单选项了。多数专业一些的统计推断问题还需要借助其他专门的统计软件来处理。,63,常用统计软件,2.SPSS:这是一个很受欢迎的统计软件;它容易操作,输出漂亮,功能齐全,价格合理。它也有自己的程序语言,但基本上已经“傻瓜化”。它对于非专业统计工作者是很好的选择。3.SAS:这是功能非常齐全的软件;尽管价格相当不菲,许多公司,特别是美国制药公司都在使用,这多半是因为其功能众多和某些美国政府机构一些人的偏爱。尽管现在已经尽量“傻瓜化”,但仍然需要一定的训练才可以进入。也可以对它编程;但对于基本统计课程则不那么方便。,64,常用统计软件,4.S-plus:这是统计学家喜爱的软件。不仅由于其功能齐全,而且由于其强大而又方便的编程功能,使得研究人员可以编制他们的程序来实现其自己创造的理论和方法。它也在进行“傻瓜化”以争取顾客。但仍然以编程方便为顾客所青睐。,65,常用统计软件,5.R软件:这是一个免费的,由志愿者管理的软件。其编程语言与S-plus所基于的S语言一样,很方便。还有不断加入的从事各个方向研究的统计学家编写的统计软件包。同时从网上可以不断更新和增加有关的软件包和程序。这是发展最快的软件,受到世界上统计师生的欢迎。是用户量增加最快的统计软件。它的语言结构和C+、Fortran、Matlab、Pascal、Basic等很相似,容易举一反三。对于一般非统计工作者来说,主要问题是它没有“傻瓜化”。,66,常用统计软件,6.Minitab:这个软件是很方便的功能强大而又齐全的软件,也已经“傻瓜化”,在我国用的不如SPSS与SAS那么普遍。7.Eviews:这是一个处理回归和时间序列等问题很方便的软件。8.GAUSS:这是一个很好用的统计软件,许多搞经济的喜欢它。主要也是编程功能强大。目前在我国使用的人不多。,67,常用统计软件,9.FORTRAN:这是应用于各个领域的历史很长的非常优秀的编程软件,功能强大,也有许多数学软件包和一些统计软件包。由于可以编译成机器语言,计算速度比这里介绍的其他软件都快得多。但需要编程和编译。10.MATLAB:这也是应用于各个领域的以编程为主的软件,在工程上应用广泛。编程类似于S和R。但是统计函数不多。,68,本章思考题,1举出你所知道的统计应用例子。2举出日常生活中随机性和规律性的例子。3掷一个骰子,或者抛一个钱币100次,记录下结果;并用此来解释随机性和规律性以及概率的概念。4你使用过统计软件或者利用过其他软件中的统计功能吗?你有什么经验和体会?5举出有若干定量变量的(假想的或真实的)例子。说出你希望得到的结论。,69,本章思考题,6举出有若干定性变量的(假想的或真实的)例子。说出你希望得到的结论。7举出既有定性变量又有定量变量的(假想的或真实的)例子。说出你希望得到的结论。8举出任何涉及变量关系的例子。9.通过本章的学习,请你谈谈对统计学研究对象特点的认识。,