第1章数据与统计学.ppt
统 计 学,主讲教师:张 谦,2,统计学,描述统计,推断统计,概率、概率分布和抽样分布,第 1 章 绪 论,1.1 统计数据与统计学1.2 统计学的产生和发展1.3 统计学的分科1.4 统计数据的来源1.5 统计数据的质量 1.6 统计学的基本概念 本章小结,4,本章学习教学大纲要求,1.理解统计学的基本涵义2.理解统计数据与统计学的关系3.区分描述统计与推断统计4.了解统计误差的基本概念和分类5.了解统计学与其他学科的关系6.了解统计学的产生与发展过程 7.掌握并理解总体与总体单位、样本、指标与标志的基本概念,5,“统计”的三种含义,1.统计工作收集数据的活动2.统计数据对现象计量的结果 3.统计学分析数据的方法与技术,1.1 统计数据与统计学,6,一、什么是统计学?,1.数据搜集:例如,调查与试验2.数据整理:例如,分组 3.数据展示:例如,图和表4.数据分析:例如,回归分析,统计学是一门收集、整理和分析数据的方法科学,其目的是探索数据的内在数量规律性,以达到对客观事物的科学认识,重点,7,统计研究的过程,实际问题,8,统计规律(一些例子),正常条件下新生婴儿的男女性别比为107:100投掷一枚质地均匀的硬币,出现正面和反面的频率各为1/2;投掷一枚骰子出现16点的频率各为1/6农作物的产量与施肥量之间存在相关关系,9,二、统计学与其他学科的关系,1、统计学与数学的关系,联系:数学为统计理论和统计方法的发展提供基础不能将统计学等同于数学,区别:数学 统计学研究内容:抽象的数量规律 具体的、实际现象数量规律逻辑方法:演绎 演绎与归纳相结合,但主要是归纳,10,统计学的应用领域actuarial work(精算)agriculture(农业)animal science(动物学)anthropology(人类学)archaeology(考古学)auditing(审计学)crystallography(晶体学)demography(人口统计学)dentistry(牙医学)ecology(生态学)econometrics(经济计量学)education(教育学)election forecasting and projection(选举预测和策划)engineering(工程)epidemiology(流行病学)finance(金融)fisheries research(水产渔业研究)gambling(赌博)genetics(遗传学)geography(地理学)geology(地质学)historical research(历史研究)human genetics(人类遗传学),2、统计学与其它学科的关系,11,统计学应用的领域(续),hydrology(水文学)Industry(工业)linguistics(语言学)literature(文学)manpower planning(劳动力计划)management science(管理科学)marketing(市场营销学)medical diagnosis(医学诊断)meteorology(气象学)military science(军事科学)nuclear material safeguards(核材料安全管理)ophthalmology(眼科学)pharmaceutics(制药学)physics(物理学)political science(政治学)psychology(心理学)psychophysics(心理物理学)quality control(质量控制)religious studies(宗教研究)sociology(社会学)survey sampling(调查抽样)taxonomy(分类学)weather modification(气象改善),12,一般认为,统计学产生于17世纪中叶,是从几个不同领域开始的:,第一个源头威廉配第(William Patty)政治算术(1676年)。在书中用大量的数据对英、法、荷三国的经济实力进行比较,使用定量的分析方法。,1.2 统计学的产生和发展,13,另一个创始人英国的约翰格朗特(John Graunt)发表于1662年的关于死亡表的自然观察与政治观察一文中,通过大量观察的方法,研究并发现了人口与社会现象中重要的数量规律性。被称为“人口统计创始人”。,第三个源头古典概率论引入统计学,开辟了统计学的新领域,形成了数理统计学。,19世纪末建成了古典统计学(主要是描述统计学)的基本框架。20世纪,统计学在理论、方法和应用领域有了较大发展,50年代以来,扩展成为各学科的基础工具。,14,历史上著名的统计学家,Jacob Bernoulli(伯努利)(16541705)Edmond Halley(哈雷)(16561742)De Moivre(棣莫弗)(16671754)Thomas Bayes(贝叶斯)(17021761)Leonhard Euler(欧拉)(17071783)Pierre Simon Laplace(拉普拉斯)(17491827)Adrien Marie Legendre(勒让德)(17521833)Thomas Robert Malthus(马尔萨斯)(17661834),Thomas Robert Malthus(马尔萨斯),Pierre Simon Laplace(拉普拉斯),Leonhard Euler(欧拉),资料,15,历史上著名的统计学家,Friedrich Gauss(高斯)(17771855)Johann Gregor Mendel(孟德尔)(18221884)Karl Pearson(皮尔逊)(18571936)Ronald Aylmer Fisher(费希尔)(18901962)Jerzy Neyman(奈曼)(18941981)Egon Sharpe Pearson(皮尔逊)(18951980)William Feller(费勒)(19061970).,Friedrich Gauss(高斯),Johann Gregor Mendel(孟德尔),16,一、按照应用方法的不同分为 描述统计学 推断统计学,描述统计是整个统计学的基础,推断统计则是现代统计学的主要内容,思考题:举例分析:描述统计与推断统计的区别与联系?,1.3 统计学的分科,17,描述统计和推断统计,指对采集的数据进行登记、审核、整理、归类在此基础上进一步计算出各种能反映总体数量特征的综合指标,并用图表的形式表示经过归纳分析而得到的各种有用的统计信息。,是在对样本数据进行描述的基础上,利用一定的方法根据样本数据去估计或检验总体的数量特征。,18,描述统计(Descriptive Statistics),研究数据收集、整理和描述的统计学方法 内容搜集数据整理数据显示数据 目的描述数据特征找出数据的基本规律,重点,19,推断统计(Inferential Statistics),研究如何利用样本数据来推断总体特征的统计学方法内容参数估计假设检验目的对总体特征作出推断,重点,20,描述统计与推断统计的关系,重点,21,统计方法,22,理论统计(Theoretical Statistics)研究统计学的一般理论研究统计方法的数学原理应用统计(Applied Statistics)研究统计学在各领域的具体应用,二、按照研究内容的不同分为 理论统计学 应用统计学,23,统计学的两大类,理论统计学(数理统计学),应用统计学,它的定义是把研究对象一般化、抽象化,以数学中的概率论为基础,从纯理论的角度,对统计方法加以推导论证,其中心内容是以归纳方法研究随机变经的一般规律。,社会经济统计学。这是一门以社会经济现象的数量方面为特定研究对象的应用统计学。,理论统计学和应用统计学,24,1.4 统计数据的来源,直接获取的数据统计数据来源于直接的调查、观察和科学实验又称为第一手数据间接获取的数据从报纸、图书、杂志、统计年鉴、网络等渠道获得又称为第二手数据,25,直接数据,对于社会经济管理和决策而言,主要通过统计调查的方式获取数据统计调查方法普查为特定目的,一次性全面调查优点:资料全面、准确性高;缺点:费用比较高,应用范围比较狭窄。一般适用于为社会提供基础全面的资料抽样调查随机样本推断总体规律性具有经济性、时效性强、适应面广、准确性高等特点应用最广泛、最重要,26,统计调查组织方式,我国现行统计调查体系,是以普查、统计报表为基础,以抽样调查为主要方式、辅之以重点调查典型调查的一种调查体系。,本小节补充内容,27,普查(census),1.为特定目的专门组织的非经常性全面调查2.通常是一次性或周期性的3.一般需要规定统一的标准调查时间4.数据的规范化程度较高5.应用范围比较狭窄,28,抽样调查(sampling survey),1.从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据收集方法,2.具有经济性、时 效性强、适应面广、准确性高等特点,29,重点调查,重点调查是从调查对象的全部单位中选择少数重点单位进行非全面调查,重点单位是指在所要调查的数量特征上占有较大比重的单位。如若要调查某市人民币储蓄状况,则大型储蓄所则成为重点单位,注:重点调查的调查结果不能用于推断总体优点:调查单位少,省时省力,能及时取得较详细的资料;缺点:调查的前提是重点单位要存在,30,典型调查,典型调查是从调查对象的全部单位中选择少数典型单位进行非全面调查,调查目的是描述和揭示事物的本质特征和规律,其调查结果也不能用于推断总体。优点:代表性好、省时省力、资料详细;缺点:典型单位选择的好与坏直接关系到统计结果,31,统计报表,统计报表是按照国家或上级部门有关法规的规定,自上而下地统一布置、自下而上地逐级提供基本统计数据的一种调查方式,统计报表的资料来源是基层单位的原始记录优点:准确性高、完整性好、便于资料积累;缺点:缺乏灵活性,时效性差,32,间接数据,利用各种现成的数据报纸、图书、杂志、统计年鉴从专业数据公司购买互联网,33,间接取得的数据,统计部门和政府部门公布的有关资料,如各类统计年鉴各类经济信息中心、信息咨询机构、专业调查机构等提供的数据各类专业期刊、报纸、书籍所提供的资料各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料从互联网或图书馆查阅到的相关资料,34,提供统计数据的部分政府网站,35,提供统计数据的部分政府网站,36,数据的搜集方法,利用现有的各种文献资料进行调查的方法。是一切调查方法的起点,是以问卷的形式由被调查者填答进行调查的方法。,通过调查者与被调查者之间的访谈获取资料的方法,调查者利用自身感觉器官或观察工具搜集资料的方法,通过实验方式确定因果联系的方法,37,1.5 统计数据的质量,统计数据的质量控制问题是贯穿于统计研究全过程的重要问题不同的统计工作阶段,统计数据误差的原因不同,严重程度也不同。,38,统计调查阶段的误差,39,抽样误差(sampling error),由于抽样的随机性所带来的误差 所有样本可能的结果与总体真值之间的平均性差异 影响抽样误差大小的因素样本量的大小总体的变异性,40,非抽样误差(non-sampling error),相对于抽样误差而言除抽样误差之外的,由于其他原因造成的样本观察结果与总体真值之间的差异存在于所有的调查之中概率抽样,非概率抽样,全面性调查有抽样框误差、回答误差、无回答误差、调查员误差、测量误差,41,误差的控制,抽样误差可计算和控制非抽样误差的控制调查员的挑选调查员的培训督导员的调查专业水平调查过程控制调查结果进行检验、评估现场调查人员进行奖惩的制度,42,1.6 统计学的基本概念,一、统计总体、总体单位和样本1.统计总体(population)是客观存在的、在某一性质基础上结合起来的许多个别事物的整体。总体分为有限总体和无限总体有限总体的范围能够明确确定,且元素的数目是有限的无限总体所包括的元素是无限的,不可数的总体的三个特征:(1)大量性(2)同质性(3)差异性,43,2.总体单位构成总体的这些个别事物总体所研究的全部个体(数据)的集合,其中的每一个元素称为个体 3.样本(sample)从总体中抽取的部分总体单位构成的整体构成样本的元素的数目称为样本容量,44,统计总体、总体单位和样本三者关系,总体单位,注意:三者依据研究对象的不同,具有相对性,45,思考题:,为了解经管学院09级3班的学习情况,校学习部特对该班进行了一次调查,问:此次调查中总体是什么?总体单位是什么?如果校学习部想了解经管学院所有班级的学习状况,这时总体是什么?总体单位呢?若学习部在抽样调查中,选中了3班、5班,问3班和5班组成的整体,我们称为什么?,46,二、参数和统计量,1.参数(parameter)描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值所关心的参数主要有总体均值()、标准差()、总体比例()等总体参数通常用希腊字母表示,补充内容,47,2.统计量(statistic)用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数所关心的样本统计量有样本均值(x)、样本标准差(s)、样本比例(p)等样本统计量通常用小写英文字母表示,48,参数和统计量,49,三、标志和标志表现,1.什么是标志?,总体各单位普遍具有的属性或特征,统计研究是从登记标志开始,并通过对标志的综合来反映总体的数量特征,因此标志是统计研究的起点。,2.什么是标志表现?,即标志特征在各单位的具体表现,如果说标志是统计所要调查的项目,那么标志表现是调查所得结果,标志的实际体现,补充内容,50,51,标志表现有品质标志表现和数量标志表现之分,品质标志表现只能用文字表述,因此往往不能转化为统计指标,但对其对应的单位进行总计时就形成统计指标。数量标志表现是一具体数值,也称标志值。,在统计研究中,品质标志主要作为统计分组的依据,以便计算出不同组别的总体单位数。数量标志除作为分组依据计算单位数外,还可以直接进行许多其它计算,如计算平均年龄、平均工资等。,52,标志,标志表现,品质标志,数量标志,性别,民族,宗教信仰,家庭住址,年龄,身高,体重,文字表述,数据表述(标志值),男,汉族,佛教,43岁,182cm,75公斤,北京路6号,53,四、统计指标与指标体系,统计指标是反映统计总体数量特征的概念和数值,基本要素,指标的取值:反映所研究现象的规模和水平,指标的概念(名称):是对所研究现象本质的抽象概括,如2000年我国国内生产总值894035亿元,国内生产总值,894035亿元,54,完整的统计指标包括四项内容:1、指标名称,说明所反映现象数量特征的性质和内容。2、统计的时间界限和空间范围。3、计量单位。4、指标的数值。例如,中国1983年全国钢产量4002万吨,就是一个完整的统计指标。统计学中的统计指标,一般是泛指社会经济现象某种数量特征,即没有具体规定其时、空界限和没有数值的统计指标名称(如“钢产量”)。,55,质量指标例如,人口的年龄构成、农业一轻工业重工业比例、平均单产、平均工资等等。,数量指标例如,人口数、企业数、工资总额、商品销售额等等,统计指标的分类,也称为总量指标,用绝对数来表示。反映现象或过程的总规模和水平,是总量指标的派生指标,用相对数或平均数来表示,以反映现象之间的内在联系相对比关系,如人口总数、企业总数、职工总数、工资总额,如职工平均工资、人口密度、工人出勤率,统计指标的分类,56,指标和标志既有明显的区别,又有密切的联系,二者的主要区别是:(1)指标是说明总体特征的,而标志是说明总体单位特征的;(2)标志有不能用数值表示的品质标志和能用数值表示的数量标志两种,而指标都必须是能用数值表示的。指标和标志的联系主要表现在:(1)有许多统计指标的数值是直接从总体单位的数量标志值汇总而来的;(2)指标与数量标志之间存在着转化的关系。由于总体和单位的概念会随着研究目的不同而变化,研究全国工业企业的情况,则各企业的职工人数是总体单位的标志,而如果研究目的变成某一企业的职工状况,则该企业变成一个总体,企业的职工人数变成了统计指标,57,统计指标体系,意义,概念,一个统计指标只反映总体的某一个数量特征,说明现象某一侧面的情况。客观现象是复杂的,要反映其全貌、描述现象发展的全过程,只靠单个统计指标是不够的,需要设立统计指标体系。,统计指标体系是由一系列相互联系的统计指标所组成的有机整体用以反映所研究现象各方面相互依存、相互制约的关系。,统计指标体系,58,思考题:,1、下列标志中,属于数量标志的有哪些?品质标志有哪些?A 工资 B 年龄 C 性别 D 民族 E 体重2、某班为调查总体,则每一名学生的统计学成绩是标志还是指标?全班平均统计学成绩呢?3、下列指标中属于数量指标的有哪些?A 人口密度 B 国土面积 C 人口总额 D 平均GDP增长率 E 平均人口密度,59,本章小结,统计数据与统计学统计学的产生和发展统计学的分科统计学与其他学科的关系统计数据的来源统计数据的质量控制统计学的基本概念,60,控制图control chart根据假设检验的原理构造一种图,用于监测生产过程是否处于控制状态。它是统计质量管理的一种重要手段和工具。作用在生产过程中,产品质量由于受随机因素和系统因素的影响而产生变差;前者由大量微小的偶然因素叠加而成,后者则是由可辨识的、作用明显的原因所引起,经采取适当措施可以发现和排除。当一生产过程仅受随机因素的影响,从而产品的质量特征的平均值和变差都基本保持稳定时,称之为处于控制状态。此时,产品的质量特征是服从确定概率分布的随机变量,它的分布(或其中的未知参数)可依据较长时期在稳定状态下取得的观测数据用统计方法进行估计。分布确定以后,质量特征的数学模型随之确定。为检验其后的生产过程是否也处于控制状态,就需要检验上述质量特征是否符合这种数学模型。为此,每隔一定时间,在生产线上抽取一个大小固定的样本,计算其质量特征,若其数值符合这种数学模型,就认为生产过程正常,否则,就认为生产中出现某种系统性变化,或者说过程失去控制。这时,就需要考虑采取包括停产检查在内的各种措施,以期查明原因并将其排除,以恢复正常生产,不使失控状态延续而发展下去。通常应用最广的控制图是W.A.休哈特在1925年提出的,一般称之为休哈特控制图。,61,、田口方法的特点(1)“源流”管理理论。田口方法认为,开发设计阶段是保证产品质量的源流,是上游,制造和检验阶段是下游。在质量管理中,“抓好上游管理,下游管理就很容易”,若设计质量水平上不去,生产制造中就很难造出高质量的产品。(2)产品开发的三次设计法。产品开发设计(包括生产工艺设计)可以分为三个阶段进行,即系统设计、参数设计、容差设计。参数设计是核心,传统的多数设计是先追求目标值,通过筛选元器件来减少波动,这样做的结果是,尽管都是一级品的器件,但整机由于参数搭配不佳而性能不稳定。田口方法则先追求产品的稳定性,强调为了使产品对各种非控制因素不敏感可以使用低级品元件通过分析质量特性与元部件之间的非线性关系(交互作用)找出使稳定性达到最佳水平的组合。产品的三次设计方法能从根本上解决内外干扰引起的质量波动问题,利用三次设计这一有效工具,设计出的产品质量好、价格便宜、性能稳定。,62,(3)质量与成本的平衡性。引入质量损失函数这个工具使工程技术人员可以从技术和经济两个方面分析产品的设计、制造、使用、报废等过程,使产品在整个寿命周期内社会总损失最小。在产品设计中,采用容差设计技术,使得质量和成本达到平衡,设计和生产出价廉物美的产品,提高产品的竞争力。(4)新颖、实用的正交试验设计技术。使用综合误差因素法、动态特性设计等先进技术,用误差因素模拟各种干扰(如噪声),使得试验设计更具有工程特色,大大提高试验效率,增加试验设计的科学性,其试验设计出的最优结果在加工过程和顾客环境下都达到最优。采用这种技术可大大节约试验费用。,