统计学第三章统计数据的整理与显.ppt
统计整理,统计调查,客观现象数量表现,统计总体数量特征,统计研究的程序,统计研究目的,统计设计,推断分析描述分析,统计学第三章 统计数据的整理与显示,第三章 统计数据的整理与显示,3.1 统计整理与统计分组3.2 分布数列的编制3.3 统计图表,3.1 统计整理与统计分组,一、统计整理的意义和步骤二、统计整理的基本方法 统计分组,统计学第三章 统计数据的整理与显示,统计整理,主要任务,资料审核、分组、汇总、制表、制图等。,分组,频数分布,统计表,统计图,分组,分组前,分组后,25,33,42,如:划分现象类型,作用:,例:按所有制性质划分,我国现有8种经济类型:国有经济;集体经济;私营经济;个体经济联营经济;股份制经济;外商投资经济;港澳台投资经济,制定统计整理方案,对原始资料进行审核,数 据 处 理,制作统计表或统计图,统计整理的步骤,统计学第三章 统计数据的整理与显示,(一)数据的审核与筛选 1、审核:对 第一手资料(直接调查或试验取得):审核其完整性与准确性 完整性审核:应调查的单位或个体是否有遗漏;所调查的项目是否填齐全。准确性审核:内容是否符合实际;计算是否正确。如:文化程度:小学 职业:大学教师,2、筛选:,筛选包括:剔除不符合要求的数据或有明显错误的数据;将符合特定条件的数据筛选出来。,对第二手资料(获取他人的资料):审核其完整性、准确性、适用性、时效性,3.1 统计整理与统计分组,一、统计整理的意义和步骤二、统计整理的基本方法 统计分组,统计分组的作用:,总体经过分组,能够突出组与组之间的差异而抽象掉组内各单位之间的差异,使数据变得条理化,便于进一步分析研究。,统计学第三章 统计数据的整理与显示,划分社会经济现象的类型反映社会经济现象的内部结构和比例关系揭示社会经济现象之间的相互依存关系,选择分组标志,确定分组体系,总体单位归类,科学性:组间差异大,组内差异小。,完备性和互斥性:每个单位均能且只能归到某个组中。,统计分组的程序与原则,第三章 统计数据的整理与显示,对大学生月生活费支出情况进行分组研究:按家庭收入水平分组;按城乡分组;按性别分组;按年龄分组。,统计分组的程序与原则,对父母亲下岗情况进行分组研究:单亲下岗;双亲下岗;双亲在岗。,不符合科学性,不符合完备性和互斥性,第三章 统计数据的整理与显示,统计分组的程序与原则,各分组标志并列使用,各分组标志交叉结合使用,第三章 统计数据的整理与显示,平行分组体系,对教师的分类,按性别分类,男性,女性,按职称分类,按年龄分类,高级,中级,初级,青年,中年,共计7组 2+3+2,统计学第三章 统计数据的整理与显示,交叉分组体系,按性别分类,按职称分类,按年龄分类,男,女,高级,中级,初级,青年,中年,共计12组232,统计学第三章 统计数据的整理与显示,对教师的分类,第三章 统计数据的整理与显示,3.1 统计整理与统计分组3.2 分布数列的编制3.3 统计图表,3.2 分布数列的编制,一、分布数列的定义及种类二、变量数列的编制三、累计次数与累计频率,分类,统计学第三章 统计数据的整理与显示,中国体育代表团在悉尼奥运会上获金牌的项目,统计学第三章 统计数据的整理与显示,品质数列,3.2 分布数列的编制,一、分布数列的定义及种类二、变量数列的编制三、累计次数与累计频率,同时具备,变量数列的编制,【例】己知某车间有24名工人,他们的日产量(件)分别是:20,23,20,24,23,21,22,25,26,20,21,21,22,22,23,22,22,24,25,21,22,21,24,23.要求根据以上资料编制变量数列。,统计学第三章 统计数据的整理与显示,编制结果如下:,统计学第三章 统计数据的整理与显示,变量数列的编制,变量值变动区间的长度相等,变量值变动区间的长度不完全相等,统计学第三章 统计数据的整理与显示,相关概念,统计学第三章 统计数据的整理与显示,某地区100个百货商店月销售额与流通费用情况,上组限U,下组限L,如:组距d=U-L=100-50=50(万元),如:组中值x=(U+L)/2=(100+200)/2=150(万元),统计学第三章 统计数据的整理与显示,编制等距数列,适用于总体单位的标志值变动比较均匀的情况,实例,己知某地区某年50个商店商品销售额的资料如下(单位:百万元):7.4 12.6 29.0 2.0 12.4 7.0 14.8 17.5 15.0 18.2 18.7 15.5 12.8 26.0 17.3 8.3 14.7 12.0 3.5 6.8 25.0 19.3 6.4 4.0 11.9 8.5 13.2 14.5 17.1 15.6 13.4 4.5 9.5 20.0 15.7 6.0 11.4 23.0 14.2 16.7 21.0 16.0 13.6 10.0 13.9 5.0 5.8 10.5 16.3 22.0要求编制组距数列。,统计学第三章 统计数据的整理与显示,编制步骤:,求变异全距,确定组距及组数,R组距(d)组数(m),编制等距数列,统计学第三章 统计数据的整理与显示,计算组数(组数不宜过多,也不宜太少),上例中,取d=5,则有,编制等距数列,统计学第三章 统计数据的整理与显示,注:确定组数(Number of classes)。组数的确定一般视数据本身的特点及数据的多少而定。,经验上以520之间为好,尤其注意不要确定太多的组数,使得每组包含的数据太少。实际分组时常按斯特格斯(Sturges)提出的经验公式来确定组数K:,其中N为数据的个数(总体单位数或样本数),一般对结果取整数。,例:K=1+lg20/lg2=1+4.32=5.325,确定组距(Width of classes):组距是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定:组距=(最大值-最小值)/组数,例,组距=(33-12)/5=4.2,可取整数5为最后选定的组距。,确定组限,编制等距数列,统计学第三章 统计数据的整理与显示,计算次数,编制等距数列,编制结果:,统计学第三章 统计数据的整理与显示,(5+(5-5))/2=2.5,(25+(25+5))/2=27.5,统计学第三章 统计数据的整理与显示,茎叶表示 Stem-and-Leaf Display,将每一观测值分解为茎值和叶值(用直线隔开)垂直线左边的数字称为“茎”,确定组别垂直线右边的数字“叶”,确定频数(计数),Xi,3.2 分布数列的编制,一、分布数列的定义及种类二、变量数列的编制三、累计次数与累计频率,累计次数(频率),从变量值低的组开始,将各组次数(频率)逐次向变量值高的组累计,说明某一组上限以下各组的累计次数(频率)。,从变量值高的组开始,将各组次数(频率)逐次向变量值低的组累计,说明某一组下限以上各组的累计次数(频率)。,统计学第三章 统计数据的整理与显示,频数表(用SPSS制作),有效数据,频数,频率,有效频率,累计频率,约2/3的人身高不超过165cm,累计频数(频率)分布曲线,可用于分析社会财富、土地和工资收入等的分配是否公平的问题。该曲线图是由美国洛伦茨博士提出,故称为洛伦茨曲线。,洛伦茨曲线,某国家收入所得的分配情况,20 40 60 80 100,80 60 40 20 0,100,绝对平等线,实际收入分配线,绝对不平等线,绝对不平等线,人口(%),收入(%),洛伦茨曲线,A,B,洛伦茨曲线与基尼系数,20世纪初意大利经济学家基尼,根据洛伦茨曲线找出了判断分配平等程度的指标。实际收入分配曲线和收入分配绝对平等曲线之间的面积为A,实际收入分配曲线右下方的面积为B。以A除以A+B的商表示不平等程度。这个数值被称为基尼系数或称洛伦茨系数。,洛伦茨曲线与基尼系数,当A=0时,A/(A+B)=0,则基尼系数为0,收入分配完全平等;当B=0时,A/(A+B)=1,则基尼系数为1,收入分配绝对不平等;所以,基尼系数可在0和1之间取任何值。联合国有关组织规定:若低于0.2表示收入绝对平均;表示比较平均;表示相对合理;表示收入差距较大(警戒线);0.6以上表示收入差距悬殊。(2010年我国基尼系数已经达0.46)基尼系数还可用于财产、资本、资源、产品、市场等资源分配均衡程度的分析。,第三章 统计数据的整理与显示,3.1 统计整理与统计分组3.2 分布数列的编制3.3 统计图表,3.3 统计图表,一、统计图二、统计表,一个图只用来显示一种现象的数量特征,统计学第三章 统计数据的整理与显示,品质数据往往使用条形图(Bar graphs)和饼状图(Pie Charts);数值数据往往使用直方图(Histograms)、折线图(Polygon)、茎叶图(Stem-and-leaf display)。,几种常用的统计图,统计学第三章 统计数据的整理与显示,几种常用的统计图,条形图(Bar),用于显示离散型变量的次数分布,统计学第三章 统计数据的整理与显示,几种常用的统计图,条形图(Bar),用于显示离散型变量的次数分布,统计学第三章 统计数据的整理与显示,条形图(Bar),用于显示离散型变量的次数分布,统计学第三章 统计数据的整理与显示,统计学第三章 统计数据的整理与显示,直方图,条形图,统计学第三章 统计数据的整理与显示,统计学第三章 统计数据的整理与显示,统计学第三章 统计数据的整理与显示,统计学第三章 统计数据的整理与显示,统计学第三章 统计数据的整理与显示,茎叶图是一种既给出数据的分布状况,又能显示每一个原始数值的图形。茎叶图由两部分组成:茎(stem)与叶(leaf)茎:通常由每组数的高位数值(leading digits)形成,按组竖立在左边;叶:通常由每组数的低位数值(last digits)形成,按组横排在“茎”的右边。,茎叶图,3.3 统计图表,一、统计图二、统计表,统计表的常用结构:,统计学第三章 统计数据的整理与显示,统计学第三章 统计数据的整理与显示,统计表的加工方法,(对主体进行分组),(选择指标及对指标进行分组),统计表的编制规则,统计学第三章 统计数据的整理与显示,选择合适的总标题;主词栏与宾词栏要各归其位,相互对应;表的上、下端用粗线或双线封口,左右两端一般不封口;可在各列的文字标题下面设置编号加以标识;数据栏不能有空白。,对主词栏的单式加工,统计学第三章 统计数据的整理与显示,对主词栏的复式加工,统计学第三章 统计数据的整理与显示,开口式组距数列组中值的计算:,首组假定下限首组上限相邻组组距 末组假定上限末组下限相邻组组距,先计算开口组的假定上、下限:,因此有:,统计学第三章 统计数据的整理与显示,统计学第三章 统计数据的整理与显示,统计学第三章 统计数据的整理与显示,对宾词栏的简单分组,对宾词栏的交叉分组,附录:频数分布的类型,日常经济生活中,常见的频数分布曲线主要有正态分布、偏态分布、J型分布、U型分布等几种类型。其次还有双峰型、孤岛型及锯齿型等其他类型。,频数分布的应用:例8:80年代初,我国工业企业推行全面质量管理,某床单厂厂长曾对其生产的某种规格的床单进行抽检,并做了直方图。按长度质量标准,合格的床单长度为215cm,容许误差为3cm。对所抽取的100条床单进行统计,发现最长的达265cm,最短的为214cm,分组后的频数分布表及直方图如下:,频数分布表 床单长度分组(cm)床单数(条)213218 5 218223 8 223228 16 228233 32 233238 17 238243 12 243248 5 248253 0 253258 1 258263 3 263258 1 Total 100,直方图,直方图呈孤岛型,说明:1、本质上反映了两个总体,该两总体都遵从正态分布;其中95%的单位属一总体,5%的单位属另一总体。,2、根据长度质量标准,只有5%的床单在正常范围(在212218cm之间),而95%的床单均大于218cm,显然存在着对床单的长度“宁长勿短”的思想,因此造成浪费(上述100条床单总长度达233m,如果按照215cm的标准长度,可裁成108床,若按212cm长度可裁成110床)。,原因检查:为了提高生产水平,增加经济效益,厂长深入到裁剪长度工序了解情况,发现:床单的生产工序是在一大联匹布上,印上印花,由一位老女工手工量测并用剪刀裁剪。,基本的做法是:双手拉着床单量两下,然后下剪。在裁剪工序还有两位女工,目测检查所裁床单是否有残次花色及其他疵点。工作时,总以为手扯的长度可能会短,于是再目测一下,加一点长度再下剪;有时还会有一位检查残次的女工帮助裁剪,其误差更大,这就是“孤岛”产生的原因。,解决问题:在没有使用机器裁剪的情况下,厂长会同车间管理者一道要求裁剪时按下述做法进行:在保持用手扯两次,将要下剪时,将原来习惯上要下剪处用左手握拳,少裁一拳。一拳大约有15cm,这样,原来下100条的床单料,此时几乎可多裁出8床床单。既提高了床单合格率,又提高了经济效益。,