分组计算组数课件.ppt
第三章 数据整理,按照研究的目的,将搜集到的原始数据进行整理加工,从中提取有用的信息,并搜索其中的数量规律性。,3.1 数据分组3.2 次数分配3.3 统计指标 3.4 统计表和统计图,3.1 数据分组,一、统计数据分组的目的及原则,分组是将总体所有单位按一定的标准区分为若干部分,分组前,分组后,25,33,42,分组的目的:概括数据,清晰条理,分组时注意:将具有共性的个体归入同一组将总体内部个体间的差异通过组别区分开来,分组的原则:保证总体中的任何一个个体或原始数据都能归于某一个组且仅能归于某一个组,即保证不重、不漏。,统计分组的关键是分组标志的选择,1、按分组标志的多少不同分:简单分组:分组仅按一个标志来进行复合分组:分组按两个或两个以上的标志进行,并且层叠在一起。,二、统计分组的种类,例如:对全国的工业企业进行简单分组:按经济类型分:全民所有制企业、集体所有制企业、城乡个体企业按轻重工业分:重工业、轻工业按企业规模大小分:大型企业、中型企业、小型企业复合分组:,全民所有制,集体所有制,重工业,轻工业,重工业,轻工业,大型企业,中型企业,小型企业,2、按分组标志的性质不同分:品质分组:按品质标志进行的分组 如人口总体按性别分组、高校教师按职称分组。变量分组:按数量标志进行的分组 如企业按职工人数分-1000人以下、1000-5000人、5000人以上,三、分组标志与分组体系的选择,1、根据统计研究的目的,在对现象进行分析的基础上,抓住具有本质性的区别及反映现象内在联系的标志来作为分组标志。2、在统计整理中,为了全面认识被研究现象总体,常常需要运用多个分组标志对总体进行分组,形成一系列相互联系、相互补充的分组体系。,四、统计分组方法,1、品质分组的方法分组标志一经确定,组名称和组数也就确定,不存在组与组之间界限区分的困难。复杂的情况下,各组界限不易划分,从这一组到另一组存在各种过度状态,边缘不清。2、变量分组的方法:变量分组的目的并不是单纯确定各组在数量上的差别,而是要通过数量上变化来区分各组的不同类型和性质。,单项式分组:是依次将每一个变量值作为一组。(适用于离散型变量且变量取值不多的情况)例如,居民家庭人口数,其取值不可能很多,且每一个取值都可视为一种类型。,按家庭人口数分组 1人 2人 3人 4人 5人 6人,组距式分组:把整个变量值依次划分为几个区间,各个变量值按其大小确定所归并的区间,区间的距离称组距。包括等距分组和不等距分组 适用于连续型变量或虽为离散型变量但取值很多,不便一一列举的情况。1)连续型变量的组距式分组 如对商店按销售额进行分组:,按销售额分组(万元)50以下;50200;200400;400600600800;800以上,2)离散型变量的组距式分组如对某企业的生产小组按人数分组:,组距式分组中的有关问题:(1)组距和组中值 组距两端的数值称为组限,其中:每组的起点数值称下限、每组的终点数值称上限。离散型变量分组:各组的上下限都可以用确定的数值(整数)表示。连续型变量分组:相邻组的上限和下限无法用两个确定的数值分别表示,因此上一组的上限同时也是下一组的下限。,例如:企业按工人工资对工人进行分组如下:500600元 600-700元 700-800元如果某工人工资为700元,应将他归并到哪一组?“上组限不计入”原则:遇到某单位的标志值刚好等于相邻两组上下限时,一般把此值归并到作为下限的那一组。,注意EXCEL!,(2)全距:变量值中最大值与最小值的差数 组数=全距/组距 组距=上限下限(3)组中值=(上限+下限)/2,缺下限的开口组:组距数列的首组出现“*以下”,缺上限的开口组:组距数列的末组出现“*以上”,合理确定组中值,例如:第一组:50人以下 第二组:50200人按公式,应定下限为0,3.2 次数分配,数据观察值在各组中的个数称为次数,各组间的次数称为次数分配。次数分配描述了总体的结构和特征。,一、品质次数分配的编制,按品质标志进行分组,由总体各组的名称及各组的单位数(次数)组成。某高校学生的性别分布,Excel演示,二、变量次数分配的编制,1、将原始资料按顺序排序2、确定组数与组距(1)当n较大时,k取1020;当n50时,k取56;,(2)如果数据分布比较均匀、对称,即中间数值次数多,大小极端值次数少,考虑用以下公式来确定组数:组数1+3.322 log n 式中,n 表示总次数,log 表示以10为底的对数。,组距(观察值中的最大数值观察值中的最小数值)/组数,3、确定组限每组区间的界限称为组限。离散型变量,分组时相邻组的组限必须间断。如某省企业按职工人数分组,可分为:0-99,100-199,200-299,300-399,900-1000等;连续型变量,相邻组的上、下限采用重叠的方法分组界定。如按职工工资分组,0-500,500-1000,1000-1500,1500-2000,等;4、将各个数据按其数值大小归入相应的组内。,返回,分组计算,组数1+3.322 log n(n=30)=5.9 分6组 组距:每组区间的宽度(观察值中的最大数值 观察值中的最小数值)/组数=(128-84)/6=7.384-91,91-98,98-105,105-112,112-119,119-126;未包含最大值83-91,91-99,99-107,107-115,115-123,123-131;,按5组,10元作为组距,计算次数。,求次数分配表和直方图,结合实际数据,组距为10比较好计算且方便,分组的组数相应从6减少为5。最小值为83,下限从80开 始,,次数分配表,累计次数分布,作图,如果分两组,Excel作直方图,分组太细会出现什么问题?,反映不出观察值的分布特征,前面分组都是等距分组,也有不等距分组在不等距分组情况下,要比较各组次数或分析总体结构,要消除由组距不等造成的影响。为此需计算单位组距的次数,即频数密度。每组单位组距次数某组次数/该组组距,次数曲线,用直线线段连接直方图各组条形顶端中值,形成一条平滑的曲线,即次数曲线。常见的四种次数曲线:正态分布曲线,偏态曲线,J形曲线和U形曲线。,正态分布曲线,偏态曲线,钟型分布,在客观实际中,许多社会现象的总体分布都趋向于正态分布,如农作物单位面积产量的分布、零件公差的分布等。,U 形曲线,J形曲线,如人口按年龄死亡率的分布,在人口总体中,幼儿和老年人死亡率高,而中青年死亡率低。,自然界某一物种在理想条件下种群数量增长的形式,如果以时间做横坐标,种群数量做纵坐标画出来的曲线表示,曲线大致成J型曲线。,洛伦茨(Lorens)曲线,洛伦茨曲线是美国经济学家洛伦茨在二十世纪初提出的,应用累积次数分配曲线描述一个国家或一个地区收入分配平均程度的一种图示方法.收入分配不平均的程度可以通过基尼系数来测算。,基尼系数=A/(A+B),G的值在01之间。联合国有关组织规定:G小于0.2可认为收入绝对平等;G在0.20.3之间表示比较平等;G在0.30.4之间表示相对合理;G在0.40.5之间表示收入差距较大;G大于0.6表示收入差距悬殊。基尼系数0.4为国际警戒线,超过0.4则应采取措施缩小收入差距,3.3 统计指标,统计指标是说明社会经济现象总体数量特征的名称和数值,是统计活动对客观存在的种种社会经济现象,按其具体名称,在一定空间、时间条件下,进行科学计量的数字结果。两个特征:可计量性(具体性)和总体性(综合性),形成指标的现象特征必须是可以用数量来表现的,统计指标是由个体数量特征汇总或整理加工后得到的数值,一、统计指标的种类,1.总量指标:反映总体现象的规模水平,以绝对数形式表现,故也称为绝对指标。如总人口、国民生产总值等;总量指标按其所说明的总体内容的不同,分为总体单位总量和总体标志总量 总体单位总量反映总体单位的总量指标,如企业数目、职工人数等;总体标志总量反映总体各单位某一数量标志值总和的总量指标,如商品销售额、总工资总额等;总量指标按其所反映的不同时间状况,分为时点总量和时期总量。,2.平均指标:将总体标志总量指标除以总体单位总量,得到平均指标;平均指标总体标志总量/总体单位总量3.相对指标:两个有联系的指标对比所得到的指标都可以叫做相对指标。(1)结构相对指标 将总体的部分标志总量与总体的标志总量相比较,或将总体的部分单位总量与总体全部单位数相比较。,(2)比例相对指标 将总体内部的部分与部分对比所得到的指标(3)动态相对指标 将同一内容的指标在不同时间上的数值进行对比。说明现象在时间上的变化。(4)强度相对指标 将同一时期内容不同、但有一定联系的两个总量指标对比。强度相对指标常被用来说明现象的密度、普遍程度。,二、统计指标体系,由相互联系的若干统计指标组成的一个指标系统称为指标体系。按指标体系所反映的内容分为基本统计指标体系和专题统计指标体系;基本统计指标体系反映社会经济发展的基本情况,如人口统计指标体系、科技统计指标体系。专题统计指标体系是就某一专门问题而设立的。如企业经济效益评价指标体系。按统计指标体系所实施的范围分为国家统计指标体系、地方统计指标体系、部门统计指标体系和基层统计指标体系;,三、统计指标的应用,注意:1.统计指标的内涵和可比性2.多种指标结合应用,3.4 统计表和统计图,一个完整的统计表要求有:表号、表名、分组标志或说明、指标名称及数值;p55统计图有条形图、线形图、圆形图、立体图、枝叶图等;,