应用统计学第4章统计资料整理.ppt
《应用统计学第4章统计资料整理.ppt》由会员分享,可在线阅读,更多相关《应用统计学第4章统计资料整理.ppt(53页珍藏版)》请在三一办公上搜索。
1、第4章 统计资料整理,本章主要阐述统计资料加工整理的基本理论和基本方法,包括分类、汇总、列表、绘图等统计资料整理的技术性知识。,41 统计资料整理程序,42 品质数列,43 变量数列,44 空间数列,45 时间数列,46 相关数列,47 平衡数列,48 统计表的设计,湖南商学院信息系 龚曙明,2,41 统计资料整理程序,统计整理是根据统计研究的需要,对统计调查获得的原始资料进行分类、汇总列表,或对次级资料进行再加工的工作过程。统计资料整理的任务在于使统计资料系统化、综合化和系列化,为揭示和推断总体的数量特征提供初步加工的统计信息。统计资料整理的一般程序如下:,3,411 设计整理方案,统计资料
2、整理方案的主要内容包括:分组方法、统计指标、整理表式、汇总方式和方法的设计与选择,整理的时间和质量要求等等。,412 审核统计资料,主要是审核原始资料或次级资料的完整性、准确性和时效性,以便发现问题进行纠正、补充或删除。审核的方法主要有复计审核、逻辑审核、表表审核、表实审核、对比审核等,其中复计审核主要有平衡审核、加总审核。,4,413 统计分组,1.统计分组是根据统计研究的需要,按一定的标志或标准将总体各单位区分为若干组(类)的一种统计方法。统计分组对总体而言,是将总体区分为性质不同的若干部分;对个体而言,是将性质相同或相近者归为一类,从而体现组间的差异性和组内的同质性。2.统计分组的作用在
3、于划分现象的类型,揭示现象的内部结构及分布特征,显示现象之间的依存关系。3.统计分组的标志有品质标志(属性水准)和数量标志(数量水准)两大类。4.统计分组的关键在于分组标志的选择和各组界限的,5,划分。应根据统计研究的目的、现象所处的具体历史条件,选择具有本质性的标志作为分组标志。5.统计分组的结果通常表现为统计数列,归纳起来,有以下六类:1品质数列。指同一时间总体各单位按某一品质标志(属性水准)分类而形成的数列,又称属性数列。2变量数列。指同一时间总体各单位按某一数量标志(数量水准)分类而形成的数列 3时间数列。指同一统计总体的某一变量或统计指标依时间顺序排列而成的数列。4空间数列。指同一时
4、间、同一变量或统计指标而,6,不同地区、部门、单位的统计数据依特定次序排列而成的数列。5相关数列。指具有一定联系的不同变量或统计指标在不同时间或不同空间条件下的数值按照一定顺序排列而成的数列。6平衡数列。指根据总体内部有关变量或统计指数之间的数量平衡关系而编制的统计数列。,7,414 统计汇总,1.统计汇总是在统计分组的基础上,采用手工汇总或计算机汇总技术求出各组的单位数、总体单位数、各组指标、总体综合指标等。1.手工汇总技术主要有划线法、过录法、折叠法、卡片法、单据分类汇总法等;2.电子计算机汇总一般包括编程、编码、数据录入、逻辑检索、自动汇总计算、制表打印等工作程序。它具有速度快、精度高和
5、存贮数据等特点,特别适合于大批量数据处理。2.统计汇总的组织方式有逐级汇总、集中汇总、逐级与集中汇总相结合三种。,8,415 表现统计资料,统计资料表现或陈示的形式有以下五种:1统计表。统计表是以纵横交叉的线条所绘制的表格来表现统计资料的形式,它能有条理、有系统地排列和组织统计资料。2统计图。统计图是以圆点多少、直线长短、曲线起伏、条段长短、柱状高低、面积或体积大小、实物形象大小或多少、地图等图形来表现统计资料。3统计报告。统计报告是采用文字与数据相结合的方式表现统计资料。其特点是文数结合,数为基础。统计报告是表现统计资料的高级形式。,9,4.统计模型。统计模型是采用数学模型来描述变量或统计指
6、标之间的数量关系。5统计数据库。统计数据库是利用计算机技术,以一定的组织方式存储在一起的相关统计数据的集合,它能以最佳的方式和最少的数据冗余为多种统计应用服务。,10,42 品质数列,421 品质数列编制 1.品质数列是指同一时间、空间条件下,某种品质属性的统计资料,按照特定的分组次序排列而成的一种分布数列。具有各组名称和各组次数两个基本要素,又称性质数列或属性分布数列。在此基础上,可进一步计算各组的比率(频率),则属性的不同表现及其相应的频率构成属性数列的频率分布。2.编制品质数列的关键在于正确选择品质分组标志和划分各组的界限。其步骤:,11,1选择分组标志。应根据统计研究目的,选择能够反映
7、现象本质特征的、主要的品质标志作为分组的依据。特别是对某些重大问题的统计研究,需要选择多个品质标志作为分类依据,这种由一系列的相互联系和相互补充的品质标志对现象进行多种分组的体系,称为品质标志分组体系。2划分各组的界限。编制品质数列时,各组名称 确定后,而各组的界限或范围更需要作出明确的规定。3.决定品质数列的形式。应根据统计研究的目的和要求而决定。简单分组品质数列。即对统计总体只按一个品质标志分组而形成列。,12,平行分组品质数列。即对统计总体同时采用两个或两个以上的品质标志进行平行排列的分组(面分类)而形成的品质数列。复合分组品质数列。即对统计总体同时采用二个或二个以上的品质标志层叠起来进
8、行分组(线分类)而形成的品质数列。4统计汇总。即求出品质数列中各组的单位数和总体单位数,以及各组的比率或频率。某些品质数列还应汇总求出各组的标志总量和总体的标志总量,以及有关的综合指标。5编制统计表。即把按品质标志分组整理好的统计资料,用统计表的形式陈示出来,最终形成品质数列。,13,423 品质数列图示用统计图表现品质数列能使人们获得明确和深刻的印象。常用的品质数列图有直线图、长条图、圆面图三种。1.直线图:是以直线的长短来表示属性统计指标数量大小的图形。常以横轴代不同组别,纵横代表各组的组数或频率。2.长条图。是以若干等宽平行长条的长短来表示属性统计指标数量大小的图形。也是以横轴代表不同的
9、组别,纵轴代表各组的次数或频率。3.长条图中的长条亦可改用长条柱和圆柱体代替,转化为立体图,以增加图形的美观性和感染力。,14,4圆面图。是以圆形的面积代表总体指标数值,圆形的各扇形面积代表各组指标数值,或将圆形面积分为若干角度不同的扇形,分别代表各组的频率。(在实际应用时,亦可将圆面改为圆饼或圆台,变成圆形立体图)。,15,43 变量数列,431 变量数列编制 变量数列是指同一时间、空间条件下,某种数量属性不同的统计数据按数量大小排列而成的分布数列。变量数列是由变量的不同取值及其相应的次数或频数两个要素构成,在变量数列的基础上,计算出各组的频率,可形成变量数列频率分布,它是由变量的不同取值及
10、其实际上相应的频率构成。变量数列编制方法和步骤如下:1.决定变量数列的形式。有两类:离散型变量数列和连续型变量数列;,16,离散型变量数列按变量取值个数的多少和变量值变动的程度大小、又分为单项数列和组距数列;连续型变量数列因变量取值连续宜编制组距数列。组距数列按组距是否相等又分为等距数列和异距数列。一般按下列原则决定变量数列的形式。(1)离散型变量的取值个数少,且变量变动程度小,可编制单项数列,即采用列举式的分组方式,按变量值大小先后顺序排列;(2)离散型变量的取值个数较多;且变量值变动的程度较大,宜编制组距数列。(3)连续变量的取值范围较大,且取值无极端偏斜分布状态时,宜编制等距数列。,17
11、,(4)连续型变量或离散变量的取值若按一定的比例关系变化,或变量的取值呈极端偏斜分布状态时,宜编制异距数列。异距数列中,各组次数的多少受组距不同的影响,在研究各组次数或频率的实际分布时,宜计算次数密度(次数/组距)或频率密度(频率/组距),以消除因组距不同各组次数和频率不可比的影响。而分布图的编制应按次数密度或频率密率绘制。因此,从明确地反映总体分布的特征考虑,编制组距数列时,应尽量采用等距分组的方法。2.求全距R。全距是变量值中的最大值与最小值之差,又称极差。求全距的目的是为了考察变量值的变动范围,为决定变量数列的组数和组距提供依据。,18,3.确定组数和组距。确定组数和组距是编制变量数列的
12、关键,组数的确定应考虑组距数列的各组之间应充分反映事物的不同性质的差异及其分布特征。组距是每组的大小距离,常用全距(R)除以组数(i)求得。4.确定组限。组距决定之后,应进一步确定每组的界限(上限和下限),每组的最小值为下限,最大值为上限。离散型变量组距数列,相邻两个组的上限和下限应间断。连续型变量组距数列,相邻两个组的上限和下限一般应重叠。若变量的取值中有特大、特小值时,为使分组符合穷举和互斥的原则,可设置开口组:最前组定为“以下”,最高组定为“以上”。,19,组中值的计算有三种情形:(1)组中值=(上限+下限)/2(2)缺下限开口组的组中值=上限相邻组组距/2(3)缺上限开口组的组中值=下
13、限+相邻组组距/25.列表计算各组频数和频率。将原始数据分别归人所属各组(连续型变量组距数列的上限不在本组内,列入上一组),即可得到各组的频数。为了满足统计研究的需要,亦可计算累计频数和累计频率。有两种:1较小制,由变量值低的组向变量值高的组累计,较小制表明各组上限以下的累计频数 和累计频率为多少,20,2较大制,由变量值高的组向变量值低的组累计。较大制表明各组下限以上的累计频数和累计频率为多少。,432 变量数列图示次数分布和频率分布的表现形式有统计表和统计图两种。常用的次数或频率分布图有直线图、直方图、折线图和平滑图。1直线图:是用直线的长短来表示各组次数或频率的大小。常用于表现品质数列.
14、离散型变量数列的次数分布或频率分布。2.直方图:是以若干等宽的平行直方长条的长短来表示各组次数或频率的大小。常用于表现组距数列的次数分布或频率分布。,21,3.折线图:是在直方图的基础上,用折线将各组次数或频率高度的坐标点连续起来,或用组中值与次数或频率求坐标点连接而成的分布图。常用于表现连续型变量组距数列的总体分布,或表现累计频率的分布。4.平滑图:当变量值非常多,变量数列的组数无限增多时,折线图中的折线便近似表现为一条平滑的曲线。平滑图又称曲线图,是变量数列的组数趋向于无限多时的折线的极限描绘,是一种理论曲线,实质上是对应于连续变量的次数或频率分布的函数关系图。5径叶图:又称枝叶图,是一种
15、将数字与图形结合使用的表现统计资料的方式,特别适合于描述变量数列的次数分配。当变量值为两位数字时,效果更佳。其绘制的步骤为:,22,(1)将数字从0至9(视需要增减)写成一行,并划一垂直线,这些前置数表示十位数,即为枝干(或径)的部分。(2)将每个变量值的第二位数字(个位数)写在垂直线的右边,且与设变量值第一位数字(十位数)对应在横列上。(3)将每一列的第二位数(个位数)依递增次序排列,即为叶的部分。如有必要,可计算列出次数或频率。,23,将枝叶图翻转90来看,即为一个可表示特定变量值分布的直方图,此图的效果和直方图一样,但原始数据并未漏失,故枝叶图比直方图更有价值。,图表4-13 某班统计学
16、成绩分布径叶图,24,44 空间数列,441 空间数列的编制空间数列是同一时间、同一性质而不同地区(或部门、行业、企业)的统计指标或某变量的数值,按特定顺序排列而成的统计数列,又称地理数列或地域数列,它反映统计指标的数量表现或变量的取值在不同地区间的分布状况和数量特征,亦可描述某种社会经济现象或自然现象在地区间的差异情况。空间数列具有地区(部门、行业、企业)名称和统计指标两个要素。,25,1审查统计资料。首先应审查行政区划或部门、行业的划分有无变动,如有变动,则应按当前的口径用加进、减去等手段进行调整。其次应审查统计指标在各地区(或各部门、行业、企业)的计算范围、方法、价格、时间长度等方面是否
17、一致,如不一致,则应采用换算、推算等手段作出调整。2.确定空间数列的形式。有三种形式:单指标空间数列、多指标空间数列和时空结合数列。应根据统计研究的需要作出选择。3.确定空间数列的层次.有两类:一是一级列举层,二是多级列举层。4.确定地区(部门、行业)的排列顺序,有两种:一是按自然顺序排列;二是按统计指标数值大小的名次排序。一般按自然顺序排列者居多。,26,5编制空间数列表。即把审核后的统计资料,按照确定的空间数列的形式、层次和排列顺序,用统计表的形式陈示出来。,442 空间数列图示法空间数列除用统计表陈示外,亦可采用图示的方法进行表现。最常用的图示法是统计地图。统计地图是以地图为底本,利用点
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 统计学 统计资料 整理
链接地址:https://www.31ppt.com/p-6571835.html