统计学原理第三章.ppt
《统计学原理第三章.ppt》由会员分享,可在线阅读,更多相关《统计学原理第三章.ppt(189页珍藏版)》请在三一办公上搜索。
1、,第3章 数据整理和频数分布,3.1 数据的审核和筛选 3.2 数据的分组3.3 数据的频数分布3.4 绝对数 3.5 数据的展示,3.1 数据的审核和筛选,3.1.1 数据的审核3.1.2 数据的筛选3.1.3 数据的排序,3.1.1 数据的审核1原始数据原始数据(Raw Data)是指数据搜集所取得到的,未经过数据分组和汇总的,反映个体特征的零散数据。数据审核(Data Auditing)是指在进行数据整理之前对原始数据的审查和核对。原始数据包含了所有由调查登记获取的个体信息的初级数据,经过数据整理的数据反映的是总体的综合数量特征和分布状态,原始数据所反映的个体数值特征消失或湮没在总体的综
2、合数量特征和分布状态数值之中了。,数据整理是按照数据分析的要求进行的,数据分析思路和目的决定着数据整理分类或分组。,2数据审核的内容统计数据的时效性,准确性、一致性三个方面的标准就是数据审核的基本内容。(1)统计数据的时效性审核。检查是否在规定的统计调查时间内完成数据搜集,采集的数据是否为规定的调查时点上,或规定的调查时段内的数量特征。(2)统计数据的准确性审核。从数据的完整性、真实性和精确性角度进行审核。,检查调查对象中每一个单位是否不重复、不遗漏地包含在统计调查的实际登记资料之中,或抽样调查的抽样框不重复、不遗漏地包含统计调查对象所有调查单位。检查是否每一个调查单位的特征都无偏差、无失真、
3、准确无误地反映在登记资料中,以及抽样调查的抽样误差是否有效控制在规定的许可范围内。(3)统计数据的一致性审核。检查统计数据在时间和空间上的连续性和可比性。,3数据审核的方式 数据审核一般有逻辑检查和技术检查两种方式。(1)逻辑审核(Logistic Auditing)是按照数据审核的内容,采用逻辑分析的方法,检查原始数据中各项数据是否合理的数据审核方式。逻辑检查要求检查人员具备较强逻辑推理能力,以及丰富的专业知识和数据审核经验。,(2)技术审核(Technical Auditing)是按照数据审核的内容,通过对调查数据原始登记表,和其它原始登记材料进行机械性核对,来实施的数据审核方式。填报单位
4、是否存在漏报和重报,调查项目是否填齐,所填内容是否符合填报要求,填报数据有无错行、错栏问题,计量单位是否正确,各栏之间的合计数、乘积数与相关分项数据是否相符等。,人口调查表逻辑审核要点,一、基本要点姓名:未起名的新生婴幼儿应填写“C”+母亲姓名与户主关系:同一户调查表中,不应无户主,也不应多于一个户主。多于一个成员的家庭户,除户主外的其他成员最少应有一位为亲属;集体户,除户主外的其他成员通常应为非亲属。性别:只能填“1”或“2”码。,出生日期:应填满填8位数字码;前4位年份码应不大于2010,不小于1879;第5、6位月份码为0112的数字;第7、8位日期码为0131的数字;月份码为02时,日
5、期码应为不大于29的数字。,公民身份证号码:应填18位数字码(个别情况最后一位空填)。第7至14位码应与“出生日期”项相同;“性别”项为男性时,第17位码应为奇数,否则为偶数。户口性质:只能填“1”、“2”或“9”码。文化程度:注意年龄与文化程度的关系,一般是小年龄不应有高学历。婚姻状况:属已婚、丧偶、离婚的,出生不应晚于1989年6月。流动原因:只能填“1”、“2”或“9”码。,二、流出人口信息调查表户籍地(A0):只能填写本村(居)委名称。流出日期(A8):不得早于出生日期。三、流入人口信息调查表现居住地(B0):只能填写本村(居)委名称。流入日期(B9):不得早于出生日期。,3.1.2
6、数据的筛选数据筛选(Data Filter)是指对已有数据的有意识的过滤和挑选,滤去不需要的数据,选出所需要的数据。从广义上讲,数据审核也是一种数据筛选。这里所讲的数据筛选是指按照数据分析的要求所确定的挑选数据标准,通过对现有数据的逐一比较,从中挑选出一组数据,构成一个数据集合的过程。数据的筛选的Excel演示。,3.1.3 数据的排序数据排序是指将一组数据按照大小、高低、优劣等顺序进行依次排列的过程。依据数据在经过排序之后的有序序列中的位置确定的测度称为顺序统计量(Order Statistics)。,数据排序为计算取值范围、最大值、最小值等总体参数提供了便利,有助于人们了解数据大致的分布状
7、态,数据排序也是有效地进行数据分类或分组的前期准备。数据的排序的Excel演示。,3.2 数据的分组,数据分组的意义非数值型数据的分组数值型数据的分组组中值,3.2.1 数据分组的意义数据分组(Data Grouping)就是根据研究现象的特点和数据分析的目的,将原始数据按照总体单位的某一特征分为不同的组别。经过数据分组之后形成的分布在各个组里的数据称为分组数据(Grouped Data)。作为数据分组标准的这一特征称为分组标志。,数据分组既可以视为是按照分组标志将原始数据分别归入各个不同的组里,又可以看成是按照分组标志部分具有相同特征原始数据合并在同一组中。在数据分组过程中,强调和突出了原始
8、数据中作为分组标志这一特征,同时忽略和隐去了原始数据中的其它特征。按照统计研究的要求,科学地选择分组标志是有效进行统计认识活动的基本前提。数据分组包括非数值型数据分组和数值型数据分组。,例如:在以地区作为分组标志对全国职工的工资收入数据进行分组后,人们看到的是按全国各个地区分组的职工工资水平,突出了工资收入在地区之间的差异,而职工工资在从业部门、工作岗位、教育水平、工作年限、不同性别等方面的差异未能得到显示。,2.统计分组的作用:,统计分组两个含义:对总体而言-“分”对个体而言-“和”,划分社会经济现象的类型反映社会经济现象的内部结构和比例关系揭示社会经济现象之间的相互依存关系,分组前,分组后
9、,25,33,42,统计分组的种类,(1)简单分组与复合分组,对研究对象按一个标志进行分组,就叫简单分组。多个简单分组构成平行分组体系。,简单分组,(2)品质标志分组和数量标志分组,品质标志分组,数量标志分组,选择分组标志,确定分组体系,划定组间界限,科学性:组间差异大,组内差异小。,完备性和互斥性:每个单位均能且只能归到某个组中。,统计分组的程序与原则,选择分组标志,选择分组标志时,一般应考虑原则:(1)根据研究问题的目的和任务选择分组标志;(2)在若干标志中,要抓住具有本质性的或主要的标志作为分组的依据;(3)要考虑到现象所处的具体历史条件或经济条件进行分析。,确定分组体系,各分组标志并列
10、使用,各分组标志交叉结合使用,平行分组体系,对教师的分类,按性别分类,男性,女性,按职称分类,按年龄分类,高级,中级,初级,青年,中年,共计7组 2+3+2,交叉分组体系,按性别分类,按职称分类,按年龄分类,男,女,高级,中级,初级,青年,中年,共计12组232,对教师的分类,男 生 本科学生组 女 生 理科学生组 男 生 专科学生组 女 生 高校学生 男 生 本科学生组 女 生 文科学生组 男 生 专科学生组 女 生,分类,同时具备,变量数列的编制,【例】己知某车间有24名工人,他们的日产量(件)分别是:20,23,20,24,23,21,22,25,26,20,21,21,22,22,23
11、,22,22,24,25,21,22,21,24,23.要求根据以上资料编制变量数列。,编制结果如下:,变量数列的编制,变量值变动区间的长度相等,变量值变动区间的长度不完全相等,相关概念,某地区100个百货商店月销售额与流通费用情况,上组限U,下组限L,如:组距d=U-L=100-50=50(万元),如:组中值x=(U+L)/2=(100+200)/2=150(万元),开口式组距数列组中值的计算:,首组假定下限首组上限相邻组组距 末组假定上限末组下限相邻组组距,先计算开口组的假定上、下限:,因此有:,数据分组包括非数值型数据分组和数值型数据分组,3.2.2 非数值型数据的分组非数值型数据的分组
12、也称为分类。定类数据和定序数据都是对事物质的属性的描述,两者都是一种分类性质的数据,只在分类划分的无序和有序上存在差别。反映事物自然属性的非数值型数据的分组一般比较简单,只要进行适当的细分或合并,以及选择恰当的分组标志即可。,货物:农产品、工业品农产品:种植业产品、林业产品、渔业产品、畜牧业产品种植业产品:水稻、小麦、玉米、棉花食品:无公害食品、绿色食品、有机食品、其他食品,反映事物社会经济属性的非数值型数据的分组一般比较复杂,往往是人们对事物数量特征进行深入地统计分析之后形成的一种质的划分,这种质的划分体现了人们认识活动对于事物由量变到质变的把握,一般采用国家标准、行业标准或者企业标准等标准
13、化的形式确定下来,并借助统计报表和统计调查方案等方式加以明确,以此来规范和指导后续的统计活动。,【课后作业】:搜集有关无公害食品、绿色食品、有机食品相关知识,加深对食品安全的认识,BDC,产品等级:一等品、二等品、三等品产品等级:优质品、合格品产品质量检测标准,【课后作业】自己搜集资料,了解某一产品质量标准,在我国现行统计制度中,将城镇家庭分成收入水平由低到高的七组,即最低收入户、低收入户、中等偏下收入户、中等收入户、中等偏上收入户、高收入户、最高收入户,属于定序数据的分组。这七组的划分是将所有调查户依户人均可支配收入由低到高排序,然后按照10%,10%,20%,20%,20%,10%,10%
14、的频数比例依次分组,最后构成了我国城镇家庭分成收入水平由低到高不同收入阶层的定性分组。,表3.1 2003年我国城镇居民家庭基本情况 元,资料来源:2004中国统计年鉴.北京.中国统计出版社 2004,人口年龄段:0014少年儿童人口数1564劳动年龄人口数65老年人口数,老年抚养比是指人口中非劳动年龄人口数中老年部分对劳动年龄人口数之比,用以表明每100名劳动年龄人口要负担多少名老年人。老年人口抚养比是从经济角度反映人口老化社会后果的指标之一。也称为老龄人口抚养系数,简称老年系数。英文为old-age dependency rate,简写做ODC.,少年儿童抚养比也称少年儿童抚养系数。指某一
15、人口中少年儿童人口数与劳动年龄人口数之比。通常用百分比表示。以反映每100名劳动年龄人口要负担多少名少年儿童。,计算公式为:CDR=(A/B)100%其中:CDR为少年儿童抚养比;A为014岁少年儿童人口数;B为l564岁劳动年龄人口数。,复杂的非数值型数据分组大多建立在对隐含的数值型数据进行科学分组的基础之上,由数量界限的先行确定到定序或定类数据分组的产生,反映了统计认识过程由量的分析到质的确定的鲜明特征。因而,数值型数据分组构成了统计分组研究的主要内容。,2012-03-09(Zhouwuwan),3.2.3 数值型数据的分组,1组距分组(1)组距分组是数值型数据分组的基本形式。数值型数据
16、分组可以分为单变量分组和组距分组。单变量分组是指每个分组只用一个变量值表示的分组形式,又称为单项分组。单变量分组一般在分组标志为离散变量,且变量的取值范围不是太大的情况下使用。,组距分组是指每个分组用一个数据取值区间表示的分组形式。组距分组适用于按连续变量分组或变量的取值范围较大的离散变量的场合。(2)组限。在组距分组中,各组之间的取值界限称为组限,一般用L表示。其中大者为该组数值变量可能取的最大数值,称之为上限(Upper Limit)。小者为该组数值变量可能取的最小数值,称之为下限(Low Limit)。在一个组距分组中,既有上限又有下限的组称为闭口组,否则称为开口组。,(3)组距。组距分
17、组中,同一分组的上限与下限之间的绝对距离称为组距(Class Width),用d表示。一般有,组距上限下限。,2等距分组组距分组有等距分组和异距分组之分。等距分组是各组组距全都相等的组距分组,等距分组中各组单位数的多少不会受到组距大小的影响,便于直接比较各组次数的多少,研究次数分布的特征。因此,等距分组是组距分组的基本方法。,等距分组的具体步骤如下。(1)计算取值范围(Value Area)。(2)确定组数(经验公式)。(3)计算组距。(4)确定组限。(5)将原始数据按照各自数值大小分配到各组中。,(1)计算取值范围。取值范围(Value Area)为全体数据中最大数值与最小数值之差,反映了该
18、组数值变量取值的变动幅度,一般用R表示,有(3.1)(2)确定组数。在进行数值型数据分组时,有一个计算组数的经验公式,即(3.2),例如:数据的总数N为80时,采用经验公式计算出组数为H=7,可考虑将该组数据分为7组。确定组数的目的是为了使数据恰当地分布在各组中,数据过于集中和过于分散都有碍于对数据分布特征的展示,不利于后续的分析研究。组距的确定还要根据实际情况,因地制宜地加以确定。例如,在考试成绩的分析中,人们习惯将其分为优、良、中、及格和不及格5组,不论数据个数多少,分成这样5组较为适宜。,(3)计算组距。由于取值范围是客观存在的,当组数确定之后,组距也就随之确定了,两者之间成反比例关系。
19、设H为组数,d为组距,即有组距d=R/H。为了便于数据分组和组限的划定,组距一般取5,10的整数倍。,(4)确定组限。确定组限就是具体规定各组中变量可能取值的上限和下限。确定组限的原则是“不重不漏”,使每一数据都能够被分配到其中一组里,并且只能分配到其中一组里。组限的具体形公式有间断组限和重合组限,闭口组限和开口组限。,间断组限是每一组的组限与邻组的组限都是间断设置的。一般适用于离散变量数据的分组。年龄:04591014,重合组限是每一组的组限与邻组的组限都是相互重叠设置的。年龄:055101015,在采用重合组限场合,为了贯彻“不重不漏”原则,一般采用“下限在内,上限不在内”统计惯例的处理方
20、式。重合组限既适用于离散变量数据的分组,也适用于连续变量数据分组,在各种场合能够适应各种数据分组的需要,同时有利于组中值的计算,所以重合组限在数据分组中得到了广泛的应用。,闭口组限是既有上限又有下限的组限设置。由闭口组限设置形成的数据分组称为闭口组。开口组限是缺少上限或者缺少下限的组限设置。由开口组限设置形成的数据分组称为开口组。,(5)将原始数据按照各自数值大小分配到各组中。组限确定之后,就可以将原始数据按照各自数值大小分配到各组中。一般先按照分组标志对原始数据进行排序,然后根据各组的组限水平,将经过排序之后的有序数据进行分段,归入到各个组中。,在采用Excel等数据处理软件时,可以直接运用
21、有关数据筛选功能,完成数据的分组。,3.异距分组异距分组是各组组距不尽相等的组距分组。当采用等距方式进行分组时,各组之间数据的数量差距过大,一些分组中的数据过多或过少,影响到对数据分布状态的观察和分析,可采取缩小组距或扩大组距的方法,来拆分数据过多的分组或合并数据过少的分组,这样形成的各组组距不尽相等的组距分组就是异距分组。,3.2.4 组中值组中值(Class Midpoint)是指组距分组中处在各组取值范围中点位置上的数值。组中值是一个代表性的数值,用来代表该组数据取值的一般水平。在缺乏原始数据,仅拥有已经过分组整理后的数据情况下,只能采用组中值取代组平均数,作为一个代表性的数值,进行各种
22、数据分析。组中值作为代表性数值所隐含的假定前提是该组数据呈均匀分布,或者对称分布。在该组数据明显偏离均匀分布,或者对称分布时,使用组中值作为该组数据取值代表性数值存在着较大偏误。,2012-03-09(Zhouwushangwu),(1)重合组限分组的组中值计算。在采用重合组限设置的组距分组中,组中值为本组的上限与本组下限之和除以2。有组中值(上限+下限)/(3.3),表3.2 2003年我国按年龄和性别分人口数及组中值,重合组限,(2)间断组限分组的组中值计算。在采用间断组限设置的组距分组中,计算组中值需要将以上一组的下限与本组的下限之和除以2。即有组中值(上组下限+本组下限)/(3.4),
23、表3.3 2003年我国按年龄和性别分人口数及组中值,间断组限,(3)开口组组中值的计算计算开口组组中值,需先确定其缺少的下限或上限。一般以邻组组距近似地作为本组的组距,来确定其下限或上限,进而计算出开口组组中值。开口组组中值的计算仍然要区分重合组限设置间断组限设置两种情况。,重合组限设置开口组组中值的计算缺少下限组的组中值该组上限邻组组距/2缺少上限组的组中值该组下限邻组组距/2(3.5),间断组限设置开口组组种值的计算缺少下限组的组中值邻组下限邻组组距/2缺少上限组的组中值该组下限邻组组距/2(3.6),表3.4 2003年我国按年龄和性别分人口数及组中值,重合组限,3.3 数据的频数分布
24、,3.3.1 频数与频数分布频数与频数分布是在数据分组基础形成的概念。频数与频数分布总是在具体的分组设置前提下的对总体数据分布特征的描述。频数(Frequence)是落在某一特定分组中的数据个数,也称为次数。频数有两点要素,一是具体的数据分组,一是落在该组中的数据个数。,频数分布(Frequence Distribution)是由各组的频数组成的一个数组。一般需要用统计图或统计表的形式将频数分布展示出来,以便更加直观和全面地了解和把握总体的频数分布特征。比例(Proportion)各组数据个数(频数)占数据总数(各组频数之和)的比重,为频数的相对形式,又称为频率,一般用百分数表示。显然有,各组
25、比例之和等于100%。,表3.5 2001-2003年我国按性别分人口数及构成本表各年人口未包括香港、澳门特别行政区和台湾省的人口数据。资料来源:2004中国统计年鉴.北京.中国统计出版社 2004,【课后作业】把表3.5的数据更新,表3.5 2001-2003年我国按性别分人口数及构成本表各年人口未包括香港、澳门特别行政区和台湾省的人口数据。资料来源:2004中国统计年鉴.北京.中国统计出版社 2004,统计分组,分配在各组的单位数及其相对形式,3.3.2 累积频数 累积频数(Cumulative Frequence)按照各组数据取值范围高低的次序,逐组依次累加得到的一组频数。累积频数表明了
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 原理 第三
链接地址:https://www.31ppt.com/p-6599276.html