统计数据的收集整理与显示 课件.ppt
1,第2章统计数据的收集、整理与显示,2,2.1.1统计调查的意义 有组织、有计划地收集大量统计数据的过程。是统计工作的基础环节。 与一般社会调查的主要区别(1)主要着眼于数字资料的收集;(2)不是收集个别单位的资料,而是收集大量单位的资料并能够据以汇总计算形成说明总体的综合数据。,2.1 统计数据的收集统计调查,3,对统计调查的要求,准确、及时、完整。,准确(真实、客观)如实反映客观实际。真实性是统计的生命。,完整调查方案规定调查的单位要全、项目要全,不能遗漏。资料残缺不全,就不能正确、系统地反映现象总体的实质和规律性。,及时性在规定时间内尽快提供统计资料。过时的信息有如“雨后送伞”。,4,2.1.2 统计调查方案,调查方案的内容,5,调查要达到的具体目标回答“为什么调查?”调查之前必须明确,1.确定调查目的,6,调查对象:调查研究的总体或调查范围调查单位:需要对之进行调查的单位。可以是调查对象的全部(全面调查),也可以是调查对象中的一部分单位(非全面调查)回答“向谁调查?”,2.确定调查对象和调查单位,调查单位与报告单位存在不一致性,7,调查项目:调查的具体内容调查表:表现调查项目的表格或问卷 调查表单一表和一览表回答“调查什么?”,Q1 ,Q2 ,Q3 ,Q4 ,3.确定调查项目和调查表,8,4.确定调查方式方法5.确定调查时间 调查的标准时间资料所属时间 调查工作的起止时间(六)确定其它事项 调查组织机构 人员培训 试点 经费 .,9,2.1.3统计调查的组织形式,10,全面调查特点:资料齐全、能够满足各级政府领导管理需要;不存在代表性误差。 耗费大,易产生登记性误差。 收集重要的、基础性数据。非全面调查特点:耗费小(人财物时间),不易产生登记性误差, 存在代表性误差。 应用广泛。,11,1.普查 为特定目的专门组织的一次性全面调查 调查内容详细、提供重要国情国力资料、数据的规范化程度较高 提供抽样框 特别注意必须规定标准时间在规定时间内统一进行基本内容和指标解释统一并相对稳定,12,2.统计报表概念按照国家有关法规的规定、自上而下地统一布置、自下而上地逐级提供基本统计数据。特点全面性、稳定性、连续性、可比性曾经是我国数据收集的主要方式耗费大、数据质量差等等。,13,第二次全国经济普查的标准时点是2008年12月31日,时期资料为2008年度。,第六次全国人口普查 主要目的:人口普查是一项重大的国情国力调查。组织开展第六次全国人口普查,将查清十年来我国人口在数量、结构、分布和居住环境等方面的变化情况,为科学制定国民经济和社会发展规划,统筹安排人民的物质和文化生活,实现可持续发展战略,构建社会主义和谐社会,提供科学准确的统计信息支持。内容:人口和住户的基本情况,内容包括:性别、年龄、民族、受教育程度、行业、职业、迁移流动、社会保障、婚姻生育、死亡、住房情况等。时间:标准时点是2010年11月1日零时。,张高丽在第三次全国经济普查电视电话会议上强调依法科学创新开展经济普查推动经济持续健康发展,第三次全国经济普查电视电话会议(2013年)8月29日在京召开,中共中央政治局常委、国务院副总理、国务院第三次全国经济普查领导小组组长张高丽出席会议并讲话。他强调,第三次全国经济普查是在我国步入全面建成小康社会决定性阶段进行的一次重大国情国力调查,要提高认识、统筹安排、精心组织,坚持依法、科学、求是、创新普查,摸清底数、搞准情况,做到心中有数,为有效应对风险和挑战、推动经济持续健康发展提供基础信息依据。,定期开展经济普查,是认识国情、摸清家底的重大举措,是提高决策和管理科学化水平的重要基础性工作。在新的形势下,开展第三次全国经济普查,有利于准确判断经济形势的新变化、掌握经济发展的新情况、把握发展阶段的新特征,对于贯彻落实党的十八大精神,坚持稳中求进的工作总基调,以提高经济发展质量和效益为中心,稳增长、调结构、促改革、惠民生,促进中国经济转型升级,具有十分重要的意义。,16,3.重点调查,从调查对象的全部单位中选择一部分重点单位进行调查 重点单位标志值在总体标志总量中占有较大比重的单位 调查结果一般不宜用于推断总体 了解总体的基本情况重点调查的适用场合 客观存在重点单位,17,4.抽样调查,从总体中随机抽取一部分单位(样本)进行调查,经济性、时效性、准确性,目的是推断总体的未知数字特征,应用最广泛的调查方式,可以计算和控制误差,18,收集、整理统计资料,应当以周期性普查为基础,以经常性抽样调查为主体,综合运用全面调查、重点调查等方法,并充分利用行政记录等资料。,国家统计数据以国家统计局公布的数据为准。,19,2.1.4统计数据收集的具体方法,数据的收集方法,20,2.2统计数据的整理,2.2.1统计数据整理的意义 将统计调查阶段所收集到的大量个体资料进行科学的分类汇总、加工处理,或对已经经过加工的次级资料再加工,使之系统化、条理化、能够反映事物总体特征的综合资料的过程。 个体资料 综合资料 统计调查到统计分析的中间环节,21, 2.2.2 统计整理的基本方法统计分组,1.统计分组的概念和含义 按一定的标志把总体分成若干组 对总体分,对个体合, 突出组与组之间的差异、抽象组内各单位差异 2.分组的原则 科学性 完备性 互斥性,22,关键:服从研究任务需要,反映总体本质特征,形式,按分组标志性质分,品质标志分组,数量标志分组,按分组标志个数分,简单分组,复合分组,3. 统计分组的种类,23,划分现象类型最基本的作用,研究总体结构,例:我国三次产业结构(%),研究现象之间的依存关系,例:中国农民家庭按收入分组的恩格尔系数(2009年),按收入分组(元)低收入户 中低收入户 中等收入户 中高收入户 高收入户恩格尔系数(%) 47.00 45.88 43.70 40.54 34.76,2012年国内生产总值519322亿元。第一产业增加值占国内生产总值的比重为10.1%;第二产业增加值比重为45.3%;第三产业增加值比重为44.6%。,25,2.2.2分布数列统计分组整理的基本结果,1.分布数列的意义和构成意义构成要素各组名称或变量值 次数(频数或 频率),2.分布数列的种类,1.品质数列按品质标志分组形成的分布数列构成要素各组名称各组次数频数(绝对次数)频率(相对次数,即比重),26,表2-1 我国三产业就业情况(2009),定类,27,2.变量数列,28,单项式数列一个变量值为一个组,适合于离散型变量且变动范围小,29,组距式变量数列,适合于连续变量适合于变量值变动幅度大的情况必须遵循“不重不漏”的原则可采用等距分组,也可采用不等距分组,将变量值的一个区间作为一组,30,表23 某班学生考试成绩次数表,31,(上下组限重叠),32,(上下组限间断),33,34,组距数列中的主要概念组限组与组之间的界线上限一组的最大值下限一组的最小值开口组 组距=上限下限组距可以相等称为等距数列,也可以不相等称为异距数列假定: 开口组的组距=邻组组距 组中值(上限下限)/2代表组内的一般水平假定组内标志值均匀分布或对称分布,35,等距分组与不等距分组,等距分组各组次数的多少不受组距大小的影响可直接根据次数(频数或频率)来观察变量的分布特征和规律不等距分组各组次数的多少要受组距大小不同的影响各组次数不能直接反映频数分布的实际状况用频数密度才能比较各组次数分布的实际状况频数密度频数组距异距分组的应用,36,使用开口组的若干理由保证分组的完备性;避免有些区间的次数为 0 ;保密需要,37,3.变量数列的编制,排序,38,确定组数根据分组研究的需要来确定达到显示数据的分布特征和规律的目的确定组距确定全距: 全距=最大值最小值确定组距: 组距全距/组数确定各组的组限 组限要表现事物变化的度、规定的界限 体现分布的集中趋势 充分考虑到习惯、便于对比根据分组整理成频数分布表,39,4.累计次数,向上累计向下累计,表27 某班学生考试成绩累计次数表,向上累计:小于该组上限的次数(百分数)向下累计:大于该组下限的次数(百分数),41,42,5.次数分布的类型和次数分布图,钟型分布中间多、两头少对称分布如正态分布左偏分布(负偏)右偏分布(正偏) U型分布 J型分布,(1)次数分布的主要类型,44,(2)次数分布图定量数据整理结果的另一表现形式,次数分布图显示次数分布特征的统计图形常用的次数分布图有三种:直方图折线图曲线图,45,直方图用矩形的宽度和高度来表示频数分布的图形 直方图的绘制用横轴表示数据分组纵轴表示频数或频率直方图下的总面积等于1,直方图,46,2010,人数(人),50 60 70 80 90 100 成绩(分),图21直方图的绘制,47,折线图,折线图也称次数多边形图(Frequency polygon)折线图的绘制方法在直方图的基础上,把各条形顶部的中点用线段连接起来以各组组中值为横坐标,以各组次数为纵坐标,描出各点,依次将各点连接起来注意:折线图的两个终点要与横轴相交折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的,48,图22 折线图的绘制,2010,人数(人),50 60 70 80 90 100 成绩(分),49,5530,累计人数(人),50 60 70 80 90 100 成绩(分),图23 折线图的绘制(累计分布),折线图可以用来表示累计分布次数,如向上累计分布曲线:,50,2.3统计数据的显示,2.3.1统计表1.统计表的概念表现经过整理的统计数据的表格统计数据最规范的表现形式 2.统计表的构成标题总标题、横栏标题、纵列标题横行、纵列 数字,51,表212 2011年我国城乡居民家庭人均收入及恩格尔系数,总标题,纵列标题,数据,横行标题,资料来源:国家统计数据http:/,表外附加(表脚),52,53,3.统计表的种类,简单表分组标志多少简单分组表复合分组表,54,55,行是定性变量“性别”,列是定量变量“月平均通讯费”。,4. 列联表 列联表又称为交叉表,它是由两个以上的变量进行交叉分类的频数分布表。,56,泰坦尼克的数据分析(2208人) (列联表与决策树),要合理安排统计表的结构总标题内容应满足3W要求(what where when)数据计量单位相同时,可放在表的右上角标明,不同时应放在每个指标后或单列出一列标明表中的上下两条横线一般用粗线,其他线用细线通常情况下,统计表的左右两边不封口表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一对于没有数字的表格单元,一般用“”表示必要时可在表的下方加上注释,5.统计表的设计,2.3.2统计图,1柱形图2饼图3环形图4线图5雷达图 6茎叶图,58,59,定性数据的整理与显示,要弄清所面对的数据类型,因为不同类型的数据,所采取的处理方式和方法是不同的 对数据主要是做分类整理 适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据,60,1.定类数据的整理,制作频数分布表用图形显示数据,列出各类别计算各类别的频数,61,定类数据可计算的指标,频 数:落在各类别中的数据个数比 重:某一类别数据占全部数据的比值比 率:不同类别数值的比值,62,定类数据整理频数分布表,【例】为研究广告市场的状况,一家广告公司在某城市随机抽取200人就广告问题做了邮寄问卷调查,其中的一个问题是“您比较关心下列哪一类广告?” 1商品广告;2服务广告;3金融广告;4房地产广告;5招生招聘广告;6其他广告。,表29 某城市居民关注广告类型的频数分布,63,定类数据的图示条形图,条形图是用宽度相同的条形的高度或长短来表示数据变动的图形 条形图有单式、复式等形式 在表示定类数据的分布时,是用条形图的高度来表示各类别数据的频数或频率 绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图,64,定类数据的图示条形图,65,定类数据的图示圆形图,也称饼图,是用圆形及园内扇形的面积来表示数值大小的图形 主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用 在绘制圆形图时,总体中各部分所占的百分比用园内的各个扇形面积表示,这些扇形的中心角度,是按各部分百分比占3600的相应比例确定的 例如,关注服务广告的人数占总人数的百分比为25.5%,那么其扇形的中心角度就应为360025.5%91.80,其余类推,66,67,2.定序数据的整理,累计频数:将各类别的频数逐级累加累计频率:将各类别的频率(百分比)逐级累加,68,定序数据频数分布表,【例】在一项城市住房问题的研究中,研究人员在甲乙两个城市各抽样调查300户,其中的一个问题是:“您对您家庭目前的住房状况是否满意? 1非常不满意;2不满意;3一般;4满意;5非常满意。,69,70,定序数据的图示累计频数分布图,71,定序(类)数据的图示环形图,环形图中间有一个“空洞”,总体中的每一部分数据用环中的一段表示环形图与圆形图类似,但又有区别圆形图只能显示一个总体各部分所占的比例环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环环形图可用于进行比较研究 环形图可用于展示定类和定序的数据,72,