数据的收集、整理与显示.ppt
第二章 数据的收集、整理与显示,第一节 数据的收集第二节 数据的整理第三节 数据的显示,第一节 数据的收集,一、数据概述二、现有统计资料的主要来源三、数据收集的方法四、统计调查的形式五、统计调查体系六、统计调查(数据收集)方案设计,第一节 数据的收集,一、数据概述(数据的概念、计量尺度及分类)(一)、数据的概念所谓数据就是人们对现象进行调查研究所收集、整理、分析和解释的事实和数字,是对客观现象进行计量的结果。数据收集就是根据统计研究预定的目的和任务,运用相应的科学的调查方法和手段,有计划、有组织的向客观实际收集资料的过程。,(二)、数据的计量尺度,定类尺度,定序尺度,定距尺度,定比尺度,精确程度,良好,1980,134公斤,中国,国籍:,健康状况:,出生年份:,体重:,定类尺度,按现象性质差异进行的辨别与区分。测量结果形成定类变量或定类指标。,定类变量或指标确切的值是以文字表述的,可以用数值标识,但仅起标签作用。,定类变量或指标的各类别间是平等的,没有高低、大小、优劣之分。,例如:,性别、种族、运动项目等等,定类尺度(分类尺度),分类,第1类3个,第2类5个,第3类2个,第4类1个,定序尺度,按现象顺序差异进行的辨别与区分。测量结果形成定序变量或定序指标。,定序变量或指标确切的值是以文字表述的,也可以用数值标识,也仅起标签作用。,定序变量或指标各类别间有高低优劣之分,不能随意排列。,定序尺度(分类排序),受教育程度:文盲、小学、中学、大学、大学以上国家:发达国家、发展中国家医院:三级甲、三级乙、三级丙台风预警颜色:黄色、橙色、红色、黑色军衔等级 中国人民解放军军官衔分为3等10级,即将官3级(上将、中将、少将)、校官4级(大校、上校、中校、少校)、尉官3级(上尉、中尉、少尉)。志愿兵役制士兵按军衔等级分为:高级士官(六级土官、五级士官);中级士官(四级士官、三级士官);初级士官(二级士官、一级士官)。职称:初级、中级、高级(副高级、正高级),定距尺度,按现象绝对数量差异进行的辨别与区分。测量结果形成定距变量或定距指标。,定距变量或指标的值以数字表述,有计量单位,可以进行加减运算。,定距变量或指标各类别间自然有大小之分,但没有绝对的零点,不能乘除计算。,两地最高温度相差3沈阳最低温度较大连最低温度低5大连最高温度是沈阳最高温度的2倍,温度,天气预报:沈阳:最高温度3,最低7 大连:最高温度6,最低2,有计量单位C或F,是对次序之间间距进行的测定。每一间隔相等,50度与40度相差10度,30度与20度相差10度。也没有绝对零度。C和F的0度位置不一样,只是一种水平,不表示“没有”或不存在“,按现象绝对差异与相对差异进行的辨别与区分。测量结果形成定比变量或定比指标。,定比变量或指标确切的值也以数字表述,有计量单位,可以进行加减运算。,定比变量或指标有绝对意义上的零点,既可以加减运算,也可以乘除运算。,定比尺度,零高度,零重量,零体积,零面积,零人口,零产量,零资产,真正的零:一无所有,定距尺度与定比尺度的区别,定距尺度中“0”表示一个具体数值,不表示“没有”或“不存在”,定比尺度中“0”表示“没有”或“不存在”。定距尺度 0-273.15-123.15 26.85定比尺度 0K 150K 300K,定距尺度与定比尺度的区别(续),在实际应用中定距尺度与定比尺度差别微不足道,往往不作区分。例如在SPSS Statistics软件中,数据的计量尺度被分为3类:名义(Nominal)有序(Ordinal)度量(Scale),四种计量尺度的比较,计量尺度,数学特性,“”表示该尺度所具有的特性,定序尺度 定类数据定序尺度 定序数据定距尺度 定距数据定比尺度 定比数据,计量类型 数据类型,范畴例:性别:男-女范畴由排序导出例:满意度:高-低,等距区间,能加减0有含义例:摄氏度:0oC,成绩:80,等距区间,能加减乘除0无含义,如0收入=没收入有意义的比值例:收入:100,统计数据的计量与类型,定类数据定序数据定距数据 定比数据,定性数据,定量数据,定类变量例:性别、经济类型,定序变量例:教育程度、产品等级,数字变量(离散、连续)例:成绩、年龄、产量,统计数据的计量与类型,练习题,一、数据概述,(三)数据类型1、按反映现象的特征不同,分:品质数据和数量数据(定性数据和定量数据)(见上一PPT)2、按数据的变化态势分:横截面数据和时间序列数据。3、按数据收集方法分:观测数据和实验数据4、按数据的来源分:直接数据和间接数据,横截面、时间序列和面板数据,横截面数据(Cross-sectional data)是在同一时点或是大约在同一时点所收集的数据。例如2008年我国各直辖市的GDP。时间序列数据(Time series data)是按时间顺序取得的一系列数据。例如我国历年的GDP。面板数据(Panel Data):对多个事物在不同时期或时点上进行测量得到的数据。如1990-2008年全国各个省份的GDP,二、现有统计资料的主要来源,间接来源:1.统计年鉴2.有关期刊3.有关网站,第一节 数据的收集,数据的来源直接来源,直接来源,统计调查方式,选择适合调查方式的方法,数据收集方法,第一节 数据的收集,三、数据收集的方法1.直接观察法2.报告法(通讯法)3.采访法4.登记法5.实验设计调查法6.其他调查法,第一节 数据的收集,四、统计调查的形式,四、统计调查的形式,(一)全面调查与非全面调查统计调查按调查的范围划分,可分为全面调查和非全面调查两大类。1、全面调查:是对调查对象的所有单位一一进行调查。普查、全面统计报表都属于全面调查。2、非全面调查:对调查对象其中的一部分单位进行调查。,1、全面调查,1)普查普查是专门组织的一种全面调查,它主要是用以调查某些不能或不宜用定期的全面报表搜集的统计资料。普查有主要特点:第一,它是一次性(非连续性)的调查。第二,它是一种全面调查,可获得大量详细、全面的资料。如:人口普查;经济普查;农业生产情况普查;2010年11月1日,全国第6次人口普查,1、全面调查,2)全面统计报表制度全面统计报表制度是依照国家有关法规,自上而下地统一布置,以一定的原始记录为依据,按照统一的表式,统一的指标项目,统一的报送时间和报送程序,自下而上地逐级地定期提供统计资料的一种调查方式。全面统计报表的实施范围,是调查对象的全部单位均要填报。统计报表的主要特点:第一,资料的来源是各个基层单位的原始记录。第二,逐级上报和汇总的。第三,属于经常性(连续性)调查,调查项目相对稳定。,2、非全面调查,1)抽样调查。抽样调查是按随机原则从调查对象中抽取一部分单位作为样本进行观察,然后根据所获得的样本数据,对调查对象总体特征作出具有一定可靠程度的推算。A)特点:第一,按随机原则抽取样本。第二,根据部分调查的实际资料对调查对象总体的数量特征作出估计。第三,抽样误差可以事先计算并加以控制。B)适用范围:第一,不可能或不必要进行全面调查的社会现象。第二,对普查资料进行必要的修正。,续:,C)抽样调查的理论基础概率论和数理统计的有关定理。D)抽样调查对数据的要求:所研究的变量是随机变量。E)抽样调查应遵循的原则:第一,随机原则。第二,最大抽样效果原则。,抽样调查的应用案例,抽样调查的方法是透过部分来推断总体。比如要研究一个城市的家庭小汽车问题,按照传统统计报表制,只能通过各区、各居委、各小区、各单位层层发放调查表,再层层上报,每个家庭填一张表。而用抽样调查的方法,只需要调查两三百个家庭就足以比较准确地推断出整个城市的情况。当然,这两三百户家庭要通过科学的抽样来决定。,【专栏21】,抽样调查的应用案例,1936年,美国总统大选前夕,当时,调查业在美国也刚刚起步,该届总统大选的候选人有两位,就是兰登和罗斯福。当时有一本杂志叫文学文摘,它随杂志发了1000万张预选票,最后收回237万张,统计结果是兰登获胜。同时,有一位研究人员叫乔治盖洛普,他运用了与刚才不同的方法科学抽样的调查方法,在全美国选取了1000个样本,他的分析结果是罗斯福获胜。大选结果是罗斯福获得选票1800万张,而兰登只获得选票700万张。这件事使得盖洛普所采用的这种调查方法在全球引起了轰动。,【专栏21】,抽样调查的应用案例,从此,抽样调查在西方得到了普遍认可,盖洛普用他的名字创办的调查公司也常胜不衰。到现在为止,盖洛普调查公司还是全球声誉最好的调查公司,我们国家申办奥运时,就请盖洛普调查公司来做民意调查,调查结果是中国有百分之九十几的支持率,这个数据没有人怀疑,这个数据也是中国获胜的一个重要法码。,【专栏21】,2、非全面调查,2)重点调查:是指在调查对象中,只选择一部分重点单位进行的非全面调查。重点单位:着眼于现象量的方面而言,尽管这些单位在全部单位中只是一部分,但它们在所研究现象的标志总量中却占有绝大的比重,在总体中具有举足轻重的作用。重点单位选多选少,要根据调查任务确定;选中的单位,管理应比较健全,统计力量应比较充实,统计基础应比较巩固,这样才能准确、及时地取得资料。例:某地区为了掌握该地区水泥生产的质量情况,拟对占该地区水泥总产量80%的五个大型水泥厂的生产情况进行调查,属于重点调查。3)典型调查:典型调查是一种专门组织的非全面调查。根据调查的目的,在对所研究的对象进行初步分析的基础上,有意识地选取若干具有代表性的单位进行调查和研究,借以认识事物发展变化的规律。有人也认为它是“目的抽样”,以若干具有代表性的单位为样本。国企改革成功的典型:宝钢、海尔、联想上市公司内幕交易的典型:基金老鼠仓劳动模范:先进典型三好学生:先进学生典型注重性质方面的调查,四、统计调查的形式,(二)经常性调查与一次性调查。统计调查按时间标志可分为连续性(经常性)和不连续性(一次性)调查两大类。1、连续性(经常性)调查:是指随着研究现象的变化,连续不断地进行调查登记。如统计报表制度。如:客流量调查;人流量调查;信息流量调查 产量调查;资金流调查。2、不连续性(一次性)调查:是指间隔一段较长的时间对事物的变化进行一次性调查,如普查、典型调查。银行不良贷款余额调查;产品库存量调查等。,四、统计调查的形式,(三)定期报表形式与专门调查统计调查按组织形式可分为定期报表形式和专门调查。1、定期报表制度是按国家统一规定的表式和内容,定期地向各级领导机构报送统计资料的一种形式。2、专门调查是为某一专题研究而组织的专项调查,如抽样调查、典型调查、普查。如:2008年,奶粉三聚氰胺含量的专项调查 2010年8月,甘肃“泥石流”人员伤亡情况调查 人民币升值对出口企业的影响调查 房贷利率升高对贷款者还贷的影响调查 空置房调查,第一节 数据的收集,五、统计调查体系统计调查方法体系:建立以必要的周期性的普查为基础,经常性的抽样调查为主体,同时辅之以重点调查、科学推算和少量的全面报表综合运用的统计调查方法体系。普查和全面报表都是全面调查,但两者不能互相替代。,续:,抽样调查虽然是一种非全面调查,但它能够解决全面调查无法或难以解决的问题,抽样调查调查单位少,调查项目就可以多一些,以便对某一社会经济现象进行更深入的研究,也可以节省调查费用,又可以满足统计时效性的要求。所以,我国统计调查体系是以经常性的抽样调查为主体。如果调查任务只要求掌握基本情况,而现象总体中又有部分单位能比较集中地反映研究项目的数量特征,则可采用重点调查。在统计调查体系中,适度地采用了科学的推算方法。,第一节 数据的收集,六、统计调查(数据收集)方案设计,调查的任务和目的 调查对象和调查单位 调查项目 调查表和问卷设计 调查时间和调查期限 调查工作的组织实施计划,一个完整的调查方案应包括以下内容:,调查的任务就是为管理和决策部门提供相关的、准确的、可靠的、有效的和当前的信息。确定调查目的,就是明确在调查中要解决哪些问题,通过调查要取得什么样的资料,取得这些资料有什么用途等问题。,(一)调查的任务和目的,六、统计调查(数据收集)方案设计,调查的目的,2006年全国开展第二次农业普查;其目的是:1)收集年度间变动缓慢的农业结构性数据 2)为抽样调查提供样本框。主要调查:农业生产经营单位的数量、规模和结构;耕地资源;农业生产条件;劳动力就业和流动;农村社会福利事业等基本内容,调查的目的,2009年上海市第二次全国R&D资源清查的目的1.全面调查了解R&D活动的总体规模和分布情况2.研发队伍的规模和素质状况3.研发资源的投入、成果及产出效益情况4.政府对R&D活动扶持政策的落实情况,调查对象就是需要调查的那些社会现象的总体,总是由性质上相同的许多调查单位所组成的;调查单位就是组成调查总体的具体单位。需要指出的是,调查单位与填报单位有区别。填报单位是负责向上报告调查内容、提交统计资料的单位。调查单位是调查项目的承担者,可以是人、企事业单位,也可以是物。,(二)调查对象和调查单位,六、统计调查(数据收集)方案设计,调查对象、调查单位、报告单位,2006年我国第二次农业普查的对象:中华人民共和国境内的各种类型的农业生产经营单位和农村住户调查单位:每一个农业生产经营单位和农村住户填报单位:基层组织,调查对象、调查单位、报告单位,上海市第二次全国R&D资源清查的对象(范围)国民经济中R&D活动相对密集行业的法人单位 范围包括:农、林、牧、渔业、采矿业、制造业、电力、燃气及水的生产供应业等等,六、统计调查(数据收集)方案设计,调查项目是指向调查单位需要调查的内容。也就是确定向调查单位登记些什么问题,这些问题在统计上叫标志。调查项目一般就是调查单位的各个标志的名称。究竟选择什么标志和选择多少标志,是拟定调查提纲的重要问题。,(三)调查项目,调查项目,上海市全国第二次R&D资源清查的调查内容:1.R&D活动人员数量、素质及其工作量情况2.R&D经费支出、用途及来源情况3.研发用仪器设备等固定资产拥有情况4.R&D项目的研究类型、组织方式及社会经济目标等情况5.R&D专利等自主知识产权的拥有及使用情况6.技术引进、消化、吸收和技术改造情况7.政府给予研发活动的税收减免情况等,把调查提纲中的各个调查项目按照一定的顺序排列在一定的表格上,就构成了调查表。调查表是统计调查的核心部分。调查表的内容一般由表头、表体和表脚三部分组成。调查表的形式一般分为单一表和一览表在市场研究和调查中,调查项目和调查表通常表现为一张调查问卷(见专栏2-2)。,(四)调查表和调查问卷,六、统计调查(数据收集)方案设计,续1,问卷调查是一种特殊的调查形式,常用于民意测验或市场调查。根据调查目的,在调查对象中随机选择或有意识地确定调查单位,以书面文字或表格形式了解被调查者的意见,调查者自愿、自由地回答问卷中所提出的问题。,续2,调查问卷的设计是调查方案设计的核心内容,其在调查中十分重要,它是将调查目的转化为一些被调查者可以回答的问题的重要环节。调查问卷在结构上一般都由开头部分、甄别部分、主体部分和背景部分组成。问卷设计的内容一般包括调查中所提问题的设计、问题答案的设计、提问顺序的设计、编码的设计、量表的设计以及问卷版面格式的设计等。,手机游戏调查问卷(部分),尊敬的女士/先生:您好!我们是xx大学在校学生,为搜集毕业论文资料发放此问卷。本问卷针对您使用手机/手机游戏的行为进行一些调查,大概会占用您5分钟时间。所有调查项目不涉及个人隐私。您有手机吗?A、有(继续提问)B、没有(结束提问)甄别问题,【专栏22】,手机游戏调查问卷(部分),1、您每天用于手机游戏的时间是:封闭式问题A、不使用 B、10分钟以内 C、10-60分钟 D、1小时以上 2、请列出您经常玩的手机游戏的名字(最多3个;如不玩游戏,请填“0”):开放式问题_,【专栏22】,手机游戏调查问卷(部分),3、您下载手机游戏的主要方式是(如不玩游戏,请选“其它”项并填“0”):半封闭式问题A、网上下载并通过数据线传输B、通过WAP网站下载C、到手机服务中心安装 D、通过百宝箱下载 E、其它(请注明)4、您了解手机游戏信息的主要渠道有(最多选3项;如不玩游戏,请选“其它”项并填“0”):A、手机玩家网站/论坛 B、移动梦网 C、手机服务提供商(SP)网站 D、手机杂志 E、其它(请注明),【专栏22】,调查时间指调查资料所属的时间。从资料的性质看,如果所要调查的某一时期的现象,所登记的资料是该时期内从第一天起至最后一天止的累计数。如果所要调查的是某一时点的水平,就是明确规定统一的标准时点。如:第二次经济普查的标准时点为:2008年12月31日24时。第二次经济普查的时期资料为2008年度 调查期限是指整个调查工作的起止时限。包括搜集资料或报送资料的整个工作所需的时间。如第二次经济普查的调查期限为:2009年1月1日5月31日。,(五)调查时间和调查期限,六、统计调查(数据收集)方案设计,要使统计调查工作顺利进行,就要做好组织工作,其主要内容包括:1.建立调查工作的办事机构和领导机构;2.配备调查人员;3.做好调查前的准备工作;4.确定调查试点。,(六)调查工作的组织实施计划,六、统计调查(数据收集)方案设计,思考题 Thinking Challenge,在你读书的大学里,一般会有几个餐厅,在研究餐厅的经济效益时,需要了解学生对餐厅的评价,请思考:用什么办法可以知道学生对学校餐厅食物的评价?,自习内容,1、问卷调查设计和提问2、调查中的误差,第二节 数据的整理,一、数据整理概述二、统计分组三、频数分布,一、数据整理概述,(一)统计数据整理的内容:汇总性整理和再整理(二)数据整理的程序1、统计数据的审核。2、资料的分组和汇总。分组,即对资料按其性质和特点,划分为若干类;汇总,加总计算形成各项统计指标。统计分组和统计指标是整理的中心工作。3、数据的表示与描述:计算频数(频率)、编制统计表或绘制统计图。4、统计资料的积累、保管和公布。,1、统计数据的审核原始数据,审核的内容:1)完整性审核 检查应调查的单位或个体是否有遗漏;所有的调查项目或指标是否填写齐全;2)准确性审核 检查数据是否真实反映客观实际情况,内容是否符合实际;检查数据是否有错误,计算是否正确等,1、统计数据的审核二手数据,1)适用性审核 弄清楚数据的来源、数据的口径以及有关的背景材料;确定这些数据是否符合自己分析研究的需要;2)时效性审核 应尽可能使用最新的统计数据3)确认是否必要做进一步的加工整理,返回,二、统计分组,(一)统计分组的概念与种类1、统计分组概念1)根据统计研究的目的和客观现象的内在特点,按某个标志(或几个标志)把被研究的总体划分为若干个不同性质的组,称为统计分组。2)分组的性质:兼有分和合双重含义。2、统计分组的原则穷尽原则,使总体中的每一个单位都应有组可归,或者说各分组的空间足以容纳总体所有的单位。互斥原则,在特定的分组标志下,总体中的任何一个单位的只能归属于某一组,而不能同时或可能归属于几个组。,二、统计分组,3、统计分组的种类,按分组标志多少分,简单分组 复合分组,按标志属性不同分,品质标志分组 数量标志分组,3、统计分组的种类,3)按分组的作用和任务不同,分为类型分组、结构分组和分析分组。类型分组:把复杂的现象总体,划分为若干个不同性质的部分,就是类型分组。结构分组:在对总体分组的基础上计算出各组对总体的比重,借此研究总体各部分的结构,即结构分组。分析分组:为研究现象之间依存关系而进行的统计分组即分析分组。,揭露社会经济现象的类型,反映各类型的特点。,划分现象类型:类型分组,单位:亿元,说明社会经济现象的内部结构。,研究总体结构:结构分组,研究现象之间的依存关系:分析分组,某乡某种农作物的耕作深度与收获率的关系,(二)统计分组的方法选择分组标志,1、品质分组的方法。按品质标志分组,有些分组比较简单,分组标志一经确定,组的名称和组数也随之确定。2、数量分组的方法。按数量标志分组,应注意如下两个问题:首先,分组时各组数量界限的确定必须能反映事物质的差别。其次,应根据被研究的现象总体的数量特征,采用适当的分组形式,确定相宜的组距、组限。,2、数量分组的方法(1),1)单项式分组与组距式分组A)单项式分组:用一个变量值作为一组,形成单项式变量数列(简称单项数列,又称分组数列)。单项式分组一般适用于离散型变量且变量变动范围不大的场合。例如,对某地区居民进行调查时,将居民户按家庭人口数分组,每组标志值为1,2,3,4,5,6,7人。,续:,B)组距式分组:将变量依次划分为几段区间,一段区间表现为“从到”距离,把一段区间内的所有变量值归为一组,形成组距式变量数列(简称组距数列)。区间的距离就是组距。连续型变量或者变动范围较大的离散型变量,适宜采用组距式分组。例如,将某企业职工按工资水平分组,可分为150元以下,150160元,160170元,170180元,180190元,190200元,200元以上几组。,例1:,表2-1 某车间工人生产某种零件分布情况,返回,例2:,表2-2 某企业职工按月工资分组资料,在组距数列中,需要明确以下几个概念:,组限:组距数列中,各组的界限称为组限。组限又分为上限和下限。下限是每组最小的标志值,上限是每组最大的标志值。如上表中标志值150160元一组,150元和160元是组限,150元为下限,160元为上限。,组距数列中,如果各组的组限都齐全,称为闭口组;若组限不齐全,即最小组缺下限或最大组缺上限,或最小组的下限、最大组的上限都缺,称为开口组。缺下限或缺上限称半开口组,下限、上限都缺称全开口组。,在组距数列中,需要明确以下几个概念:,组距:每组下限与上限之间的距离叫组距。每组组距等于上限与下限之差,即组距=上限下限。上表中标志值150160元组的组距=160元150元=10元。,2、数量分组的方法(2),2)间断组距式分组和连续组距式分组间断组距式分组:组限不相连的组距式分组。如1-3,4-6,连续组距式分组:组限相连(或称相重叠的),即以同一数值作为相邻两组的共同界限的组距式分组。如1-3,3-6,离散型变量,可间断组距式分组,也可连续组距式分组。连续型变量,只能采用连续组距式分组。“上限在不内”原则:在连续组距式分组中,以同一个数值作为相邻两组共同的界限,统计上规定,凡是总体某一个单位的变量值是相邻两组的界限值,这一个单位归入作为下限值的那一组内。,2、数量分组的方法(3),3)等距分组与异距分组等距分组:标志值在各组保持相等的组距,即各组的标志值变动都限于相同的范围。一般用于标志值变动比较均匀的场合。异距分组:各组的组距不相等。,(三)相关指标的计算,1.组距连续式分组的组距计算公式:组距=本组上限本组下限间断式分组的组距计算公式:组距=本组上限本组下限+1开口组的组距:以相邻组的组距为本组的组距。,(三)相关指标的计算,2.组中值:上下限之间的中点数值称为组中值,组中值的计算公式:,如上表2-2,标志值150160元组,开口组的组中值如何计算?,开口组的组中值如何计算?,若将表2-6第一组改为“160元以下”,则,若将表2-6最末组改为“200元以上”,则,(三)相关指标的计算,计算平均指标或进行其它统计分析时,常以组中值来代表各组标志值的平均水平。3.组数组数=全距/组距斯特杰斯经验公式:组数=1+3.3 Lg N 由此推出组距=(最大变量值-最小变量值)/(1+3.3Lg N),三、频数分布,(一)频数分布的基本概念与要素1、频数分布在统计分组的基础上,将总体所有的单位按某一标志进行归类排列,称为频数分布,或次数分布。根据分组标志特征的不同,分布数列可分为品质分布数列和变量分布数列。2、分布数列的两个要素1)总体按某标志所分的组。2)各组所出现的单位数,即频数,亦称次数。对于变量数列,标志值形成的数列,称为变量,一般用x表示;频数(次数)用f表示。,三、频数分布,(二)变量数列的编制(数值型数据频数分布表编制)1、编制方法。2、频率的性质1)任何频率都是界于0和1之间的一个分数,即:2)各组频率之和等于1,即:3、频数密度:采用异距分组,各组次数的多少受到组距不同的影响,为消除异距分组所造成的影响须计算频数密度(或称次数密度)。频数密度的计算公式:频数密度=频数/组距 频率密度=频率/组距各组频数密度与各组组距乘积之和等于总体单位数,各组频率密度与各组组距乘积之和等于1。,下面举例说明变量数列的编制方法(1),现举例说明编制等距数列的步骤与原则。设有50名工人某月份完成生产定额的原始资料如下(单位:):95 91 114 110 118 133 121 146 117 125108 105 110 107 137 120 145 125 136 127121 118 103 115 115 141 117 123 118 129136 101 98 113 113 114 119 126 120 93 122 108 101 105 125 116 122 132 128 127,下面举例说明变量数列的编制方法(2),第一步,排序,在全部标志值中,找出最小值与最大值,计算全距。以上资料中,最小值为91,最大值为145,则:全距=最大值最小值=14591=54第二步,确定组距和组数。对于同一资料,在全距一定的情况下,组数与组距成反比例关系,即,下面举例说明变量数列的编制方法(3),第三步,确定各组组限。确定组限时,一般是从最低组的下限开始或从最高组的上限开始。最低组的下限不要刚好等于原始资料中的最小值,而应略小于这个最小值;同样,最高组的上限应略高于原始资料中的最大值。特殊情况下,确定组限也可以从中间某组开始。如本例中,不可将未完成生产定额的工人与刚好及超额完成生产定额的工人分为一组,因此,应把100()作为其中两相邻邦组的界限。,下面举例说明变量数列的编制方法(4),在实际统计工作中,组限的表示方法常用的有如下两种形式:,下面举例说明变量数列的编制方法(5),第一种形式称为名义组限,适用于离散变量分组的数列。如企业按“职工人数”分组。人数只能取整数,相邻两组的上限与下限之间不会有别的数值存在,在汇总各组单位数量时,不至出现麻烦。如果用这种形式表示连续变量分组的数列时,则每组的上、下限所表示的是实际值精确至最近整数的数值。例如,有某总体单位的标志值为89.5,就把该数值四舍五入为90而属于90-99这一组。这就是说,90-99这一组实际上包括了之间的所有标志值,依次类推。,下面举例说明变量数列的编制方法(6),第二种形式称为实际组限,既适用于离散变量分组的数列也适用于连续变量分组的数列。每个组内所包括的标志值皆是以下限为起点、以上限为极限(但不包括上限,特殊情况例外),这就是所谓有“上限不在内”的原则。例如,有某总体单位的标志值为90,则该单位属于90100这一组而不属于8089.99之间的所有标志值。本例中若采用第二种组限的表示方法,可列表如表23所示。,下面举例说明变量数列的编制方法(7),表2-3,第四步,汇总各组标志值出现的次数,绘制变量数列表。,返回,表4,表5,使用Excel频数函数(FREQUENCY),Excel使用统计函数【FREQUENCY】创建频数分布表。具体步骤是选择与接受区域相临近的单元格区域,作为频数分布表输出的区域选择统计函数中的【FREQUENCY】函数在对话框【Date-array】后输入数据区域,在【Bins-array】后输入接受区域同时按下“Ctrl-Shift-Enter”组合键,即得到频数分布,统计函数FREQUENCY,例2.0:某电脑公司销售量数据(用EXCEL 计算频数),三、频数分布,4、累计频数与累计频率(1)向上累计频数(或频率)分布:先列出各组的上限,然后由标志值低的组向标志值高的组依次累计。向上累计频数表明某组上限以下的各组单位数之和是多少,向上累计频率表明某组上限以下的各组单位数之和占总体单位数比重的大小。(2)向下累计频数(或频率)分布:先列出各组的下限,然后由标志值高的组向标志值低的组依次累计。向下累计频数表明某组下限以上的各组单位数之和是多少,向下累计频率表明某组下限以上的各组单位数之和占总体单位数比重的大小。,例1:向上累计频数(或频率)分布,表2-4(以表2-3数据为例),例2:向下累计频数(或频率)分布,表2-5(以表2-3数据为例),4、累计频数与累计频率,(3)、累计频数分布特点1)第一组的累计频数等于第一组本身的频数;2)最后一组累计频数等于总体单位数。累计频率同样也具有两个特点:1)第一组的累计频率等于第一组本身的频率;2)最后一组的累计频率等于1。,(三)分类数据频数分布表编制,分类数据整理频数分布表(例题分析),【例2.1】一家市场调查公司为研究不同品牌饮料的市场占有率,对随机抽取的一家超市进行了调查。调查员在某天对50名顾客购买饮料的品牌进行了记录,如果一个顾客购买某一品牌的饮料,就将这一饮料的品牌名字记录一次。右边就是记录的原始数据,用Excel制作频数分布表,使用Excel计数函数(COUNTIF),如果只需要计算某一类别的数据个数,可以使用Excel中的统计函数【COUNTIF】。在对话框【Range】后输入数据区域,在【Criteria】后输入数字、表达式、字符串等,计数单元格必须符合的条件,即可得出结果 例如,我们要计算出可口可乐出现的频数,在【Range】后输入A1:A50(数据所在的区域),在【Criteria】后输入“可口可乐”,结果为15。如果数据区域是数值型数据,计算符合特定条件的数据个数,则可在【Criteria】后输入“某一数值”、“某一数值”、“=某一数值”,等等,两个或两个以上变量交叉分类的频数分布表交叉表,【例】,【例2.2】为研究不同类型软饮料的市场销售情况,一家市场调查公司对随机抽取的一家超市进行调查。表示调查员随机观察的50名顾客购买的饮料类型及购买者性别记录。生成频数分布表,观察饮料类型和顾客性别的分布状况。,用Excel制作交叉表,(四)顺序数据频数分布表的编制,1.累积频数(cumulative frequencies):各类别频数的逐级累加2.累积频率(cumulative percentages):各类别频率(百分比)的逐级累加,顺序数据的频数分布表(例题分析),【例】在一项城市住房问题的研究中,研究人员在甲乙两个城市各抽样调查300户,其中的一个问题是:“您对您家庭目前的住房状况是否满意?”1非常不满意;2不满意;3一般;4满意;5非常满意。,顺序数据的频数分布表(例题分析),(四)频数分布的类型,主要有下列三种类型:钟形分布、U形分布、J形分布,钟形分布,(四)频数分布的类型,U 形分布,(四)频数分布的类型,J形分布,第三节 数据的描述,一 统计表二 统计图三 统计分析报告,第一节 统计表与统计图,一、统计表(一)统计表的定义和结构1、统计表:把统计数据按一定的顺序排列在表格上,就形成了统计表。它清楚地、有条理地显示统计资料,直观地反映统计分布特征,是统计分析的一种重要工具。,2、统计表的结构,2)从内容上看,统计表由主词栏和宾词栏,统计表,统计表的名称,用以概括统计表中全部统计资料的内容,一般放在表的上端中央,又称横标目,它表明统计表横行项目的名称,一般置于表的左边,一般在各横行标题与纵栏标题的交叉处,是说明总体(各组)数量特征的指标。,统计表所要说明的对象,即统计总体各个组成部分的名称,一般是指表的标行标题部分。,用来说明主词的各种统计指标,一般指表的纵栏标题和数字资料部分。,又称纵标目,它表明纵栏指标名称,一般置于表的右上方,下面看个例子吧,表2-6某年某地工业部门的分组,总标题,纵栏标题,指标数值,横行标题,(二)统计表的分类,1、按主词的结构分类1)简单表:主词未经任何分组的统计表称为简单表,也称一览表。主词罗列各单位的名称。2)分组表:主词只按一个标志进行分组形成的统计表,也称简单分组表,。3)复合表:主词按两个或两个以上标志进行分组的统计表,也称复合分组表。,(二)统计表的分类,2、按宾词设计分类(见书P37)1)宾词简单排列是指宾词不加任何分组、按一定顺序排列在统计表上,就是宾词简单排列表。2)宾词分组平行排列是指宾词栏中各分组标志彼此分开,平行排列,就是宾词分组平行排列表。3)宾词分组重叠排列是指统计指标同时有层次地按两个或两个以上标志分组。,(三)统计表的设计,统计表的设计应注意如下事项:1.线条的绘制。表的上下端应以粗线绘制,表内纵横线以细线绘制。表格的左右两端一般不划线,采用“开口式”。2.合计栏的设置。3.标题设计。以简练而又准确的文字表述统计资料的内容、资料所属的空间和时间范围。,4.指标数值的填写。当数字因小可略而不计时,可写上“0”;当缺某项数字资料时,可用符号“”表示;不应有数字时用符号“”表示。5.计量单位。统计表必须注明数字资料的计量单位。当全表只有一种计量单位时,可以把它写在表头的右上方。如果表中各格的指标数值计量单位不同,可在横行标题后添一列计量单位。6.注解或资料来源。在统计表下,应注明资料来源。,二、统计图,分类数据的图示顺序数据的图示数值型数据的图示(分组、未分组),分类数据的图示条形图(bar chart),用宽度相同的条形的高度或长短来表示各类别数据的图形有单式条形图、复式条形图等形式主要用于反映分类数据的频数分布绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图(column chart),分类数据的图示柱形图(例题分析)用Excel制作柱形图,分类数据的图示帕雷托图(Pareto chart),按各类别数据出现的频数多少排序后绘制的柱形图 主要用于展示分类数据的分布,分类数据的图示对比条形图(side-by-side bar chart),分类变量在不同时间或不同空间上有多个取值对比分类变量的取值在不同时间或不同空间上的差异或变化趋势,分类数据的图示对比条形图(例2.3)用Excel制作,分类数据的图示饼图(pie chart),也称圆形图,是用圆形及圆内扇形的角度来表示数值大小的图形主要用于表示样本或总体中各组成部分所占的比例,用于研究结构性问题绘制圆形图时,样本或总体中各部分所占的百分比用圆内的各个扇形角度表示,这些扇形的中心角度,按各部分数据百分比占3600的相应比例确定,分类数据的图示饼图(例2.1)用Excel制作,顺(定)序数据的图示,顺序数据的图示累计频数分布图(例2.4 用Excel制作),甲城市家庭对住房状况评价的累积频数分布,环形图(doughnut chart),环形图中间有一个“空洞”,样本或总体中的每一部分数据用环中的一段表示与饼图类似,但又有区别饼图只能显示一个总体各部分所占的比例环形图则可以同时绘制多个样本或总体的数据系列,每一个样本或总体的数据系列为一个环用于结构比较研究 用于展示分类和顺序数据,环形图(例2.4 用Excel制作),数值型数据的展示,数值型数据的图示,分组数据直方图和折线图,分组数据直方图(histogram),用于展示分组数据分布的一种图形用矩形的宽度和高度来表示频数分布本质上是用矩形的面积来表示频数分布在直角坐标系中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图直方图下的总面积等于1,分组数据的图示(直方图的绘制),某电脑公司销售量分布的直方图(例2.0 用Excel制作),我一眼就看出来了,销售量在170180之间的天数最多!,销售量(台),分组数据直方图(直方图与条形图的区别),条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义直方图的各矩形通常是连续排列,条形图则是分开排列条形图主要用于展示分类数据,直方图则主要用于展示数值型数据,分组数据折线图(frequency polygon),折线图也称频数多边形图是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉折线图的两个终点要与横轴相交,具体的做法