统计学-2统计数据收集、整理与显示课件.ppt
2023/3/18,1,第二章 统计数据收集、整理与显示,2.1 统计数据的来源2.2 调查设计2.3 统计数据整理2.4 统计表的设计本章重点:数据的收集、整理与图示方法;本章难点:调查问卷的设计、数值型数据的 整理与图示方法。,2023/3/18,2,2004年国务院在全国进行了以2004年12月31日为标准时点的经济普查,2023/3/18,3,根据经济普查资料,我国对2004年GDP进行了重新核算,2004年我国GDP现价总量为159878亿元,比快报核算数增加了23002亿元,增幅16.8%。同时,对1993年以来的GDP历史数据进行了修订。,2023/3/18,6,2.1.1.1 次级统计数据的特点,收集容易,采集成本低作用广泛分析所要研究的问题提供研究问题的背景帮助研究者更好地定义问题检验和回答某些疑问和假设寻找研究问题的思路和途径收集次级统计数据在研究中应优先考虑,返回,2023/3/18,7,2.1.1.2 应用中要注意的问题,返回,(1)应根据研究目的选择次级数据;(2)注意次级数据变量名称的含义是否发生过变化。随着历史的变迁,有些次级数据变量名称的内涵或外延发生了变化,在采用数据时应该进行调整;(3)注意次级数据的计算口径和计算方法是否一致;(4)注意尊重次级数据所有者的权益。一是要合法采用次级数据;二是要注明数据的来源出处,这样既尊重他人的劳动成果,又便于阅读者核实。,2023/3/18,8,2.1.2 初级统计数据的来源,两个渠道专门组织的调查通过调查方法获得的数据通常是对社会现象而言科学实验通过实验方法得到的数据通常是对自然现象而言 也被广泛运用到社会科学中如心理学、教育学、社会学、经济学、管理学等,返回,2023/3/18,9,2.1.2.1 统计调查方式,统计调查方式,2023/3/18,10,1 普查(census),(1)概念:普查是国家为了详细地了解某项重要的国情国力而专门组织的一次性全面调查,主要用来调查属于一定时点上现象的总体特征,如全国人口普查、经济普查、农业普查等。相对于全面统计报表,普查能取得内容更详尽、分类更细致的统计资料,但普查耗费的人力、物力、财力较多,不宜经常进行,而应根据实际需要间隔一定的时间进行。,2023/3/18,11,我国的人口普查从1953年到2010年共进行了六次。今后,我国的普查将规范化、制度化,即:人口普查:每逢末尾数字为“0”的年份进行人口普查;经济普查:将第三产业普查与工业普查、基本单位普查以及建筑业普查合在一起就是经济普查,每10年进行两次,分别在逢3、逢8的年份实施;农业普查:每逢“6”的年份进行农业普查。,2023/3/18,12,普查的基本形式有两种:一种是设立专门的普查机构,配备一定的普查人员,对调查单位直接进行登记,如历次全国人口普查就是采用这种形式;另一种是利用企事业单位的原始记录和核算资料,设计一系列调查表,这些基层报告单位根据普查的要求自行填报,如全国科技人才普查即是如此。,(2)普查的基本形式,2023/3/18,13,(3)普查应该注意的问题,1)要规定统一的标准时点;2)严格设定必需的调查项目;3)尽可能地缩短普查登记期限;4)按一定的周期进行同类普查。,2023/3/18,14,2 抽样调查(sampling survey),(1)概念:是按照随机原则从被研究的总体中抽取一部分单位组成样本,根据样本的调查结果对总体的数量特征作出具有一定可靠程度的推断的一种统计调查方式。,随机原则是抽样调查所必须遵循的基本原则,它是指在抽样过程中,样本单位的抽取不能受任何主观因素及其他系统因素的影响,保证总体中各个单位都有同等的机会被抽选出来的原则。只有遵循随机原则,才能保证抽选出来的样本单位的分布近似于总体的分布,从而确保样本对总体的代表性。,2023/3/18,15,(2)抽样调查的特点,第一,从总体中随机抽取样本单位。第二,抽样调查的目的是根据样本的 数量特征推断总体的数量特征。第三,抽样误差可以事先计算并且加 以控制。,2023/3/18,16,3 统计报表调查(statistical report forms),(1)概念 统计报表调查是指按照国家统一规定的表格形式、统一的指标、统一的报送程序和报送时间,自下而上逐级提供基本统计资料的一种调查组织形式。我国现行的统计报表,包括国民经济基本统计报表和专业统计报表。,2023/3/18,17,(2)统计报表调查的优点,1)在报表实施范围内,各报告单位按期报送,可保证调查资料的全面性、连续性和及时性;2)统计报表调查事先已作为一种制度布置到基层报告单位,要求各单位根据原始记录和统计台账提供报表所需的资料,从而保证了资料来源的可靠性和准确性;3)由于统计报表调查是逐级整理上报,统计资料可以使各级地方政府和部门及时了解和掌握本地区、本部门的基本情况。,2023/3/18,18,(3)统计报表调查的局限性,1)涉及的范围广、内容多,花费的人力、物力较多;2)在统计法制不健全、执行不严的情况下,统计报表调查在逐级上报过程中容易受到有关人员主观因素的干扰,从而影响资料的准确性;3)统计报表中的指标项目相对固定,当被研究现象变化较快时,统计报表缺乏应有的灵活性。,2023/3/18,19,4、重点调查与典型调查,重点调查:在调查对象中选择一些重点单位进行调查,用以反映总体基本情况的一种非全面调查方法。典型调查:根据调查目的与要求,在对所研究现象全面分析的基础上,有意识地选择有代表性的典型单位进行深入细致地调查,以便认识事物的本质与发展规律的一种非全面调查方法。,返回,2023/3/18,20,2.1.2.2 数据的收集方法,2023/3/18,21,1访问调查法,访问调查法是调查者通过与被调查者的当面交谈而得到所需资料的调查方法。在访问调查中,调查人员可以直接了解被调查者对调查问题的态度、观点、举止和调查现场的环境等,为判断调查资料的准确程度提供一定的依据。与其他调查法相比,访问调查法的特点有:回答率较高、数据比较准确、可使用较复杂的问卷等,但调查成本一般比较高。按照调查对象的不同,访问调查法可分为居民入户调查和个别采访两种。按照对调查过程控制程度的不同,访问调查法又可分为非标准式访问和标准式访问两种。,2023/3/18,22,2问卷调查法,问卷的形式是一份预先精心设计好的问题表格,主要用来测定人们的行为、态度和特征。问卷调查就是将事先设计好的问卷,通过邮局、网络或调查员送到每一个被调查者的手中,由被调查者自己填答问题,然后仍通过邮局、网络寄回或由调查员收回的一种调查方法。进行问卷调查要求被调查者有一定的文化水平及责任心和合作精神,否则难以保证问卷的回收率,从而影响调查资料的质量。由于问卷调查的应用非常广泛,后面将会详细介绍其内容。,2023/3/18,23,3德尔菲法,德尔菲法是指按照规定的程序,采用邮寄或电子邮件的方式,反复多次地收集各地专家的看法,使不同意见趋于一致的调查方法。德尔菲法有匿名性、定量化和轮回反馈式等特点。专家们互不通气,匿名发表意见,便于获得真实有效的资料。反复地询问也能使调查结果更加准确可靠。实施这种方法的一般步骤为:拟定意见征询表、选定适量的征询专家、分几轮征询专家的意见、进行资料的处理等,最后作出调查结论。,2023/3/18,24,4电话调查法,电话调查法是调查人员按照事先准备好的问题,利用电话与被调查者进行交流而获得资料的数据搜集方法。电话调查中所提问题的含义要明确,数量不宜过多。随着计算机的飞跃发展,人们在电话调查法的基础上又发展出一个新的调查法电脑辅助调查法。电脑辅助调查法是在电话调查时,调查者将设计好的抽样方案、问题和答案输入电脑,整个调查过程,包括电话拨号、结果记录、数据处理和展示,都由计算机完成的数据搜集方法。在进行电脑辅助调查时,需要依靠电脑辅助调查系统(CATIS)进行,调查员坐在计算机显示器前,依据荧屏上显示的问题逐一向被调查者提问,并将答案输入电脑,也可完全由计算机完成提问和记录的过程。这种方法的优点是时效性强、费用低,能较快地搜集有关数据。,2023/3/18,25,5小组座谈法,小组座谈法是由一个经过训练的主持人,以座谈会的形式,通过同一个小组的被调查者进行交谈而获得资料的方法。由于参与者比较多,要想取得预期效果,不仅要求调查者在事前作好充分的准备,包括设计调查提纲、确定参与会议的人数以及选择会议的时间、地点和环境等,还要求其具有驾驭会场的能力。小组座谈法的优点是效率高、深入细致,但发言容易受到其他人的影响,在涉及个人隐私、保密及其他敏感性话题时,也不宜采用这种方法。,2023/3/18,26,6网络调查法,网络调查(又称网上调查)是指利用国际互联网作为技术载体和信息交换平台进行调查的数据搜集方法。其业务流程大体包括方案设计、问卷上网、问卷检查、数据处理与分析、调查报告等。网络调查具有匿名性、成本低、速度快、调查对象广泛等特点,调查结果相对可靠。现在电子邮件调查、网页调查、免费下载工具调查、民意调查、超前性问题调查等已被广泛使用。当然,网上调查也存在结果的可信度不高、代表性差、难以消除重复填报等问题。,2023/3/18,27,7观察法,观察法是调查人员到现场对调查单位直接检验、计数或测量,登记所得到的结果的方法。例如,农作物收获量调查,调查人员到所抽中的地块参与收割和计量;某商品库存量调查,调查人员到商店及有关单位柜台或仓库清点该商品的库存。观察法有自然、客观、直接的特点。由于采用观察的方法,无须被调查者作任何反映,因而常常可获得比较真实的信息。但在单位数较多时,使用观察法需要的时间较长。,2023/3/18,28,8实验法,实验法是在某个特殊的实验环境下,对被调查者进行实验以取得资料的调查方法。例如,企业要比较两种新产品的优劣,可通过试销实验,来决定发展的重点。实验法一般包括提出研究假设、进行实验设计、选择实验对象、控制实验环境和收集实验数据等步骤。实验法具有方法科学、反映客观、过程容易控制等优点,但也有时间长、费用高、实验对象选择的难度大等不足。,2023/3/18,29,2.2 调 查 设 计,2.2.1 调查方案的结构2.2.2 问卷设计 2.2.2.1 问卷的基本结构 2.2.2.2 提问项目的设计 2.2.2.3 问题顺序的设计 2.2.2.4 回答项目的设计,2023/3/18,30,2.2.1 调查方案的结构,调查方案是调查活动周密计划。一、调查目的 调查目的是调查所要达到的目标,回答为什么调查。二、调查对象、调查单位和报告单位 调查对象是调查研究的总体 调查单位是构成调查对象的每一个具体单位 报告单位是负责向调查研究机构提供所需统计资料的基层单位三、调查项目和调查表 调查项目是反映调查单位特征的变量 调查表是指把所要调查的项目按照一定的结构和顺序排列后形成的表格四、调查时间、调查方式与方法五、调查的组织工作,返回,2023/3/18,31,调查对象就是根据调查目的确定的、在某种性质上相同的许多个体单位所组成的集合。调查单位就是调查对象范围内的各个个体单位。调查单位与报告单位是两个不同的概念。调查单位是调查项目的承担者,而报告单位则是负责向调查研究机构提供所需统计资料的基层单位。调查单位与报告单位有时是同一个单位,有时不是同一个单位。,2023/3/18,32,调查项目就是反映调查单位特征的变量。在确定调查项目时必须注意如下几个问题:(1)调查项目的含义必须明确,不能模棱两可;(2)考虑取得资料的可行性,有些调查项目虽然需要,但在现有条件下难以取得资料的则不应列入;(3)调查项目的答案应满足完备性和互斥性。如果要求选择回答,则必须列出所有可能的答案,以免出现重复或遗漏;(4)确定不同时期同类调查的调查项目时,前后时期的调查项目应互相衔接,以便进行动态比较分析。,2023/3/18,33,调查表是指把所要调查的项目按照一定的结构和顺序排列后形成的表格。它是调查项目的表现形式,也是向调查单位取得原始统计资料的重要工具。利用调查表进行调查,能够条理清晰地填写需要搜集的资料,也便于调查结束后对资料进行整理。根据一份表格上容纳调查单位的多少,调查表可以分为一览表和单一表。一览表是指一份表格上可以登记两个及两个以上调查单位有关调查项目的调查表;单一表是指一份表格上只登记一个调查单位有关调查项目的调查表。,2023/3/18,34,2.2.2 问卷设计,1.用来搜集调查数据的一种工具。2.问卷(Questionnaires):是以书面的形式,按照设计好的顺序,由一系列问题和相应的备选答案组成的一种调查形式。3.由于问卷在形式上易于被受访者接受,问题通俗易懂,实施方便,在实践中不仅被广泛使用到对市场的调查中,而且在访问调查法、德尔菲法、电话调查法、电脑辅助调查法、网络调查法中也采用问卷取得资料。,返回,2023/3/18,35,2.2.2.1 问卷的基本结构,(1)问卷标题;(2)问卷说明;(3)填写要求;(4)甄别部分;(5)主体内容;(6)编码;(7)背景。,2023/3/18,36,问卷说明(前言、引言),女士/小姐/先生 您好!我是市场调查公司访问员,我们正在进行一项有关公众医疗保险意识方面的调查,目的是想了解人们对医疗保险的看法和意见,以便更好地促进医疗保险事业的发展。您的回答无所谓对错,只要真实地反映了您的情况和看法,就达到了这次调查的目的。希望您能积极参与,我们对您的回答完全是保密的。调查要耽搁您一些时间,请您谅解。谢谢您的支持与合作!,2023/3/18,37,填写要求:请您在所选择答案的题号上画圈对只许选择一个答案的问题只能画一个圈;对可选多个答案的问题,请在你认为合适的答案上画圈需填写数字的题目在留出的横线上填写对于表格中选择答案的题目,在所选的栏目内画勾对注明要求您自己填写的内容,请在规定的地方填上您的意见,填写要求,2023/3/18,38,甄 别 部 分,甄别也称为过滤,它是先对被调查者进行过滤,筛选掉不需要的部分,然后针对特定的被调查者进行调查通过甄别,可以筛选掉与调查事项有直接关系的人,以达到避嫌的目的可以确定哪些人是合格的被调查者,哪些人不是甄别的目的是确保被调查者合格,能够作为该场调查项目的代表,从而符合调查研究的需要,2023/3/18,39,甄 别 部 分(举例),S1请问您或您的家庭有没有在下列行业工作的呢?1广告、公关机构 2市场研究、咨询、调查机构 3电视,广播,报纸等媒介机构 终止访问 4轿车制造 5轿车批发、零售 6以上皆无继续访问S2请问您的年龄是:120岁以下终止访问 220岁30岁 330岁40岁 440岁50岁 550岁以上终止访问,2023/3/18,40,主 体 部 分,主体部分是调查问卷的核心内容包括所要调查的全部问题,主要由问题和答案所组成,Q1.您在购买汽车时主要考虑哪些因素?Q2.您认为这款汽车的加速性能怎么样?,2023/3/18,41,编 码,用于识别问卷、调查者、被调查者姓名和地址等便于校对检查、更正错误,问卷编号001,2023/3/18,42,背 景,通常放在问卷的最后,主要是有关被调查者的一些背景资料该部分所包含的各项问题,可使研究者根据背景资料对被调查者进行分类比较分析,1.您具体做什么工作?2.您的受教育程度?,返回,2023/3/18,43,2.2.2.2 提问项目的设计,提问的内容尽可能短 用词要确切、通俗可按6W准则加以推敲。6W即Who(谁),Where(何处),When(何时),Why(为什么),What(什么事),How(如何)一项提问只包含一项内容 避免诱导性提问 避免否定形式的提问 避免敏感性问题,返回,2023/3/18,44,用词要确切、通俗,请问您使用什么牌子的洗发水?,请问您最近三个月使用什么牌子的洗发水?,您最近一段时间使用什么品牌的化妆品?,您最近一个月使用什么品牌的化妆品?,您觉得这种电视机的画面质量怎么样?,您认为这种电视机的画面是否清晰?,2023/3/18,45,一项提问只包含一项内容,您觉得这种新款轿车的加速性能和制动性能怎么样?,您觉得这种新款轿车的加速性能怎么样?您觉得这种新款轿车的制动性能怎么样?,2023/3/18,46,避免诱导性提问,人们认为海尔空调质量不错,你觉得怎么样?,您觉得海尔空调的质量怎么样?,2023/3/18,47,避免否定形式的提问,您觉得这种产品的新包装不美观吗?,您觉得这种产品的新包装美观吗?,2023/3/18,48,2.2.2.3 问题顺序的设计,问题的安排应具有逻辑性问题的顺序应先易后难能引起被调查者兴趣的问题放在前面开放性问题放在后面版面格式的设计问卷的结构安排要合理,问卷的主体部分要突出、醒目不要编排过密,各问题之间要留出一定的空间外表及内容的印刷要美观,返回,2023/3/18,49,2.2.2.4 回答项目的设计,回答的类型与方法,开放性问题(自由回答型),封闭性问题(选择回答型),两项选择法,多项选择法,顺序选择法,评定尺度法,双向列联法,限制选择型,多项选择型,单项选择型,2023/3/18,50,1开放性问题,开放性问题是指问卷没有提供任何参考答案,由被调查者根据题目的基本要求,按照自己的理解自由地选择回答形式的一类问题。开放性问题可以采用填空和自由回答两种方式。填空方式的开放性问题可举例如下:例2.7 请问您今年平均每月的通信费用是多少?例2.8 请问您最喜欢使用的笔记本电脑是什么品牌的?自由回答方式的开放性问题可举例如下:例2.9 请问您认为中国的高考形式应该作哪些方面的改革?例2.10 请问您喜欢产品的理由是什么?优点是便于被调查者详细地表达自己的观点,适合于潜在答案较多的问题。缺点是可能占用被调查者较多的时间,致使部分被调查者放弃回答;答案不统一,给资料整理和分析带来困难。,2023/3/18,51,2封闭性问题,封闭性问题是指调查者已经设计好若干个答案,被调查者只需从中选择一个或一个以上答案的问题。对封闭性问题的设计,答案要遵循穷尽性和互斥性的原则,即既不能遗漏,又不能有相互重叠的内容。如果有很多可供选择的答案,在列出主要的答案后,用“其他”二字代表未列出的答案。(1)两项选择法。这是指提出的问题只有两种备选答案的提问方法。例2.11 你喜欢使用方正笔记本电脑吗?(在同意的方框中划“”。)喜欢 不喜欢,2023/3/18,52,(2)多项选择法。这是指提出的问题有两种以上的备选答案,被调查者可以从备选答案中选择一个或多个回答的提问方法。例2.12 你现在使用手机的品牌是什么?(在同意的方框中划“”。)诺基亚 摩托罗拉 三星 波导 LG 其它 对绝大多数人而言,当前经常使用的手机一般只有一个,因而是单项选择。例2.13 你曾经使用过的手机的品牌有哪些?(在选择的方框中划“”。)诺基亚 摩托罗拉 三星 波导 LG 其它 对于曾经使用过的手机,答案既可以是一个,又可以是多个。,2023/3/18,53,(3)顺序选择法。这是在有多个答案选择时,被调查者根据自己的偏好程度判断各答案的重要性,并按顺序列出答案的方法。这类答案的设计要求设计者充分考虑被调查者理解能力的差异,让他们能够顺利地写出答案的顺序。例2.14 传递内容较多、有电子文档的书面材料时,你所选择的传递方式的顺序是(在您认为最有效的方式后面的方框中写“1”,其次写“2”,以此类推):手机发送 传真打印稿 邮寄打印稿 用E-mail传递 例2.15 请您按照喜欢的程度对以下品牌洗发水的前三个进行编号:飘柔 海飞丝 舒蕾 风影 潘婷 沙宣 润持 顺爽,2023/3/18,54,(4)评定尺度法。运用评定尺度法时,问题的答案由表示不同等级的形容词按照一定的顺序排列而成。例2.16 您对中国电信的服务是否满意?(在选择的方框中划“”。)非常不满意 不满意 一般 满意 非常满意(5)双向列联法。这是运用表格的形式,综合反映两方面问题的方法。表的横向和纵向分别反映两类问题,具有节省问卷篇幅、便于比较和内容综合的特点。例2.17 为了解教师的教学质量,请在你赞成项目的空格内划“”。,2023/3/18,55,2023/3/18,56,2.3 统计数据整理,2.3.1 统计数据整理的基本程序2.3.2 分类数据的整理与展示 2.3.2.1 频数和频数分布 2.3.2.2 分类数据的图示2.3.3 顺序数据的整理与展示 2.3.3.1 累积频数和累积频率 2.3.3.2 顺序数据的图示2.3.4 数值型数据的整理与展示 2.3.4.1 数据分组 2.3.4.2 累积频数分布 2.3.4.3 数值型数据的图示,2023/3/18,57,2.3.1 统计数据整理的基本程序,(一)审核;对原始统计数据进行认真审核,主要审核资料的及时性、准确性和完整性。(1)及时性检查,就是检查需要的统计数据是否在规定的时间内已经上报到调查机构(2)完整性检查,一是看所有的调查表格或问卷是否收齐,二是看所有的调查项目的答案是否完整。(3)准确性检查,就是检查原始资料是否准确可靠,这是原始资料审核的中心。其审核方法有两个:一是逻辑检查,即根据调查项目之间的内在联系,检查各项目的答案是否合理,是否符合逻辑,答案之间有无矛盾之处。二是计算检查,即检查调查表中各项数字的计算方法、计算口径、计算结果有无差错,数字之间该平衡的是否平衡等。(二)分类或分组;(三)编表作图。,返回,2023/3/18,58,2.3.2 分类数据的整理与展示,分类数据整理的主要内容:列出分类数据的类别,计算每类的频数(次数)、频率及各种比率,编制频数或频率分布表,选择各种适当的图形对频数或频率分布进行显示。,返回,2023/3/18,59,2.3.2.1 频数和频数分布,频数是指落在某类中的数据个数,又称为次数。频数分布(次数分布):在分类的基础上,将总体(或样本)的所有单位按类进行整理,形成总体(或样本)单位在各组间的分布。频数分布的构成要素有两个:一是品质变量的各种具体表现或数量变量值所形成的组。二是与各个组相对应的总体(或样本)单位数,即频数;或各组单位数占总体(或样本)单位总数的比重,即频率,它可以用百分数表示,也可以用小数表示。频数分布可以用表格的形式反映,也可以用图形来表现。用表格来反映的称为频数分布表,而用图表现的称为频数分布图(Excel可绘制)。,返回,2023/3/18,60,2.3.2.2 分类数据的图示,分类数据的图示方法主要包括(1)条形图(2)Pareto图(3)对比条形图(4)饼图,2023/3/18,61,(1)条形图(bar Chart),用宽度相同的条形的高度或长短来表示各类别数据的图形若将各类别放在纵轴,用宽度相同、长度不等的横条表示各类的频数多少这样形成的图形称为条形图;若将各类别放在横轴,用宽度相同、高度不等的纵条表示各类的频数多少这样形成的图形称为柱形图。主要用于反映分类数据的频数分布,2023/3/18,62,条形图(柱形图),用Excel制作条形图,返回,2023/3/18,63,(2)帕雷托图(Pareto chart),按各类别数据出现的频数多少排序后绘制的条形图主要用于展示分类数据的分布,用Excel制作Pareto图,返回,2023/3/18,64,(3)对比条形图(side-by-side bar chart),分类变量在不同时间或不同空间上有多个取值对比分类变量的取值在不同时间或不同空间上的差异或变化趋势,2023/3/18,65,对比条形图(例题分析),用Excel制作对比条形图,返回,2023/3/18,66,(4)饼图(pie Chart),也称圆形图,是用圆形及圆内扇形的面积来表示数值大小的图形主要用于表示总体或样本中各组成部分所占的比例,对于研究结构性问题十分有用绘制圆形图时,总体中各部分所占的百分比用圆内的各个扇形面积表示,这些扇形的中心角度,是按各部分数据百分比占3600的相应比例确定的,2023/3/18,67,饼图(例题分析),用Excel制作饼图,返回,2023/3/18,68,2.3.3 顺序数据的整理与展示,顺序数据整理的主要方法-编制累计频数或累计频率分布表。绘制顺序数据的各种图示。注意:分类数据整理所使用的方法在顺序数据中仍然适用-在此不另述。,返回,2023/3/18,69,2.3.3.1 累积频数和累积频率,累积频数:是将各组的频数按一定的方向逐级累加起来得到的频数。累积频率:是将各组的频率(百分比)按一定的方向逐级累加起来得到的频率(百分比)。向上累积:从数据的最低一组逐级向最高一组累加频数,称为向上累积。向下累积:从数据的最高一组逐级向最低一组累加频数,称为向下累积。累积频数和累积频率分布表:是将各有序类别或组及其对应的累积频数和累积频率按一定顺序排列的分布表。,2023/3/18,70,累积频数和累积频率分布表1/2,【例】在一项城市住房问题的研究中,研究人员在甲乙两个城市各抽样调查300户,其中的一个问题是:“您对自己家庭目前的住房状况是否满意?”1非常不满意;2不满意;3一般;4满意;5非常满意。,2023/3/18,71,累积频数和累积频率分布表2/2,返回,2023/3/18,72,2.3.3.2 顺序数据的图示,1.根据以上给出的累积频数分布或累积频率分布绘制累积频数分布图或累积频率分布图。2.环形图:将每一类别的频数或频率在一个环形圆上标出就构成环形图。可将若干有联系的总体画在一个环形图上,以便比较。,用Excel制作环形图,返回,2023/3/18,73,2.3.4 数值型数据的整理与展示,数值型数据整理的主要方法-数据分组和累积频数分布。绘制数值型数据的各种图示。注意:分类数据及顺序数据整理及图示所使用的方法在数值型数据中仍然适用-在此不另述。,返回,2023/3/18,74,2.3.4.1 数据分组,1数据分组的概念 数据分组是根据被研究现象的特征和研究目的,按照一个或几个重要变量,将原始数据划分为性质不同的若干个组成部分的一种统计方法。对原始数据进行分组,主要是为了划分现象的类型,研究事物内部结构的变化规律,以及现象之间的依存关系。,2023/3/18,75,2数据分组的种类,(1)数据分组根据分组变量的多少可以分为简单分组和复合分组。简单分组又称单一分组,是对被研究现象总体只按一个变量进行分组。如人口按年龄分组,企业按利润额分组,考生按成绩分组等。复合分组是对原始数据按两个或两个以上变量进行层叠式分组。其分组方法是在确定分组变量中的主要变量和辅助变量后,先按主要变量进行分组,然后在第一次分组的基础上再按辅助变量进行第二次分组,按所选变量的顺序,在前一次分组的基础上进行分组,直到最后一层为止。,2023/3/18,76,(2)数据分组按变量值的变动范围,还可划分 为单个变量值分组和采用由两个变量值形成的 区间(即组距)分组。当变量值的变动范围很小,既使用每个变量值作为一组,所得到的组数也只有少数几组时,则可采用单个变量值分组。如果变量值的变动范围很大,采用单个变量值分组所得到的组数很多,难以反映总体的分布规律,则应该采用组距分组。采用组距分组时,由于决定事物性质的数量界限会因人的主观认识不同而异,不同的人对同一资料会得到不同的频率分布,但是使频率分布尽可能准确地反映总体的分布规律是基本的要求。,2023/3/18,77,3数据分组应注意的问题,(1)保持组内总体单位的同质性和组间总体单位的差异性。数据分组兼有“分”与“合”两层含义,对总体而言是“分”,即把总体内不同性质的单位分别归入不同的组,体现组间单位的差异性;对总体单位而言则是“合”,即把性质相同的单位合在一起,使组内各单位具有同质性。(2)统计分组要符合穷举性原则。穷举性又称完备性,是指总体的任一单位都有所归属,各单位都找到适合自己的组,这样分组的结果就能包括全部单位,不会出现遗漏。(3)统计分组要符合互斥性原则。,2023/3/18,78,4组距分组的方法及步骤,(1)数据分组的关键在于分组变量的选择和各组界限的划分 分组变量选择的正确与否事关重大,它决定统计分组后能否正确反映总体的内部结构及数量特征和变化规律。因此,必须根据研究的目的,考虑现象所处的具体历史条件,选择能反映事物本质特征的变量作为分组变量。在划分各组界限时,要了解变量值的最大可能变异范围,再根据客观事物本身从量变到质变的内在规律性,来规定各组间的数量界限。,2023/3/18,79,(2)组距分组的有关概念,1)下限(low limit):一个组的最小值2)上限(upper limit):一个组的最大值3)组距(class width):上限与下限之差4)组中值(class midpoint):下限与上限之 间的中点值,2023/3/18,80,(3)组距分组的步骤,1)确定组数:组数的确定应以能够显示数据的分布特征和规律为目的,可参考Sturges经验公式。,2)确定组距:根据全部数据的最大值和最小值及所分的组数来确定,即 组距(最大值-最小值)组数 如果每个组的组距相等,叫等距分组。若各个组的组距不完全相等,叫不等距分组。,4)统计出各组的频数并整理成频数分布表,3)确定组限:组限即为相邻两组的界限,有下限和上限之分。变量的性质不同,组限的确定方法也不同。对于离散变量,相邻组的组限相连但不重叠;对于连续变量,相邻组的组限必须重叠,为防止重复,需遵循“上组限不在内”原则,但最后一组的上限应包括在本组中。,2023/3/18,81,频数分布表的编制(例题分析),【例】某电脑公司某年前四个月各天的销售量数据(单位:台)。试对数据进行分组。,原始数据,2023/3/18,82,频数分布表的编制举例(步骤),确定组数 K1+lg120/lg2=7.91 10,确定各组的组距:组距(237-141)10=9.6 10,4.用Excel制作频数分布表,确定组限,2023/3/18,83,等距分组表(上下组限重叠),返回,2023/3/18,84,2.3.4.2 累积频数分布,在频数分布的基础上,将各组频数按一定顺序依次累加,即形成累积频数分布。向上累积频数分布是将各组的频数,由变量值小的组向变量值大的组依次累加,它用于说明某一组上限以下各组的频数之和;除以数据总个数即可表明某一组上限以下各组的单位总和占总体单位总和的比重,反映了某一组上限以下的总体单位分布状况。向下累积频数分布是将各组的频数,由变量值大的组向变量值小的组依次累加,它用于说明某一组下限以上各组的频数之和;除以数据总个数即可表明某一组下限以上各组的单位总和占总体单位总和的比重,反映了某一组下限以上的总体单位分布状况。,返回,举例说明,2023/3/18,85,2.3.4.3 数值型数据的图示,1.分组数据:直方图2.未分组数据:(1)茎叶图(2)箱线图3.时间序列数据:线图4.多变量数据:(1)散点图(2)气泡图(3)雷达图(4)星座图(5)连接向量图,2023/3/18,86,1.分组数据:直方图,概念:用矩形的宽度和高度(面积)来表示频 数分布的图形,叫直方图。直方图一般可用横轴表示数据分组,纵轴表示频数或频率,这样各组和相应的频数或频率就形成一个矩形,即直方图。对于等距分组可以用矩形的高度直接表示频数分布;对于不等距分组一般用矩形的面积来表示频数分布,这时需要计算频数密度或频率密度。直方图的画法,用Excel或SPSS。,2023/3/18,87,直方图的绘制举例,某电脑公司销售量分布的直方图,我一眼就看出来了,销售量在170180之间的天数最多!,用Excel制作直方图,返回,2023/3/18,88,2.未分组数据:(1)茎叶图,用于显示未分组的原始数据的分布。由“茎”和“叶”两部分构成,其图形是由数字组成的。以该组数据的高位数值作树茎,低位数字作树叶。树叶上只保留一位或两位数字。对于n(20 n 300)个数据,茎叶图最大行数不超过 L=10lgn。茎叶的行数可以拉长。6)茎叶图类似于横置的直方图,但又有区别:直方图可观察一组数据的分布状况,但没有给出具体的数值;茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息。,2023/3/18,89,未分组数据茎叶图(例题分析),2023/3/18,90,未分组数据茎叶图(扩展的茎叶图),返回,2023/3/18,91,2.未分组数据(2)箱线图,用于显示未分组的原始数据的分布箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成其绘制方法是:首先找出一组数据的5个特征值,即最大值、最小值、中位数Me 和两个四分位数(下四分位数QL和上四分位数QU)连接两个四分位数画出箱子,再将两个极值点与箱子相连接 该箱线图也称为Median/Quart/Range箱线图,2023/3/18,92,未分组数据单批数据箱线图(箱线图的构成),例题分析,2023/3/18,93,未分组数据单批数据箱线图(例题分析),2023/3/18,94,分布的形状与箱线图,不同分布的箱线图,2023/3/18,95,未分组数据多批数据箱线图(例题分析),8门课程考试成绩的箱线图Median/Quart/Range,2023/3/18,96,未分组数据:箱线图(箱线图的其他类型),Mean/SE/SD 箱线图由均值(mean)、均值的抽样标准误差SE(standard error)和标准差(standard deviation)绘制而成箱子中间的点表示集中趋势的均值;箱子表示距离均值1倍的标准误差,两条虚线表示距离均值1倍的标准差,分别用来描述数据的离散程度,某电脑公司销售量数据的箱线图,1倍的SD,1倍的SE,2023/3/18,97,未分组数据箱线图(箱线图的其他类型),Mean/SD/1.96*SD箱线图由均值(mean)和标准差SD(standard devia-tion)绘制而成箱子中间的点表示变量的均值;箱子表示距离均值1倍的标准差。如果一组数据是正态分布,则图中的虚线表示均值1.96倍的标准差的“95%的置信区间”,某电脑公司销售量数据的箱线图,1.96倍的SD,1倍的SD,2023/3/18,98,未分组数据箱线图(箱线图的其他类型),Mean/SE/1.96*SE箱线图由均值(mean)、均值的抽样标准误差SE(standard error)绘制而成箱子中间的点表示变量的均值;箱子表示距离均值1倍的标准误差。如果一组数据是正态分布,则图中的虚线表示均值1.96倍的标准误差的“95%的置信区间”,某电脑公司销售量数据的箱线图,1.96倍的SE,1倍的SE,返回,2023/3/18,99,3.时间序列数据:线图,绘制线图时应注意以下几点时间一般绘在横轴,指标数据绘在纵轴图形的长宽比例要适当,其长宽比例大 致为10:7一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断,2023/3/18,100,时间序列数据线图(例题分析),返回,用Excel制作线图,2023/3/18,101,4.多变量数据:二维散点图、气泡图、雷达图,(1)二维散点图:展示两个变量之间的关系,2023/3/18,102,散点图:用横轴代表变量x,纵轴代表变量y,每组数据(xi,yi)在坐标系中用一个点表示,n组数据在坐标系中形成的n个点称为散点,由坐标及其散点形成的二维数据图,返回,用Excel制作散点图,2023/3/18,103,(2)气泡图,气泡图(bubble chart)是反映三个变量之间的关系的图形。与二维散点图不同,它分别用两个自变量作为横轴和纵轴,而因变量的大小用图中的气泡大小来表示。,2023/3/18,104,【例】某产品的价格、居民收入和产品需求量的资料如表2-13所示,试绘制其相互关系的气泡图。,2023/3/18,105,解 根据表2.13的数据,利用“图表向导”所作的气泡图如图2.17所示。由图可知,价格越低、收入越高,产品的需求量就越大。,返回,用Excel制作气泡图,2023/3/18,106,显示多个变量的图示方法在显示或对比各变量的数值总和时十分有