统计学 统计数据的描述.ppt
统计学,第2章 统计数据的描述,第1章 回顾,知识点统计学内涵统计学概念及含义要求掌握统计学的涵义了解统计学产生与发展掌握统计学几个概念,是一门收集、整理、显示和分析统计数据的科学,其目的是探索数据内在的规律性。,总体变量样本参数统计量,第2章 统计数据的描述,2.1数据的计量尺度2.2统计数据的来源2.3统计数据的质量2.4统计数据的整理2.5分布集中趋势的测度2.6分布离散程度的测度2.7分布偏态与峰度的测度2.8茎叶图与箱线图2.9统计表与统计图,2.1 数据的计量尺度,一、列名尺度二、顺序尺度三、间隔尺度四、比率尺度,2.1 数据的计量尺度,分类方法(4种计量尺度):列名尺度、顺序尺度、间隔尺度和比例(率)尺度。,列名尺度,顺序尺度,间隔尺度,比例尺度,精确程度,良好,1980,134公斤,休斯顿火箭,俱乐部:,健康状况:,出生年份:,体重:,1、列名尺度(Nominal Scale),例如:性别、民族、职业数据表现为“类别”各类之间无等级次序 各类别可以用数字代码表示根据列名尺度得到的数据为分类数据。,2、顺序尺度(Ordinal Scale),例如健康状况、质量等级数据表现为“类别”可对等级、大小等排序未测量出类别之间的准确差值根据顺序尺度得到的数据为顺序数据。,3、间隔尺度 Interval Scale,例如年份、摄氏温度数据表现为“数值”可以进行加减运算“0”是只是尺度上的一个点,不代表“不存在”根据间隔尺度得到的数据为间隔数据。,4、比例尺度 Ratio Scale,例如体重、身高数据表现为“数值”可以进行加减、乘除运算“0”表示“没有”或“不存在”根据比例尺度得到的数据为比例数据。,间隔尺度与比例尺度的区别,间隔尺度中“0”表示一个具体数值,不表示“没有”或“不存在”,比例尺度中“0”表示“没有”或“不存在”。间隔尺度-273.15-123.15 0 26.85比例尺度 0KM 150KM 300KM,课堂练习,下列数据中哪些采用了间隔尺度?海拔8848米 960万平方公里 100元 北纬38度,四种计量尺度的比较,1、四种尺度所包含的信息量是依次递增的。2、根据较高层次的计量尺度可以获得较低层次的计量尺度。,四种计量尺度的比较:数学性质,“”表示该尺度所具有的特性,数据和变量类型,数据的类型,变量类型,变量的类型,变量是用来描述现象某种令人感兴趣的特征的概念。品质变量是描述现象有关属性特征的变量,本质上不能用数字来表示。例如性别。数量变量是描述现象有关数量特征的变量,都是用数字来表示的。例如人数,年龄等。离散型变量指的是有限个数值或诸如0,1,2之类无限可列值的变量。如果某一变量可以取某一区间或多个区间中任意数值,则该变量称为连续型变量。,2.1 例子,请判断下列数据分别属于什么类型?灯炮使用寿命将产业划分为三类广州市8月份各天的气温记录将服务质量分为五个等级:好、较好、一般、差、较差。,分类数据,顺序数据,比例数据,间隔数据,2.2 统计数据的来源,一、间接获取的数据 二、直接获取的数据,间接取得的数据,间接取得的数据,统计部门和政府部门公布的有关资料,如各类统计年鉴各类经济信息中心、信息咨询机构、专业调查机构等提供的数据各类专业期刊、报纸、书籍所提供的资料各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料从互联网或图书馆查阅到的相关资料,提供统计数据的部分政府网站,提供统计数据的部分政府网站,直接取得的数据,普查(census),为特定目的专门组织的非经常性全面调查2.通常是一次性或周期性的3.一般需要规定统一的标准调查时间4.数据的规范化程度较高5.应用范围比较狭窄,抽样调查(sampling survey),1.从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据收集方法,2.具有经济性、时 效性强、适应面广、准确性高等特点,2.3数据的质量,非抽样误差:由于调查过程中各有关环节工作失误造成的。调查方案有关规定或解释不明确导致填报错误、抄录错误、汇总错误、不完整抽样框导致的误差,调查中不回答产生的误差。人为干扰:隐瞒、虚报。从理论上看,这类误差可以避免。加强培训掌握获取完整抽样框的方法,科学抽样的方法与技术。抽样误差:利用样本推断总体时产生的误差。不可避免可以计量、可以控制,抽样框全部总体单元或范围。,2.3 统计数据的质量,数据的误差,抽样误差(sampling error),由于抽样的随机性所带来的误差 所有样本可能的结果与总体真值之间的平均性差异 影响抽样误差大小的因素样本容量的大小总体的变异性,非抽样误差(non-sampling error),相对于抽样误差而言除抽样误差之外的,由于其他原因造成的样本观察结果与总体真值之间的差异存在于所有的调查之中有抽样框误差、回答误差、无回答误差、调查员误差、测量误差,数据来源与数据质量,1936年,罗斯福和兰登竞选总统。文学摘要调查了240万人,预测兰登以57%对43%获胜;Gallup(盖洛普)调查了50000人,结论是罗斯福以56%获胜。实际结果是罗斯福以62%获胜。1952年至1988年,Gallup公司在每次调查中只抽取3439至8144人,实际预测误差在0.2至4.4 个百分点之间。,数据来源与数据质量,第二次世界大战期间,美国国家民意调查中心(The National Opinion Research Center)派两组调查人员对一个南方城市的500名黑人进行提问,一组调查人员由白人组成,另一组由黑人组成。3个问题:问题一:“如果日本占领美国,你认为黑人的境况会得到改善还是变得更糟?”黑人调查组中,9的被调查者回答“变好”,25回答“变坏”;白人调查组中,2回答“变好”,45回答变坏。问题二:用“纳粹分子”代替“日本”,两组的结果大体相同。问题三:“你认为目前致力于打败轴心国比在本国内进一步推进民主更重要吗?”黑人调查组中,选择“打败轴心国”的比例是39,而白人调查组则是62。是什么原因造成了调查结果的差异呢?,误差的控制,抽样误差可计算和控制非抽样误差的控制调查员的挑选调查员的培训督导员的调查专业水平调查过程控制调查结果进行检验、评估现场调查人员进行奖惩的制度,2.4 统计数据的整理,一、统计数据的分组 二、次数分配三、次数分配直方图 四、洛伦茨曲线,统计数据的分组,2.4数据的整理统计数据的分组,按照统计研究目的,将数据分别列入不同的组内。按品质标志分组:列名尺度和顺序尺度。按数量标志分组:间隔尺度和比例尺度。,2.4 数据的整理次数分配,次数分配是观察值按其分组标志分配在各组内的次数。分组目的:找出数据分布的规律。步骤:分多少组?确定组数每一组的范围?确定组距=(Max.-Min.)/组数等组距分组、不等组距分组开口组经验:组数不少于5组,也不应多于15组原则:“不重不漏”、上组限(一个组的最大值)不在内累积次数分配向下累积:由表的上方向表的下方累加向上累积:由表的下方向表的上方累加,组距分组(步骤),1.确定组数:组数的确定应以能够显示数据的分布特征和规律为目的2.确定组距:组距(class width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即组距(最大值-最小值)组数3.统计出各组的频数并整理成频数分布表 频数(frequency):每个组中的数据个数,也称次数。频率(relative frequency):频数/总数据个数。,补充,Sturges 提出的经验公式:分组组数K应满足,其中n 为数据的个数(总体单位数或样本数),一般对结果取整数。,组距分组(几个概念),1.下限(low limit):一个组的最小值2.上限(upper limit):一个组的最大值3.组距(class width):上限与下限之差4.组中值(class midpoint):下限与上限之间的中点值,次数分配表的编制(例题分析),【例】某车间30名工人每周加工某种零件件数如右表试对数据进行分组。,Max=128Min=84,频数分布表,Max=128Min=84,(Max-Min)/5=(128-84)/5=8.810,上组限(一个组的最大值)不在内。,90、100、110、120这几个数究竟属于哪一组?,课堂练习:某月啤酒公司60个销售点的销量,48 71 52 53 36 41 69 58 47 60 53 29 41 72 81 37 43 58 68 42 73 62 59 4451 53 47 66 59 52 34 49 73 29 47 1639 58 43 29 46 52 38 46 80 58 51 67 54 57 58 63 49 40 54 61 58 66 47 50 单位:桶,Max=81Min=16,(Max-Min)/8=(81-16)/8=8.1259,啤酒销售量的频数分布,销售桶数 销售点数 频率(%)1019 1 1.72029 3 5.03039 5 8.34049 16 26.75059 20 33.36069 9 15.07079 4 6.78089 2 3.3 合计 60 100.0,频数/次数,次数分配直方图,直方图(histogram),在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布,分组数据的图示(直方图的绘制),某车间工人周加工零件直方图,我一眼就看出来了,周加工零件在100110之间的人数最多!,折线图(frequency polygon),折线图也称次数多边形图折线图是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴S直方图=S折线图,二者所表示的频数分布是一致的,分组数据的图示(折线图的绘制),S直方图=S折线图,某车间工人周加工零件折线图,次数分布曲线,次数分布曲线:当观察次数越多,组距越小且组数越多,所给出的折线图就会越光滑,然后直方图抹掉,就只剩一条光滑的曲线,用于反映数据或统计量的分布规律。正态分布曲线偏态曲线J形曲线U形曲线,次数分配的类型,几种常见的频数分布,洛伦茨曲线与基尼系数,洛伦茨曲线,20世纪初美国经济学家、统计学家洛伦茨(M.E.Lorentz)根据意大利经济学家帕累托(V.Pareto)提出的收入分配公式绘制而成。描述了收入和财富分配性质的,这条曲线用于分析某国家或地区收入分配的公平程度。,基尼系数,20世纪初意大利经济学家基尼(G.Gini)根据洛伦茨曲线计算出一个数值,用这个统计指标可以衡量收入分配的平等程度。A表示实际收入曲线与绝对平均线之间的面积B表示实际收入曲线与绝对不平均线之间的面积如果A=0,则基尼系数=0,表示收入绝对平均如果B=0,则基尼系数=1,表示收入绝对不平均基尼系数在0 和1之间取值,0.4,分配不公,洛伦茨曲线与基尼系数计算步骤:,假设一个国家有100个人,计算这个国家的基尼系数分为下面四步:1.将这100人按收入从低往高排列,第一名是收入最低的,第一百名是收入最高的;2.画一个边长为一的正方形,并将左下角与右上角的对角线相连;3.依次计算前十名,前二十名,前三十名一直到前九十名所拥有的收入占整个100人的收入的比值;4.以正方形的左下角为原点,用水平边标记累计人口,垂直边标记累积的收入比,将在上面计算出的累计收入比值,在正方形中标出。然后,将这些点同原点以及正方形的右上角连接,就可以得到一条曲线。这条曲线被称为洛伦茨曲线。基尼系数就是对角线与洛伦茨曲线之间的面积,与对角线以下的三角形的面积之比。,各国基尼系数的比较,美国 40.8%英国 36.1%法国 32.7%俄罗斯 31.0%韩 国 31.6%德 国 30%意大利 27.3%匈牙利 26.9%瑞典 25%日 本 24.9%,0.4,分配不公,1978-2005中国基尼系数变化情况,亚行揭露:中国基尼系数扩大到0.473,己达到拉美平均水平,勇夺亚洲冠军,2007年8月8日,亚洲开发银行发表了减少不平等,中国需要具有包容性的增长的新闻稿并公布了亚洲的分配不均的研究报告。在22个纳入亚行研究范围的国家中,中国勇夺贫富差距之冠,在衡量分配不平等的两个常见指标中,收入最高的20%人口的平均收入与收入最低的20%人口的平均收入的比率,中国是11倍,高出其它国家一大截;基尼系数,2004年中国的数值是0.4725,仅比尼泊尔的0.4730低微小,远远高于印度、韩国、台湾。亚行指出,从1993到2004年,中国的基尼系数从0.407扩大到0.473,己达到拉丁美洲的平均水平,不得不让人怀念“公平的增长”的典范:韩国和台湾(地区)。,贫富差距排名国家 最高20%人口收入/最低20%人口收入 基尼系数 中国 11.37倍 0.4725尼泊尔 9.47倍 0.4730菲律宾 9.11倍 0.4397土库曼斯坦 8.33倍 0.4302泰国 7.72倍 0.4196马来西亚 7.7倍 0.4033柬埔寨 7.04倍 0.3805斯里兰卡 6.83倍 0.4018越南 6.24倍 0.3708台湾 6.05倍 0.3385阿塞拜疆 5.95倍 0.3650哈萨克斯坦 5.61倍 0.3383印度 5.52倍 0.3622印度尼西亚 5.52倍 0.3430韩国 5.47倍 0.3155蒙古 5.44倍 0.3284老挝 5.4倍 0.3463塔吉克斯坦 5.14倍 0.3263亚美尼亚 5.08倍 0.338文莱 5.03倍 0.3408巴基斯坦 4.46倍 0.3118吉尔吉斯 4.43倍 0.303,2.5 分布集中趋势的测度,一、众数(mode)二、中位数(median)三、四分位数四、均值(mean)五、几何平均数(geometric mean)六、切尾均值(trimmed mean)七、众数、中位数和均值的比较,集中趋势,常用的集中趋势的测度指标:算术平均数调和平均数几何平均数中位数众数,集中趋势:一组数据向其中心值靠拢的倾向和程度。集中趋势测度:寻找数据水平的代表值或中心值。,众数,众数 Mo(mode),一组数据中出现次数最多的变量值适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数主要用于分类数据,也可用于顺序数据和数值型数据,众数(不惟一性),无众数原始数据:10 5 9 12 6 8,一个众数原始数据:6 5 9 8 5 5,多于一个众数原始数据:25 28 28 36 42 42,众数(mode)Mo,数据按大小顺序排队形成次数分配后,在统计分布中有明显集中趋势的数值。正态分布和一般偏态分布中,分布的最高峰点所对应的数值就是众数。是一种位置代表值。,众数,对于分组数据来说,计算众数的近似公式为:,其中:L:表示众数所在组的下组限1:表示众数组次数与下一组次数之差2:表示众数组次数与上一组次数之差i:表示众数所在组的组距,众数的计算:分组资料*,例子,1、众数所在的组:80-90。2、或者:众数等于众数所在组的组中值85。,【例】,【例】一家市场调查公司为研究不同品牌饮料的市场占有率,对随机抽取的一家超市进行了调查。调查员在某天对50名顾客购买饮料的品牌进行了记录,如果一个顾客购买某一品牌的饮料,就将这一饮料的品牌名字记录一次。右边就是记录的原始数据,例题分析结果,Mo可口可乐,用Excel求出 Mo插入函数 mode,中位数,中位数 Me(median),排序后处于中间位置上的值,不受极端值的影响主要用于顺序数据,也可用数值型数据,但不能用于分类数据各变量值与中位数的离差绝对值之和最小,即,中位数(位置的确定),原始数据:,分组数据:,数值型数据的中位数,【例】9个家庭的人均月收入数据原始数据:1500 750 780 1080 850 960 2000 1250 1630排 序:750 780 850 960 1080 1250 1500 1630 2000位 置:1 2 3 4 5 6 7 8 9,中位数 1080,数值型数据的中位数,【例】:10个家庭的人均月收入数据排 序:660 750 780 850 960 1080 1250 1500 1630 2000位 置:1 2 3 4 5 6 7 8 9 10,中位数的计算:分组资料*,对分组资料的一种计算方法:,中位数的计算:例子,根据考试成绩的数据计算考试成绩的中位数。,第21个数所在的组,分组数据:,四分位数,四分位数(quartile),排序后处于25%和75%位置上的值,不受极端值的影响主要用于顺序数据,也可用于数值型数据,但不能用于分类数据,四分位数(位置的确定),原始数据:,分组数据:,数值型数据的四分位数,【例】:9个家庭的人均月收入数据原始数据:1500 750 780 1080 850 960 2000 1250 1630排 序:750 780 850 960 1080 1250 1500 1630 2000位 置:1 2 3 4 5 6 7 8 9,数值型数据的四分位数,【例】:10个家庭的人均月收入数据排 序:660 750 780 850 960 1080 1250 1500 1630 2000位 置:1 2 3 4 5 6 7 8 9 10,分位数,与中位数性质相似。四分位数、十分位数、百分位数十分位数(Decile):D1 D2 D9百分位数(percentile):P1 P2 P99,均值,均值(mean),集中趋势的最常用测度值一组数据的均衡点所在体现了数据的必然性特征易受极端值的影响用于数值型数据,不能用于分类数据和顺序数据,算术平均数,设一组数据为:x1,x2,xn,总体均值,样本均值,加权均值(weighted mean),设一组数据为:x1,x2,xn相应的频数为:f1,f2,fk,总体均值,样本均值,加权均值(例题分析),均值(数学性质),1.各变量值与均值的离差之和等于零,2.各变量值与均值的离差平方和最小,几何均值,几何均值(geometric mean),n 个变量值乘积的 n 次方根适用于对比率数据的平均主要用于计算平均增长率计算公式为,5.可看作是均值的一种变形,几何均值(例题分析),【例】一位投资者购持有一种股票,在2000年、2001年、2002年和2003年收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率是多少?,算术平均:,几何平均:,切尾均值,切尾均值(trimmed Mean),去掉大小两端的若干数值后计算中间数据的均值在电视大奖赛、体育比赛及需要人们进行综合评价的比赛项目中已得到广泛应用计算公式为,n 表示观察值的个数;表示切尾系数,,a=0,切尾均值=算术平均数a1/2,切尾均值=中位数,切尾均值(例题分析),【例】某次比赛共有11名评委,对某位歌手的给分分别是:,经整理得到顺序统计量值为,去掉一个最高分和一个最低分,a 取1/11,众数、中位数和均值的比较,一个故事,周先生开办了一个小工厂。管理人员:周先生、他的弟弟和六个亲戚。工作人员:5个领工和10个工人。工厂经营得很顺利,现在需要招聘一个新工人。现在周先生正在面试王先生。周:我们这里报酬不错。平均薪金是每周300元。你在学徒期间每周得75元,不过很快就可以加工资。王先生工作了几天之后,要求见厂长。王:周厂长你欺骗我!我已经找其他工人核对过了没有一个人的工资超过每周100元。平均工资怎么可能是一周300元呢?周:啊,王先生,不要激动。平均工资真的是300元。我要向你证明这一点。,周先生每周付出的酬金如下:我得2400元我弟弟得1000元我的六个亲戚每人得250元,250*6=1500五个领工每人得200元,10个工人每人100元,共2000总共是每周6900元,付给23个人,周先生拿出了工资表,平均工资:6900/23=300元,对话继续:,王:?你是对的,平均工资是每周300元。可好像你还是蒙骗了我。周:我不同意!你实在是不明白。我把工资表都告诉你了,看,工资的中位数是200元,可这不是平均工资,而是中等工资。王:每周100元又是怎么回事呢?周:那是众数,是大多数人挣的工资。老弟,你的问题是出在你不懂平均数、中位数和众数之间的区别。王:好,现在我可懂了。我辞职,我要先去学习统计了,?,众数、中位数和均值的关系,众数、中位数、均值的特点和应用,众数不受极端值影响具有不惟一性数据分布偏斜程度较大时应用中位数不受极端值影响数据分布偏斜程度较大时应用均值易受极端值影响数学性质优良数据对称分布或接近对称分布时应用,2.6 分布离散程度的测度,一、极差二、内距三、方差和标准差四、离散系数,极差 R(range),一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布,R=max(xi)-min(xi),计算公式为,内距(Inter-Quartile Range,IQR),也称四分位差上四分位数与下四分位数之差 内 距=Q3 Q1反映了中间50%数据的离散程度不受极端值的影响可用于衡量中位数的代表性,方差和标准差,方差和标准差(Variance and Standard deviation),1.离散程度的测度值之一2.最常用的测度值3.反映了数据的分布反映了各变量值与均值的平均差异根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差,总体方差和标准差(Population variance and Standard deviation),未分组数据:,组距分组数据:,未分组数据:,组距分组数据:,方差的计算公式,标准差的计算公式,样本方差和标准差(simple variance and standard deviation),未分组数据:,组距分组数据:,未分组数据:,组距分组数据:,方差的计算公式,标准差的计算公式,样本方差 自由度(degree of freedom),一组数据中可以自由取值的数据的个数当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值例如,样本有3个数值,即x1=2,x2=4,x3=9,则 x=5。当 x=5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差s2去估计总体方差2时,它是2的无偏估计量,例:方差和标准差,某工会随机调查了5名工人上月的加班时间如下表,计算数据的方差和标准差。,离散系数,离散系数(coefficient of variation),1.标准差与其相应的均值之比对数据相对离散程度的测度消除了数据水平高低和计量单位的影响4.用于对不同组别数据离散程度的比较5.计算公式为,离散系数(例题分析),【例】某管理局抽查了所属的8家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度。,离散系数(例题分析),结论:计算结果表明,v1v2,说明产品销售额的离散程度小于销售利润的离散程度,例:某地两个不同类型的企业全年平均月产量资料如下表,计算离散系数。,比较结果:钢厂的标准差比纺纱厂大,但我们却不能直接断定炼钢厂的平均月产量的差异程度比纺纱厂的大。因为,首先这两个厂的平均月产量相差悬殊,其次两个厂属于性质不同(计量单位不同)的两个企业。因此只能根据离散系数的大小来判断。表中最后一栏的两个企业的离散系数表明,钢厂的平均月产量的差异程度比纺纱厂的小,生产比较稳定。其结果与用标准差判断的结果正好相反。,例:离散系数,对30名经理人员的调查表明年平均收入=$500,000,标准差=$50,000。对30名工人的调查表明平均收入=$32,000,标准差=$5,000。离散系数:经理人员:工人:虽然经理人员收入的绝对离散程度远远大于工人,但经理人员收入的相对离散程度小于工人。,数据的特征和测度,分布的形状,集中趋势,离散程度,众 数,中位数,均 值,离散系数,方差和标准差,峰 度,四分位距,极差,偏 态,Location,Dispersion,Shape,数据的特征和测度,2.7 茎叶图与箱线图,一、茎叶图二、箱线图,茎叶图(stem-and-leaf display),用于显示未分组的原始数据的分布由“茎”和“叶”两部分构成,其图形是由数字组成的以该组数据的高位数值作树茎,低位数字作树叶树叶上只保留一位数字茎叶图类似于横置的直方图,但又有区别直方图可观察一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息,茎叶图(例题分析),茎叶图(扩展的茎叶图),例:地区1 高三男生身高数据的茎叶图,HEIGHT Stem-and-Leaf Plot Frequency Stem&Leaf 9.00 15.001223344 17.00 15.55666667778899999 20.00 16.01112222223333333444 35.00 16.55555666666667777788888888888999999 25.00 17.0000000011112222233333344 24.00 17.555666677777777777888899 13.00 18.0111111122333 11.00 18.55667788899 4.00 19.2333 2.00 19.56 3.00 Extremes(=198)Stem width:10.00 Each leaf:1 case(s),箱线图(box plot),用于显示未分组的原始数据的分布箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成箱线图的绘制方法首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU)连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接,箱线图(箱线图的构成),箱线图(例题分析),分布的形状与箱线图,不同分布的箱线图,未分组数据多批数据箱线图(例题分析),【例】从某大学经济管理专业二年级学生中随机抽取11人,对8门主要课程的考试成绩进行调查,所得结果如表。试绘制各科考试成绩的批比较箱线图,并分析各科考试成绩的分布特征,未分组数据多批数据箱线图(例题分析),8门课程考试成绩的箱线图,11名学生8门课程考试成绩的箱线图,min-max,25%-75%,median value,45,55,65,75,85,95,105,学生1,学生2,学生3,学生4,学生5,学生6,学生7,学生8,学生9,学生10,学生11,未分组数据多批数据箱线图(例题分析),2.9 统计表与统计图,一、统计表二、统计图,统计表,统计表是显示统计数据的基本工具。表头行标题列标题数字资料下方:表外附加三线表,统计表的构成,行标题,表头,列标题,数字资料,附加,统计图,统计图是统计数据的直观表现形式。,如何用图形来表示数据?,常用统计图,条形图(Bar Chart),用宽度相同的条形高度或长短来表示数据变动的图形,条形的排列可以横排,也可以纵排。条形图有单式、复式等形式。,2003我国就业人员情况,圆形图(Pie Chart),也叫饼图,它是用圆形及圆内扇形的面积来表示数值大小的图形。主要用于总体内部的结构,各组成部分所占比例等。,2003年我国国内生产总值中各产业比重,线图(Line Chart),利用线形的升降起伏来表现描述的变量在一段时期内的变动情况,主要用于显示时间数列的数据,以反映事物发展变化的规律和趋势。,1996年-2003年城乡居民人民币储蓄存款年底余额,雷达图,适合多维数据即多个变量的图示,在显示或对比各变量的数值总和时十分有用。可用于研究多个样本之间的相似程度。,2003年我国城镇和农村居民家庭平均每人全年消费性支出构成,绘制统计图时的注意事项,1、通过选择恰当的图形类型、刻度、长宽比例等,使图形能够准确反映数据中包含的信息。时间一般绘在横轴,指标数据绘在纵轴。长宽比例要适当,其长宽比例大致为10:7。一般情况下,纵轴数据下端应从“0”开始。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断。,绘制统计图时的注意事项,2、图形要尽量简明。图形应该突出所要传达的信息,不必要的标签、背景、网格线、等会分散读者的注意力。3、图形应该有清楚的标题和必要的说明,明确图形的含义、计量单位、坐标轴代表的变量、资料来源等等。4、反复加工和修改是获得优秀统计图形的重要步骤。统计软件给出的统计图形没有多少可以不加修改而直接应用。,下图增长速度惊人。,上图增长速度缓慢。,不恰当的统计图形举例:纵横比例,不必要的三维效果:三维图形可能比二维图形更能吸引读者的注意,但只能用来反映变化的趋势,不能用来进行精确的比较。,不恰当的统计图形举例:三维效果,不恰当的统计图形举例:图形类型,1960:$1.00,1970:$1.60,1980:$3.10,1990:$3.80,Minimum Wage,不好的图形,不恰当的统计图形举例:压缩纵轴,Quarterly Sales,不好的图形,0,100,200,Q1,Q2,Q3,Q4,$,不恰当的统计图形举例:纵轴无零点,好的图形,Monthly Sales,不好的图形,36,39,42,45,J,F,M,A,M,J,$,本章小结,知识点描述性统计的方法要求分布集中趋势的测度分布离散程度的测度学习运用工具制作统计图,作业,课后思考与练习:练习题114统计学实验一:,