第3章数据的描述.ppt
中央财经大学统计学院,第3章 数据的描述,统计图与统计表数据集中趋势的数值描述数据离散程度的数值描述数据分布的形态,中央财经大学统计学院 2,本章要回答的问题,哪些图表常用来描述数据的特征?如何绘制?通常使用哪些数值指标描述数据的特征?如何计算?,中央财经大学统计学院 3,3.1 统计图与统计表,绘制统计图一般都需要先对数据进行统计分组,在得到的频数分布表的基础上制图。,中央财经大学统计学院 4,3.1.1 统计分组与频数分布,统计分组:就是按照研究目的将数据分成若干组的统计方法。关键:选择分组变量和划分各组界限例如按照考试成绩把学生分为优、良、中、及格、不及格。统计分组的结果是形成频数分布(分布数列,Frequency Distribution)。,频数分布举例,两个构成要素:各组的分组界限每组中的次数或频率通过频数分布表可以发现数据分布的特征。频数(frequency):每个组中的数据个数,也称次数。频率(relative frequency):频数/总数据个数。,中央财经大学统计学院 6,分组方法,中央财经大学统计学院 7,单变量值分组,将一个变量值作为一组,适合于离散变量,适合于变量值较少的情况。例如某学院2008年毕业研究生毕业时发表论文篇数的频数分布表(右表)。,中央财经大学统计学院 8,组距分组,将变量值的一个区间作为一组,适合于连续变量,适合于变量值较多的情况。分组必须遵循“不重不漏”的原则。分为等距与不等距分组。各组组距都相等时为等距分组。为了避免有些组中的频数很少甚至是空白的情况,有时也可以采用不等距(异距)分组。应用中可能需要把第一组和/或最后一组设为开口组。,中央财经大学统计学院 9,组距分组的步骤,1、确定组数:通常为5到15(20)组。Sturges 提出的经验公式:分组组数K应满足,2、确定组距和各组界限,建议为5,10的倍数。组距(最大值-最小值)组数,3、根据分组整理成频数分布表,中央财经大学统计学院 10,组距分组中的基本概念,1、下 限:一个组的最小可能值2、上 限:一个组的最大可能值3、组 距:上限与下限之差4、组中值:下限与上限之间的中点值,(下限+上限)/2。,开口组的组中值可以按以下方法计算:缺下限:上限-邻组组距/2缺上限:下限+邻组组距/2,但许多作者认为无法计算开口组的上限或下限。,中央财经大学统计学院 11,等距分组表:上下组限间断,等距分组表(上下组限重叠,上组限不在内),中央财经大学统计学院 13,等距分组表:(使用开口组),中央财经大学统计学院 14,3.1.2 列联表(Contingency table),如果对数据同时根据两个变量分组,汇总得到的结果称为列联表。列联表反映的是两个变量的联合分布,可以用来分析两关变量之间的关系。也称为交叉分组表(Cross tabulation)。列联表一般根据两个定性变量进行编制,如果是定量变量则需要先对单个变量进行分组。列联表中的数字为交叉单元格中的频数或频率。以列联表为基础可以对两个变量之间的关系进行多种统计检验。,中央财经大学统计学院 15,列联表举例,市场营销专业的男生有10人。,中央财经大学统计学院 16,3.1.3 常用统计图,中央财经大学统计学院 17,条形图(Bar Chart),用宽度相同的条形高度或长短来表示数据变动的图形,条形的排列可以横排,也可以纵排。条形图有单式、复式等形式。,2003年我国就业人员情况(万人),中央财经大学统计学院 18,圆形图(Pie Chart),也叫饼图,它是用圆形及圆内扇形的面积来表示数值大小的图形。主要用于总体内部的结构,各组成部分所占比例等。,2003年我国国内生产总值中各产业比重,中央财经大学统计学院 19,直方图(Histogram),用来反映数量变量的分布状况。在统计分组的基础上,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图。注意对不等距分组:纵轴必须表示为频数密度频数密度=频数/组距(面积之和=总频数)手工绘制直方图时需要先对数据进行分组;用统计软件作直方图时统计软件可以自动进行分组。,中央财经大学统计学院 20,直方图(等距分组),某会计师事务所对20家公司进行年终审计所需时间(天)的频数分布表,中央财经大学统计学院 21,直方图(不等距分组),某会计师事务所对20家公司进行年终审计所需时间(天)的频数分布表,中央财经大学统计学院 22,直方图与条形图的异同,都是用来反映数据的分布状况,适用于不同类型的数据。条形图是用条形的高度表示各类别频数的多少,其宽度(表示类别)则是固定的。直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义。直方图的各矩形通常是连续排列,条形图则是分开排列。,中央财经大学统计学院 23,折线图(Frequency polygon),折线图也称频数多边形图是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉。折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴。组数越多,组据就越小,折线图就越光滑,逐渐形成一条平滑的曲线,这就是频数分布曲线。,中央财经大学统计学院 24,审计时间的折线图,主要用于显示未分组的原始数据的分布。由“茎”和“叶”两部分构成,其图形是由数字组成的。通常以数据的高位数值作树茎,低位数字作树叶,树叶上只保留一位数字。树叶的竖列要对齐,以计算各组的次数。原始数据:24,26,24,21,27,27,30,41,32,38从小到大排序后的数据:21,24,24,26,27,27,30,32,38,41茎叶图:,3 0 2 8,4 1,2 1 4 4 6 7 7,茎叶图(Stem-and-Leaf Display),30,中央财经大学统计学院 26,40名教师的年龄的数据:40,41,48,51,37,35,36,50,33,42,28,33,36,29,28,29,34,35,27,36,28,29,34,26,35,40,27,43,45,39,42,41,48,55,43,42,42,51,52,64,SPSS Statistics生成的一个茎叶图,中央财经大学统计学院 27,线图(Line Chart),利用线形的升降起伏来表现描述的变量在一段时期内的变动情况,主要用于显示时间数列的数据。,1996年-2003年城乡居民人民币储蓄存款年底余额,中央财经大学统计学院 28,3.1.4 绘制统计图时的注意事项,1、通过选择恰当的图形类型、刻度、长宽比例等,使图形能够准确反映数据中包含的信息。时间一般绘在横轴,指标数据绘在纵轴。长宽比例要适当,其长宽比例大致为10:7。一般情况下,纵轴数据下端应从“0”开始。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断。,中央财经大学统计学院 29,绘制统计图时的注意事项,2、图形要尽量简明。图形应该突出所要传达的信息,不必要的标签、背景、网格线、等会分散读者的注意力。3、图形应该有清楚的标题和必要的说明,明确图形的含义、计量单位、坐标轴代表的变量、资料来源等等。4、反复加工和修改是获得优秀统计图形的重要步骤。统计软件给出的统计图形没有多少可以不加修改而直接应用。,中央财经大学统计学院 30,下图增长速度惊人。,上图增长速度缓慢。,不恰当的统计图形举例:纵横比例,中央财经大学统计学院 31,不必要的三维效果:三维图形可能比二维图形更能吸引读者的注意,但只能用来反映变化的趋势,不能用来进行精确的比较。,不恰当的统计图形举例:三维效果,中央财经大学统计学院 32,不恰当的统计图形举例:图形类型,1960:$1.00,1970:$1.60,1980:$3.10,1990:$3.80,Minimum Wage,不好的图形,中央财经大学统计学院 33,不恰当的统计图形举例:压缩纵轴,Quarterly Sales,不好的图形,0,100,200,Q1,Q2,Q3,Q4,$,中央财经大学统计学院 34,不恰当的统计图形举例:纵轴无零点,好的图形,Monthly Sales,不好的图形,36,39,42,45,J,F,M,A,M,J,$,中央财经大学统计学院 35,3.1.5 统计表,统计表是统计资料的最基本表现形式,使数据资料表述的更加紧凑、简明,条理清晰、通俗易懂,便于数据的比较。一个完整的统计表从结构上看一般包括:表头、行标题、列标题、数据资料。对表中指标或数据的补充说明一般作为附加部分放在统计表的下方。,中央财经大学统计学院 36,统计表的构成,行标题,表头,列标题,数字资料,附加,中央财经大学统计学院 37,统计表的制作要求,原则:科学、实用、美观、简练。标题简明扼要,满足3W要求(When,Where,What)。结构合理,长宽比例要适当。统计表为“开口式”;表的上下两条横线一般用粗线,其他线用细线,线条要少。数据计量单位相同时,可放在表的右上角标明,不同时应放在每个指标后或单列出一列标明。表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一。对于没有数字、缺某项或免填的表格单元,应使用特定符号标出。必要时可在表的下方加上注释。,中央财经大学统计学院 38,3.2 数据描述的数值方法,数据描述的数值方法,分布的形状,集中趋势,离散程度,众 数,中位数,均 值,离散系数,方差和标准差,峰 度,四分位距,极差,偏 态,3.2.1,3.2.2,3.2.3,中央财经大学统计学院 39,3.2.1 集中趋势,常用的集中趋势的测度指标:算术平均数中位数众数,集中趋势:一组数据向其中心值靠拢的倾向和程度。集中趋势测度:寻找数据水平的代表值或中心值。,1 算术平均数(均值,Arithmetic Mean),总体均值常用 表示。样本均值常用 表示。样本均值的计算公式:简单平均数:加权平均数(分组数据):,中央财经大学统计学院 41,算术平均数(例子),某企业的工会随机调查了20名工人2005年6月加班的小时数,结果如下:该组数据算术平均数等于(13+18+12)/20=11.6(小时)。,中央财经大学统计学院 42,加权算术平均数(例子),在前面的例子中,假设我们只得到了分组后的资料:该组数据算术平均数等于245/20=12.25(小时)。,中央财经大学统计学院 43,关于计算结果的说明,根据原始数据和分组资料计算的结果一般不会完全相等,根据分组数据只能得到近似结果。只有各组数据在组内呈对称或均匀分布时,根据分组资料的计算结果才会与原始数据的计算结果一致。,中央财经大学统计学院 44,算术平均数的性质,1、所有的定量数据都有算术平均数。2、计算算术平均数时使用了所有数据。3、一组数只有一个均值。4、各变量值与均值的离差之和等于零。,张村有个张千万,九个邻居穷光蛋;统计平均算资产,个个都是张百万。,缺点:易受极端值的影响。严格来说无法根据有开口组的分组数据计算算术平均数。,中央财经大学统计学院 45,2 中位数(Median),一组数据按大小顺序排列后,处在数列中点位置的数值。特点:对一组数据是唯一的。不受极端值的影响。主要用于顺序数据,也可用数值型数据,但不能用于分类数据。,中央财经大学统计学院 46,根据原始数据计算中位数,n为奇数时等于第(n+1)/2个数。n为偶数时等于第n/2和n/2+1个数的平均值,1,2,5,9,11,中位数=5,1,2,5,9,11,18,中位数=(5+9)/2=7,中央财经大学统计学院 47,3 众数(Mode),一组数据中出现次数最多的变量值。主要特点:不受极端值的影响。有的数据无众数或有多个众数。对未分组定量资料很少使用。,中央财经大学统计学院 48,众数的不惟一性,众数、中位数和算术平均数的关系,分配为钟形、轻微不对称的经验公式:,中央财经大学统计学院 50,小结:平均数、中位数、众数的特点,算术平均数:易受极端值影响(使用了全部数据)数学性质优良,主要用于数值型数据数据对称分布或接近对称分布时应用中位数:不受极端值影响数据分布偏斜程度较大时应用;主要用于顺序数据众数:不受极端值影响不具有惟一性数据分布偏斜程度较大时应用;主要用于分类数据,中央财经大学统计学院 51,4 分位数(Quantile),把顺序排列的一组数据分割为若干相等部分的分割点的数值。分位数可以反映数据分布的相对位置(而不单单是中心位置)。常用的有四分位数、十分位数、百分位数。四分位数(Quartile):Q1 Q2 Q3 十分位数(Decile):D1 D2 D9百分位数(percentile):P1 P2 P99,中央财经大学统计学院 52,四分位数(Quartile),数据按大小顺序排序后把分割成四等分的三个分割点上的数值。在实际应用中四分位数的计算方法并不统一(数据量大时这些方法差别不大)。对原始数据:SPSS中四分位数的位置为(n+1)/4,2(n+1)/4,3(n+1)/4。Excel中四分位数的位置分别为(n+3)/4,2(n+1)/4,(3 n+1)/4。如果四分位数的位置不是整数,则四分位数等于前后两个数的加权平均。,四分位数计算(例子),排序后的数据:2,5,6,7,8,9,10,12,15,16,不能整除时需加权平均:,中央财经大学统计学院 54,对时间序列计算平均数有一些特殊问题需要注意。平均发展水平的计算平均发展速度、平均增长速度的计算,5、平均发展水平和平均发展速度,中央财经大学统计学院 55,时间序列中每一个观测值称为发展水平。要研究的那个时间的发展水平称为报告期水平,作为比较基础的时间的发展水平称为基期水平。根据观测值表现形式的不同可以分为绝对数、相对数或平均数时间序列。绝对数时间序列又可分为时期序列和时点序列。时期序列:不同时期的观测值可以相加,相加结果表明现象在更长一段时间内的活动总量。时点序列:不同时点的观测值相加没有实际意义。,相关基本概念,中央财经大学统计学院 56,时间序列举例,资料来源:中国统计年鉴2002,中央财经大学统计学院 57,平均发展水平(1),将不同时期的发展水平加以平均得到的平均数称为平均发展水平。对于时期序列、时点序列和相对数序列、平均数序列,平均发展水平的计算方法有所不同。,中央财经大学统计学院 58,平均发展水平(2),(1)时期序列:,按时期序列的公式计算。,(2)“连续”时点序列:,中央财经大学统计学院 59,先计算出两个点之间的平均数,再用相隔的时期长度 加权计算总的平均数。,如果各时点之间的间隔相等,公式可简化为,(3)不连续的时点序列:,平均发展水平(3),中央财经大学统计学院 60,(4)根据相对数和平均数时间 序列计算序时平均数:,平均发展水平(4),中央财经大学统计学院 61,举例,1、如何计算1991年-2000年我国的年平均GDP?2、如何计算1991年-2000年我国的年均人口数?已知1990年年末的人口数为114333万人。3、计算19912000年我国的人均年GDP。,中央财经大学统计学院 62,Answer,1、2、3、,中央财经大学统计学院 63,发展速度是是序列中两个发展水平相比的结果。可以分为环比发展速度和定基发展速度。,定基发展速度等于相应各环比发展速度的连乘积;环比发展速度等于相邻两个定基发展速度之商。发展速度-100%等于增长速度。,发展速度和增长速度,中央财经大学统计学院 64,用几何平均法计算平均发展速度,几何平均数等于n 个变量值乘积的 n 次方根,常用于计算平均的比率、增长率等。,简单几何平均数,可看作是均值的一种变形,中央财经大学统计学院 65,从最初水平a0出发,每期按平均发展速度发展,经过n期后将达到最末期水平an只与序列的最初观察值a0和最末观察值an有关。,几何平均法的含义,中央财经大学统计学院 66,Example,1、计算1992年-2000年我国GDP的年增长率和年平均增长率。2、计算1992年-2000年我国年末人口的年增长率和年平均增长率。,中央财经大学统计学院 67,Answer,中央财经大学统计学院 68,3.2 数据描述的数值方法,数据描述的数值方法,分布的形状,集中趋势,离散程度,众 数,中位数,均 值,离散系数,方差和标准差,峰 度,四分位距,极差,偏 态,3.2.1,3.2.2,3.2.3,中央财经大学统计学院 69,3.2.2 离散程度,反映各变量值远离其中心值的程度(离散程度),从另一个侧面说明了集中趋势测度值的代表程度。不同类型的数据有不同的离散程度测度指标。,常用指标:全距(极差)四分位距方差和标准差离散系数,中央财经大学统计学院 70,1 全距(Range),全距也称极差,是一组数据的最大值与最小值之差。R=最大值-最小值组距分组数据可根据最高组上限-最低组下限计算。受极端值的影响。全距=?,2,5,6,7,8,9,10,12,15,16,20,中央财经大学统计学院 71,等于上四分位数与下四分位数之差反映了中间50%数据的离散程度,数值越小说明中间的数据越集中。不受极端值的影响。可以用于衡量中位数的代表性。,2 四分位距(Inter-Quartile Range,IQR),2,5,6,7,8,9,10,12,15,16,20,Q1=6,Q2=9,Q3=15,中央财经大学统计学院 72,方差是一组数据中各数值与其算术平均数离差平方的平均数,标准差是方差正的平方根。总体方差和样本方差的符号不同,计算公式也不一样。是反映定量数据离散程度的最常用的指标。,3 方差和标准差,中央财经大学统计学院 73,方差的计算公式,样本方差用(n-1)去除,从数学角度看是因为它是总体方差2的无偏估计量。,中央财经大学统计学院 74,标准差(例子),某工会随机调查了5名工人上月的加班时间如下表,平均加班时间为13小时。计算数据的标准差。,中央财经大学统计学院 75,4 离散系数(Coefficient of Variation),标准差与其相应的均值之比,表示为百分数。特点:反映了相对于均值的相对离散程度;可用于比较计量单位不同的数据的离散程度;计量单位相同时,如果两组数据的均值相差悬殊,离散系数可能比标准差等绝对指标更有意义。,中央财经大学统计学院 76,离散系数:例子,对30名经理人员的调查表明年平均收入=$500,000,标准差=$50,000。对30名工人的调查表明平均收入=$32,000,标准差=$5,000。离散系数:经理人员:工人:虽然经理人员收入的绝对离散程度远远大于工人,但经理人员收入的相对离散程度小于工人。,中央财经大学统计学院 77,3.2.3 数据分布形状的描述,数据描述的数值方法,分布的形状,集中趋势,离散程度,众 数,中位数,均 值,离散系数,方差和标准差,峰 度,四分位距,极差,偏 态,3.2.1,3.2.2,3.2.3,中央财经大学统计学院 78,偏态和峰度的类型,偏态,中央财经大学统计学院 79,1 偏态及其测定(Skewness),数据分布的不对称性称作偏态。偏态系数就是对数据分布的不对称性(即偏斜程度)的测度。偏态系数有多种计算方法,在统计软件中(如Excel等)通常采用以下公式:,中央财经大学统计学院 80,偏态系数的含义,中央财经大学统计学院 81,2 峰度及峰度系数(Kurtosis),峰度:数据分布的扁平或尖峰程度。峰度系数:数据分布峰度的度量值,对数据分布尖峰或扁平程度的测度,一般用K表示。统计软件(如Excel等)中常用以下公式计算:,中央财经大学统计学院 82,峰度系数的含义,峰度系数K0,与正态分布相比该分布一般为扁平、瘦尾,肩部较胖。,峰度系数K0,与正态分布相比该分布一般为尖峰、肥尾,肩部较瘦。,中央财经大学统计学院 83,3、箱线图(Box Plot),用于描述数据分布特征的一种图形。最简单的箱线图可以根据数据的最大值、最小值和三个四分位数绘制的:先根据三个四分位数Q1、Q2、Q3画出中间的盒子,然后由盒子两端分别向最大、最小值连线。在SPSS中标准的箱线图一般是这样绘制的:先根据三个四分位数Q1、Q2、Q3画出中间的盒子;由Q3至Q3+1.5*IQR区间内的最大值向盒子的顶端连线,由Q1至Q1-1.5*IQR区间内的最小值向盒子的底部连线;处于Q3+1.5*IQR至Q3+3*IQR或者 Q1-1.5*IQR至Q1-3*IQR范围内的数据用圆圈标出;大于Q3+3*IQR或者小于Q1-3*IQR的用星号标出。,中央财经大学统计学院 84,数据:2,5,6,7,8,9,10,12,15,20,35,箱线图,Q1,Q2,Q3,IQR=9,1.5*IQR=13.5,1.5*IQR=13.5,离群点,中央财经大学统计学院 85,分布的形状与箱线图,中央财经大学统计学院 86,4 数据的 Z值,也称标准化值,等于变量值与其平均数的离差除以标准差,用Z表示。Z值的均值等于0,标准差等于1。是对某一个值在一组数据中相对位置的度量。例如,z0说明观测值大于均值。z0说明观测值小于均值。z=1.2说明观测值比均值大1.2倍的标准差。,中央财经大学统计学院 87,工人加班时间的数据,均值等于13,s=4.06。,工人加班时间的标准化值,中央财经大学统计学院 88,统计软件的描述统计结果:Excel(教师年龄),中央财经大学统计学院 89,统计软件的描述统计结果SPSS(教师年龄),中央财经大学统计学院 90,小结:本章要点(1),统计数据的分组和频数分布;列联表条形图、圆形图、直方图、线图,茎叶图的绘制和应用统计表的构成一般要由表头、行标题、列标题、数据资料组成绘制统计图表的注意事项集中趋势是一组数据向其中心值靠拢的倾向和程度。常用测度指标有:算术平均数、众数、中位数、分位数等。平均发展水平和平均发展速度的计算,中央财经大学统计学院 91,小结:本章要点(2),离中趋势反映的是一组数据中各观测值之间的差异或离散程度。常用测度指标包括极差,四分位距,方差和标准差,离散系数等数据分布的偏态与峰度的含义箱线图的绘制和含义.Z分数的计算和含义,