第3章统计数据的特征描述.ppt
第3章 统计数据的特征描述,3.1 集中趋势的描述描述集中趋势的几个统计量及相互关系3.2 离散程度的描述描述离散程度的几个统计量3.3 分布形态的描述描述分布形态的几个统计量,3.1 集中趋势的描述,集中趋势(central tendency):指一组数据向某一中 心值靠拢或集中的程度 用途:为了表示社会经济现象总体各单位某一 标志在一定时间、地点和条件下达到的一般 水平,经常被作为评价事物和决策的数量标 准或参考。主要测度值:平均数、众数、中位数、分位数,3.1.1 平均数平均数:全部数据的算术平均,常用 来表示。是数据集中趋势的最主要测度值。适用条件:数值型数据常用形式:,简单平均数,加权平均数,1算术平均数(mean)1)简单算术平均数简单算术平均数:全部数据的算术平均适用条件:未经分组整理的原始数据资料。计算公式:式中,是一组样本数据的观测值,n为样本容量。,【例3.1】某班级20名学生的期末数学成绩是67、78、49、56、98、87、62、100、73、45、70、44、96、80、49、61、60、88、93、60(分),求该班学生的数学成绩的平均数。解:由公式(3.1)该班学生的数学平均成绩是70.8分。,2)加权算术平均数加权算术平均数:各组标志值与各组频数相乘的总和除以各组频数之和。适用:已经分组整理并编制出频数分布的数据资料。计算公式:式中,是单项式分组形式下第i组的变量值或组距式分组形式下第i组的组中值;是第i组的频数;n为组数。,=0.027+0.298+1.236+0.848+0.610+0.468=3.487 即职工的平均家庭人口数是3.487人,例3.3(已整理的组距式分组数据平均数算例)根据第2章中的表2-7中的数据资料计算某单位某种产品平均销售量的近似值。(见课本P43),2调和平均数(harmonic mean)简单调和平均数简单调和平均数:各观测值倒数的算术平均数的倒数适用条件:未分组资料且各标志值对应的标志总量相等计算公式:,2)加权调和平均数适用条件:分组资料且各标志值对应的标志总量不等计算公式:,mi 表示第i个单位或第i组标志值对应的标志总量,当各组标志总量相等,即m1=m2=mn=m时,即,例题见课本P44,3几何平均数(geometric mean)适用条件:用于时间上有联系或有先后顺序关系的比率求平均。1)简单几何平均数计算公式:,2)加权几何平均数,计算公式:,例题见P46,3.1.2 众数众数(mode):数据中出现次数最多的那个观测值,一般用M0表示。,适用条件:分类数据、顺序数据以及数值型数据。,1根据品质型和单项式分组数据计算众数2根据组距式分组数据计算众数,要确定众数所在组,即众数组。通过下面的下限公式或上限公式来计算众数。,式中:L、U分别为众数组的下限和上限。,是众数组与其前一组的频数之差;,d 是众数组的组距。,是众数组与其后一组的频数之差;,例:P49页例3.11,3.1.3 中位数中位数(median):将一组数据按一定顺序排列后,处于中间位置上的变量值,一般用Me表示。,适用条件:顺序数据和数值型数据,1根据未分组数据计算中位数,中位数位置=,奇数:对应中位数位置的那个数值,偶数:对应于中位数位置左右相邻的两个数值 的平均值,例1:4,4,3,2,2,2,1,3,1,排序:1,1,2,2,2,3,3,4,4,中位数:2,例2:年收入(in$000):$80,90,100,110,120,500,中位数:,2根据分组数据计算中位数,中位数位置=,见【例3.13】【例3.14】,对于组距式分组数据,下限公式:,上限公式:,LMe表示中位数所在组的下限;,UMe表示中位数所在组的上限;,SMe-1表示向上累计至中位数所在组前一组的频数;,SMe+1表示向下累计至中位数所在组后一组的频数;,fMe表示中位数所在组的频数;,dMe表示中位数所在组的组距;,n表示各组频数之和,注:,见P53【例3.15】,3.1.4 分位数,四分位数(quartile):一组数据排序后处于25%和75%位置上的值,也称之为四分位点。,分位数:衡量数据位置的测定指标,1根据未分组数据计算四分位数,Qi位置,i=1时,即为下四分位数QL(Lower Quartile),i=2时,即为中位数,i=3时,即为上四分位数QU(Upper Quartile),例:第一组数据:2300、3500、2900、4500、7000、3000、8100、3200(万元),计算两组数据的四分位数。解:按从小到大顺序的排列结果为2300、2900、3000、3200、3500、4500、7000、8100,QL位置,=(8+1)/4=2.25,=3(8+1)/4=6.75,QU位置=,QL2900+0.25(3000-2900)万元=2925万元 QU=4500+0.75(7000-4500)万元=6375万元,2根据分组数据计算四分位数,QL组位置,QU组位置,确定四分位数所在组,根据各组的累积频数确定四分位数的具体值。,(1)对单项式分组数据,该组的变量值就是四分位数。,(2)对于组距式分组数据,通过下面的公式来计算:,L1和L3表示下四分位数和上四分位数所在组的下限;,SM1-1和SM3-1分别表示下和上四分位数所在组以下各 组的向上累计频数;,fQ1和fQ3分别表示下四分位数和上四分位数所在组的 频数;,d表示下四分位数和上四分位数所在组的组距;,n表示各组频数之和,例见P55【例3.17】,3.1.5 集中趋势各测定指标之间的区别与关系,区别,关系,=M0=Me,MeM0,MeM0,3.2 离散程度的描述,数据的离散程度:反映各变量值远离其集中趋势测度值的程度。数据的离散程度越大,集中趋势测度值对该组数据的代表性就越差;离散程度越小,其代表性就越好。相关应用:投资的风险度常用指标:1 极差和四分位差 2 方差和标准差 3 变异系数和异众比率,3.2.1 极差和四分位差,极差:一组数据的最大值与最小值之差,,未分组或单项式分组数据:R=max(xi)min(xi),组距式分组数据:R=末组上限值首组下限值,四分位差:,Qd=QU-QL,注:反映中间50%数据的离散程度,不受极端值影响,注:受极端值的影响。,3.2.2 方差和标准差,方差(variance)与标准差(standard deviation):测定一组数据离散程度的最常用的测度值,它反映了每个数据与其平均数相比平均相差的数值。,未分组数据资料计算公式:,分组数据资料计算公式:,注:方差和标准差是根据全部数据计算的,它能比较准确地反映出全部数据的离散程度。标准差有计量单位的且与变量值相同,因此其实际意义要比方差清楚。在对社会经济现象进行分析时,更多地使用标准差作为离散程度的度量值。方差与标准差都不是系数,因此对不同数据不能通过比较它们的大小得出离散程度的大小。,见P59【例3.18】,3.2.3 变异系数和异众比率,变异系数(coefficient of variation):,注:变异系数是一个无量纲的量,它适合比较不同现象或具有不同水平数据的离散程度。,异众比率(variation ratio):一组数据的非众数的频数与全部数据个数的比率。,注:异众比率也是一个无量纲的量,计算公式:,fm:众数所在组的频数,fi:各分组的频数,3.3 分布形态的描述,数据分布的形态:指数据分布的形状是否对称,偏斜的程度以及分布的扁平程度等。刻画数据分布形态的测度值:偏度和峰度。,3.3.1 偏度,偏度(skewness):一组数据分布的偏斜方向和程度。,计算公式:,Sk0,Sk0,Sk0,对称分布 右偏分布 左偏分布,(1)分布对称时,偏度值等于零。(2)分布右(正)偏时,Sk0。且Sk值越大,偏斜 的程度就越大(3)分布左(负)偏时,Sk0。且Sk值越小,偏斜 的程度就越大,3.3.2 峰度,峰度(kurtosis):一组数据分布的陡缓程度,它是与标准正态分布相比较而言的。其计算公式为:,正态分布 尖峰态分布 平峰态分布 normal leptokurtic platykurtic,(1)当数据分布与标准正态分布的陡缓程度相同时,则峰度值等于零。(2)当数据分布的形状比标准正态分布更尖时,则峰度值Ku0,称为尖峰态分布。尖峰分布表明集中趋势显著,离散程度低。(3)当数据分布的形状比标准正态分布更平时,则峰度值Ku0,称为平峰态分布。平峰分布表明集中趋势不显著,离散程度大。,Ch3 小结,3.1 集中趋势的描述 平均数众数中位数分位数 各测定指标之间的关系3.2 离散程度的描述 极差和四分位差方差和标准差 变异系数和异众比率3.3 分布形态的描述 偏度峰度,本章,