数据的概括性度量.ppt
第四章 数据的概括性度量,一、总量指标二、相对指标三、平均指标四、离散指标五、偏度与峰度,国民经济统计指标(2005年),国民生产总值210871.0 亿元总人口数131448 万人固定资产投资总额88773.6 亿元财政收入31649.29 亿元货物进出口总额42183.6 亿元职工工资总额19789.9 亿元,国民经济统计指标(2005),发展速度110.2(按上年100)城镇登记失业率4.2%居民消费价格指数101.8%固定资产投资增长比率26%,国民经济统计指标(2005年),职工平均工资18364 元城镇居民人均可支配收入10493元 人均国民生产总值14040元,一、总量指标概念说明经济现象总体在一定时间、地点和条件下所达到的规模、水平或总成果的统计指标,一般用绝对数表示.GDP、GNP、工业总产值、总产量、利润。,总量指标的特点,其数值随统计总体范围的大小呈同方向变化。总量指标同时也可以表示为现象总量间的绝对差数,如增加量。,总量指标的作用,从数量上认识社会经济现象的起点反映社会经济活动绝对效果的重要指标是计算相对指标,平均指标的基础。,总量指标的分类,时期指标 反映一段时期内发展过程的总量指标 企业销售额 企业利润额时点指标 反映某一时点上发展结果的总量指标 学生人数 存款额,时期指标与时点指标的区别,时期指标可以相加,表示更长一个时期的指标数值;时点却相加无意义,但时点指标可以相减,其结果为时期指标表示两点之间的绝对增加量或绝对减少量时期指标数值大小与时期长短成正比变化,而时点指标的大小与时点间隔无关,总量指标的应用原则,科学性:指标概念要有理论依据,定性要科学 准确性:计算方法正确,计算结果准确统一性:计量单位统一。计算范围、统计口径、计算方法一致,二、相对指标,概念:是社会经济现象的两个有联系的指标数值的比率,反映现象之间的数量对比关系。又称相对数,相对指标的作用,说明事物发展速度、比例关系、强度、密度和结构将现象绝对数值抽象化了,便于比较,相对指标的类型,结构相对数比例相对数比较相对数动态相对数强度相对数,结构相对指标,在分组的基础上,各组数值与总体数值之比表明各组成部分数值在总体中占的比重结构相对指标=各组总量/总体总量100%。,结构相对指标的作用,静态上分析总体内部结构,反映总体构成特点和性质动态分析结构变化特点。分析同一总体不同指标结构,研究现象内部联系。经济结构、投资结构、人员结构、产业结构,经济结构指标(2005年),第一产业GDP占比重12.6%第二产业占比重47.5%第三产业占比重39.9%,其他结构指标,人口结构 年龄、教育、民族、城乡投资结构产品结构能源结构,比例相对指标,是同一总体中某一部分数值与另一部分数值之比。反映同一总体各部分之间的数量联系程度和比例关系。比例相对指标=总体中某一部分数值/总体中另一部分数值,相对指标与结构相对指标的区别,结构相对指标侧重于分析部分占总体比重,以及部分对总体的影响程度;比例相对数反映部分间比例关系,考察各部分能否协调发展,这种比例关系关系到经济现象能否平稳合理发展。,比例相对指标,2005年男女比例为1.06:12005年一二三产业比例 100:377.3:316.3,比较相对指标,是同一指标在同一时间上的不同空间的比较说明某类现象在同一时期内各单位发展的不平衡度 比较相对指标=某一空间的指标数值/另一空间同类指标数值100%分子与分母可互换,来自于两个总体的指标,2005年经济统计指标比较,国内生产总值排名第四人均国民总收入180个国家排名110位进出口贸易额排名第三,动态相对指标,是同类现象在不同时期的指标数值之比,反映经济现象在时间上的发展变化动态相对指标(发展速度)=报告期指标/基期指标100%,例题,1999年北京市人均收入为564元,2000年人均收入为786元 动态相对指标=786/564=1.2倍 或=786/564 100%=120%分子、分母不可以互换来自于同一个总体不同时期的指标数值,经济发展速度,2005年110.2%,强度相对指标,有联系的两个指标对比人口密度商业网点密度人均国民生产总值14040元,三、平均指标集中趋势的度量,平均指标,平均成绩人均支出工人劳动生产率,平均指标的作用,静态比较:对不同总体进行比较。如两个企业的人均工资比较动态比较:同一总体不同时期平均数比较描述推断总体。用样本均值推断总体均值,分类数据集中程度的度量众数,出现次数最多的变量值位置平均值更常用于品质数据、或离散型数据的分析反映现象中最普遍最常见的一般水平。,众数的计算,排序、计算其出现频数 20 15 18 20 20 22 20 13 23 29 26 众数为20,众数的特点,不受变量值极端值的影响对于变量值变化的灵敏度降低了变量值有明显集中趋势时才能计算最适于品质标志的应用。当变量值次数相同时无法计算众数 20 20 15 19 19 20 19 25 众数为20和19 10 11 13 16 15 25 8 12 无众数,顺序数据的集中程度度量,中位数分位数,中位数,变量值由小到大排列,居于中间位置(总体单位数一半处)的变量值变量个数为奇数:7名工人的日产量为:10、11、13、14、16、17、18;中位数位置为:(n+1)/2 则中位数=14;,中位数的计算,变量的个数为偶数:8名工人的日产量为:10、11、13、14、16、16、17、18;中位数为n/2和n/2+1两项标志值的平均数 中位数Me=(14+16)/2=15,中位数的特点,性质简单 不受极值的影响 是较稳健的集中趋势的测度指标 只与中间值有关,缺乏敏感性,不适合代数运算适用于顺序数据的分析,四分位数,25%75%位置上的数据p90,数值型数据平均数,简单平均数加权平均数,简单平均数,适于未分组的数据计算公式:,平均值的数学性质,加权平均值,适于分组的数值型数据计算公式:,例题,某班学生学习成绩如下表:考试成绩x 学生人数f(个)各组人数比重 2分 4 0.1 3分 12 0.3 4分 18 0.45 5分 6 0.15,影响平均数的两个因素,变量值各组频数f 或频率f/f,例、某企业职工工资情况如下表:月工资(元)组中值x 职工人数f 工资总额xf 100以下 50 70 3500 100200 150 200 30000 200300 250 240 60000 300以上 350 90 31500 合 计 600 125000 平均工资=xf/f=208.3(元),例,某班组23个工人生产同种产品,质量情况如下:合格品率 组中值 工人数 产品批量(%)x f 70-80 75 5 200 80-90 85 16 600 90-100 95 8 400 合计 29 1200 平均合格品率=合格品件数/产品总数=xf/f=86.7%,算术平均数的特点,概念、计算方法易于理解和掌握 对所提供信息运用充分 对数据的变化反映最灵敏 适于代数处理,具有良好的数学性质 局限性:受极大值、极小值的影响,具有不稳健性,众数 中位数 平均数三者关系,1、平均数=中位数=众数,总体分布呈现对称性即完全正态分布。2、平均数中位数众数,峰偏向左边,尾部拖向右边平均数受极大值影响,总体分布呈右偏态(正偏)。3、平均数中位数众数,峰偏向右边,尾部拖向左边平均数受极大值影响,总体分布呈左偏态(负偏)。,例:假定某市5百万居民(4岁以上)每天收看电视时间的平均值为50分钟,中位数为30分钟。粗略画出该市民收看电视时间的直方图,并进行简单分析,几何平均数,用于比率的计算数据间有内在联系数据的连乘积总比例率,例:某建筑公司生产某种产品经过四道工序,每工序的合格品率为:93%、95%、92%、96%,计算平均合格品率 总合格品率=93%95%92%96%几何平均数G=计算条件:现象变量值得连乘积等于总比率或总速度,例:银行有一笔20年的长期投资,利率按复利计算,有一年利率为2.5%,3年为3%,5年为6%,8年为9%,2年12%,1年5%,计算平均利率,四、离散程度的度量,离散度量指标的作用,数据远离平均值的程度反映了数据的分散程度离散度量指标值越小反映数据的离散程度越小衡量平均数的代表性,离散度量指标,分类数据 异众比率 四分位差数值数据 极差 平均差 方差和标准差离散系数,两组学生成绩为:甲组98、96、92、70、64 乙组90、82、76、87、85 平均成绩均为84分,分类数据离散程度的度量异众比率,非众数足所占比重异众比率越大,众数的代表性越小常用于分类数据的度量,分类数据离散程度的度量-四分位差,上下四分位数的差数值越大说明中位数的代表性越差常用于顺序数据的离散程度的度量,数值型数据离散程度的度量 极差,全距最大值最小值计算简单 全距越小,说明总体平均数的代表性越大只反映两个端点数据的变化无法准确度量离散程度,数值型数据离散程度的度量 平均差,离差绝对值的算术平均更准确说明总体离散程度,分组数据平均差的计算,平均差的特点,数值越大,数据的离散程度越大计算方便在数学处理及实际应用上受到限制,数值型数据离散程度的度量 方差和标准差,变量值和平均数离差平方的平均数准确反映数据的离散程度最广泛的离散程度测量值,标准差:是离差平方和的平均 比平均差在数学处理上更合理 是测定离散度最常用、最重要的指标 未分组:s=分组的情况:s=,例:两个车间工人工资资料如下,计算两个车间工人平均工资和标准差 按月工资分组(元)甲车间工人数 按月工资分组(元)乙车间工人数 4050 5 3050 5 5060 15 5070 10 6070 20 7090 24 7080 7 90110 12 8090 3 110130 90 合 计 60 合 计 60,数值型数据离散程度的度量 相对位置的度量,标准分数经验法则切比雪夫不等式,标准分数,数据的标准化处理标准化后的数据平均值为0标准差为1可以找出离群数据,标准分数计算公式,经验法则,3以外的数据为离群点可以发现离群点适用于对称数据的分析,切比雪夫不等式,可应用分布任何分布的数据分析数据的离散程度,离散系数变异系数,离散指标与平均数对比,是反映离散程度的相对指标消除平均值对离散程度的影响用以比较两个平均水平或计量单位完全不同的总体离散程度的大小离散系数值越大,数据越分散,离散系数变异系数,例:仓库投保火险和水险火灾损失 概率 水灾损失 概率 0.4万元 0.05 2.0 0.05 1.0 0.1 2.5 0.15 2.0 0.2 3.0 0.2 3.0 0.3 4.5 0.4 5.0 0.25 5.0 0.15 8.0 0.1 8.0 0.05,例:计算保险稳定系数 年份 实际损失率()1 3.5 2 3.7 3 3.8 4 4.0 5 4.1 6 4.4 7 4.5,偏态和峰态的度量,集中趋势偏态离散程度峰态综合分析分布形态,偏态及其度量偏态系数,计算公式,偏态系数的意义,反映数据的集中程度数值越大,偏态程度越高偏态系数为0,分布为对称偏态系数大于0,分布为右偏偏态系数小于0,分布为左偏,峰态及其度量峰态系数,正态分布峰态系数为0峰态系数大于0,尖峰峰态系数小于0,扁平分布,