《统计数据的描述》PPT课件.ppt
《《统计数据的描述》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《统计数据的描述》PPT课件.ppt(106页珍藏版)》请在三一办公上搜索。
1、2023/7/29,1,第三章 数据分布特征的描述,3.1 集中趋势的度量 3.2 离散程度的度量3.3 偏态与峰态的度量,2023/7/29,2,3.1.1 什么是集中趋势(central tendency),一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据水平的代表值或中心值不同类型的数据用不同的集中趋势测度值注意:低层次数据的测度方法也适用于高层次的数据,但高层次数据的测度方法往往不适用于低层次的数据。,2023/7/29,3,3.1.2 分类数据-众数,一组数据中出现次数最多的变量值适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数主要用于分类数据,也可用
2、于顺序数据和数值型数据,2023/7/29,4,众数(不惟一性),无众数原始数据:10 5 9 12 6 8,一个众数原始数据:6 5 9 8 5 5,多于一个众数原始数据:25 28 28 36 42 42,5,有时众数是一个合适的代表值,比如在服装行业中,生产商、批发商和零售商在做有关生产或存货的决策时,更感兴趣的是最普遍的尺寸而不是平均尺寸。,2023/7/29,6,1、分类数据的众数(例题分析),解:这里的变量为“饮料品牌”,这是个分类变量,不同类型的饮料就是变量值 所调查的50人中,购买可口可乐的人数最多,为15人,占总被调查人数的30%,因此众数为“可口可乐”这一品牌,即 Mo可口
3、可乐,2023/7/29,7,2、顺序数据的众数(例题分析),解:这里的数据为顺序数据。变量为“回答类别”甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即 Mo不满意,2023/7/29,8,3、数值型数据的众数1)单变量值分组数据,某年级83名女生身高资料,身高 人数(CM)(人)152 1 154 2 155 2 156 4 157 1 158 2 159 2 160 12 161 7 162 8 163 4,身高 人数(CM)(人)164 3 165 8 166 5 167 3 168 7 169 1 170 5 171 2 172 3 174 1总计 8
4、3,STAT,2023/7/29,9,2)组距分组数据众数的计算公式,2023/7/29,10,G,E,F,D,C,A,B,f,X,f3,f2,f1,d,L,U,M0,1,2,众数的计算公式可以从几何图形得到证明:,2023/7/29,11,身高 人数 比重(CM)(人)(%)150-155 3 3.61 155-160 11 13.25 160-165 34 40.96 165-170 24 28.92 170以上 11 13.25 总计 83 100,某年级83名女生身高资料,组距分组数据的众数,STAT,2023/7/29,12,3.1.3 顺序数据-中位数和分位数 1、顺序数据-中位数
5、,排序后处于中间位置上的值,不受极端值的影响主要用于顺序数据,也可用数值型数据,但不能用于分类数据各变量值与中位数的离差绝对值之和最小,即,2023/7/29,13,中位数(位置的确定),未分组数据:,分组数据:,2023/7/29,14,顺序数据的中位数(例题分析),解:中位数的位置为 300/2150 从累计频数看,中位数在“一般”这一组别中 中位数为 Me=一般,2023/7/29,15,未分组数值型数据的中位数(奇数个数据的算例),【例】9个家庭的人均月收入数据原始数据:1500 750 780 1080 850 960 2000 1250 1630排 序:750 780 850 96
6、0 1080 1250 1500 1630 2000位 置:1 2 3 4 5 6 7 8 9,中位数 1080,2023/7/29,16,未分组数值型数据的中位数(偶数个数据的算例),【例】:10个家庭的人均月收入数据排序:660 750 780 850 960 1080 1250 1500 1630 2000位置:1 2 3 4 5 6 7 8 9 10,2023/7/29,17,组距分组数据中位数的计算公式,2023/7/29,18,(组距分组),共 个单位,共 个单位,共 个单位,共 个单位,L,中位数组,组距为d,共 个单位,假定该组内的单位呈均匀分布,中位数下限公式为,该段长度应为
7、,U,2023/7/29,19,身高 人数 累计(CM)(人)人数 150-155 3 3 155-160 11 14 160-165 34 48 165-170 24 72 170以上 11 83 总计 83,某年级83名女生身高资料,STAT,组距分组数据的中位数,20,如果统计资料中含有异常的或极端的数据,就有可能得到非典型的甚至可能产生误导的平均数,这时使用中位数来度量集中趋势比较合适。,比如有5笔付款:9元,10元,10元,11元,60元 平均付款为100/5=20元。很明显,这并不是一个好的代表值,而中位数10元是一个更好的代表值。,2023/7/29,21,2、顺序数据-分位数(
8、1)四分位数,1)分位数有二分位数(中位数)、四分位数、十分位数和百分位数等。其中主要有四分位数。2)排序后处于25%和75%位置上的值即四分位数,3)不受极端值的影响4)主要用于顺序数据,也可用于数值型数据,但 不能用于分类数据,2023/7/29,22,A)原始数据四分位数的位置,下四分位数上四分位数,2023/7/29,23,【例】某学习小组的统计学考试成绩如下:,要求:(1)计算前15个学生统计学考试成绩的四分位数;(2)如果增加一个学生的成绩95分,试计算16个学生统计学考试成绩的四分位数。,2023/7/29,24,2023/7/29,25,B)根据组距数列计算四分位数,2023/
9、7/29,26,根据组距数列计算四分位数,2023/7/29,27,十分位数是指将按大小顺序排列的一组数据划分为10等分的9个变量值,用以反映一组数据在各个区间的一般水平。,(2)十分位数,2023/7/29,28,(3)百分位数,29,位置测度的一种常用方法:百分位数(Percentile),含义:第p个百分位数是这样的数值:至少有p%个数值跟它一样大或比它小;至少有(100p)%个数值跟它一样大或比它大。,例如,一个考生入学考试的口语成绩是55分,对应第70个百分位数,我们就可以知道大约有70%的考生成绩比他低,或者说大约有30%的考生成绩比他高。,2023/7/29,30,算术平均数定义
10、:全部变量值之和与变量值个数相除所得到的结果。按其计算形式又有简单算术平均数和加权算术平均数之分。,STAT,平均数(average)的定义-变量值的一般水平,通常也称为均值(mean)。有算术均值、调和均值和几何均值。,3.1.4 数值型数据-平均数 一.算术平均数,2023/7/29,31,(一)简单算术平均数,如果是未分组整理的原始资料,则直接将各个数据加总再除以数据的个数即得到平均数。,设一组数据为,则其算术平均数的计算公式为,2023/7/29,32,(二)加权算术平均数,根据分组整理的数据计算平均数时,需要先用每个组的变量值或组中值分别乘以各自的频数或频率,然后加总再除以总频数或总
11、频率,即得算术平均数。其计算公式为,2023/7/29,33,【例】2005年某市红星幼儿园共有458名儿童,其年龄资料如表3.2所示。,要求:试计算该幼儿园儿童的平均年龄。,单变量值分组数据均值的计算,2023/7/29,34,身高 组中值 人数 比重(cm)xi(cm)fi(人)(%)150-155 152.5 3 3.61 155-160 157.5 11 13.25 160-165 162.5 34 40.96 165-170 167.5 24 28.92 170以上 172.5 11 13.25 总计-83 100,组距分组数据均值的计算某年级83名女生身高资料,组距数列,次数f,频
12、率f/f,变量值x,STAT,加权算术平均数,2023/7/29,35,权数及其起作用的条件,用各组的组中值代表其实际数据计算算术平均数时,通常假定各组数据在组内是均匀分布的,相应的组中值近似等于各组的平均数。权数:衡量变量值相对重要性的数值。各个变量值的权数要起作用必须具备两个条件:一是各个变量值之间有差异;二是各个变量值的权数有差异。简单算术平均数是加权算术平均数在权数相等时的特例。,2023/7/29,36,集中趋势的最常用测度值;一组数据的均衡点所在;各变量值与其均值的离差之和等于零,即;各变量值与其均值的离差平方和最小,即由组距分组资料计算的均值有近似值性质;易受极端值的影响;主要用
13、于数值型数据,不能用于分类数据和顺序数据,(三)算术平均数(均值)特征,37,思考题,比特啤酒公司雇用了468名员工,其中有56名管理人员,130名行政和技术人员,其余282人是工人。这三组人的周平均工资分别是500英镑、300英镑和200英镑。财务主管希望计算全体员工的平均工资。,?,2023/7/29,38,二.调和平均数(harmonic mean),1、调和平均数也称“倒数平均数”,它是对变量的倒数求平均,然后再取倒数而得到的平均数2、平均数的另一种表现形式3、易受极端值的影响4、计算公式为,原来只是计算时使用了不同的 数据!,2023/7/29,39,调和平均数(例题分析),【例】某
14、蔬菜批发市场三种蔬菜的日成交数据如表,计算三种蔬菜该日的平均批发价格,2023/7/29,40,算术平均数与调和平均数的关系,1.从数学定义角度看算术平均数与调和平均数是不一样的,但在社会经济应用领域,调和平均数实际上只是算术平均数的另一种表现形式,二者本质上是一致的,惟一的区别是计算时使用了不同的数据。2.计算比率的平均数时,如果已知比率及其基本计算式的分母资料,则采用加权算术平均法;如果已知比率及其基本计算式的分子资料,则采用加权调和平均法。,2023/7/29,41,【例】某市某行业150个企业的产值利润率及相关资料如表3.8。要求:试分别计算该行业150企业第一季度和第二季度的平均产值
15、利润率。,算术平均数与调和平均数的关系,2023/7/29,42,三.几何平均数(geometric mean)1、含义及应用条件,定义:n 个变量值乘积的 n 次方根应用范围:适用于比率数据的平均,主要用于计算平均发展速度、平均增长率、平均比率应用的前提条件:各个比率或速度的连乘积等于总比率或总速度;相乘的各个比率或速度不为零或负值。,2023/7/29,43,补充:发展速度、增长速度概念及关系,环比发展速度 y1/y0 y2/y1 y3/y2 yn/yn-1 定基发展速度 y1/y0 y2/y0 y3/y0 yn/y0 注意:环比发展速度的连乘积=相应的定基发展速度 增长速度(率)=发展速
16、度-1 环比增长速度=环比发展速度-1 定基增长速度=定基发展速度-1,2023/7/29,44,平均增长率(average rate of increase),描述现象在整个观察期内平均增长变化的程度序列中各逐期环比值(也称环比发展速度)的几何平均数(即平均发展速度)减1后的结果通常用几何平均法求得。计算公式为,45,2023/7/29,2、几何平均数的计算方法,2023/7/29,46,简单几何平均数(例题分析),【例】某水泥生产企业2006年的水泥产量为100万吨,2007年与2006年相比增长率为9%,2008年与2007年相比增长率为16%,2009年与2008年相比增长率为20%。
17、求各年的年平均增长率。,年平均增长率114.91%-1=14.91%,47,2023/7/29,【例】某流水生产线有前后衔接的五道工序。某日各工序产品的合格率分别为95、92、90、85、80,求整个流水生产线产品的平均合格率。,分析:,设最初投产100A个单位,则第一道工序的合格品为100A0.95;第二道工序的合格品为(100A0.95)0.92;第五道工序的合格品为(100A0.950.920.900.85)0.80;,48,2023/7/29,因该流水线的最终合格品即为第五道工序的合格品,故该流水线总的合格品应为 100A0.950.920.900.850.80;则该流水线产品总的合格
18、率为:,即该流水线总的合格率等于各工序合格率的连乘积,符合几何平均数的适用条件,故需采用几何平均法计算。,49,2023/7/29,因该流水线的最终合格品即为第五道工序的合格品,故该流水线总的合格品应为 100A0.950.920.900.850.80;则该流水线产品总的合格率为:,即该流水线总的合格率等于各工序合格率的连乘积,符合几何平均数的适用条件,故需采用几何平均法计算。,50,2023/7/29,思考,若上题中不是由五道连续作业的工序组成的流水生产线,而是五个独立作业的车间,且各车间的合格率同前,又假定各车间的产量相等均为100件,求该企业的平均合格率。,简单几何平均数,51,2023
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计数据的描述 统计数据 描述 PPT 课件
链接地址:https://www.31ppt.com/p-5568430.html