欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    统计学第四章数据分布特征的测度.ppt

    • 资源ID:6332829       资源大小:564KB        全文页数:64页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    统计学第四章数据分布特征的测度.ppt

    第四章 数据分布特征的测度,第一节 集中趋势的测度 第二节 离散程度的测度 第三节 偏态与峰度的测度,对统计数据进行排序、分组、整理,是对数据的分布特征进行描述的一个基本方面,为进一步掌握数据分布特征及其变化规律,以进行深入的分析,还需找出反映数据分布特征的各个代表值。统计学中刻划数据分布特征的最主要的代表有二:数据分布的集中趋势与数据分布的离散程度。,排序分组整理表述,统计数据,寻找反映数据分布特征的代表值:集中趋势;离散趋势,第一节 分布集中趋势的测度,集中趋势是指一组数据向某一中心值靠拢的倾向,测度集中趋势就是寻找数据一般水平的代表值或中心值。均值中位数众数,均值(概念要点),1.集中趋势的测度值之一2.最常用的测度值3.一组数据的均衡点所在4.易受极端值的影响5.用于数值型数据,不能用于定类数据和定序数据,均值(计算公式),设一组数据为:X1,X2,XN 简单均值的计算公式为,设分组后的数据为:X1,X2,XK 相应的频数为:F1,F2,FK加权均值的计算公式为,简单均值(算例),原始数据:10591368,加权均值(算例),【例】根据表中的数据,计算50 名工人日加工零件数的均值,加权均值(权数对均值的影响),甲乙两组各有10名学生,他们的考试成绩及其分布数据如下 甲组:考试成绩(X):0 20 100 人数分布(F):1 1 8 乙组:考试成绩(X):0 20 100 人数分布(F):8 1 1,均值(数学性质),1.各变量值与均值的离差之和等于零,2.各变量值与均值的离差平方和最小,调和平均数(概念要点),1.集中趋势的测度值之一2.均值的另一种表现形式3.易受极端值的影响4.用于定比数据5.不能用于定类数据和定序数据6.计算公式为,原来只是计算时使用了不同的数据!,调和平均数(算例),【例】某蔬菜批发市场三种蔬菜的日成交数据如表所示,计算三种蔬菜该日的平均批发价格,几何平均数(概念要点),1.集中趋势的测度值之一2.N 个变量值乘积的 N 次方根3.适用于特殊的数据4.主要用于计算平均发展速度5.计算公式为,6.可看作是均值的一种变形,几何平均数(算例),【例】一位投资者持有一种股票,1996年、1997年、1998年和1999年收益率分别为4.5%、2.0%、3.5%、5.4%。计算该投资者在这四年内的平均收益率。,平均收益率103.84%-1=3.84%,中位数,中位数是一组数据按大小排序后,处于中间位置上的变量值。,未分组数据的中位数(计算公式),定序数据的中位数(算例),【例】根据表中的数据,计算甲城市家庭对住房满意状况评价的中位数,解:中位数的位置为:300/2150从累计频数看,中位数的在“一般”这一组别中。因此 Me一般,数值型未分组数据的中位数(5个数据的算例),原始数据:24 22 21 26 20排 序:20 21 22 24 26位 置:1 2 3 4 5,中位数 22,数值型未分组数据的中位数(6个数据的算例),原始数据:10 5 9 12 6 8排 序:5 6 8 9 10 12位 置:1 2 3 4 5 6,中位数,8+9,2,8.5,首先需确定中位数所在的组,然后可根据下列公式计算中位数:下限公式:,数值型分组数据的中位数,式中:m为中位数所在的组,d为该组组距,L、U分别为该组的下限值与上限值,fm为该组的频数,Sm-1 为该组以下各组的频数总和,Sm+1为该组以上各组的频数总和,显然,上限公式:,例,某班级英语考试成绩分组情况见下表:成绩分组 人数 累计人数 成绩分组 人数 累计人数(分)(分)50以下 2 2 7080 18 35 5060 5 7 8090 9 44 6070 10 17 90以上 6 50,成绩由低往高排,中位数所在组应在第4组,即7080的组,由于L=70,U=80,d=10,而 Sm-1=2+5+10=17,Sm+1=9+6=15,fm=18,故,或,四分位数(概念要点),1.集中趋势的测度值之一2.排序后处于25%和75%位置上的值,3.不受极端值的影响4.主要用于定序数据,也可用于数值型数据,但不能用于定类数据,四分位数(位置的确定),未分组数据:,组距分组数据:,定序数据的四分位数(算例),【例】根据表中的数据,计算甲城市家庭对住房满意状况评价的四分位数,解:下四分位数(QL)的位置为:QL位置(300)/475 上四分位数(QU)的位置为:QU位置(3300)/4225从累计频数看,QL在“不满意”这一组别中;QU在“一般”这一组别中。因此 QL 不满意 QU 一般,数值型未分组数据的四分位数(7个数据的算例),原始数据:23 21 30 32 28 25 26排 序:21 23 25 26 28 30 32位 置:12 3 4 5 6 7,N+1,QL=23,QU=30,数值型未分组数据的四分位数(6个数据的算例),原始数据:23 21 30 28 25 26排 序:21 23 25 26 28 30位 置:1 2 34 5 6,QL=21+0.75(23-21)=22.5,QU=28+0.25(30-28)=28.5,数值型分组数据的四分位数(计算公式),上四分位数:,下四分位数:,数值型分组数据的四分位数(计算示例),QL位置50/412.5,QU位置350/437.5,【例】根据表中的数据,计算50 名工人日加工零件数的四分位数,众数是一组数据中出现次数最多的变量值。例:一组大学班级人数规模的数据(5个班)如下:46、54、42、46、32。因此,众数为46在分组数据中,众数可按下式计算:下限公式:,众数,式中:fm为某数值出现次数(频数)最多的组(第m组)的频数,fm-1与fm+1分别为第m-1组与m+1组的频数,L、U分别为第m组的下限与上限值,d为该组组距。,上限公式:,在班级规模的例中,若按例中给出的分组情况,则该组数据的众数为:,在学生英语成绩例中,次数最多的组也在7080组中,则有 fm=18,fm-1=10,fm+1=9,,或,或,例如在前面购买五类不同品牌 计算机的统计中,曾得到如右表所示 的频数分布表。,注意:,1、如果某组统计数据中没有哪个数值出现较多的频率(次数),则可认为该组数无众数;如果有多个数据出现的次数(频率)较多,则认为有多个众数。在有多个众数的情况下,则对众数的关注度下降,因为多众数对描述数据位置无多大帮助。2、对描述品质数据的分布特征的“位置”测度只能用众数。,Company Frequency Apple 13 Compaq 12Gateway2000 5 IBM 9Packard Bell 11,显然,众数,即个人购买最多的机算机品牌是Apple。在这类数据中,“均值”与“中位数”是没有任何意义的。“众数”提供了频数最高的个人电脑购买品牌。,众数(众数的不唯一性),无众数原始数据:10 5 9 12 6 8,一个众数原始数据:6 5 9 8 5 5,多于一个众数原始数据:25 28 28 36 42 42,众数、中位数和均值的关系,众数、中位数和均值都是对数据集中趋势的测度,1、均值由全部数据计算,包含了全部数据的信息,具有良好的数学性质,当数据接近对称分布时,具有较好的代表性;但对于偏态分布,其代表性较差。2、中位数是一组数据中间位置上的代表值,不受数据极端值的影响,对于偏态分布的数据,其代表性要比均值好。3、众数是一组数据分布的峰值,是一种位置的代表,当数据的分布具有明显的集中趋势时,尤其对于偏态分布,众数的代表性比均值好。4、对接近正态的分布数据,常用均值描述数据的集中趋势;对偏态分布,常用众数或中位数描述数据的集中趋势。5、均值只适用于定距或定比尺度的数据;定序尺度数据可用中位数或众数进行描述,而对定类尺度数据,只能用众数进行描述。,众数、中位数和均值的应用场合,数据类型与集中趋势测度值,第二节 分布离散程度的测度,对数据分布特征的另一个测度指标是数据分布离散程度。它反映各数据远离其中心值的程度,因此,也称离中趋势。集中趋势反映的是各变量值向其中心值聚集的程度,离中趋势反映各变量值之间的差异状况。注意:集中趋势的测度值概括地反映了数据的一般水平,它对该组数据的代表程度,取决于该组数据的离散水平。数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差。,例:如果你是一家制造业公司的供应部门经理,与两家原材料供应商联系供货,两家供应商均表示能在大约10个工作日内供齐所需原材料。几个月的运转之后,你发现尽管两家供货商供货的平均时间都是大约10天,但他们供货所需天数的分布情况却是不同的(如下图所示)。,问:两家供货商按时供货的可信度相同吗?考虑它们直方图的差异,你更愿意选择哪家供货商供货呢?,一、异众比率,1.离散程度的测度值之一2.非众数组的频数占总频数的比率3.计算公式为,4.用于衡量众数的代表性,异众比率(定类数据的算例),【例】根据表中的数据,计算异众比率,二、四分位差,离散程度的测度值之一也称为内距或四分间距上四分位数与下四分位数之差 QD=QU-QL反映了中间50%数据的离散程度不受极端值的影响用于衡量中位数的代表性,四分位差(定序数据的算例),【例】根据表中的数据,计算甲城市家庭对住房满意状况评价的四分位差,解:设非常不满意为1,不满意为2,一般为3,满意为 4,非常满意为5 已知 QL=不满意=2,QU=一般=3四分位差:QD=QU QL=3 2=1,极差是最简单的测度离中趋势(分散程度)的指标,也称全距,是一组数据最大值与最小值之差:Range=Largest Value-Smallest Value 对于组距分组数据,极差可近似地表示为:R=最高组上限-最低组下限 注意:1、极差易受极端值的影响;2、由于极差只利用了数据两端的信息,没有反映中间数据的分散状况,因而不能准确描述数据的分散程度。,三、极差(Range),方差是各变量值与其均值离差(deviation about the mean)平方的平均数。(一)总体方差(Population Variance)总体方差用2表示,四、方差(Variance),其中:Fi为第i组数据的频数 Xi为第i个数(未分组)或第i 组组中值(分组),(二)样本方差(Sample Variance),样本方差用S2表示,其中:fi为第i组数据的频数 xi为第i个数(未分组)或第i 组组中值(分组),样本方差自由度(degree of freedom),一组数据中可以自由取值的数据的个数当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值例如,样本有3个数值,即x1=2,x2=4,x3=9,则 x=5。当 x=5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差2时,它是2的无偏估计量,例:在5个班平均人员的例中,,若视5个班为样本,则,若视5个班为总体,则,对于分组后的数据,若视为总体:,若视为样本:,标准差:方差的平方根(正)。,在五个班级规模的例中:若视5个班为总体,则标准差为7.15,若视5个班为样本,则标准差为8。,总体标准差:,样本标准差:,五、标准差(Standard Deviation),均值,注意:,1、由于方差计算中使用了平方运算,因此方差的单位也是平方,如上述班级规模例中方差为64(学生)2,其具体意义不明确。因此方差只有在比较不同组数据的离散程度时才有数量大小上的意义。2、标准差是对方差的开方运算,因此,其单位与原始数据的单位一致,它与均值及其他用同一单位测度的数据相比较也容易一些。(标准差就是指数据“离散程度的测度值”距“均值”的距离)。,离散系数:一组数据标准差与其均值的比,也称为标准差系数,是测度数据离散程度的相对指标:,例:五个班级规模的例中,若视为总体,离散系数为:7.15/44=0.16,若视为样本,则离散系数为:8/44=0.182。,五、离散系数(Coefficient of Variation),注意:,1、对不同组数据,其离散程度既受其数据本身的水平的影响,也受数据计量单位的影响,因此对不同(性质)组别的数据,不好用离差或标准差来比较它们的离散程度;2、由于离散系数消除了来自这两方面的影响,因此可以用它进行不同数据组的比较。,例:某管理局抽查了其所属的8家企业,其产品销售额与销售利润数据如下表所示,试比较销售额与销售利润的离散程度。企业编号 销售额 销售利润 企业编号 销售额 销售利润(万元)(万元)(万元)(万元)X1 X2 X1 X2 1 170 8.1 5 480 26.5 2 220 12.5 6 650 40.0 3 390 18.0 7 950 64.0 4 430 22.0 8 1000 69.0,计算结果表明,产品销售额的离散程度小于销售利润的离散程度。表明销售利润的差异比销售额的大,数据类型与离散程度测度值,第三节 分布偏态与峰度的测度,偏态(Skewness)和峰度(Kurtosis)是对数据分布特征的进一步描述。平均数与标准差相同的数据组,其频数分配(分布)也可能不同,如果频数分布是对称的,则称为对称分布,否则为偏态分布。,一、偏态及其测度 测定偏态的方法主要有两种:(1)算术平均数与众数比较法,(2)动差法。,(一)算术平均数与众数比较法,完全对称分布:算术平均数、中位数、众数重合 非对称分布:三者相互分离,算术平均数 中位数 众数,可用算术平均数与众数之间的距离作为测度偏态的一个尺度:偏态=算术平均数-众数,这是偏态的绝对数,它以原有数据的单位为单位。,同样地,偏态绝对数不能用来比较不同数据组、不同计量单位数据的偏态程度,为了使不同数据组的偏态数值能相互比较,需计算偏态的相对数:,在计算偏态系数时,如果众数不易计算,可用中位数代替,在上述班级规模例子中,均值为44,众数为46,标准差为7.15,因此,偏态的相对值为,动差又称矩,可用来说明数据频数分布的特征。一般地,取数据中的a点为中心点,所有数据与a之差的k次方的平均数:,称为数据X关于a的k阶动差(k阶矩)。,当,时,数据以算术平均数为中心,上式称为中心k阶动差(矩)。,统计学中常 以中心3阶动差(矩)来测度分布的偏态。,(二)动差法,当a=0时,即数据以原点为中心,上式称为原点k阶动差(矩),偏态是对分布偏斜方向及程度的测度,通过偏斜系数进行测度,3=0时,为对称分布;30时,为正偏(右偏)分布;30时,为负偏(左偏)分布。在上述班级规模的例子中,以中心3阶动差(矩)计算的偏态系数值为:,式中,3表示偏态系数,3是标准差的三次方。因此,该指标是相对指标。,峰度是频数分布的另一重要特点。其测度的是:某种频数分布的曲线与正态分布曲线相比,是尖顶,还是平顶,其尖或平的程度如何。峰度就是频数分布曲线顶端的尖峭程度。峰度的测度,往往以中心4阶动差为基础进行;,二、峰度及其测度,将4阶动差的数值,除以标准差的4次方,化为相对数,就是峰度的测度值,即峰度系数:,经验上,峰度系数为3时,恰为正态分布,因此,,当峰度系数3时,为尖顶分布曲线;当峰度系数接近于1.8时,则频数分布曲线趋向于一条水平线;当峰度系数小于1.8时,为U型曲线。,在上述班级规模的例子中,以中心4阶动差(矩)计算的峰度系数值为,注意:,1、在用动差法计算偏态系数与峰度系数时,对所考察的对象按总体公式测度其方差与标准差。2、偏度与峰度主要用于检查样本的分布是否正态来判断总体的分布是否接近于正态分布。如果样本的偏度接近于0而峰度接近于3,就可以推断总体的分布是接近于正态分布的。,本章小节,集中趋势各测度值的含义、计算方法、特点和应用场合离散程度各测度值的含义、计算方法、特点和应用场合偏态及峰度的测度方法用Excel计算描述统计量,

    注意事项

    本文(统计学第四章数据分布特征的测度.ppt)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开