《变量分布特征的描述.ppt》由会员分享,可在线阅读,更多相关《变量分布特征的描述.ppt(99页珍藏版)》请在三一办公上搜索。
1、第三章 变量分布特征的描述,变量分布特征,数据分布的测度,峰度,偏态,第三节 平均指标,亦称为趋中性,是指变量分布以某一数值为中心的倾向,一般用平均指标来表示。,一、集中趋势与平均指标,平均指标主要用来表明同质总体中某一标志值,在一定时间、地点条件下所达到的一般水平。其数值表现平均数。,概念,种类,平均指标的种类,从总体各单位变量值中抽象出具有一般水平的量,这个量是根据各个单位的具体标志值计算出来的,有算术平均数、调和平均数、几何平均数等形式。,数值平均数,1、反映时间不同,分为静态和动态平均数。2、取得集中趋势代表值方法的不同,可分为数值平均数和位置平均数。,先将总体各单位的变量值按一定顺序
2、排列,然后取某一位置的变量值来反映总体各单位的一般水平。位置平均数有众数、中位数、四分位数等形式。,位置平均数,算术平均数 计算平均数 调和平均数 静态平均数 几何平均数 位置平均数 众数 平均指标 中位数 发展水平平均数 动态平均数 发展速度平均数,平均指标的作用,(1)通过反映变量分布的一般水平,帮助人们对研究现象的一般数量特征有一个客观的认识。(2)利用平均指标可以对不同空间的发展水平进行比较。(3)利用平均指标可以对某一现象总体在不同时间上的发展水平进行比较,以说明这种现象发展变化的趋势或规律性。(4)利用平均指标可以分析现象之间的依存关系或进行数量上的推算。(5)平均指标还可以作为研
3、究和评价事物的一种数量标准或参考。,二、数值(计算)平均数,数值平均数,调和平均数,算术平均数,几何平均数,(一)算术平均数,算术平均数一般就称为平均数(mean)。其定义是:观察值的总和除以观察值个数的商,或标志总量与总体单位总数的比值。在实际工作中,由于所掌握的统计资料的不同,利用上述公式进行计算时,可分为简单算术平均数和加权算术平均数两种。1.简单算术平均数(Simple Arithmetic Mean)2.加权算术平均数(Weighted Arithmetic Mean),1.简单算术平均数,简单算术平均数的公式根据未经分组整理的原始数据计算的均值。设一组数据为x1,x2,x3,xn.
4、则简单算术平均数的计算公式如下:,例1:据南方人才服务中心调查,从事IT行业的从业人员年薪在40000-55000元之间,表中的数据是IT从业人员年薪的一个样本:24名IT从业人员年薪资料表,计算IT从业人员的平均年薪,2.加权算术平均数,根据分组整理的数据计算的算术平均数。加权算术平均数的公式,式中:f代表各组变量值出现的频数。,设某厂职工按日产量分组后所得组距数列如下,据此求平均日产量。,(1)算术平均数的大小,不仅取决于研究对象的变量值(x),而且受各变量值重复出现的频数(f)或频率(ff)大小的影响,频数或频率较大,该组数据的大小对算术平均数的影响就大,反之则小。(2)权数的表现形式问
5、题,注意点,例3:,3.算术平均数的数学性质,(1)各变量值与其算术平均数的离差之和等于零.,(2)各变量值与其算术平均数的离差平方和最小.,(3)两个独立的同性质变量代数和的平均数等于各变量平均数的代数和.,(4)两个独立的同性质变量乘积的平均数等于各变量平均数的乘积.,4.算术平均数的优缺点,优点 1、可用于推算总体标志总量。2、代表性强。3、可以进行代数运算。4、在抽样中具有良好的稳定性和可靠性。缺点 1、当总体中个别单位标志值特别大或特别小时,会导致算术平均数偏大或偏小。2、当组距数列有开口组时,组中值有较大假定性。,(二)调和平均数,小学四年级的算术题:一辆小车以每小时80公里的速度
6、从山下开到山顶,又以每小时100公里的速度沿原路返回到山下,问:该车的平均速度。,80km/h,100km/h,链接例子:F1比赛时,A车手第一圈时速300公里,第二圈时速340公里,B车手第一圈时速320公里,第二圈时速318。请问:只赛两圈谁获胜?,问题的解答:速度=距离/时间,故平均速度=总距离/总时间。,推广:如果该车山下山顶来回开,n次的速度分别为x1,x2,x3,xn,则平均速度就成为:,这一计算方式被定义为“调和平均数”(H)。,变量值倒数的算术平均数的再倒数,故又称为倒数平均数,1、简单调和平均数,(1)作为算术平均的变形,例1:三种不同等级的青菜,每公斤单价分别为2元、4元、
7、5元。每种等级各买1元,则均价是多少?,例2:某人在30元/股、50元/股、100元/股的三个不同价位各买进“贵州茅台”股票6000元,则所持该股票的均价是多少?,定义:调和平均数是变量值倒数的算术平均数的倒数。又称倒数平均数。调和平均通常是作为算术平均数的变形来使用的。但一些特殊的领域,如综合评价,调和平均却是一种独立的统计平均数,有着特定的应用价值。,例1等价于:三种等级的青菜单价分别为2元/公斤、4元/公斤、5元/公斤,分别购买0.5公斤、0.25公斤、0.2公斤,要求计算平均价格。等价的计算方式是:,例2等价于:A股票30元/股时买了200股,50元/股时买了120股,100元/股时买
8、了60股。要求计算股票均价。等价的计算方式是:,显然,此二例资料形式改变一下,就成为加权算术平均公式。可见算术平均与调和平均在此时是等价的。,(2)作为独立公式运用,在统计综合评价领域,调和平均是一种独立的合成方法。在计算一些变量值的平均值时,如果不考虑变量值本身的物理含义,调和平均与算术平均、对数平均、海伦平均、平方平均、几何平均一样,是独立的平均数公式。,例1:计算1与2的调和平均。,例2:编制价格总指数时,代表品1的价格指数是110%,代表品2的价格指数是105%,则可用两者的调和平均值作为这一小类的价格指数。,例3:甲员工的“德”、“才”、“能”测量分值分别是90分、86分、84分;乙
9、员工的“德”、“才”、“能”测量分值分别为84分、98分、78分。要求采用简单调和平均方法计算并比较甲、乙两人的综合素质。,2、加权调和平均数,例1:法拉利队的车王迈克尔舒马赫在2004年9月初的一次试车中(F2004),以每小时320公里的速度开了52圈,以每小时345公里的速度开了35圈,而队友巴里切罗以每小时322公里的速度开了45圈,以每小时337公里的速度开了42圈,求两人各自的平均车速。,例2:三种不同等级的青菜分别买5元、6元、10元,单价分别为2元/公斤、4元/公斤、5元/公斤,则平均价格是多少?,(1)加权调和平均数的基本公式,(2)加权调和平均公式的应用作为算术平均的变形,
10、当 mi=xifi 时,有:,(3)加权调和平均公式应该注意的几个问题,第一,与加权算术平均公式类似,加权调和平均公式的权数也有两种类型:绝对权重与比重权重,相应就有两种不同形式的加权方式.,调和平均数的权数不是“次数”而是各组的标志值。,绝对权重,比重权重,第二,计算加权调和平均值时,同样需要注意选择合适的x,以及合适的权重m.,应该以组平均作为x,若无,则用组中值近似代表。,权重m应该是具有实际意义的“各组标志总量”。,第三,调和平均与算术平均的正确选择问题,作为算术平均数变形,调和平均数主要用于“平均数的平均”与“相对数的平均”计算之中。如果掌握了变量值,以及该变量的分子资料时,需要通过
11、基本数量关系推导出分母数值,此时即为“加权调和平均”。,第四,简单调和平均与加权调和平均的关系,简单调和平均是加权调和平均的一个特例,当权数全部相等时,即:,M1=m2=m3=m n,1调和平均数易受极端值的影响,且受极小值的影响比受极大值的影响更大。2只要有一个变量值为零,就不能计算调和平均数。3当组距数列有开口组时,其组中值即使按相邻组距计算了,假定性也很大,这时,调和平均数的代表性就很不可靠。4调和平均数应用的范围较小。,第五,调和平均的特点,某鱼傩有两种鲫鱼:大的每公斤18元,小的每公斤12元,并不能还价。一顾客欲各买一条,但提出两条一起称,每公斤15元,鱼摊主答应。问谁占便宜?,思考
12、题:,3.由相对数或平均数计算平均数,(1)由相对数计算平均数 例1:设有某行业150个企业的有关产值和利润资料如表所示,计算该行业一、二季度的平均产值利润率。,计算第一季度的平均产值利润率,应该采用实际产值加权,进行算术平均,即有:,而计算第二季度的平均产值利润率,则应该采用实际利润加权,即有:,例2:计算下表企业的平均计划完成程度,(2)由平均数计算平均数,例3:某车间各班组工人的平均劳动生产率和实际工时数据如表所示,要求计算车间平均劳动生产率,我们掌握的资料是平均数的母项数值即实际工时数,因而应该以实际工时数为权数,采用加权算术平均数的形式来计算平均劳动生产率。,平均劳动生产率(件/工时
13、),实际工时,实际产品总量(件),车间平均劳动生产率,(件/工时),=,=,(三)几何平均数(Geometric Mean),几何平均数也称几何均值,它是n个变量值乘积的n次方根。适用对象:现象的总比率是若干项变量的乘积,或现象的总发展速度是各时期发展速度的连乘积时,计算平均比率或平均发展速度。,1.简单几何平均数(Simple Geometric Mean),直接将n项变量连乘,对其连乘积开n次方根所得的平均数即为简单几何平均数。计算公式为:,例1:某企业的一条生产流水线有四道工序,每一道工序完成的产品都要作一次质量检查,只有合格的中间件才进入下一道工序。,请问:平均合格率=?,所谓平均“合
14、格率”,是指每一道工序合格率是相同的。这也就是说,如果记“平均合格率为G,则只有”四道工序全部合格的产品才是合格的,因而,有以下等式:,设某投资者从朋友处借得一笔高利贷,以季度为结算单位,每个季度生成的利息到期自动转为本金,一年连本带利付清。一年下来,第一季度的利率是3%,第二季度的利率是3.2%,第三季度的利率是3.6%,第四季度的利率是2.8%。问:平均利率是多少?,解答:本题需要注意的是,不能够直接对利率进行几何平均,而应该通过连本带利计算,即若借款总额为L万元,则一年之后的付款额(本息和)为:,如果季度平均利率为G,则应该有:,2.加权几何平均数(Weighted Geometric
15、Mean),与算术平均数一样,当资料中的某些变量值重复出现时,相应地,简单几何平均数就变成了加权几何平均数。计算公式为:,式中:fi代表各个变量值出现的次数。,几何平均数特点1几何平均数受极端值的影响较算术平均数小。2如果变量值有负值,计算出的几何平均数就会成为负数或虚数。3它仅适用于具有等比或近似等比关系的数据。4几何平均数的对数是各变量值对数的算术平均数。,几何平均数、算术平均数和调和平均数的关系,幂平均函数,例:在对某一企业领导集体中的五名成员的“综合素质”进行综合评价时,假设指标体系由两个子系统构成:“德子系统”和“才子系统”,经过汇总,得到五位领导成员德、才的评价当量值(百分制),结
16、果如下表所示。假设“德”、“才”两方面是等权的。分别用不同平均方法来比较这五名领导,结论:,(1)算术平均是一种“取长补短式的平均”(折衷型平均);(2)调和平均是一种“惩罚落后式的平均”,体现了“鼓励均衡发展”的评价要求(惩罚型平均);调和平均是一种比几何平均惩罚力度更强的“惩罚型平均”(3)平方平均是一种“抓大放小式的平均”,体现了“鼓励搞突 出抓重点”的评价原则(激励型平均)。实践中可以根据“奖罚程度”的不同要求而灵活选择一个 适当的k值。(4)上述性质是针对“平均值越大越好”的情形。对于平均值越小越好的现象,上述结论相反。,三、位置平均数,位置平均数,就是根据总体中处于特殊位置上的个别
17、单位或部分单位的标志值来确定的代表值,它对于整个总体来说,具有非常直观的代表性,因此,常用来反映分布的集中趋势。常用的众数、中位数。,(一)中位数与分位数,1.中位数(Median)的含义中位数是将数据按大小顺序排列起来,形成一个数列,居于数列中间位置的那个数据就是中位数。中位数用Me表示。,在一个等差数列或一个正态分布数列中,中位数就等于算术平均数。,2.中位数的计算,确定中位数,必须将总体各单位的标志值按大小顺序排列,最好是编制出变量数列。这里有两种情况:A.对于未分组的原始资料,首先必须将标志值按大小排序。设排序的结果为:,例1:24名IT从业人员年薪资料表如下所示,计算该24名IT人员
18、的中位数,排序得:,中位数的位置在(24+1)/2=12.5,中位数在第12个数值(49800)和第13个数值(49900)之间,即 Me=(49800+49900)/2=49850(元)。,B.由分组资料确定中位数()由单项数列确定中位数,直接按 的公式求出中位数所在组的位置,计算累计次数确定中位数所在的组,组值即是中位数。,()由组距数列确定中位数,应先按 的公式求出中位数所在组的位置,然后再按下限公式或上限公式确定中位数。,Sm1-中位数所在组以下的累计次数。Sm+1-中位数所在组以上的累计次数。,例3:某企业50名工人加工零件中位数计算表,计算50名工人日加工零件数的中位数,Sm-1,
19、Sm+1,中位数特点A中位数是以它在所有标志值中所处的位置确定的全体单位标志值的代表值,不受分布数列的极大或极小值影响,从而在一定程度上提高了中位数对分布数列的代表性。B缺乏敏感性。,2.分位数,分位数是将变量的数值按大小顺序排列并等分为若干部分后,处于等分点位置的数值。常用的分位数有四分位数、十分位数和百分位数,根据中位数的原理,你能写出四分位数的公式吗?,(二)众数(Mode),1.众数的含义众数是指总体中出现次数最多的那个标志值。用Mo表示。它主要用于定类(品质标志)数据的集中趋势,当然也适用于作为定序(品质标志)数据以及定距和定比(数量标志)数据集中趋势的测度值。众数也不受数列中极端变
20、量值的影响,它可反映总体各单位某一标志值的集中趋势。,2.众数的计算(众数的不唯一性),无众数原始数据:10 5 9 12 6 8,一个众数原始数据:6 5 9 8 5 5,多于一个众数原始数据:25 28 28 36 42 42,数值型分组数据的众数(要点及计算公式),A.众数的值与相邻两组频数的分布有关,D.该公式假定众数组的频数在众数组内均匀分布,B.相邻两组的频数相等时,众数组的组中值即为众数,C.相邻两组的频数不相等时,众数采用下列近似公式计算,例:根据表中的数据,计算50名工人日加工零件数的众数,组距数列确定众数的方法,下限公式,上限公式,众数特点1众数不受分布数列的极大或极小值的
21、影响.2当分组数列没有任何一组的次数占多数,而是近似于均匀分布时,则该次数分配数列无众数。若将无众数的分布数列重新分组或各组频数依序合并,又会使分配数列再现出明显的集中趋势。,3如果与众数组相比邻的上下两组的次数相等,则众数组的组中值就是众数值;如果与众数组比邻的上一组的次数较多,而下一组的次数较少,则众数在众数组内会偏向该组下限;如果与众数组比邻的上一组的次数较少,而下一组的次数较多,则众数在众数组内会偏向该组上限。4缺乏敏感性。这是由于众数的计算只利用了众数组的数据信息,不象数值平均数那样利用了全部数据信息。,(三)中位数、众数和算术平均数的关系,在对称分布(即正态)时在右偏时 在左偏时
22、适度偏态时,众数与算术平均数的距离约为中位数与算术平均数距离的3倍,对称分布,右偏分布,左偏分布,一组工人的月收入众数为700元,月收入的算术平均数为1000元,则月收入的中位数近似值是:,第四节 标志变异指标,一、离中趋势和离散指标离中趋势,就是变量分布中各变量值背离中心值的倾向。如果说集中趋势是总体或变量分布同质性的体现,那么离中趋势就是总体或变量分布变异性的体现。离散指标就是反映变量值变动范围和差异程度的指标,即反映变量分布中各变量值远离中心值或代表值程度的指标,亦称为变异指标或标志变动度指标。,离散指标是衡量平均指标代表性的尺度。一般来讲,数据分布越分散,变异指标越大,平均指标的代表性
23、越小;数据分布越集中,变异指标越小,平均指标的代表性越大。常用的变异指标有:全距、平均差、方差和标准差、变异系数。,变异指标的作用,用变异指标衡量和比较平均指标的代表性。用变异指标反映经济活动过程的均衡性、稳定性和节奏性。变异指标为统计推断提供依据。,二、离散指标的测度,(一)全距(Range)全距(R)也称为极差,是指总体各单位的两个极端标志值之差,即:R最大标志值最小标志值 特点(优点与缺点)(1)简明;(2)只反映变异范围;(3)只受两个数值影响;最容易受极端值影响。没有反映中间数值的影响,没有反映分布情况。,例1:有两个学习小组的统计学开始成绩分别为:第一组:60,70,80,90,1
24、00第二组:78,79,80,81,82很明显,两个小组的考试成绩平均分都是80分,但是哪一组的分数比较集中呢?如果用全距指标来衡量,则有R甲1006040(分)R乙82784(分)这说明第一组资料的标志变动度或离中趋势远大于第二组资料的标志变动度。,(二)四分位差四分位差是四分位数中第一个四分位数与第三个四分位数之差,也称为内距或四分间距,通常用 表示,即:,(三)平均差(Mean Deviation),平均差是总体各单位标志值对其算术平均数的离差绝对值的算术平均数。特点(1)反映了全部标志值的变动情况;(2)受平均数水平高低、计量单位(不同性质的现象)影响;(3)取绝对值的方法消除离差正负
25、号,不便于代数处理。,在资料未分组的情况下,平均差的计算公式为:,在资料已分组的情况下,要用加权平均差公式:,例2:某厂按月收入水平分组的组距数列如表所示,计算平均差,例1:以甲组学生数学成绩为例,平均差如下:A.D=,解:根据公式列表计算,得到A.D=由于平均差采用了离差的绝对值,不便于运算,这样使其应用受到了很大限制。,(五)方差(Variance)与标准差(Standard Deviation),方差和标准差是测度数据变异程度的最重要、最常用的指标。方差是各个数据与其算术平均数的离差平方的平均数,通常以2表示。标准差又称均方差,一般用表示。方差和标准差的计算也分为简单平均法和加权平均法。
26、,设方差为,对于未经分组整理的原始数据,方差的计算公式为:,1.方差和标准差,对于分过组的数据,方差的计算公式为:,方差的平方根即为标准差,其相应的计算公式为:未分组数据:分组数据:,甲乙两组工人日产量标准差计算表,(件),(件),某村劳动力全年劳动情况,(天),在实际计算方差时,可以采用另一种较为简便的方法:方差和标准差也是根据全部数据计算的,它反映了每个数据与其均值相比平均相差的数值,因此它能准确地反映出数据的离散程度。,(六)离散系数(Coefficient of Variation),上面介绍的各离散程度测度值都是反映数据分散程度的绝对值,其数值的大小依赖于两方面:一、原变量值本身水平
27、高低的影响。二、它们与原变量值的计量单位相同,采用不同计量单位计量的变量值,其离散程度的测度值也就不同。,因此,对于平均水平不同或计量单位不同的不同组别的变量值,是不能直接用上述离散程度的测度值直接进行比较的。为了消除变量值水平高低和计量单位不同对离散程度测度值的影响,需要计算离散系数。离散系数也称为标准差系数,它是一组数据的标准差与其相应的均值之比,是测度数据离散程度的相对指标。,其计算公式为:,V表示总体离散系数。离散系数要是用于对不同组别数据的离散程度进行比较,离散系数大的说明该组数据的离散程度也就大,离散系数小的说明该组数据的离散程度也就小。,例1:甲乙两个城市的居民年收入情况表中前三
28、栏的数据来看,乙城市不仅人均年收入两倍于甲城市,而且收入的差距也似乎显著于甲城市.但通过计算标准差系数可以看出:乙城市的实际收入差距相对于它的平均收入来说,比甲城市要低的多.或者说,以居民对收入收入差距所承受的压力而言,甲城市要比乙城市高得多.,火箭队每场比赛失误的均值是5.6分,全赛季失误的标准差是10分,马刺队每场比赛失误的均值是4.2分,全赛季失误的标准差是10分.你认为以下哪一种叙述是正确的()火箭队比马刺队打较多失误少的球火箭队比马刺队在失误上比较稳定火箭队有时表现很差,有时又非常好马刺队很少不失误,是非标志的平均数和标准差,是非标志,又称交替标志,它是用“是”“否”或“有”“无”来
29、表示的。由于是非标志只有两个标志表现,使得研究问题大为简化。常用1表示具有某种标志表现,其单位数用N1表示,用0表示不具有某种标志表现,其单位数用N0表示,全部总体单位数用N表示。这两部分单位数(N1和N0)在总体单位数(N)中所占的比例,即“是”或“非”的单位数在全体单位数中所占比例,称为“成数”,分别记为p和q。,总体中具有某种标志表现的单位数的成数 pN1N 总体中不具有某种标志表现的单位数所占的成数 qN0N,是非标志的算术平均数为:是非标志的标准差为:,是非标志的标准差系数:例1:某批产品共500件,其中合格品480件,不合格品20件,要求计算成数、标准差和标准差系数。P=480/5
30、00=96%Q=20/500=4%标准差:(0.96*0.04)0.5=0.196 标准差系数:0.196/0.9620.41,是非标志的均值为p(对于“是”而言)是非标志的方差为p(1-p)=pq。是非标志的标准差,分布形状的描述,一、分布形状和形状指标 形状指标就是反映变量分布具体形状,即左右是否对称、偏斜程度与陡峭程度如何的指标。,对称性,陡峭性,反映变量分布偏斜程度的指标,称为偏度系数,反映变量分布陡峭程度的指标,称为峰度系数,偏度的测定是通过计算偏度系数来实现的,通常用 来表示。偏度系数的计算主要有以下三种方法:,(一)利用算术平均数与众数或中位数的离差求偏度系数,二、偏度系数,=,
31、一般情况下,偏度系数的变动范围为(3,3)。当时,为正值,变量分布属于正偏;当时,为负值,变量分布属于负偏;当=时,为0,变量分布属于无偏(即对称分布)。的绝对值越接近于3,表明变量分布的偏斜程度越严重;的绝对值越接近于0,表明变量分布的偏斜程度越轻微。,2.偏度系数,(m3三阶中心矩),定义M=(X-A)k/n为变量X关于A的k阶矩。,当A=0,即以原点为中心,上式称为“K阶原点矩”。,K=1,2,3时,有:,一阶原点矩M1=(X-0)1/n=X/n二阶原点矩M2=(X-0)2/n=X2/n三阶原点矩M3=(X-0)3/n=X3/n,当A=,即以 为中心,上式称为“K阶中心矩”。,K=1,2,3时,有:,一阶中心矩二阶中心矩三阶中心矩,所以,m3可以测定偏度。为消除量纲,转变为系数,再除以3。,0正偏态,计算标准分,即将原始分数X经过线性变换转变为标准分Z。反映各原始分的平均数为中心的相对位置。,X,O,任何原始分在总体中的位置,用Z倍的来测定。,
链接地址:https://www.31ppt.com/p-5943341.html