数据分布特征的测.ppt
第四章 数据分布特征的测度,教学目的与要求:统计平均指标是表明总体数量特征的一个重要指标,它是将总体各单位标志值的差异抽象化,反映总体各单位标志值的一般水平,揭示总体分布的集中趋势。变异指标是反映总体各单位标志值的差异程度,揭示总体分布离中趋势的又一重要数量特征指标。通过本章的学习,要求理解统计平均指标的意义和作用;掌握各种统计平均指标的特点、应用条件、应用范围和计算方法;理解变异指标的意义和作用;掌握各种变异指标的性质和计算方法;能运用变异指标衡量平均数代表性的大小。,教学重点与难点:重点为各种平均指标和变异指标的概念、特点、应用条件、应用范围和计算方法。难点是不同条件下平均指标和变异指标的计算。,统计数据经过整理和显示后,对数据分布的形状和特征就可以有一个大致的了解。为进一步掌握数据分布的特征和规律,进行更深入的分析,还需要找到反映数据分布特征的各个代表值。,对一组数据分布的特征,可以从三个方面进行测度和描述:一是分布的集中趋势,反映各数据向其中心值靠拢和聚集的程度;二是分布的离散程度,反映各数据远离中心值的趋势;三是分布偏态和峰态,反映数据分布的形状。这三个方面分别反映了数据分布特征的不同侧面。,第一节 集中趋势的测度,集中趋势是指一组数据向某一中心值靠拢的倾向,它反映了一组数据中心点的位置所在。测度集中趋势也就是寻找数据一般水平的代表值或中心值。低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据。因此,选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型和特点来确定。,一、分类数据:众数(Mo)众数是指一组数据中出现次数最多的变量值。出现次数最多的变量值 不受极端值的影响 一组数据可能没有众数或有几个众数 主要用于分类数据,也可用于顺序数据和 数值型数据,从分布的角度看,众数是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的数值即为众数。当然,如果数据的分布没有明显的集中趋势或最高峰点,众数也可能不存在;如果有两个最高峰点,也可以有两个众数,见P78图4-1。,二、顺序数据:中位数(Me)和分位数(一)中位数 中位数是一组数据排序后,处于中间位置上的变量值。中位数是一个位置代表值,它主要用于测度顺序数据的集中趋势,当然也适用于作为数值型数据的集中趋势,但不适用于分类数据。,根据未分组数据计算中位数时,要先对数据进行排序,然后确定中位数的位置,其公式为:中位数位置,对于分类型数据,中位数的位置为:中位数位置 若项数为奇数,则居于中间位置的 那个标志值即为中位数。若项数为偶数,则居于中间位置的两项数值的平均数即为中位数。,【例】:9个家庭的人均月收入数据原始数据:1500 750 780 1080 850 960 2000 1250 1630排 序:750 780 850 960 1080 1250 1500 1630 2000位 置:1 2 3 4 5 6 7 8 9 位置=(n+1)2=(9+1)2=5 中位数=1080,【例】:10个家庭的人均月收入数据排 序:660 750 780 850 960 1080 1250 1500 1630 2000位 置:1 2 3 4 5 6 7 8 9 10 位置=(n+1)2=(10+1)2=5.5 中位数=(960+1080)2=1020,对于数值型数据,也可以计算中位数:,(二)分位数 四分位数、十分位数和百分位数分别是用3个点、9个点和99个点将数据4等分、10等分和100等分后各分位点上的值。四分位数,“四分位点”,是通过三个点将全部数据等分为四部分,其中每部分包含25的数据,处在分位点上的数值就是四分位数。,QM,QU,QL,下四分位数,中位数,上四分位数,对于分类数据,各四分位数的位置分别为:,当四分位数的位置不在某一个数值上时,可根据四分位数的位置,按比例分摊四分位数位置两侧数值的差值。,【例】:9个家庭的人均月收入数据原始数据:1500 750 780 1080 850 960 2000 1250 1630排 序:750 780 850 960 1080 1250 1500 1630 2000位 置:1 2 3 4 5 6 7 8 9,QL,QL,QL,QL,QU,QU,QU,QU,【例】:10个家庭的人均月收入数据排 序:660 750 780 850 960 1080 1250 1500 1630 2000位 置:1 2 3 4 5 6 7 8 9 10,三、数值型数据:均值 均值也称为算术平均数,是全部数据的算术平均。均值在统计学中具有重要的地位,是集中趋势的最主要测度值,它主要适用于数值型数据,而不适用于分类和顺序数据。根据所掌握数据的不同,均值有不同的计算形式和计算公式。,(一)算术平均数的基本形式 算术平均数,(二)简单算术平均数 当掌握的资料是未分组的总体各单位的标志值时,则将各单位的标志值简单相加得出标志总量,然后各单位的标志值简单相加得出标志总量,然后在除以总体单位数之和,这种计算平均数的方法称为简单算术平均数。,其公式为:,(三)加权算术平均数 当掌握的资料已经分组,且各组出现的次数 不同时,则采用加权算术平均数。各组的组中值为:M1,M2,Mk,例:某企业某车间工人每天生产产品资料如表4-1:表4-1,根据上表资料,计算平均每人生产产品件数:,简单算术平均数的数值大小只与变量值的大小有关。加权算术平均数的数值大小不仅受各组组中值大小的影响,而且受各组变量值出现的频数及权数大小的影响。如果某一组的权数较大,说明该组的数据较多,那么该组数据的大小对均值的影响就越大,反之则越小。,加权算术平均数应注意几个问题:1、加权算术平均数的权数可以是绝对数,亦可以是比重;上例的权数为绝对数。现举例说明比重权数,例如下表资料:,表4-2,平均每人生产产品件数=,2、根据组距数列计算加权算术平均数 例某企业某车间工人生产产品资料如表4-3:表4-3,用组中值计算出来的平均数,只能是平均数的近似值,而不是平均数的真值。,3、若各组单位数相等,即f1=f2=fn,则加权算术平均数计算公式与简单算术平均数存在下面关系:可见,简单算术平均数是加权算术平均数的一个特例。,(四)算术平均数的数学性质 均值在统计学中具有重要的地位,它是进行统计分析和统计推断的基础。首先,从统计思想上看,均值是一组数据的重心所在,是数据误差相互抵消后的必然性结果。比如对同一事物进行多次测量,若所得结果不一致,可能是由于测量误差所致,也可能是其他因素的偶然影响,利用均值作为其代表值,则可以使误差相互抵消,反映出事物必然性的数量特征。其次,均值具有下面一些重要的数学性质,这些数学性质在实际中有着广泛的应用,体现了均值的统计思想。,算术平均数最重要的两个数学性质是:1.各变量值与平均数的离差之和等于 零,即:简单算术平均数:加权算术平均数:,2.各变量值与平均数的离差的平方和为最小值,即:简单算术平均数:加权算术平均数:证明见P84。,(五)均值的另一种表现形式:调和平均数 调和平均数是算术平均数的另一种表现形式,用表示。在实际工作中,由于所获得的数据的不同,有时不能直接采用均值的计算公式来计算平均数,这就需要使用调和平均数的形式进行计算,二者实质上是相同的,而仅有形式上的区别。,其计算公式为:需要注意的是,当数据中出现“0”时不宜计算调和平均数。,例如,某企业工人月奖金额如表4-4:表4-4,(六)一种特殊的均值:几何平均数 统计几何平均数指标,是指社会经济现象的同质总体在时间上变动速度的平均数。是具有经济意义同质总体的n个环比发展速度连乘积的n次方根。统计几何平均数属于动态平均数。,几何平均数是适用于特殊数据的一种平均数,它主要用于计算比率的平均。当所掌握的变量值本身是比率的形式,这时就应采用几何平均法计算平均比率。在实际应用中,几何平均数主要用于计算社会经济现象的年平均增长率。,设开始的数值为,逐年增长率为,则第n年的数值为:从 到 用n年,每年的增长率都相同,则增长率G就是平均增长率,有,【例某水泥生产企业1999年的水泥产量为100万吨,2000年与1999年相比增长率为9%,2001年与2000年相比增长率为16%,2002年与2001年相比增长率为20%。求各年的年平均增长率。,年平均增长率114.91%-1=14.91%,几何平均数的对数是各变量值对数的算术平均。需要注意的是,当数据中出现零值和负值是不宜计算几何平均数。,四、众数、中位数和均值的比较 众数、中位数和均值是集中趋势的三个主要测度值,它们具有不同的特点和应用场合。(一)众数、中位数和均值的关系 从分布的角度看,众数始终是一组数据分布的最高峰值,中位数是处于一组数据中间位置上的值,而均值则是全部数据的算术平均。,因此,对于具有单峰分布的大多数数据而言,众数、中位数和均值之间有以下关系:(1)当总体内部次数分配呈正态状时,三者合而为一,即三者相等:(2)当总体内部次数分配呈非正态状且右偏时,则(3)当总体内部次数分配呈非正态状且左偏时,则,(二)众数、中位数和均值的特点和应用场合 1.众数 n 不受极端值影响 n 具有不唯一性 n 数据分布偏斜程度较大时应用,2.中位数n 不受极端值影响n 数据分布偏斜程度较大时应用3.均值n 易受极端值影响n 数学性质优良n 数据对称分布或接近对称分布时应用,第二节 离散程度的测度 集中趋势只是数据分布的一个特征,它所反映的是各变量值向其中心值聚集的程度。数据的分散程度是数据分布的另一个重要特征,它所反映的是各变量值远离其中心值的程度。集中趋势的各测度值是对数据一般水平的一个概括性度量,它对一组数据的代表程度取决于该组数据的离散水平。数据的离散程度越大,集中趋势的测度值对该组数据的代表性越差,离散程度越小,其代表性就越好。,一、分类数据:异众比率 异众比率,“离异比率或变差比”,是指非众数组的频数占总频数的比率,计算公式为:式中,为异众比率;为变量值的总频数;为众数组的频数。,异众比率的作用是衡量众数对一组数据的代表程度。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性就越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。主要用于测度分类数据的离散程度,当然,顺序数据以及数值型数据也可以计算异众比率。例题见P90例4.11。,二、顺序数据:四分位差“内距或四分间距”,计算公式为:QD=QU QL 四分位差反映了中间50数据的离散程度,其数值越小,说明中间的数据越集中;数值越大,说明中间的数据越分散。四分位差不受极值的影响,此外,由于中位数处于数据的中间位置,因此四分位差的大小在一定程度上也说明了中位数对一组数据的代表程度。四分位差主要用于测度顺序数据的离散程度,当然对于数值型数据也可以计算四分位差,但不适合于分类数据。例题见P90例4.12。,三、数值型数据:方差及标准差 测度数值型数据离散程度的方法主要有极差、平均差、方差和标准差,其中最常用的方法是方差和标准差。,(一)极差“全距”,它是总体中各单位标志的最大标志值与最小标志值之差。全距(R)最大标志值最小标志值 极差是描述数据离散程度的最简单测度值,计算简单,易于理解,但它容易受极端值的影响。由于极差只是利用了一组数据两端的信息,不能反映出中间数据的分散状况,因而不能准确描述出数据的分散程度。,(二)平均差“平均离差”,是各个标志值对算术平均数的离差的平均数。1对于未分组数据:2对于分组数据:例题见P91例4.13。,平均差以均值为中心,反映了每个数据与均值的平均差异程度,它能全面准确地反映一组数据的离散状况。平均差越大说明数据的离散程度越大,反之则说明数据的离散程度越小。为了避免离差之和等于零而无法计算平均差这一问题,平均差在计算时对离差取绝对值,以离差的绝对值来表示总离差,这就给计算带来不便。同时平均差在数学性质上也不是最优的,因此实际中应用较少。,(三)方差和标准差 方差是各变量值与其均值离差平方的平均数,是测度数值型数据离散程度的最主要方法。样本方差未分组数据:分组数据:,2.标准差:方差的平方根即为标准差。未分组数据:组距分组数据:,与方差不同的是,标准差是具有量纲的,它与变量值的计量单位相同,其实际意义要比方差清楚。因此在对实际问题进行分析时,更多使用标准差。例题见P 93例4.14。,方差或标准差也是根据全部数据计算的,它反映了每个数据与其均值相比平均相差的数值,因此它能准确反映出数据的离散程度。与平均差相比,方差在数学处理上是通过平方消去离差的正负号,更便于数学上的处理。因此,方差和标准差是实际中应用最广泛的离散程度测度值。,四、相对位置的测量:标准分数 有了均值和标准差之后,可以计算一组数据中各个数值的标准分数,并可以用它来判断一组数据中某个数据的相对位置。,(一)标准分数“标准化值或z分数”,它是变量值与其平均数的离差除以标准差后的值,是对每个数据在该组数据中相对位置的测量。是常用的统计标准化公式,在对多个具有不同量纲的变量进行处理时,需要对各变量数值进行标准化处理。见P94例4.15。,标准分数具有均值为0、标准差为1的特性:标准分数只是对原始数据进行了线性变化,它没有改变一个数据在该组数据中的位置,也没有改变该组数据分布的形状,而只是将该组数据变为均值为0,标准差为1。,(二)经验法则 经验法则表明:当一组数据对称分布时 约有68%的数据在平均数加减1个标准差 的范围之内 约有95%的数据在平均数加减2个标准差 的范围之内 约有99%的数据在平均数加减3个标准差 的范围之内,利用标准分数可以判断一组数据中是否存在离群点或离群数据。如果一组数据中某个观察值与其余观察值相比大得反常或小得反常,这个观察值就成为离群点或离群数据。,离群点的产生可能是由于下述原因:该观测值被错误测量、记录或输入计算机 该观测值可能来自另一个总体 该观测值是正确的,不过它代表一个偶然事件。,(三)切比雪夫不等式 如果一组数据不是对称分布,经验法则就不再使用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用,提供的是“下界”,也就是“所占比例至少是多少”,对于任意分布形态的数据,根据切比雪夫不等式,至少有的数据落在k个标准差之内。其中k是大于1的任意值,但不一定是整数。,对于k=2,3,4,该不等式的含义是至少有75%的数据落在平均数加减2个标准差的范围之内至少有89%的数据落在平均数加减3个标准差的范围之内至少有94%的数据落在平均数加减4个标准差的范围之内,五、相对离散程度:离散系数 上面介绍的极差、平均差、方差和标准差等都是反映数据分散程度的绝对值,其数值的大小一方面取决于原变量值本身水平高低的影响,即与变量的均值大小有关,变量值绝对水平高的,离散程度的测度值自然也就大,绝对水平小的离散程度的测度值自然也就小;另一方面,他们与原变量值的计量单位相同,采用不同计量单位计量的变量值,其离散程度的测度值也就不同。因此,对于平均水平不同或计量单位不同的不同组别的变量值,为消除变量值水平高低和计量单位不同对离散程度测度值的影响,需要计算离散系数。,离散系数,“变异系数”,是一组数据的标准差与其相应的均值之比,是测度数据离散程度的相对指标。离散系数通常是就标准差来计算的,因此也成为标准差系数,的计算公式:,离散系数的作用主要是用于比较不同总体或样本数据的离散程度。离散系数大的说明数据的离散程度也有就大,离散系数小的说明数据的离散程度也就小。例题见P97例4.16。数据的类型与所适用的离散程度测度值见P98表4-9。,第三节 偏态与峰度的测度 集中趋势和离中趋势是数据分布的两个重要特征,但要全面了解数据分布的特点,还需要知道数据分布的形状是否对称、偏斜的程度以及分布的扁平程度等。偏态和峰度是对分布形状的测度。,一、偏态及其测度1.统计学家Pearson于1895年首次提出,是对数据分布对称性的测度2.数据分布偏斜程度的测度3.偏态系数=0为对称分布4.偏态系数0为右偏分布5.偏态系数0为左偏分布计算公式为:根据原始数据计算 根据分组数据计算 例题见P99例4.17。,二、峰度及其测度1.统计学家Pearson于1905年首次提出2.数据分布扁平程度的测度3.峰态系数=0扁平峰度适中4.峰态系数0为尖峰分布计算公式:根据原始数据计算 根据分组数据计算 例题见P 101例4.18。,