常用统计量二:差异量.ppt
第二章 常用统计量之二:差异量数,人文院:滕瀚,问题:假设有两组数据 甲组为8,9,10,13,13,14,14,15,其均数为12;乙组为3,5,5,7,9,13,21,33,其均数也为12。试问这两列数据的分布一样吗?为什么?哪一组平均数的代表性更好一些呢?,一、方差与标准差,(一)离均差(d)和平均差(AD)d=AD=d:每个数据()与其平均数()的差距大小或离开平均数的距离(),即每个数据离均差(简称离差,源于英文deviation from mean)的大小 AD是次数分布中所有原始数据与平均数距离的绝对值的平均。,例:有5名被试的错觉实验数据如下,求其平均差。,表3-1 方差的含义与计算表,象表示一列数据一般水平时需将各个数据进行平均一样,表示一列数据离均差的一般水平亦需将各个离均差进行平均。这是因为一列数据的离均差有大有小,而作为该列数据差异水平大小的一个最好代表值是离均差的平均数,即有,AD=,问题:求离均差的平均数,首先需求出每一列数据的离均差,如表4-1第3栏和第6栏。但是离均差有正有负,正负抵消,离均差的和为0,即,则离均差的平均数()也为0,计算结果无意义。,问题的解决:方差和标准差!,为了使离均差之和不为0,我们可采用代数的处理方法,对每一个离均差进行平方后再求和,即先求离均差的平方,即;再将所有离均差平方相加求和,即,详见第4栏和第7栏;最后再求离均差平方算术平均数,即为方差 方差是对一列数据的平均差距进行了平方,要还原为一列数据的平均差距则需开平方根,标准差(Standard Deviation)就是方差的算术平方根,表示一列数据的平均差距。样本标准差用S或SD表示。,方差(variance):离均差平方和的算术平均数,符号为S 2或SD 2(样本方差)。方差又称变异数,有时用符号V(Variation)表示,或称均方差、均方(Mean Square Deviation)。,标准差(standard deviation):方差的正的平方根,即离均差平方和求算术平均数后的正的平方根,符号为S或SD。,总体方差总体标准差,总体方差的无偏估计量总体标准差的无偏估计量,方差或标准差能够很好地度量数据的变异性,如果数据越集中,方差或标准差的值就越小;反之,数据越分散,方差或标准差的值就越大。值得注意的是这种比较需在平均数相等的条件才能进行,若两列数据的平均数不同,尤其平均数相差悬殊时则不能进行这种比较,需要其他的方法进行比较。,(二)方差和标准差的分析方法 方差与标准差的计算有多种方法,如定义式,原始数据式和加权式等计算方法。1、定义式 根据上述方差和标准差定义进行的计算,即有,样本方差的计算,=,样本标准差的计算,-1,-1,-1,-1,教材p44公式213和214,2、计算式,一方面是因为其计算过程较多、较繁杂,另一方面则因为平均数的计算出现小数时,离均差及离均差平方的计算过程需四舍五入,由此会损失一部分数据信息,造成计算结果的欠准确。计算式是直接利用原始数据计算方差和标准差的方法,它不仅可以克服这些缺陷,而且也方便计算机编程,其公式为,3、加权式(次数分布整理之后的方差计算),例3-:某班32名学生的创造性思维测验成绩如表4-3所示,试问该班学生创造性思维测验分数的平均差距是多少?或标准差是多少?,表3-2 学生创造性思维成绩分布表,1)求各组次数与组中值的乘积()及乘积和(),见表4-3的第4行。,2)求平均数,3)求各组的离均差()及各组的离均差平方,见表4-3的第5行和第6行。,4)求各组的次数与离差平方的乘积 及其连加和,见表3-2的第7行。,5)代入公式,计算结果,4、方差和标准差的组合,若已知各组数据的方差或标准差计算总方差或总标准差,则需要进行方差或标准差的组合,其公式为,方差,标准差,式中 为小组方差,n为小组人数,d为组平均数与总平均数的离差(即),例:有四个学习小组参加英语竞赛,经初步统计四个学习小组竞赛成绩统计量如表3-3所示,试问其总平均数和总标准差是多少?,表3-3 四个学习小组英语竞赛成绩统计量,分析过程,1)求总平均数,2)求离差d和离差的平方,3)代入公式,计算结果,(三)方差与标准差的性质,用途:1.反映变量值的离散程度;2.进行统计估计和假设检验;3.用于求正常范围;4.计算变异系数,标准分数和标准误等,标准差的应用:异常值的取舍,在一个正态分布中,平均数上下一定的标准差处,包含有确定百分数的数据个数。根据这个原理,在整理数据时:数据较多时:常采用三个标准差法则,进行取舍数据,即如果有一个数据的取值落在平均数加减三个标准差之外,则在整理数据时,可将此数据作为异常值加以取舍。、,二、差异系数,标准差使用前提:测量变量同质且样本间均值相同(或差异不大)。问题:我们常常会遇到:(1)两个或两个以上样本所测的特质不同;(2)两个或两个以上样本所测的特质相同,但样本间水平相差较大,这时不能用绝对差异量来比较不同样本的离散程度,而应使用相对差异量数。(一)差异系数(Coefficient of Variation)又叫变异系数、标准差系数,是一种相对差异量,常用CV或CVs表示,其计算公式:CV=(S/X)100%。S:样本标准差 X:样本平均数,(二)差异系数的应用,标准差系数不仅可以用于比较单位不同数据的差异程度,而且还可以用于比较单位相同平均数相差较大数据的差异程度等。标准差系数在教育与心理研究中的应用主要有以下三个方面。1比较测量单位不同事物的差异程度例3-1:某幼儿园大班儿童的平均体重为22公斤,标准差为3.7;平均身高为108厘米,标准差6.2厘米。试问该班幼儿身高和体重哪方面的差异程度大一些?,结果表明,该班幼儿身高方面的差异程度远远大于体重,就是说该班幼儿在体重方面的分布比较均匀或整齐,在身高方面的分布则不太均匀或整齐,即幼儿高矮差距较大。,2比较测量单位相同,均数相差悬殊数据的差异程度 例3-:初一甲、乙两班的学生在一次数学测验后,算得甲班平均成绩92分,标准差8.95;乙班平均成绩71分,标准差7.40分。试问两个班谁的数学成绩更整齐一些?,结果表明,甲班数学成绩的差异程度小于乙班,其成绩比乙班整齐一些。若从直接标准差来看,似乎甲班的差异程度大于乙班。之所以两种分析结果不同,是因为两班的平均成绩差距太大,有21分之差。,标准差系数是由标准差和平均数构成的一种比数,因此,它既受标准差的影响,又受平均数的影响。在用标准差系数说明事物的差异程度时,除了列出标准差系数的数值外,还必须同时列举其均数和标准差。,例3-:某学校高考语文科平均分为63分,标准差为11分,数学平均分为75分,标准差为12分,试比较该校考生哪一科离散程度大。解:CV语=11/63100%=17.5%CV数=12/75100%=16%CV语 CV数 语文课的离散程度更大。,3判断班内学习分化的情况在教育教学中,防止出现差生或学习困难的学生,使所有学生得到充分发展,提高教学质量是教育者所追求终极目标。在班级管理中,教师或管理者对学生学习的分化主要是通过判断学生的两极端分数或通过简单的平均数来进行的,这种方式难以准确、全面地判断一个班内学习分化的程度,尤其是各科学习分化的情况,差异系数则可解决这一问题。用差异系数来判断学习分化程度是把实践经验和理论分析结合起来,确定相应的判断标准。这种标准的确定从两方面进行,一是规定无分化现象的指标,二是规定有分化现象的指标,两种指标的中间状态亦可看作一种指标,从而形成一评价学习分化的三种指标。一是无分化现象的指标,即 9%。因为根据经验,一般认为学生成绩在60100之间是合格的,亦可视为无分化现象,而其平均分则为80,设均数上下各有3个标准差,即6080之间有3个标准差,80100之间有3标准差,再加上均数本身,80100之间共有7个标准差,即有二是有分化现象的指标,即 20%。三是有分化苗头的指标,即 9%20%。,例3-:某校初三一班各科成绩的差异程度如表4-6所示。试分析该班的成绩分化,以帮助教师采取相应的教学对策和调整或改进教学,帮助管理者监控教学质量和指导教育教学。,表3-6 各科差异系数,三、其它差异量数,方差和标准差、差异系数是最重要的,也是最常用的指标。除此之外,还有全距、平均差等。一、全距(P13):全距是指一列数据最大差距,一列数据中最大数与最小数的差距,又称极差,用符号(Range)表示,其公式为二、平均差(P42)三、百分位差和四分位差,全距和标准差关系,在样本数量相当大(N500)时,标准差约为全距的六分之一,换句话说,全距约六倍于标准差。在小样本中,全距和标准差的比率要小一些。概而言之,在不同样本量的分布中,标准差和全距的比率变化如表2所示。使用标准差与全距之间的这种比率关系,还可对实际计算得到的标准差进行核对,表二:全距与标准差的比率随N变化表,(一)四分位距(quartile range):又名四分位差,指在一组排序的数据中,中间50%的数据的全距的一半,通常用Q来表示。,1/4,1/2,3/4,Q1,Q3,特点与应用:与全距相比,较少受极端数值的影响,且能反映中间数值的分布情况,但由于它也未将全部数据考虑在内,因此也不够可靠,一般只在数据中存在极端值时,才用它和中位数一起反映数据的分布情况。,作业,1甲、乙、丙三名高中学在七门课程的考试成绩及全体考生的平均成绩和标准差如表3-所示,试比较其优劣,对三位考生你有何建议。2、P68第5题,表3-考试成绩统计表,