用样本的数字特征估计总体的数字特征1.ppt
2.2.2 用样本的数字特征估计总体的数字特征(1),如果要求我们根据上面的数据,估计、比较甲,乙两名运动员哪一位发挥得比较稳定,就得有相应的数据作为比较依据,即通过样本数据对总体的数字特征进行研究,用样本的数字特征估计总体的数字特征.,甲运动员得分:12,15,20,25,31,31,36,36,37,39,44,49.乙运动员得分:8,13,14,16,23,26,28,38,39,51,31,29.,一 众数、中位数、平均数的概念,1、众数:在一组数据中,出现次数最多的数据叫做这一组数据的众数。,2、中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或两个数据的平均数)叫做这组数据的中位数。,3、平均数:一组数据的算术平均数,即 x=(x1+x2+xn)/n,例1、某工厂人员及工资构成如下:,(1)指出这个问题中周工资的众数、中位数、平均数,(2)这个问题中,工资的平均数能客观地反映该厂的工资水平吗?为什么?,分析:众数为200,中位数为220,平均数为300。,因平均数为300,由表格中所列出的数据可见,只有经理在平均数以上,其余的人都在平均数以下,故用平均数不能客观真实地反映该工厂的工资水平。,练习:在一次中学生田径运动会上,参加男子跳高的17名运动员的成绩如下表所示:,分别求这些运动员成绩的众数,中位数与平均数,解:在17个数据中,1.75出现了4次,出现的次数最多,即这组数据的众数是1.75上面表里的17个数据可看成是按从小到大的顺序排列的,其中第9个数据1.70是最中间的一个数据,即这组数据的中位数是1.70;,这组数据的平均数是,答:17名运动员成绩的众数、中位数、平均数依次是1.75(米)、1.70(米)、1.69(米).,思考:如何从频率分布直方图中估计众数、中位数、平均数?,例如,在上一节调查的100位居民的月均用水量的问题中,从这些样本数据的频率分布直方图中月均用水量的众数是,2.25t.,(一)、频率分布直方图中众数的获得,1、众数在样本数据的频率分布直方图中,就是最高矩形的中点的横坐标。,1、众数在样本数据的频率分布直方图中,就是最高矩形的中点的横坐标。,众数通常用来表示分类变量的中心值,容易计算,并不受极端数据的影响。,如果我将4.3不小心写成了43,对众数有影响吗?,(二)、频率分布直方图中中位数的获得,中位数是样本数据所占频率的等分线,即在样本中,有50的个体小于或等于中位数,也有50的个体大于或等于中位数,,因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可以估计中位数的值。,0.1,0.2,0.3,0.4,0.5,O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月平均用水量(t),2、中位数是样本数据所占频率的等分线,即在样本中,有50的个体小于或等于中位数,也有50的个体大于或等于中位数,因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可以估计中位数的值。,说明:中位数不受几个极端值(即排序靠前或靠后的数据)的影响。,你高中毕业后招聘会上一家单位打出月工资3000元。,(三)、频率分布直方图中平均数的获得,3、平均数:一组数据的算术平均数,即 x=(x1+x2+xn)/n,直方图中没有原始数据该怎么处理?,从居民月均用水量样本数据可知,该样本的众数是2.3,中位数是2.0,平均数是1.971,这与我们从样本频率分布直方图得出的结论有偏差,你能解释一下原因吗?,众数2.25t.,中位数是2.02.,平均数是2.02.,频率分布直方图损失了一些样本数据,得到的是一个估计值,且所得估值与数据分组有关,由频率分布直方图得到的众数、中位数、平均数估计值往往与样本的实际中位数值不一致.,注:在只有样本频率分布直方图的情况下,我们可以按上述方法估计众数、中位数和平均数,并由此估计总体特征.,三 三种数字特征的优缺点:,1、众数体现了样本数据的最大集中点,但它对其它数据信息的忽视使得无法客观地反映总体特征.如上例中众数是2.25t,它告诉我们,月均用水量为2.25t的居民数比月均用水量为其它数值的居民数多,但它并没有告诉我们多多少.,2、中位数是样本数据所占频率的等分线,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点。如上例中假设有某一用户月均用水量为10t,那么它所占频率为0.01,几乎不影响中位数,但显然这一极端值是不能忽视的。,3、由于平均数与每一个样本的数据有关,所以任何一个样本数据的改变都会引起平均数的改变,这是众数、中位数都不具有的性质。也正因如此,与众数、中位数比较起来,平均数可以反映出更多的关于样本数据全体的信息,但平均数受数据中的极端值的影响较大,使平均数在估计时可靠性降低。,练习1,应该采用平均数来表示每一个国家项目的平均金额,因为它能反映所有项目的信息。但平均数会受到极端数据2200万元的影响,所以大多数项目投资金额都和平均数相差比较大。,练习2、在某校初中学生的一次体检中,随机抽取50名女学生的体重(单位:千克),分组及各组的频数如下30,35,1;35,40,4;40,45,10;45,50,22;50,55),11;55,60,2,试估计该校女生平均体重、中位数及众数。,解:平均体重 X=32.5I/50+37.54/50+42.510/50+47.522/50+52.511/50+57.52/50=46.9中位数为45+510/22=47.3(或 50-512/22=47.3)众数为(45+50)/2=47.5答:该校女生的平均体重为46.9千克,中位数为47.3,众数为47.5,小结:一、众数、中位数、平均数的概念,1、众数:在一组数据中,出现次数最多的数据叫做这一组数据的众数。,2、中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或两个数据的平均数)叫做这组数据的中位数。,3、平均数:一组数据的算术平均数,即 x=(x1+x2+xn)/n,2、中位数是样本数据所占频率的等分线,即在样本中,有50的个体小于或等于中位数,也有50的个体大于或等于中位数,因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可以估计中位数的值。,1、众数在样本数据的频率分布直方图中,就是最高矩形的中点的横坐标。,3、平均数是频率分布直方图的“重心”.是直方图的平衡点.n 个样本数据的平均数由公式:,X=,每个小矩形的面积乘以对应底边中点的横坐标之和,二、众数、中位数、平均数与频率分布直方图的关系:,