第二章统计表和统计图ppt课件.ppt
第二章 单变量统计描述分析第一节 分布、统计表和统计图,王 荣,分 布,指的是一个概念或变量,它的各个情况出现的次数或频次,又称频次分布。分布形式一般为:(X1,n1)(X2,n2)(X3,n3).(Xn,nn)如:家庭结构的分布: (核心家庭,105)(直系家庭,72)(联合家庭,11)(其他,25)n不同名称也不同:频次分布、百分比分布,概率分布。注意变量取值的完备性和互斥性。,统计表和统计图,统计表一般格式,表 2-1 2002、2006年六运调查点人均消费支出构成统计表 (山西省,2007,7),1.91,100.0,4030.0,100.0,2107.0,总支出,1.48,28.2,1144.4,36.7,773.2,文化生活服务,2.12,4.5,172.0,3.8,81.0,交通通讯,1.47,6.2,250.2,8.1,170.0,用品及其他,13.0,19.0,765.7,2.8,58.9,住房,1.65,5.8,233.5,6.7,140.9,燃料,1.89,5.6,226.9,5.7,120.0,衣着,1.62,30.7,1237.6,36.2,763.1,食品,占总支出百分比(%),钱数(元),占总支出百分比(%),钱数(元),2006年比2002年增长倍数,2006年,2002年,消费构成,资料来源:中国统计年鉴,中国统计出版社,2006。,统计表和统计图,几点说明:“”表示数据不存在,“.”表示数据缺失。统计表中小数点对齐。一般要有合计一栏。频率合计时有时可能不是100%,考虑四舍五入。01000,10002000上组界不包括在内的约定。,统计表和统计图,变量层次:定类变量 定序变量 定距变量 定比变量注意:社会统计学中一般将定距、定比变量都当做定距变量处理。,统计表定类变量,定类变量,表2-2 家庭结构的百分比统计表 (xx地,1985,6),统计表定类变量,有关意愿、原因等社会调查中,可供选择的答案类别数目,有时与变量的数目不相等。例1:问卷中“你认为人生最大的乐趣是什么” (1)事业上有成就(2)美满的婚姻(3)经历丰富,统计表定类变量,表2-3 人生最大乐趣统计表,统计表定类变量,例2 你在购房中,主要考虑哪些因素?A 价格适中B 上班近C交通方便D 购物方便请从中选择三项:第一项: 第二项: 第三项:,统计表定类变量,变量1(第一项):A B C D变量2(第二项):A B C D变量3(第三项):A B C D,表2-4 100个人购房因素统计表,Xa=60/300=0.2 Xb=90/300=0.3 Xc=10/300=0.03 Xd=140/300=0.47,统计表定类变量,Xa=( 520+340)/100=2.2 Xb=( 560+330)/ 100=3.9 Xc=( 310)/ 100=0.3 Xd=( 520+320+1100)/ 100=2.6 Xb Xd Xa Xc,表2-4 100个人购房因素统计表,统计表定序变量,定序变量统计表制作内容、方法同定类变量。值得注意的是,定序变量的取值有大小、高低之分,因此在制作时应该保留其变化趋势。,统计表定序变量,例如某电影厂为了解群众对武打片是否爱看,将喜爱程度分为五等:非常爱看、爱看、一般不爱看、反感。,表 2.7 xx单位对武打片的反映统计,统计表定距变量,定距变量:连续型变量和离散型变量。离散型变量制表方法同定序变量。但是,当如果变量值的变化幅度过大,一一列举,势必形成很长的分类,且每类分类中的频次又变得很少,这时需要采用组距式统计表。,统计表定距变量,对于连续型变量,无法使每一个取值对应一个确定的频次或百分比。解决方法是将变量值分为若干个区间和组。例如结婚年龄。在实际中要考虑如下问题:组数、等距分组与非等距分组、分点精度。,统计表定距变量,统计表定距变量,统计表定距变量,统计表定距变量,统计表定距变量,表 2-2 118例13岁女孩身高资料统计表,统计图,根据变量层次可选择不同的统计图定类变量:圆瓣图、条形图定序变量:条形图定距变量:直方图、折线图,统计图圆瓣图,统计图圆瓣图,统计图圆瓣图,统计图圆瓣图,统计图条形图,条形图:主要用于表示离散型数据资料。可分为:简单条形图、分组条形图(复式)、分段条形图,误差线条形图,分段条形图。,单式条形图,图21 某年级操行评定结果条形图,基线,尺度线,图形,复式条形图,图22 某年级操行评定结果条形图,例: 图2-3 三项影响较大的SARS信息对不同文化程度民众的影响,误差条形图,图2-27 四种营养素喂养小白鼠三周后所增体重(克),图2-26 老、中、青三代的结核菌素阳性率与强阳性率(),分段条形图,统计图条形图,绘制条图注意事项纵轴的刻度必须从“0”开始,否则会改变各对比组间的比例关系。横轴各直条一般按统计指标由大到小排列,也可按事物本身的自然顺序排列。 各直条的宽度要一致,各直条应有相等的间隔,其宽度一般与直条的宽度相等或为直条宽度的一半。图形区域中条形顶端和下端尽量少用数据标签。调节过长条形方法。一种方法是调整图尺,改变刻度或采用断裂;另一种是折叠。,统计图直方图,横轴:数据分组纵轴:频次、频率或者频次密度、频率密度。等距分组数据:矩形的高度可以直接表示频数(或频率)。非等距分组数据需要用频次(或频率)密度表示,这时矩形的面积表示各组的频数(或频率)。,统计图直方图,图3-5 某车间工人日加工零件数的直方图,统计图直方图,统计图直方图,组织图 20 15 10 5 0 60 63 66 69 72 75 78 81 84 87 90 96 99,统计图直方图,非等距直方图,条形图和直方图有什么区别?,条形图与直方图的区别,(1)描述的数据不同。 离散型数据;连续性数据。(2)表示数据多少的方式不同。 长短或高低表示数据的多少和大小;用面积表示。注意:等距分组数据仍可用矩形高度直接表示频数(3)坐标轴上标尺分点意义不同。 分类轴;刻度值。(4)间隔 有间隔,但无意义;无任何间隙。,统计图折线图,折线图:把直方图顶部的中点(组中值)用直线段连接起来就是折线图。多用于连续性资料,凡欲表示两个变量之间的函数关系,或描述某种现象在时间上的发展趋势,或一种现象随另一种现象变化的情形。,图3-6 某车间工人日加工零件数的折线图,统计图直方图,例如:对有意义的词汇,小学一年级至初中三年级学生视觉、听觉记忆再现率的情况。,图25 有意义的材料再现率比较线形图,累计图和累计表,统计图和统计表告诉我们某一变量值(或某一组)所对应的频次是多少。有时我们需要了解小于某一变量值或者大于某一变量值的总共频次是多少,这时要用到累计图和累计表。,累计图和累计表,表2-5 家庭子女数频次分布与累计频次分布,累计图和累计表,向上累计直方图,0,1,3,2,4,5,累计图和累计表,0,1,3,2,4,5,向上累计折线图,累计图和累计表,向下累计频率直方图,0,1,3,2,4,5,累计图和累计表,0,1,3,2,4,5,向下累计频率折线图,累计图和累计表,累计图和累计表的应用,在于通过它比较个体在总体中的位置。例如,甲、乙两同学在不同班级,他们都是考了80分,谁在班里的成绩更好呢?,累计图和累计表,例如:洛伦茨曲线。描述收入分配中平均程度的一种方法,用基尼系数衡量。,累计图和累计表,例如:洛伦茨曲线。描述收入分配中平均程度的一种方法,用基尼系数G衡量。,累计图和累计表,联合国有关组织规定: 低于0.2表示收入绝对平均; 0.2-0.3表示比较平均; 0.3-0.4表示相对合理; 0.4-0.5表示收入差距较大; 0.6以上表示收入差距悬殊。,常见的几种分布图,常见的频数分布曲线有正态分布、偏态分布、J形分布、U形分布等。,J形分布,正J形,负J形,欣赏几种有意思的图,茎叶图雷达图箱图,第二章 统计量表,茎叶图,对于未分组的数据,可用茎叶图显示其分布特征,由“茎、叶”两部分构成,图形由数字组成,茎在左,叶在右,用小数点(直线)把茎叶隔开。,创设情境,建立模型,大学生阿Q毕业后想找一份月薪在1700以上的工作,一天他看见三毛公司门口的招聘广告,上面写着:现因业务需要招员工一名,有意者欢迎前来应聘。于是阿Q走了进去,阿Q应聘,阿Q应聘,阿Q问了三毛公司的所有员工的月薪,列出了如下统计表:,1.经理说平均工资有2000元对不对?2.你觉得用平均数代表三毛公司的员工工资合适吗?3.你认为阿Q如果在该公司应聘,工资能达到阿Q预想的要求吗?他的工资很可能是哪个数?试说明理由,与同伴交流。,我们有三种方法选择集中趋势: (1)根据频数:哪个变量值出现次数越多,就选择哪个变量值,比如民主决策的表决机制。 (2)根据居中:比如一个城镇居民的生活水平,居中的是小康家庭,那么就用小康家庭来代表该城镇的生活水平。 (3)根据平均:用平均数来代表变量的平均水平。,关于集中趋势的一个故事,吉斯莫先生有一个小工厂,生产超级小玩意儿。 管理人员由吉斯莫先生、他的弟弟、六个亲戚组成。工作人员由5个领工和10个工人组成。工厂经营得很顺利,现在需要一个新工人。现在吉斯莫先生正在接见萨姆,谈工作问题。吉斯莫:我们这里报酬不错。平均薪金是每周300美元。你在学徒期间每周得75美元,不过很快就可以加工资。萨姆工作了几天之后,要求见厂长。萨姆;你欺骗我!我已经找其他工人核对过了,没有一个人的工资超过每周100元。平均工资怎么可能是一周300元呢?,吉斯莫:啊,萨姆,不要激动。平均工资是300元。我要向你证明这一点。吉斯莫:这是我每周付出的酬金。我得2400元,我弟弟得1000元,我的六个亲戚每人得250元,五个领工每人得200元,10个工人每人100元。总共是每周6900元,付给23个人,对吧?萨姆:对,对,对!你是对的,平均工资是每周300元。可你还是蒙骗了我。吉斯莫;我不同意!我已经把工资列了个表,并告诉了你,工资的中位数是200元,可这不是平均工资,而是中等工资。萨姆:每周100元又是怎么回事呢?吉斯莫:那称为众数,是大多数人挣的工资。吉斯莫:老弟,你的问题是出在你不懂平均数、中位数和众数之间的区别。萨姆:好,现在我可懂了。我我辞职!,集中量数,常用的集中量数包括算术平均数、中数、众数、加权平均数、几何平均数、调和平均数。众值(Mo) 定类、定序、定距、定比变量中位值(Md) 定序、定比、定距变量平均值 定距、定比变量集中趋势各测量值计算方法、特点及使用场合。,一、 算术平均数(MEAN),用总和除以总个数即得算术平均数。它是真值的最佳估计值。,算术平均数是反映集中趋势最常用、最基本的平均指标,也被称为均值或均数。用M或者X表示。适用于定距以上的变量。,1. 对于未分组资料 注意:对求和符号,此时流动脚标变动范围是1, 2, ,N ,N是总体 单位数。 例 求74、85、69、9l、87、74、69这些数字的算术平均数。 解 78.4,1. 对于未分组资料 注意:对求和符号,此时流动脚标变动范围是1, 2, ,N ,N是总体 单位数。 例 求74、85、69、9l、87、74、69这些数字的算术平均数。 用估计平均数计算。 解 AM=70。 列出x: 4, 15 ,-1, 21,17, -1,2. 对于分组资料注意:对求和符号,此时流动脚标的变动范围是1,2,3 ,n, n是组数,而不是总体单位数。 显然,算术平均数不仅受各变量值(X)大小的影响,而且受各组单位数(频数)的影响。由于对于总体的影响要由频数( f )大小决定,所以 f 也被称为权数。权数有两种表现形式:绝对数(频数)和相对数(频率)。因此凡对应于分组资料的计算式,都被称为加权式。,平均值,X=38450550=69.9(分),对于组距数据,要用每一组的组中值充当该组统一的变量值。 例 求下表所示数据的的算术平均数(79.5),平均数的特点及意义,特点:各变量值与均值的离差之和等于零各变量值与均值的离差平方和最小所有的观测值都加上常数C,则平均值也增加常数C所有观测值都乘以不等于0的常数C,则平均值也增大C倍意义:真值的最佳估计值,平均数的优缺点,算术平均数受抽样变动影响较小。反应灵敏,受极端值影响较大。分组资料如遇有开放组距时,不经特殊处理,不能进行算术平均数的计算。计算严密、方法简单易懂,适合进一步代数演算修剪平均数。比如去掉最高分和最低分。习惯上平均数保留的小数位数要比原来的测量数据多一位数字。,计算和应用平均数的原则,同质性原则平均数和个体数值相结合的原则平均数和标准差、方差相结合的原则,二、 中数(Median),也叫中位数,把总体数据按大小顺序排列,位于中间位置的那个数,即为中位数,用Md或Mdn表示。 中位数可用于定序、定距、定比资料。,1. 对未分组资料无重复数据先把所有数据按大小顺序排列,如果总体单位数为奇数,则取第(N+1)/2 位上的变量值为中位数;如果总体单位数为偶数。因为居中的数值不存在,按惯例,取第 N/2位和第(N+1)/2 位上的两个变量值的平均作为中位数。例 求54,65,78,66,43这些数字的中位数。例、求54,65,78,66,43,38 这些数字的中位数。,对未分组资料有重复数据(1)重复数值没有位于数列中间 5 5 6 10 12 15 17(2)重复数值位于数列中间,为奇数(12.66) 11 11 11 11 13 13 17 17 17(3)重复数值位于数列中间,为偶数(12.83) 11 11 11 11 13 13 17 17 17 18,2. 对于分组资料单项数列,根据N/2在累计频数分布中找到中位数所在组, 该组变量值就是Md 。,中位数,比例插值法先根据N2在累计频数分布中找到中位数所在组,然后假定该组中各变量值是均匀分布的,再用以下任何一种方法求出中位数(注意:此处用的是向上累计)按中位数所在组的下限:按中位数所在组的上限:,2. 对于分组资料组距数列,例某年级学生身高如下,求中位数(169.79),中位数的优缺点及应用,优点:各变量值对中位数之差的绝对值总和,小于它们对任何其他数的绝对值总和。不受极端值的影响。分组资料有不确定组距时,仍可求得中位数。缺点:中位数受抽样变动的影响较算术平均数略大。反应不灵敏。不适合进一步进行代数运算。应用一组观测结果中出现两个极端数目时次数分布的两端数据或个别数据不清楚时,只能取中数需要快速估计一组数据的代表值时,也常用中数,3 、四分位数,中位数所有单位被等分为两部分,因而被称为二分位数。类似于求中位数,还可求出四分位数、十分位数、百分位数。将总体中的各单位分割成相等的四部分,则这三个分割的变量值就是四分位数。用Q1、Q2、Q3分别代表第一、第二、第三四分位数。Q2 即中位数,Q1、Q3的算法分别是,中位数所有单位被等分为两部分,因而被称为二分位数。类似于求中位数,还可求出四分位数、十分位数、百分位数。将总体中的各单位分割成相等的四部分,则这三个分割的变量值就是四分位数。用Q1、Q2、Q3分别代表第一、第二、第三四分位数。Q2 即中位数,Q1、Q3的算法分别是,请从下表中指出第一四分位数和第三四分位数,求出下表中的第一四分位数和第三四分数,三、 众数(Mode),次数分布中出现次数最多的变量值。直接观察公式:皮尔逊经验法,金氏插补法(组距式),Lb为众数组精确下限; fa为高于众数组频数的那组频数;fb为低于众数组频数的那组频数; i为众数组组距。,Mo=3Md-2M,无众数原始数据: 10 5 9 12 6 8,一个众数原始数据: 6 5 9 8 5 5,多于一个众数原始数据: 25 28 28 36 42 42,解:这里的变量为“饮料品牌”,这是个分类变量,不同类型的饮料就是变量值 所调查的50人中,购买可口可乐的人数最多,为15人,占总被调查人数的30%,因此众数为“可口可乐”这一品牌,即 Mo可口可乐,求下表中的众数,众数,求下表中的众数,众数的意义和应用,当需要快速而粗略地寻求一组数据的代表值时当一组数据出现不同质的情况时,可用众数表示典型情况当次数分布中有两极端的数目,除一般用中数外,有时也用众数 对开口组仍可计算众数众数不唯一确定受抽样变动影响大;当粗略估计次数分布的形态时,有时用平均数与众数之差,作为表示次数分布是否偏态的指标,平均数 中数 众数三者间关系,注意:中数离平均数较近,离中数较远。,众数、中位数、平均数的特点和应用,众数不受极端值影响具有不惟一性数据分布偏斜程度较大时应用中位数不受极端值影响数据分布偏斜程度较大时应用平均数易受极端值影响计算方便,反应灵敏数据对称分布或接近对称分布时应用,加权平均数(weighted mean)定义:几个作用比重不同的算术平均数的平均数例:小学三年级举行英语测验。甲班32名学生的平均分为72.6,乙班40名学生平均分为80.2,丙班36名学生的平均分为75分。求全年级英语测验的总平均分数。,四、 其他集中量数,已改至此!,分组数据:加权平均数,分组数据:加权平均数,两种算法:频数和频率,解:根据公式,可得:,根据另一个公式:,可得:,几何平均数(geometric mean) n 个变量值乘积的 n 次方根适用于对比率数据的平均;或少数数据偏大或偏小,呈偏态分布,或心理物理学等比等距实验中。主要用于计算平均增长率或平均进步率,其中,n:数据的个数 X:变化的比例数据,第四节 其他集中量数,几何平均数的应用直接应用于基本公式计算几何平均数应用于几何平均数的变式计算学习方面的进步率学生或人口增加率的估计教育经费增加率其他方面的增长率等,第四节 其他集中量数,某水泥生产企业1999年的水泥产量为100万吨,2000年与1999年相比增长率为9%,2001年与2000年相比增长率为16%,2002年与2001年相比增长率为20%。求各年的年平均增长率。,年平均增长率114.91%-1=14.91%,第四节 其他集中量数,一位投资者购持有一种股票,在2000、2001、2002和2003年收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率,比较:算术平均:,几何平均:,第四节 其他集中量数,某市近几年来高中毕业生人数如下表,试求其平均增长率,照此速度增长,到1995年统计有多少高中生?,解:此题是求平均增长率,以1987年为基数,求4年的平均增长率,4年后的高中生人数为:,第四节 其他集中量数,调和平均数(harmonic mean)均值的另一种表现形式,用来描述学习速度方面的问题。易受极端值的影响计算公式为,原来只是计算时使用了不同的数据!,其中,N:数据个数 X :具体的变量值,例:有一学生15分钟学会生词30个,后10分钟学会生词也是30个,问该生每分钟平均学会多少?,离散趋势测量法,集中趋势告诉我们一组数据的集中情况,离散趋势则告诉我们一组数据的分散程度。异众比率极差R四分互差(四分位差)方差与标准差,异众比率,异众比率:指非众数组的频数占总频数的比率。 Vr=(N-f)/N 与众值相对。,异众比率,例:某单位职工婚姻状况统计结果如下 未婚 已婚 离婚 丧偶 20 70 12 18 Mo=已婚 Vr=(N-f)/N=(120-70)/120=42%,极差,极差:一组数据中的最大数据与最小数据的差。适用于定序以上的数据。与中位值相对。,四分互差,四分互差:是用对应于向上累计频次75%的变量值Q75和对应于向上累计频次25%的变量值Q25相减而得。四分互差计算方法可对应于中位值求法。,四分互差,未分组数据 原始数据较少时根据原始资料直接求四分互差(p53) Q25=N+1/4 Q25=3(N+1)/4,四分互差,未分组数据 当原始数据比较多时,可根据频次分布来求四分互差(p53 )。分组数据 求四分互差Q,必须先求出Q25位置 和Q75位置。 再求对应的值。,四分互差,方差和标准差,方差和标准差适用于定距变量资料的分散程度,是应用最广的离散趋势值。 对应于平均值。,方差和标准差,当原始资料较少时,可直接使用公式求。注意:当均值为小数时,为方便计算以及为保证精确度需使用包含有原始数据的公式。2=(XiX)2 / N2=Xi2 / N(Xi / N )2,标准差是一组数据中每个数据与其算术平均数之差的算术平均数的算术平方根。用符号表示。,方差和标准差,未分组资料计算标准差1、基本公式法 例 某校四年级举行数学竞赛,一班、二班分别派九名选手参加,如下表。试比较两个班的成绩。,表4-1 一班成绩统计表,表4-2 二班成绩统计表,解:先求四年一班的平均数和标准差。算得,再求四年一班的平均数和标准差。得,从以上计算可知,两班平均数都是73分,说明两班的平均水平相同。但它们的标准差不同,说明两班成绩的差异程度很不相同。一班的差异程度较小,平均分数73的代表性就较大;二班的差异程度较大,平均分数73的代表性就小些。,2、原始数据法为了减少计算量,可将公式进行转换,使公式中参与运算的变量皆为原始数据。公式为,例2 用原始数据法计算表4-1的标准差,解:X=657,X2=49747 N=9,代入公式(4.2) 得,分组资料标准差的计算方法分组资料指编制成次数分布的资料,此时以组中值作为各组的代表值。计算公式为,其中:Xc为各级组中值; 为算术平均数; N为总次数;f为各组次数。,某年级144名学生语文成绩如下表,求其标准差。,144名学生语文成绩表,解:将算得的f(Xc- )2=3483.16、 及N=144代入公式(4.3),得,也可用下列公式进行计算:(不用计算均值),组距离差计算法,某年级144名学生语文成绩如下表,求其标准差。 用组距离差计算方法。,144名学生语文成绩表,方差具有可加性特点。当已知几个小组数据的方差或标准差时,可以计算几个小组联合在一起的总的方差或标准差。注意:只有应用同一种观测手段,测量的是同一种特质,只是样本不同的数据时,才能计算合成方差或者标准差。,由各部分的标准差合成总标准差的计算方法,由各部分的标准差合成总标准差的计算方法,sT为总标准差;si为小组标准差;Ni为各小组个数;di=总平均数-各小组平均数,例:在三个班级进行某项能力研究,三个班测查结果的平均数和标准差分别如下,求三个班的总标准差。,例:求总标准差,解:求总平均数: 求 ,填入表内第5、6、7列。代入公式:,例 某年级四个班的学生人数分别为50人、52人、48人、51人。期末数学考试各班平均成绩分别为90分、85分、88分、92分,标准差分别为6分、5.5分、7分、8.2分。求四个班成绩的总标准差。,解:设N1=50, N2=52, N3=48, N4=51,