统计学第二章统计数据的描述.ppt
《统计学第二章统计数据的描述.ppt》由会员分享,可在线阅读,更多相关《统计学第二章统计数据的描述.ppt(163页珍藏版)》请在三一办公上搜索。
1、1,统计先是思维而后才是数学,第二章 统计数据的描述,2,统计先是思维而后才是数学,第一节 统计数据的整理第二节 分布集中趋势的测度第三节 分布离散程度的测度第四节 分布偏态与峰度的测度第五节 统计表和统计图,3,统计先是思维而后才是数学,学习目标,掌握数据的整理方法掌握集中、离散趋势的测度掌握偏态峰度的测度掌握统计表和统计图的制作与使用,4,统计先是思维而后才是数学,录取中有无歧视?,某高校两个系(财经系、工程系)的报考及录取情况,录取比率:男生:350/800=44%女生:200/600=33%,男生成绩好?性别歧视?,5,统计先是思维而后才是数学,两个系的报考及录取情况,工程系:男女录取
2、比率50%,财经系:男女录取比率25%。,说明的问题:对数据 1.要从不同的角度进行分析;2.要注意结构或是权数的影响。,6,统计先是思维而后才是数学,2.1 统计数据的整理,7,统计先是思维而后才是数学,统计整理的概念和作用,8,统计先是思维而后才是数学,制定统计整理方案,对原始资料进行审核,数 据 处 理,制作统计表或统计图,统计整理的步骤,9,统计先是思维而后才是数学,数据的审核,对原始数据的审核的内容完整性审核准确性审核对第2手数据的审核的内容完整性审核准确性审核时效性适用性,10,统计先是思维而后才是数学,数据的排序(data rank),按一定顺序将数据排列,以发现一些明显的特征或
3、趋势,找到解决问题的线索排序有助于对数据检查纠错,以及为重新归类或分组等提供依据在某些场合,排序本身就是分析的目的之一排序可借助于计算机完成,世界人均国民总收入,http:/,11,统计先是思维而后才是数学,12,统计先是思维而后才是数学,2.1.1 统计数据的分组,13,统计先是思维而后才是数学,统计分组的基本原则:必须保证在某一标志上,组内的同质性和组间的差异性。分组兼有“分和合”双重含义,一、统计分组的概念和作用,14,统计先是思维而后才是数学,分组,分组前,分组后,25,33,42,15,统计先是思维而后才是数学,统计分组的关键:1、选择分组标志:品质标志(性别、质量等)数量标志(数量
4、、数值等)2、划分各组界限,二、分组标志的选择与分组种类,16,统计先是思维而后才是数学,学生按性别分组,按品质标志分组,17,统计先是思维而后才是数学,某班学生按考试成绩分组,18,统计先是思维而后才是数学,按数量标志分组,某班学生按年龄频数分布,19,统计先是思维而后才是数学,2.1.2 次数分配,20,统计先是思维而后才是数学,次数分配是将总体按一定的标志分组,说明个体在各组之间的分布情况。是统计资料整理结果的一种重要表现。,次数分配:也称次数(频数)分布。次数分配组成要素:1、组的名称 2、各组次数(也称频数)或频率,21,统计先是思维而后才是数学,22,统计先是思维而后才是数学,单变
5、量值分组(要点),1.将一个变量值作为一组2.适合于离散变量3.适合于变量值较少的情况,23,统计先是思维而后才是数学,例题分析,【例】某车间30名工人每周加工某种零件件数如右表。,24,统计先是思维而后才是数学,单变量值分组表(实例),变量值,25,统计先是思维而后才是数学,组距分组(要点),将变量值的一个区间作为一组适合于连续变量适合于变量值较多的情况必须遵循“不重不漏”的原则(上组限值不算在该组内)可采用等距分组,也可采用不等距分组,26,统计先是思维而后才是数学,等距分组 各组的组距相等 各组频数的分布不受组距大小的影响可直接根据绝对频数来观察频数分布的特征和规律,27,统计先是思维而
6、后才是数学,不等距分组各组的组距是不相等 各组频数的分布受组距大小不同的影响,28,统计先是思维而后才是数学,等距分组步骤,1)确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。一般情况下,组数不应少于5组,也不应多于15组。在实际分组时,可以按 Sturges 提出的经验公式来确定组数K(四舍五入取整),例如2-1的数据:,29,统计先是思维而后才是数学,2)确定各组的组距:组距(Class Width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即 组距(最大值-最小值)组数 例2.1的数据,最大值为128,最小值为84,则 组距(128-84)/
7、67.3。组距宜取5或10的倍数;(近似值)在实践中,组数和组距要通过反复的实验确定,最终确定出最有意义的组数和组距的组合。,30,统计先是思维而后才是数学,3)确定组限:组限是分组的数量界限,是表明每组界限的两头数值。下 限(low limit):一个组的最小值 上 限(upper limit):一个组的最大值组限的具体形式有:重合组限和间断组限;闭口组限和开口组限。确定组限的原则1:最小一组的下限必须包含数列中最小变量值;最大组的上限必须包含数列中最大变量值。确定组限的原则2:遵循不重不漏的原则。“不重”是指一项数据只能分在其中的某一组,不能在其他组中重复出现;“不漏”在所分的全部组别中每
8、项数据都能分在其中的某一组,不能遗漏。,31,统计先是思维而后才是数学,4)根据分组计算频数,整理成频数分布表:将原始数据按照各自的大小分配到各组中。,本例可以得到如下频数分布表,重合组限、闭口组限,32,统计先是思维而后才是数学,对于重合组限的形式,为解决“不重”的问题,统计分组时习惯上规定“上组限不在内”,即当相邻两组的上下限重叠时,恰好等于其一组上限的变量值不算在本组内,而计算在下一组内。重合组限既适用于连续型变量分组也适用于离散型变量分组,应用非常广泛。,33,统计先是思维而后才是数学,对于离散变量,可以采用相邻两组组限间断的办法(间断组限)解决“不重”的问题。,34,统计先是思维而后
9、才是数学,如果全部数据中的最大值和最小值与其他数据相差悬殊,为避免出现空白组或个别极端值被漏掉,第一组和最后一组可以采取“x x以下”及“x x以上”这样的开口组。开口组通常以相邻组的组距作为其组距。例如,在例21的30个数据中,假定将最小值改为64,最大值改为160,采用上面的分组就会出现“空白组”,这时可采用“开口组”,如80以下;130以上。,开口组限:缺少上限或者下限的组限设置。,35,统计先是思维而后才是数学,开口组,36,统计先是思维而后才是数学,编制频数分布表的步骤,37,统计先是思维而后才是数学,在研究分析次数分布时,还需要计算:累计频数和累计频率,1.累计频数:将各类别的频数
10、逐级累加。有两种方法:一是可以从最小组一方向最大组的一方累加频数,称为向上累积;二是可以从最大组的一方向最小组的一方累加频数,称为向下累积。累计频率:将各类别的频率(百分比)逐级累加,38,统计先是思维而后才是数学,例:累计频数和累计频率的计算,39,统计先是思维而后才是数学,在根据组距数列进行统计计算时,需要确定组中值,作为各组变量值的代表值。组中值(class midpoint):下限与上限之间的中点值。,概念:组中值,组中值这种代表有一个必要的假定条件,即各组数据在本组内呈均匀分布或在组距中值两侧呈对称分布。如实际数据的分布不符合这一假定,用组中值作为一组数据的代表值会有一定的误差。,4
11、0,统计先是思维而后才是数学,例:组中值计算,41,统计先是思维而后才是数学,在开口组中,组中值的计算以邻近组组距为依据,可见,开口组的组中值既假定变量值是均匀分布或对称分布,又假定组距与邻近组组距相等。,42,统计先是思维而后才是数学,例:组中值计算,次数分配表的编制(例题分析),【例】某车间30名工人每周加工某种零件件数如右表,试对数据进行分组。,使用Excel频数函数(FREQUENCY),使用Excel中的统计函数“FREQUENCY”来创建频数分布表和直方图,可解决这一问题。创建频数分布表的步骤是选择与接受区域相临近的单元格区域,作为频数分布表输出的区域选择统计函数中的“FREQUE
12、NCY”函数在对话框Date-array后输入数据区域,在Bins-array后输入各组分界点同时按下ctrl-shift-Enter组合键,即得到频数分布,统计函数FREQUENCY,次数分配表,46,统计先是思维而后才是数学,2.1.3 次数分配直方图,47,统计先是思维而后才是数学,1.直方图,用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图(Histogram)直方图下的总面积等于1,48,统计先是思维而后才是数学,分组数据的图示(直方图的绘制),某车间工人周
13、加工零件直方图,我一眼就看出来了,周加工零件在100110之间的人数最多!,高度表示每一组的频数或百分比,宽度则表示各组的组距,横轴标注的刻度应该是连续区间,49,统计先是思维而后才是数学,2.折线图,折线图也称频数多边形图是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的,50,统计先是思维而后才是数学,分组数据的图示(折线图的绘制),折线图
14、与直方图下的面积相等!,某车间工人周加工零件折线图,51,统计先是思维而后才是数学,3.次数分布曲线,当对数据所分的组数很多时,组距会越来越小,这时所绘制的折线图就会越来越光滑,逐渐形成一条平滑的曲线,这就是频数分布曲线。,52,统计先是思维而后才是数学,频数分布曲线的类型,图 几种常见的频数分布,53,统计先是思维而后才是数学,2.1.4 洛伦兹曲线与基尼系数,54,统计先是思维而后才是数学,洛伦茨曲线(累积次数分配折线图),20世纪初美国经济学家、统计学家洛伦茨(M.E.Lorentz)根据意大利经济学家帕累托(V.Pareto)提出的收入分配公式绘制而成的。是描述收入和财富分配性质的曲线
15、,分析该国家或地区分配的平均程度,累积的人口百分比,累积的收入百分比,绝对公平线,洛伦茨曲线,55,统计先是思维而后才是数学,基尼系数,20世纪初意大利经济学家基尼(G.Gini)根据洛伦茨曲线给出了衡量收入分配平均程度的指标A表示实际收入曲线与绝对平均线之间的面积B表示实际收入曲线与绝对不平均线之间的面积如果A=0,则基尼系数=0,表示收入绝对平均如果B=0,则基尼系数=1,表示收入绝对不平均基尼系数在0 和1之间取值一般认为:基尼系数若小于0.2,表明分配平均;基尼系数在0.2至0.4之间是比较适当的,即一个社会既有效率又没有造成极大的分配不公;基尼系数在0.4被认为是收入分配不公平的警戒
16、线,超过了0.4应该采取措施缩小这一差距。,56,统计先是思维而后才是数学,2.2 分布集中趋势的测度,57,统计先是思维而后才是数学,集中趋势是指一组数据向某一中心值靠拢的倾向,测度集中趋势也就是寻找数据一般水平的代表值或中心值,58,统计先是思维而后才是数学,一、众数二、中位数三、四分位数四、均值五、几何均值六、切尾均值七、众数、中位数和均值的比较,59,统计先是思维而后才是数学,1.概念:在总体中出现次数最多的那个标志值就是众数。,2.2.1 众数 M0,从分布的角度看,众数是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的数值即为众数。例如:集市上某种蔬菜的成交价格(元)为:0
17、.8,0.9,0.9,1.0,1.2,1.2,1.2,1.2,1.5,1.5,1.6 1.2元出现次数最多,就是众数,60,统计先是思维而后才是数学,一组数据可能没有众数或有几个众数(不唯一性),61,统计先是思维而后才是数学,若有两个次数相等的众数,则称复众数。,只有总体单位数比较多,而且又有明显的集中趋势时才存在众数。,由定义可看出众数存在的条件:,62,统计先是思维而后才是数学,下三图无众数:,在单位数很少,或单位数虽多但无明显集中趋势时,计算众数是没有意义的。,63,统计先是思维而后才是数学,1)定类数据的众数,众数=商品广告,对定序数据同样,2.众数的计算方法,64,统计先是思维而后
18、才是数学,2)定序数据的众数,解:这里的数据为定序数据。变量为“回答类别”城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即 Mo不满意,65,统计先是思维而后才是数学,根据单项数列确定众数;,某种商品的价格情况,众数 M0=3.00(元),3)数值数据的众数,66,统计先是思维而后才是数学,根据组距数列确定众数,利用比例插值法推算众数的近似值。,由最多次数来确定众数所在组;,其中:L 众数组的下限;1 众数组与前一组的频数之差 2 众数组与后一组的频数之差 i 众数组的组距,67,统计先是思维而后才是数学,表中100-110,即众数所在组。,68,统计先是思维而后
19、才是数学,解:众数组是“100-110”的组,则,69,统计先是思维而后才是数学,众数的特点:,集中趋势的测度值之一出现次数最多的变量值众数是位置代表值,不受极端值的影响可能没有众数或几个众数适用于定类数据、定序数据、定量数据众数所体现的统计思想是:在一组数据的中心点附近,变量值出现的频数较高,根据众数组及相邻两组的频数分布,确定中心点的位置。,70,统计先是思维而后才是数学,在某些情况下,众数是一个较好的代表值。例如在服装行业中,生产商、批发商和零售商在进行生产和存货决策时,更感兴趣的是最普遍的尺寸而不是平均尺寸。又如,当要了解大多数家庭的收入状况时,也要用到众数。例:买菜;适合于数据量较多
20、时使用 众数值偏离众数组组中值得程度越大,分布的形状越偏,71,统计先是思维而后才是数学,1.概念:将总体中各单位标志值按大小顺序排列,居于中间位置的那个标志值就是中位数。,2.2.2 中位数 Me,72,统计先是思维而后才是数学,1)定序数据的中位数,表 某城市家庭对住房状况的评价,对于定序数据,确定中位数位置用:,中位数位置=300/2=150,中位数=一般;,2.中位数的计算方法,73,统计先是思维而后才是数学,由未分组资料计算中位数,(a)先对数据进行排序(b)确定中位数的位置,其公式为:(n为数据的个数),(c)最后确定中位数的具体数值,当n为偶数时,,当n为奇数时,,2)数值数据的
21、中位数,74,统计先是思维而后才是数学,9个家庭的人均月收入数据原始数据:1500 750 780 1080 850 960 2000 1250 1630排序:750 780 850 960 1080 1250 1500 1630 2000位置:1 2 3 4 5 6 7 8 9,中位数 1080,75,统计先是思维而后才是数学,10个家庭的人均月收入数据排序:660 750 780 850 960 1080 1250 1500 1630 2000位置:1 2 3 4 5 6 7 8 9 10,76,统计先是思维而后才是数学,由分组数据确定中位数,a)要先根据公式:f/2,确定中位数的位置,并
22、确定中位数所在的组。f 总次数,77,统计先是思维而后才是数学,b)然后采用下面的公式计算中位数的近似值:,式中:f 为数据的个数,L为中位数所在组的下限,Sm-1为中位数所在组以前各组的累积频数,fm为中位数所在组的频数,i为中位数所在组的组距。,78,统计先是思维而后才是数学,中位数是一种位置平均数,它也不受极端值 及开口组的影响,具有稳健性。,各单位标志值与中位数离差的绝对值之和是个 最小值。,对某些不具有数学特点或不能用数字测定的现 象,可以用中位数求其一般水平。,3.中位数的特点,79,统计先是思维而后才是数学,2.2.3 四分位数(quartile),四分位数是通过三个点将全部数据
23、等分为四部分,其中每部分包含25%的数据。,很显然,中间的四分位数就是中位数。排序后处于25%和75%位置上的值,即通常说的第一个四分位数(下四分位数);第三个四分位数(上四分位数)。,80,统计先是思维而后才是数学,1.不受极端值的影响2.主要用于定序数据,也可用于数量数据,但不能用于定类数据,特点:,81,统计先是思维而后才是数学,定序数据四分位数(位置的确定),82,统计先是思维而后才是数学,定序数据的四分位数(例题分析),解:QL位置=(300)/4=75 QU位置=(3300)/4=225 从累计频数看,QL在“不满意”这一组别中;QU在“一般”这一组别中。四分位数为:QL=不满意
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 第二 统计数据 描述
链接地址:https://www.31ppt.com/p-5299710.html