欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    数据的表述.ppt

    • 资源ID:2963673       资源大小:688.50KB        全文页数:109页
    • 资源格式: PPT        下载积分:8金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要8金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    数据的表述.ppt

    第 2章 统计数据的描述,2.1 统计数据的整理2.2 分布集中趋势的测度2.3 分布离散程度的测度2.4 统计表与统计图 本章小结,学习目标,掌握数值型数据的整理方法掌握总量指标、相对指标、平均指标的概念掌握数据集中趋势和离散程度的测度方法掌握统计表和统计图的使用,2.1 统计数据的整理,一、统计数据的分组 二、次数分配三、次数分配直方图四、洛伦茨曲线,统计整理:根据统计研究的目的,把统计调查所搜集到的原始资料进行科学加工,使之系统化、条理化、科学化,从而得出反映事物总体特征的资料,为统计分析做好准备的工作过程。,统计数据的分组,统计分组:根据研究事物的特点和统计研究的目的,按照某一标志,将统计总体划分为若干个组成部分的一种统计方法。,统计分组的作用,区分现象质的差别反映社会经济现象的内部结构分析社会现象间的依存关系,统计分组的方法,分组标志的选择原则根据研究的目的与任务选择分组标志 选择最能反映事物本质或主要特征的标志进行分组 根据现象所处的历史条件的变化选择分组标志,按品质标志或数量标志分组,按品质标志分组 按数量标志分组,次数分布(分布数列、分配数列)在统计分组的基础上,总体中的所有单位按其所属的组别归类整理,并且按照一定的顺序排列,形成总体单位数在各组分布的一系列数字。次数(频数)次数分布中,分布在各个组的总体单位数。频率(比率、比重)各组次数 与总次数之比。,分布数列组成要素,组的名称各组次数(频数)或频率,变量数列的种类,单项变量数列按数量标志分组后,用一个变量值代表一个组形成的数列。组距变量数列按照数量标志分组后,用变量变动的一定范围代表一个组所形成的数列。,1.关于组距数列适用的几个概念,组限:指每组两端数值。分上限和下限。上限:每组的终点数值(最大值)下限:每组的起点数值(最小值),组限的形式:重合式:指相邻两组中,前一组的上限和后一组的下限数值重合。组距=上限下限不重合式:指前一组的上限与后一组的下限,两值紧密相连而不相重复。组距下组下限本组下限 本组上限前组上限,全距总体所有数据中,最大的标志值与最小的标志值的差。全距最大标志值最小标志值组距各组中最大的标志值与最小的标志值的差。重叠式:组距本组上限本组下限不重叠式:组距下组下限本组下限或:本组上限上组上限,开口组上、下限不齐全的组。闭口组上、下限齐全的组。,组中值:上限与下限的中点值。,重叠式组中值:组中值(上限下限)2不重叠式组中值:组中值(本组下限下组下限)2 或:下限组距/2开口组组中值的计算:缺下限组,组中值上限相邻组距2缺上限组,组中值下限相邻组距2,2.组距数列分为等距数列、不等距数列(异距数列),组距分组(要点),将变量值的一个区间作为一组适合于连续变量适合于变量值较多的情况需要遵循“不重不漏”的原则可采用等距分组,也可采用不等距分组,组距分组(步骤),1、将原始资料按数值大小依次排列,计算全距。全距 最大值 最小值2、确定组数和组距。组数全距组距 取组距原则:数据分布集中,取组距小;组距一般取整数;控制组数510个。参考公式:k=13.3lg n(n为数据个数)3、确定组限。4、汇总,编制变量数列。,次数分配表的编制(例题分析),【例】某车间30名工人每周加工某种零件件数如右表试对数据进行分组。,次数分配表,累计次数和频率,累计次数指首先列出各组的组限,然后依次累计到本组为止的各组次数。累计频率指累计次数除以次数总和。,向上累计是将各组次数和频率由变量值低的组向变量值高的组累计。(是各组上限以下的累计次数或累计频率),向下累计是将各组次数和频率由变量值高的组向变量值低的组累计(是各组下限以上的累计次数或累计频率),使用Excel频数函数(FREQUENCY),Excel的“直方图”工具的缺陷是:频数分布和直方图没有与数据联系起来,这样,如果你改变任何一个数据,频数分布表和直方图不会跟着改变使用Excel中的统计函数“FREQUENCY”来创建频数分布表和直方图,可解决这一问题。创建频数分布表的步骤是选择与接受区域相临近的单元格区域,作为频数分布表输出的区域选择统计函数中的“FREQUENCY”函数在对话框Date-array后输入数据区域,在Bins-array后输入接受区域同时按下ctrl-shift-Enter组合键,即得到频数分布,统计函数FREQUENCY,次数分配直方图,直方图(histogram),用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图直方图下的总面积等于1,分组数据的图示(直方图的绘制),某车间工人周加工零件直方图,我一眼就看出来了,周加工零件在100110之间的人数最多!,折线图(frequency polygon),折线图也称频数多边形图是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的,分组数据的图示(折线图的绘制),折线图与直方图下的面积相等!,某车间工人周加工零件折线图,次数分配的类型,几种常见的频数分布,次数分布的主要类型:,各种不同性质的社会现象的次数分布主要有四种类型:钟型分布:两头小、中间大,即靠近中间的变量值分布的次数多,靠近两边的变量值分布的次数少。,向右偏态,向左偏态,U型分布:两头大、中间小,靠近中间的变量值分布的次数少,靠近两端的变量值分布的次数多,J型分布,洛伦茨分布洛伦茨分布曲线是专门用以检定社会收入分配的平等程度。,洛伦茨曲线,洛伦茨曲线,20世纪初美国经济学家、统计学家洛伦茨(M.E.Lorentz)根据意大利经济学家巴雷特(V.Pareto)提出的收入分配公式绘制而成描述收入和财富分配性质 的曲线分析该国家或地区 分配的平均程度,累积的人口百分比,累积的收入百分比,绝对公平线,基尼系数,20世纪初意大利经济学家基尼(G.Gini)根据洛伦茨曲线给出了衡收入分配平均程度的指标 A表示实际收入曲线与绝对平均线之间的面积B表示实际收入曲线与绝对不平均线之间的面积如果A=0,则基尼系数=0,表示收入绝对平均如果B=0,则基尼系数=1,表示收入绝对不平均基尼系数在0 和1之间取值一般认为,基尼系数若小于0.2,表明分配平均;基尼系数在0.2至0.4之间是比较适当的,即一个社会既有效率又没有造成极大的分配不公;基尼系数在0.4被认为是收入分配不公平的警戒线,超过了0.4应该采取措施缩小这一差距。,某百货公司连续40天的商品销售额如下(单位:万元):41 25 29 47 38 34 30 38 43 40 46 36 45 37 37 36 45 43 33 44 35 28 46 34 30 37 44 26 38 44 42 36 37 37 49 39 42 32 36 35 根据上面的数据进行适当的分组,编制次数分布表,并绘制直方图。,2.2 分布集中趋势的测度,一、总量指标、相对指标、平均指标、标志变异指标二、众数三、中位数四、四分位数五、均值六、几何均值七、切尾均值八、众数、中位数和均值的比较,总量指标的概念和作用,总量指标是反映一定时间、地点、条件下某种现象总体规模、总水平的统计指标。表现形式:绝对数,故也叫绝对指标或绝对数。,总量指标的特点:指标数值大小与总体范围成正相关;可以表现为不同时间和空间条件下事物总体总量增减的差额。只有有限总体才能计算总量指标,无限总体只能采用近似值。,总量指标的作用1、可以用来反映一个国家的国情、国力,一个地区或部门的人力、物力、财力的基本情况。2、制定政策、编制计划、进行科学管理的重要依据。3、计算相对指标、平均指标的基础。,总量指标的种类,1、按总量指标的总体内容不同分:总量单位总量:指总体单位总数。总量标志总量:指总体单位某一数量标志值的总和。2、按总量指标所反映的时间不同分:时期指标 时点指标3、按计量单位不同分:实物指标 价值指标 劳动指标,相对指标说明现象之间对比关系的指标,由两个或两个以上有联系的指标数值对比求得,结果表现为相对数,故也叫相对数。表现形式:无名数和有名数特点将对比的基础抽象化。掩盖了绝对数的规模。,相对指标的概念与特点,相对指标的作用反映现象内部结构和现象之间数量联系的程度,反映变化趋势。将现象绝对差异抽象化,使原来不能比的指标变得可以对比。,相对指标的种类和计算方法,(一)结构相对指标(二)比例相对指标(三)比较相指标(四)动态相对指标(五)强度相对指标(六)计划完成情况相对指标,(一)结构相对数,概念:反映总体内部各个组成部分在总体中所占比重的相对指标,也叫比重指标。计算公式:特点:各部分所占比重之和为100%或1。分子与分母位置不能互换。,(二)比例相对指标,概念:反映总体内各个组成部分之间数量对比关系的相对指标,即同一总体部分数值与另一部分数值对比的比值。计算公式:作用:反映同一总体各部分之间数量关系或比例关系。通过对各部分比例关系的研究,找出事物的发展规律。特点:分子分母同属一个总体,而且分子与分母的位置可以互换。,(三)比较相对数,比较相对指标是同一时期同类现象在不同地区、部门、单位之间的对比,用来表明同类事物在不同空间条件下的数量对比关系。计算公式:特点:用百分数或倍数表示;分子和分母可以互换;对比的分子分母必须是同质现象。,(四)动态相对数,概念:同一总体在不同时间上的同类指标数值之比,用以说明现象发展变化的方向和程度。计算公式:作用:说明现象在时间发展上变化的程度,也叫发展速度。特点:分子与分母的位置一般不能互换。常用百分数、倍数、千分数表示。,(五)强度相对数,概念:两个性质不同而又相互联系指标之比。计算公式:作用:反映一国一地的发展水平、力量强弱。反映事物存在的密度或普遍程度。反映社会生产活动的或效果。,特点:不同总体对比具有平均含义分子分母可以互换与比较相对指标的区别,(六)计划完成情况相对指标的计算,(1)计划数为绝对数,(2)计划数为平均数,(3)计划数为相对数,平均指标的概念和作用,一、平均指标的概念平均指标指同质总体的某一数量标志在一定时间、地点、条件下所达到的平均水平,是总体的代表值。平均指标的特点:同质性 代表性 抽象性,平均指标的作用,1.反映总体分布的集中趋势2.比较同类现象在不同单位、地区间的平均水平。3.总体某一指标的平均水平在时间上的变化,说明总体发展的过程和趋势。4.分析现象物之间的依存关系。5.作为科学预测、决策和某些推算的依据。,平均指标的种类,算术平均数调和平均数 数值平均数几何平均数众数中位数,位置平均数,标志变异指标的概念与作用,标志变异指标是综合反映总体各单位标志值及其分布的差异程度的指标。,标志变异指标的作用,1、衡量平均数代表性的大小。变异指标值与平均数的代表性大小成反比。2、衡量现象变动的稳定性和均衡程度。变异指标越小,现象变动的稳定性和均衡程度越高。3、确定必要抽样数目和计算抽样误差的必要依据。,标志变异指标的种类,四大类,即:1全距、四分位差2.平均差、标准差、方差3.偏度、峰度4.离散系数,众数,众数(mode),一组数据中出现次数最多的变量值适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数主要用于分类数据,也可用于顺序数据和数值型数据,众数(不惟一性),无众数原始数据:10 5 9 12 6 8,一个众数原始数据:6 5 9 8 5 5,多于一个众数原始数据:25 28 28 36 42 42,中位数,中位数(median),排序后处于中间位置上的值,不受极端值的影响主要用于顺序数据,也可用数值型数据,但不能用于分类数据各变量值与中位数的离差绝对值之和最小,即,数值型数据的中位数(9个数据的算例),【例】9个家庭的人均月收入数据原始数据:1500 750 780 1080 850 960 2000 1250 1630排 序:750 780 850 960 1080 1250 1500 1630 2000位 置:1 2 3 4 5 6 7 8 9,中位数 1080,数值型数据的中位数(10个数据的算例),【例】:10个家庭的人均月收入数据排 序:660 750 780 850 960 1080 1250 1500 1630 2000位 置:1 2 3 4 5 6 7 8 9 10,四分位数,四分位数(quartile),排序后处于25%和75%位置上的值,不受极端值的影响主要用于顺序数据,也可用于数值型数据,但不能用于分类数据,四分位数(位置的确定),原始数据:,分组数据:,数值型数据的四分位数(9个数据的算例),【例】:9个家庭的人均月收入数据原始数据:1500 750 780 1080 850 960 2000 1250 1630排 序:750 780 850 960 1080 1250 1500 1630 2000位 置:1 2 3 4 5 6 7 8 9,数值型数据的四分位数(10个数据的算例),【例】:10个家庭的人均月收入数据排 序:660 750 780 850 960 1080 1250 1500 1630 2000位 置:1 2 3 4 5 6 7 8 9 10,统计函数QUARTILE,均值,均值(mean),集中趋势的最常用测度值一组数据的均衡点所在体现了数据的必然性特征易受极端值的影响用于数值型数据,不能用于分类数据和顺序数据,算术平均数,基本形式算术平均数是总体各单位标志值总和除以总体单位总数得到的平均数。计算公式:算术平均数,计算方法,(一)简单算术平均数当掌握资料为各总体单位标志值简单排列,即未分组的资料时,用简单算术平均数。计算公式:其中:代表算术平均数,xi代表各单位标志值(变量值),n代表总体单位数(项数)。,(二)加权算术平均数,当掌握资料为分组的资料时,用加权算术平均数。计算公式:其中:代表算术平均数,x 代表各单位标志值(变量值),f 代表各组单位数(项数),如果是组距式资料,用组中值代表标志值进行计算。,简单均值(simple mean),设一组数据为:x1,x2,xn,总体均值,样本均值,加权均值(weighted mean),设一组数据为:x1,x2,xn相应的频数为:f1,f2,fk,总体均值,样本均值,加权均值(例题分析),均值(数学性质),1.各变量值与均值的离差之和等于零,2.各变量值与均值的离差平方和最小,几何均值,几何均值(geometric mean),n 个变量值乘积的 n 次方根适用于对比率数据的平均主要用于计算平均增长率计算公式为,5.可看作是均值的一种变形,几何均值(例题分析),【例】一位投资者购持有一种股票,在2000年、2001年、2002年和2003年收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率,算术平均:,几何平均:,切尾均值,切尾均值(trimmed Mean),去掉大小两端的若干数值后计算中间数据的均值在电视大奖赛、体育比赛及需要人们进行综合评价的比赛项目中已得到广泛应用计算公式为,n 表示观察值的个数;表示切尾系数,,切尾均值(例题分析),【例】谋次比赛共有11名评委,对某位歌手的给分分别是:,经整理得到顺序统计量值为,去掉一个最高分和一个最低分,取1/11,众数、中位数和均值的比较,众数、中位数和均值的关系,众数、中位数、均值的特点和应用,众数不受极端值影响具有不惟一性数据分布偏斜程度较大时应用中位数不受极端值影响数据分布偏斜程度较大时应用均值易受极端值影响数学性质优良数据对称分布或接近对称分布时应用,2.3 分布离散程度的测度,一、极差二、内距三、方差和标准差四、离散系数,极差(range),一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布,R=max(xi)-min(xi),计算公式为,内距(Inter-Quartile Range,IQR),也称四分位差上四分位数与下四分位数之差 内 距=Q3 Q1反映了中间50%数据的离散程度不受极端值的影响可用于衡量中位数的代表性,方差和标准差,标准差是总体各单位标志值对其算术平均数离差平方的算术平均数的平方根。方差为标准差的平方。标准差=方差,标准差的计算,简单平均式(用于未分组)=加权平均式(用于分组资料)=标准差的优缺点:最常用、最重要的测定变异指标,计算繁杂。,方差和标准差(Variance and Standard deviation),1.离散程度的测度值之一2.最常用的测度值3.反映了数据的分布反映了各变量值与均值的平均差异根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差,样本方差自由度(degree of freedom),一组数据中可以自由取值的数据的个数当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值例如,样本有3个数值,即x1=2,x2=4,x3=9,则 x=5。当 x=5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差2时,它是2的无偏估计量,离散系数,标准差系数,概念:标准差与相应算术平均数对比得到的相对数叫标准差系数。作用:用于对比分析不同总体(平均数不同)变异指标的大小。,离散系数(coefficient of variation),1.标准差与其相应的均值之比对数据相对离散程度的测度消除了数据水平高低和计量单位的影响4.用于对不同组别数据离散程度的比较5.计算公式为,离散系数(例题分析),【例】某管理局抽查了所属的8家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度,离散系数(例题分析),结论:计算结果表明,v1v2,说明产品销售额的离散程度小于销售利润的离散程度,统计表的构成与制表规则,统计表表现统计资料的一种形式。统计资料经汇总整理后,按一定的规定和要求填列在相应的表格内,即形成统计表。(一)统计表的构成(二)制表规则,(一)统计表的构成,从表的内容看:由主词和宾词组成。,由表的形式看:由总标题、横行标题、纵栏 标题、指标数值组成。,统计表的结构,统计表的种类,简单表:主词未经分组的统计表。,分组表:主词按两个或两个以上标志层叠分组的统计表。,以用途分:调查表、汇总表、分析表。,以统计数列性质分:空间数列表、时间数列表,以分组情况分:简单表、简单分组表、复合分组表,简单分组表:主词按一个标志分组的统计表。,(二)制表规则,简明、实用、美观、科学总标题能准确反映表的内容、时间、空间界限字迹清楚、数字排列整齐、位数对齐,同栏数据同等精确度,无空栏,不能用“同上”字样“”表示没有数字或免填(不是漏填),“”表示应填但缺乏资料项(不是缺项);栏数多时应加编号,主词栏用“甲、乙”,宾词用“(1)、(2)、(3)”表上、下两端用粗线或双线,左右两端不封口,纵栏用细线分开,横行之间不划线;必要时表下可加注释,说明资料来源、制表人、制表日期等。,本章小结,统计数据的整理分布集中趋势的测度分布离散程度的测度统计表和统计图,

    注意事项

    本文(数据的表述.ppt)为本站会员(仙人指路1688)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开