《数据的描述》PPT课件.ppt
《《数据的描述》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《数据的描述》PPT课件.ppt(91页珍藏版)》请在三一办公上搜索。
1、中央财经大学统计学院,第3章 数据的描述,统计图与统计表数据集中趋势的数值描述数据离散程度的数值描述数据分布的形态,中央财经大学统计学院2,本章要回答的问题,常用的统计图表有哪些?如何绘制和解释其含义?通常使用哪些数值指标描述数据的特征?如何计算?,中央财经大学统计学院3,3.1 统计图与统计表,绘制统计图一般都需要先对数据进行统计分组,在得到的频数分布表的基础上制图。,中央财经大学统计学院4,3.1.1 统计分组与频数分布,统计分组:就是按照研究目的将数据分成若干组的统计方法。关键:选择分组变量和划分各组界限例如按照考试成绩把学生分为优、良、中、及格、不及格。统计分组的结果是形成频数分布(分
2、布数列,Frequency Distribution)。,频数分布举例,两个构成要素:各组的分组界限每组中的次数或频率通过频数分布表可以发现数据分布的特征。频数(frequency):每个组中的数据个数,也称次数。频率(relative frequency):频数/总数据个数。,中央财经大学统计学院6,分组方法,中央财经大学统计学院7,单变量值分组,将一个变量值作为一组,适合于离散变量,适合于变量值较少的情况。例如某学院2008年毕业研究生毕业时发表论文篇数的频数分布表(右表)。,中央财经大学统计学院8,组距分组,将变量值的一个区间作为一组,适合于连续变量,适合于变量值较多的情况。分组必须遵循
3、“不重不漏”的原则。分为等距与不等距分组。各组组距都相等时为等距分组。为了避免有些组中的频数很少甚至是空白的情况,有时也可以采用不等距(异距)分组。应用中可能需要把第一组和/或最后一组设为开口组。,中央财经大学统计学院9,组距分组的步骤,1、确定组数:通常为5到15(20)组。Sturges 提出的经验公式:分组组数K应满足,2、确定组距和各组界限,建议为5,10的倍数。组距(最大值-最小值)组数,3、根据分组整理成频数分布表,中央财经大学统计学院10,组距分组中的基本概念,1、下 限:一个组的最小可能值2、上 限:一个组的最大可能值3、组 距:上限与下限之差4、组中值:下限与上限之间的中点值
4、,(下限+上限)/2。,开口组的组中值可以按以下方法计算:缺下限:上限-邻组组距/2缺上限:下限+邻组组距/2,但许多作者认为无法计算开口组的上限或下限。,中央财经大学统计学院11,等距分组表:上下组限间断,等距分组表(上下组限重叠,上组限不在内),中央财经大学统计学院13,等距分组表:(使用开口组),中央财经大学统计学院14,3.1.2 列联表(Contingency table),如果对数据同时根据两个变量分组,汇总得到的结果称为列联表。列联表反映的是两个变量的联合分布,可以用来分析两关变量之间的关系。也称为交叉分组表(Cross tabulation)。列联表一般根据两个定性变量进行编制
5、,如果是定量变量则需要先对单个变量进行分组。列联表中的数字为交叉单元格中的频数或频率。以列联表为基础可以对两个变量之间的关系进行多种统计检验。,中央财经大学统计学院15,列联表举例,市场营销专业的男生有10人。,中央财经大学统计学院16,3.1.3 常用统计图,中央财经大学统计学院17,条形图(Bar Chart),用宽度相同的条形高度或长短来表示数据变动的图形,条形的排列可以横排,也可以纵排。条形图有单式、复式等形式。,2003年我国就业人员情况(万人),中央财经大学统计学院18,圆形图(Pie Chart),也叫饼图,它是用圆形及圆内扇形的面积来表示数值大小的图形。主要用于总体内部的结构,
6、各组成部分所占比例等。,2003年我国国内生产总值中各产业比重,中央财经大学统计学院19,直方图(Histogram),用来反映数量变量的分布状况。在统计分组的基础上,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图。注意对不等距分组:纵轴必须表示为频数密度频数密度=频数/组距(面积之和=总频数)手工绘制直方图时需要先对数据进行分组;用统计软件作直方图时统计软件可以自动进行分组。,中央财经大学统计学院20,直方图(等距分组),某会计师事务所对20家公司进行年终审计所需时间(天)的频数分布表,中央财经大学统计学院21,直方图(不等距分组),某会计师事务所对20家
7、公司进行年终审计所需时间(天)的频数分布表,中央财经大学统计学院22,直方图与条形图的异同,都是用来反映数据的分布状况,适用于不同类型的数据。条形图是用条形的高度表示各类别频数的多少,其宽度(表示类别)则是固定的。直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义。直方图的各矩形通常是连续排列,条形图则是分开排列。,中央财经大学统计学院23,折线图(Frequency polygon),折线图也称频数多边形图是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉。折线图的两个终点要与横轴相交,具体的做法
8、是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴。组数越多,组据就越小,折线图就越光滑,逐渐形成一条平滑的曲线,这就是频数分布曲线。,中央财经大学统计学院24,审计时间的折线图,主要用于显示未分组的原始数据的分布。由“茎”和“叶”两部分构成,其图形是由数字组成的。通常以数据的高位数值作树茎,低位数字作树叶,树叶上只保留一位数字。树叶的竖列要对齐,以计算各组的次数。原始数据:24,26,24,21,27,27,30,41,32,38从小到大排序后的数据:21,24,24,26,27,27,30,32,38,41茎叶图:,3 0 2
9、8,4 1,2 1 4 4 6 7 7,茎叶图(Stem-and-Leaf Display),30,中央财经大学统计学院26,40名教师的年龄的数据:40,41,48,51,37,35,36,50,33,42,28,33,36,29,28,29,34,35,27,36,28,29,34,26,35,40,27,43,45,39,42,41,48,55,43,42,42,51,52,64,SPSS Statistics生成的一个茎叶图,中央财经大学统计学院27,线图(Line Chart),利用线形的升降起伏来表现描述的变量在一段时期内的变动情况,主要用于显示时间数列的数据。,1996年-200
10、3年城乡居民人民币储蓄存款年底余额,中央财经大学统计学院28,3.1.4 绘制统计图时的注意事项,1、通过选择恰当的图形类型、刻度、长宽比例等,使图形能够准确反映数据中包含的信息。时间一般绘在横轴,指标数据绘在纵轴。长宽比例要适当,其长宽比例大致为10:7。一般情况下,纵轴数据下端应从“0”开始。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断。,中央财经大学统计学院29,绘制统计图时的注意事项,2、图形要尽量简明。图形应该突出所要传达的信息,不必要的标签、背景、网格线、等会分散读者的注意力。3、图形应该有清楚的标题和必要的说明,明确图形的含义、计量单位、坐标轴代表的变量、资料来源等
11、等。4、反复加工和修改是获得优秀统计图形的重要步骤。统计软件给出的统计图形没有多少可以不加修改而直接应用。,中央财经大学统计学院30,下图增长速度惊人。,上图增长速度缓慢。,不恰当的统计图形举例:纵横比例,中央财经大学统计学院31,不必要的三维效果:三维图形可能比二维图形更能吸引读者的注意,但只能用来反映变化的趋势,不能用来进行精确的比较。,不恰当的统计图形举例:三维效果,中央财经大学统计学院32,不恰当的统计图形举例:图形类型,1960:$1.00,1970:$1.60,1980:$3.10,1990:$3.80,Minimum Wage,不好的图形,中央财经大学统计学院33,不恰当的统计图
12、形举例:压缩纵轴,Quarterly Sales,不好的图形,0,100,200,Q1,Q2,Q3,Q4,$,中央财经大学统计学院34,不恰当的统计图形举例:纵轴无零点,好的图形,Monthly Sales,不好的图形,36,39,42,45,J,F,M,A,M,J,$,中央财经大学统计学院35,3.1.5 统计表,统计表是统计资料的最基本表现形式,使数据资料表述的更加紧凑、简明,条理清晰、通俗易懂,便于数据的比较。一个完整的统计表从结构上看一般包括:表头、行标题、列标题、数据资料。对表中指标或数据的补充说明一般作为附加部分放在统计表的下方。,中央财经大学统计学院36,统计表的构成,行标题,表
13、头,列标题,数字资料,附加,中央财经大学统计学院37,统计表的制作要求,原则:科学、实用、美观、简练。标题简明扼要,满足3W要求(When,Where,What)。结构合理,长宽比例要适当。统计表为“开口式”;表的上下两条横线一般用粗线,其他线用细线,线条要少。数据计量单位相同时,可放在表的右上角标明,不同时应放在每个指标后或单列出一列标明。表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一。对于没有数字、缺某项或免填的表格单元,应使用特定符号标出。必要时可在表的下方加上注释。,中央财经大学统计学院38,3.2 数据描述的数值方法,数据描述的数值方法,分布的形状,集中趋势
14、,离散程度,众 数,中位数,均 值,离散系数,方差和标准差,峰 度,四分位距,极差,偏 态,中央财经大学统计学院39,3.2.1 集中趋势,常用的集中趋势的测度指标:算术平均数中位数众数,集中趋势:一组数据向其中心值靠拢的倾向和程度。集中趋势测度:寻找数据水平的代表值或中心值。,1 算术平均数(均值,Arithmetic Mean),总体均值常用 表示。样本均值常用 表示。样本均值的计算公式:简单平均数:加权平均数(分组数据):,中央财经大学统计学院41,算术平均数(例子),某企业的工会随机调查了20名工人2005年6月加班的小时数,结果如下:该组数据算术平均数等于(13+18+12)/20=
15、11.6(小时)。,中央财经大学统计学院42,加权算术平均数(例子),在前面的例子中,假设我们只得到了分组后的资料:该组数据算术平均数等于245/20=12.25(小时)。,中央财经大学统计学院43,关于计算结果的说明,根据原始数据和分组资料计算的结果一般不会完全相等,根据分组数据只能得到近似结果。只有各组数据在组内呈对称或均匀分布时,根据分组资料的计算结果才会与原始数据的计算结果一致。,中央财经大学统计学院44,算术平均数的性质,1、所有的定量数据都有算术平均数。2、计算算术平均数时使用了所有数据。3、一组数只有一个均值。4、各变量值与均值的离差之和等于零。,张村有个张千万,九个邻居穷光蛋;
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据的描述 数据 描述 PPT 课件
链接地址:https://www.31ppt.com/p-5519628.html