调查资料的统计分析课件.ppt
《调查资料的统计分析课件.ppt》由会员分享,可在线阅读,更多相关《调查资料的统计分析课件.ppt(146页珍藏版)》请在三一办公上搜索。
1、第十一章 调查资料的统计分析,第一节 统计分析概述第二节 单变量统计分析 一、频数分布与频率分布 二、集中趋势分析 三、离散趋势分析第三节 双变量统计分析 一、交互分类 二、相关分析 三、回归分析第四节 推论统计,第一节 统计分析概述,一、统计分析的含义与作用,运用统计学的方法,对调查所得资料的数量特征进行描述,并用各种数学模型揭示调查资料中所隐含的关系、规律及发展趋势。,1为社会调查研究提供一套精确的形式化语言2使抽样调查成为可能3有助于揭示社会现象的规律4有助于较精确地预测社会现象的发展趋势,含义,作用,二、统计分析的特点,统计分析要以定性分析为基础,根据研究目的制定具体的统计分析计划,统
2、计分析的内容,描述统计,推论统计,用最简单的概括形式反映出大量数据资料所容纳的基本信息,从样本调查中所得的数据资料来推断总体的情况,基本方法,基本内容,第二节 单变量统计分析,一、频数分布与频率分布,所谓频数分布,就是指一组数据中取不同值的个案的次数分布情况,它一般以频数表的形式表达。,某班有25名学生,其年龄情况如下:20,19,18,19,18,20,21,17,18,18,19,19,20,19,19,17,18,20,19,19,21,21,19,20,19。,年龄(岁),学生人数,1718192021,25105325,合计,该班学生的年龄分布表,例如,频数分布表的作用 一是简化资料
3、,即将调查所得到的一长串原始数据,以一个十分简洁的统计表反映出来;二是从频数分布表中,可以更清楚地了解调查数据的众多信息。,所谓频率分布,则是指一组数据中不同取值的频数相对于总数的比率分布情况,这种比率通常以百分比的形式表达,频率分布情况以频率表的形式出现。,频率分布表除具备频数分布表的优点外,还能反映各类所占的比重,便于不同总体或不同类别之间的比较。这种分布的应用更为普遍。,例如,年龄(岁),百分比,1718192021,820402012100,合计,某班学生的年龄分布,SPSS操作例,二、集中趋势分析,所谓集中趋势分析,指的是用一个典型值或代表值来反映一组数据的一般水平,或向这个典型值集
4、中的情况。,最常见的集中趋势统计量,平均数,众数,中位数,平均数(算术平均数)用总体各单位数值之和除以总体单位总数的商。平均数又称为均值或均数。,计算公式及应用举例,由原始数据计算平均数。设总体单位总数为n,总体各单位的数值为xi(i=1,2,n),则计算公式为:,由单值分组资料计算平均数。首先要将每一个组的量值乘以所对应的频数;然后将各组的数之和全部相加,最后除以单位总数,得出平均数。其计算公式为:,由组距分组资料求平均数。先计算出各组的组中值Xm,然后再按照单值分组资料计算平均数的公式计算。,注:组中值是各组变量范围内的一个中间数值,一般由各组的上限和下限进行简单平均计算,即:组中值=(上
5、限+下限)2若为开口组,其组中值按下列公式计算:缺下限的最小组组中值=上限-邻组组距2缺上限的最大组组中值=下限+邻组组距2,例题,例1 某班10名学生的年龄分别为20岁、21岁、19岁、19岁、20岁、20岁、21岁、22岁、18岁、20岁,求他们的平均年龄。,例2 调查某年级150名学生的年龄,得到下列结果(右表),求平均年龄。(19.33),171819202122,10255040205,例3 调查某厂100名职工的收入情况如下(右表),求他们的平均收入。(212),例:某单位职工月工资资料如下表,试求该单位职工月平均工资。(833.3元/人),中位数,把一组数据按值的大小顺序排列起来
6、,处于中央位置的那个数值叫中位数。中位数通常用Me表示,它将整个数据资料一分为二,其中一半的数值比它大,而另一半的数值比它小。当数据为偶数个时,取中间两数的平均数。,中位数的作用:不受极端数值的影响,在总体标志值差异很大时,具有较强的代表性。,中位数的确定,(未分组资料),【例】某企业某日工人的日产量资料如下:,计算该企业该日全部工人日产量的中位数。,中位数的位次:,(单项数列),为中位数所在组的组距。式中,假定中位数所在组的频数在该组内是均匀分布的。,组距数列计算中位数:,采用公式计算中位数的近似值:,为数据的个数(总次数);L为中位数所在组的下限值;,为中位数所在组以前各组的累积频数;,为
7、中位数所在组的频数;,个次数或频数,式中的C点,AB区域即整个中位数所在的组内,次数分布是均匀的,依次分布着,个次数或频数。,再假定AC区域内,次数分布也是均匀的,且依次分布着,是中位数所在的位置,,为中位数所在组以前各组的累积频数。,例、设某车间50名工人日加工零件数分组表如下:,计算该车间50名工人日加工零件数的中位数。,众数,众数是一组数据中出现次数最多(即频数最高)的那个数值。通常用M表示。,众数的求法,由单值分组资料求众数。由于单值分组资料中已将各标志值及其所对应的频数都一一列出,故只需采用直接观察的方法就可求得众数。具体做法是,首先在频数一栏中找出最大的频数,假定为 fm;然后根据
8、fm找到它所对应的标志值 Xm,则众数即为 Xm。,由组距分组资料求众数。由组距分组资料求众数的常用的方法是组中值法。用组中值法求众数分为三步:首先通过直接观察找出最高的频数;然后根据最高的频数找到它所对应的组;最后求出该组的组中值即是众数。,求众数往往要求数据具备一定的条件,即只有当总体单位数目较多且其数据有明显的集中趋势时才能计算众数。,调查某年级150名学生的年龄,得到下列结果。首先我们在人数(频数)一栏中找出最大的频数50,再从50找到所对应的年龄19岁。则资料中的众数为19岁。,例如,某厂100名职工的收入情况,首先在职工数一栏中,找到最大的频数40;然后找到40所对应的组:1802
9、20;最后计算该组的组中值,计算结果为200元。因此,该例中的众数为200元。,众数、中位数和均值都是对数据集中趋势的测度,1、均值由全部数据计算,包含了全部数据的信息,具有良好的数学性质,当数据接近对称分布时,具有较好的代表性;但对于偏态分布,其代表性较差;受极端值的影响较大。2、中位数是一组数据中间位置上的代表值,不受数据极端值的影响,对于偏态分布的数据,其代表性要比均值好。3、众数是一组数据分布的峰值,是一种位置的代表,与数据出现的次数有关,当数据的分布具有明显的集中趋势时,尤其对于偏态分布,众数的代表性比均值好。但具有不唯一性。4、对接近正态的分布数据,常用均值描述数据的集中趋势;对偏
10、态分布,常用众数或中位数描述数据的集中趋势。5、均值只适用于定距或定比尺度的数据;定序尺度数据可用中位数或众数进行描述,而对定类尺度数据,只能用众数进行描述。,众数、中位数和均值的应用场合,数据分布形状 Shape,表明数据是如何分布的偏态Skew 与 对称Symmetry左偏:均值中位数对称(零偏度):均值=中位数,三、离散趋势分析,离散趋势(又称离中趋势)分析指的是用一个特定的数值来反映一组数据相互之间的离散程度。,作用:它与集中趋势一起,分别从两个不同的侧面描述和揭示一组数据的分布状况,共同反映出资料分布的全面特征;同时,它还对集中趋势的统计量(如平均数、众数、中位数)的代表性作出补充说
11、明。,某校三个系各选5名同学,参加智力竞赛,他们的成绩分别如下:中文系:78 79 80 81 82 X80 数学系:65 72 80 88 95 X80 政治系:35 78 89 98 100 X80,如果仅以集中趋势统计量(平均数)来衡量,那么,三个系代表队的水平一样高,不存在什么差别。但从直观上不难发现,三个代表队中五名队员的成绩相互之间的差跟程度(离散程度)很不一样。中文系成绩十分接近;数学系成绩比较分散;而政治系队成绩则相差十分悬殊。80分对中文系队同学的代表性最高,而对政治系队同学的代表性最低。,离散趋势的各种统计量,一方面揭示出数据相互分离的程度;另一方面又对相应的集中趋势统计量
12、的代表性作出判断。,结论,集中趋势统计量的代表性与所对应的离散趋势统计量是反比关系,即离散趋势统计量越大,则所对应的集中趋势统计量的代表性就越小;反之,则越大。,全距,标准差,异众比率,四分位差,离散系数,对应,众数,平均数,中位数,对应,对应,1全距也叫极距,它是一组数据中最大值与最小值之差。全距是离散趋势统计量中最简单的一种。在原始数据资料条件下,只需将全部数据按大小顺序排列,然后用最大值减去最小值即可。,全距的意义在于,一组数据的全距越大,在一定程度上说明这组数据的离散趋势越大,而集中趋势统计量的代表性越低。反之,一组数据的全距越小,则说明这组数据的离散趋势越小,集中趋势统计量的代表性就
13、越高。,由于全距仅仅依靠两个极端值,因而带有很大的偶然性,它对于大量的处于两个极端值之间的数值分布情况以及在中心点周围的集中情况,都无法提供任何信息,比较粗糙。,2、四分位差,四分位差是先将一组数据按大小排列成序,然后将其四等分,去掉序列中最高的四分之一和最低的四分之一,仅就中间的一半数值来测定序列的全距。,四分位差的符号通常用Q表示。Q=Q3Q1 而Q1、Q3分别表示第一个四分位点和第三个四分位点。,例:位分组资料计算四分位差某班7位同学的成绩依次为:55,61,72,80,83,88,92。计算其四分位差。Q1=(N+1)/4=2;Q2=2(N+1)/4=4;Q3=3(N+1)/4=6Q=
14、(Q3-Q1)/2=(88-61)/2=13.5四分位差是指舍去资料中的数值最高的25%数据和数值最低的25%数据,仅就属于中间的50%数据求其量数作为离散量数。四分位差能够避免次数分配数列中两端极端数值的影响,中间部分数列分配愈集中,标志值的差异愈小,四分位差也愈小。,3标准差 标准差:一组数据对其平均数的偏差平方的算术平均数的平方根。它是用得最多、也是最重要的离散趋势统计量。通常用符号 来表示,其计算公式根据资料的形式不同而稍有差别。,由原始数据计算标准差,由组距分组资料计算标准差。其方法与上述单值分组资料计算标准差的方法相似,唯一不同的是需要先计算出各组的组中值,然后采用下述公式:,【例
15、】某销售小组5个人,某天的销售额分别为440元、480元、520元、600元、750元,求该销售小组销售额的标准差。,解:,即该售货小组销售额的标准差为109.62元。,标准差计算例,单项数列:某村社会救助款额发放资料如表所示,求加权标准差。115.67元,组距数列:以下表资料为例,计算加权标准差。676.68万元,4离散系数,离散系数是一种相对的离散趋势统计量,它使我们能够对两种不同单位的离散趋势统计量,或者对两个不同总体的离散程度进行比较。,标准差与平均数的比值,用百分比表示。,定义:,标准差系数,在平均数不为零的条件下,离散系数越大,表明数据的离散程度越大,而所对应的集中趋势统计量的代表
16、性就越小;反之,则数据的离散程度越小,集中趋势统计量的代表性就越大。,应用举例,【例】某年级一、二两班某门课的平均成绩分别为82分和76分,其成绩的标准差分别为15.6分和14.8分,比较两班平均成绩代表性的大小。,解:,一班成绩的标准差系数为:,二班成绩的标准差系数为:,因为,所以一班平均成绩的代表性比二班大。,【例】:如果你是一家制造业公司的供应部门经理,与两家原材料供应商联系供货,两家供应商均表示能在大约10个工作日内供齐所需原材料。几个月的运转之后,你发现尽管两家供货商供货的平均时间都是大约10天,但他们供货所需天数的分布情况却是不同的(图)。,问:两家供货商按时供货的可信度相同吗?考
17、虑它们直方图的差异,你更愿意选择哪家供货商供货呢?,5异众比率异众比率:一组数据中非众数的次数与总体全部单位数的比率。,公式:,(这里fmo为众数的次数),第三节 双变量统计分析,一、交互分类,1交互分类的定义与作用,所谓交互分类,就是将一组数据按照两个不同变量的类型进行综合的分类。交互分类的结果通常以交互分类表的形式反映出来。,上表是对总数为300人的调查对象按照年龄和文化程度两个变量的标准进行交互分类的结果。每一个被调查者按这两种标准被划分到某一个格内。即格内数字就是分类的结果。,通过对各种不同类型格内的频数或相对额数(即百分比)的分析,来研究和探讨变量之间是否存在关系。,即被调查者的文化
18、程度与他们的年龄有关,并呈现出年龄越低,总体文化程度越高的状况。,交互分类方法的适用对象主要是定类与定序层次的变量,而在社会调查研究中的绝大部分变量正好又是这两个层次的。因此,交互分类的方法对于大量社会调查资料的相关分析有着十分重要的作用。,二、相关分析,交互分类主要处理的是定类(或定序)变量间的关系问题,对于定距及定比变量来说,则有另一些方法来探讨。这里主要简单介绍相关系数的计算方法及一元线性回归模型。,相关分析的意义,社会、经济现象中,一些现象与另一些现象之间往往存在着依存关系,当我们用变量来反映这些现象的特征时,便表现为变量之间的依存关系。,如,职业种类和收入之间的关系、政府投入和经济增
19、长之间的关系、广告投入和经济效益之间的关系、治疗手段和治愈率之间的关系等等。这些都是二元的关系。还有更加复杂的诸多变量之间的相互关系,如企业的固定资产、流动资产、预算分配、管理模式、生产率、债务和利润等诸因素的关系则不能用简单的一些二元关系描述。,在分析变量的依存关系时,把变量分为两种:,自变量,因变量,引起其他变量发生变化的量。,受自变量的影响发生对应变化的量,如:家庭收入决定消费支出,收入的变化必然引起消费支出的变化,这两个变量中收入是自变量,而消费支出则是因变量。,函数关系可以用一个确定的公式,即函数式,或:Y=F(X),来表示。,现象之间的相互关系,可以概括为两种不同的类型:,(一)函
20、数关系(二)相关关系,例、根据消费理论,商品需求量Q与商品价格P、居民收入I之间具有的相关关系;工资收入与工龄之间的关系;工作业绩与文化程度的关系等等。,相关关系分析,1.广义上的相关分析包括以下五个方面:(1)确定现象之间是否存在相关关系(2)确定相关关系的表现形式(3)判定相关关系的方向和密切程度(4)对达到一定密切程度的相关关系建立适当的数学模型,以确定自变量与因变量之间数量变化的规律性。(5)测定数学模型的代表性大小并根据自变量数值对因变量的数量变化做出具有一定概率保证程度的推算和预测。2.前三个方面内容称为狭义的相关分析,后两方面内容的研究称为回归分析。,相关关系的种类:,1、按相关
21、关系涉及变量的多少可分为:,相关关系的种类:,2、按相关的方向可分为:,线性正相关,线性负相关,非线性相关,无(不)相关,相关关系的种类:,3、按相关关系的密切程度分为:,完全相关,因变量完全随自变量变动而变动,存在着严格的依存关系。即变量间的关系为函数关系。,不完全相关,变量之间存在着不严格的依存关系,即因变量的变动除了受自变量变动的影响外,还受其他因素的影响。它是相关关系的主要表现形式。,完全不相关,自变量与因变量彼此独立,互不影响,其数量变化毫无联系。,相关关系的测定,定性分析,是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作出判断,定量分析,在定性分析的
22、基础上,通过编制相关表、绘制相关图、计算相关系数与判定系数等方法,来判断现象之间相关的方向、形态及密切程度,定性和定量变量间的混和关系,假想关于高等学校的数据的一些指标包括:在校生人数(S),研究生比例(G),教师人数(F),职工人数(ST),SCI和SSCI文章数目(P),SCI和SSCI文章引用数目(Q),科研项目数(PR),科研经费(B),总经费及招生范围(N)等,从该数据很难马上看到任何关系。但是从数据可以得到许多有用的关系和结论。如,可以得到任何一个变量和其余变量之间的定量关系或者多个变量之间的定量关系(因而可以建立模型,进行预测和各种推断);也可以利用其中一些变量把各个高等学校分类
23、;还可以把众多的变量用少数几个变量代替以利于分析和理解;数据可以作为高校排名的根据之一,相关表,相关关系的测定,将两个变量伴随变动结果编成一张统计表,即相关表。,单变量分组相关表,多变量分组相关表,只对其中一个变量分组。,对两个变量同时分组。,简单相关表,适用于所观察的样本单位数较少,不需要分组的情况,分组相关表,适用于所观察的样本单位数较多,标志变异又较复杂,需要分组的情况,两种相关表的适用范围,八个同类工业企业的月产量与生产费用,简单相关表,例 简单相关表某市居民月消费支出和可支配收入相关表(单位:百元),(百万元),(吨),20个同类工业企业固定资产原值与平均每昼夜产量,分组相关表,相关
24、图,相关关系的测定,将变量之间的伴随变动绘于坐标图上所形成的统计图。又称散点图。,简单相关图,根据未分组资料的原始数据直接绘制的相关图。,分组相关图,根据分组资料绘制的相关图。,正 相 关,负 相 关,曲线相关,不 相 关,用直角坐标系的x轴代表自变量,y轴代表因变量,将两个变量间相对应的变量值用坐标点的形式描绘出来,用以表明相关点分布状况的图形。,相关关系的测定,相关图的绘制,相关系数工具的选择:,1 定类变量:可以使用卡方或者LAMBDA系数;2 定序变量,或者至少有一个定序:行与列相等时用GAMMA系数,其他用SOMERS D相关系数。3 定距和定比变量,或者定序取值达到或超过5:用皮尔
25、逊相关系数。,注意:在统计软件中一般把前两类的计算归于描述性统计类别里,而后者才在相关分析类别里。,定类变量间的相关测定:系数(Lambda)定类变量之间的相关系数,只能以变量值的次数来计算,常用Lambda系数法。例:性别与对吸烟的态度资料见下表,性别与对吸烟态度,AnalyzeDescriptive Statistics Crosstabs,Spss操作自行练习,参见SPSS.11_0统计分析教程.(基础篇)第14章,定序变量间的相关测定:G系数(Gamma)例:管理人员的管理能力与声望的交互分类表,SPSS中列联表分析的常用方法1、适用于两定类变量的方法2、适用于两定序变量的方法3、适用
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 调查 资料 统计分析 课件
链接地址:https://www.31ppt.com/p-3967686.html