《资料的统计分析》PPT课件.ppt
《《资料的统计分析》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《资料的统计分析》PPT课件.ppt(94页珍藏版)》请在三一办公上搜索。
1、第九章 资料的统计分析,在调查结束后,我们必须对收集到的资料进行认真仔细的整理。而整理的目的是为了分析,没有对资料的分析,我们就不可能有对研究对象的总体把握,也不可能写出好的研究报告。当然,作为社会调查研究对象的社会现象有其质和量两方面,我们对整理好的资料也必须展开定性和定量两方面的分析,缺一不可。但是,定性分析是以研究者的理论功底为基础,主要靠个人的悟性。定量分析就不同了,它是我们每个人通过学习都可以统一掌握的技术。所以学习社会研究方法,课堂教学在资料分析方面重点讲得是统计分析,而对定性分析,本书是以穿插于有关章节的方式并以情境启发的方式来加以讨论的。,第一节 统计调查资料及其整理,一、统计
2、分组和频数分布 统计整理是与统计分组相联系的。所谓统计分组,就是将情况相同或相近的数据资料加以分门别类的归并,使之简单明晰,以便为统计分析中提取各种有用信息打下基础。,经过调查收集上来的资料虽然是大量的,却很可能是杂乱无章的,用它来直接做分析往往有困难。统计整理是对调查数据资料的条理化、系统化和有序化,通过它,社会调查研究才能进入统计分析阶段。,统计分组有两方面的含义,对总体(或样本)而言是“分”,即将总体中各个单位按照它们的差异性(如身高的差异)区分为若干部分;对总体单位而言是“合”,即将相近似的单位组合起来。这样,本来杂乱无章的数据便有序化了。,频数分布是统计分组的结果,它是指众多的调查数
3、据在各个组(各类别、各等级或各区间)出现或发生的次数。频数分布是对客观事物自然形成的分布状态的集中反映和描述。,60名男性青年的身高表(原始资料)单位:厘米,161 179 173 162 161 169 166 155 177 165 165 171 165 168 176 174 163 173 159 170 170 169 169 170 174 169 171 167 164 169 178 160 168 166 163 158 169 172 178 171 152 176 167 171 161 176 168 181 175 159 162 165 168 164 179 1
4、57 173 166 172 167,现在我们用从某大学大一男同学中抽取出来的60人的身高资料来编制频数分布表,60名男同学身高(以厘米计)的原始资料如右:,60名男性青年的身高表(序列资料)单位:厘米,152 160 163 165 167 169 170 171 174 177 155 161 163 165 167 169 170 172 174 178 157 161 164 166 168 169 170 172 175 178 158 161 164 166 168 169 171 173 176 179 159 162 165 166 168 169 171 173 176 17
5、9 159 162 165 167 168 169 171 173 176 181,很显然,面对这一堆原始数据,如果我们不作简化处理,是不容易从中看出什么规律性的。为此,我们先将它们由低到高排成序列资料:,将原始资料编排成序列资料,实际上是在进行统计汇总。由于身高(X)是连续变量,我们如果选4cm为间距,我们可以直接把序列资料编制成为含有8个组的,频数分布表(频数用f 表示)。如此一来,原来无序的原始资料就变为现在有序的分组资料。与此同时,学生总体中身高的分布状况也清晰地呈现出来。(注:由于身高是连续变量,汇总时使用了“上组限不包括在内”的处理原则。),某校大一60名男生身高频数分布表,二、频
6、率分布与总体内部结构 分组资料虽然简单明了,但不能直接看出各组人数占这60人的比重,从而显示出总体内部结构。为了实现这个要求,就要在分组资料的基础上派生出频率分布表(频率用P表示)。,频率就是各组人数占总体人数的比重,即PfN。比重都小于1,经常用百分数来表达,它反映了对象总体的内部结构。,某校大一60名男生身高频率分布表,累计频数(F),向上累计以变量数列首组的频数为始点,逐个累计各组的频数,展示小于该组上限的频数和。,向下累计以变量数列末组的频数为始点,逐个累计各组的频数,展示大于该组下限的频数和。,以上我们看到了三种形式的资料:原始资料、次序资料和分组资料,这反映了对资料进行整理和简化的
7、顺序。这三种形式是依次逐步简化和条理化的,使人们看起来越来越容易、越来越清楚。,三、图示法 把无序的原始资料整理成频数分布表,是表示统计资料的一种有效方式,我们可以称为列表法。其实,用图示法来表示统计资料比列表法更能一目了然。我们可以根据整理好的频数分布(或频率分布和累积百分数分布)绘制出相应的统计图。最常用的有直方图、条形图、折线图、曲线图等。,对于连续变量的分布,可以用矩形图表示。矩形高度表示各组的频数或频率。在等距分组的条件下,很显然,各矩形的面积与其高度成正比。因此,各矩形的面积同样可以用来表示各组的频数和频率,而且更加形象直观(如前图)。,1矩形图,方条图适用于表示离散变量的资料。方
8、条图与矩形图基本相同,其高度表示各组的频数(或频率)。对于定类变量和定序变量的测量,它的宽度是没有意义的,各方条之间要留有一定的距离。,2方条图,3折线图,表示频数(或频率)分布的另一种相似的图形是折线图。直接把矩形图各矩形顶部的中点用直线连接起来,并把原来的矩形抹掉,就得到了折线图。,在许多并非十分严格的场合,人们往往乐于把频数分布的矩形图和折线图修匀成平滑曲线,这样看起来更美观。例如,1901年至1985年,全世界已有300多位科学家获得过诺贝尔物理奖、化学奖和生物医学奖。对这些科学家取得成果的年龄进行统计,结果如下表。再以年龄为横坐标,人数为纵坐标,使可制成“获诺贝尔奖的年龄曲线”(见下
9、图9-3)。,4曲线图,第二节 统计分析一:描述统计,所谓描述统计就是讨论范围仅以搜集资料本身为限,而不予以扩大。包括推论统计在内,没有描述统计作为基础,想要运用好也是不可能的。描述统计所用数学较少,实用性又很强,因此在社会调查研究中使用的机会很多。,调查数据资料经分类整理后,已经使杂乱无章的原始数据资料成为有系统、有条理的数据资料,这就为统计分析中提取各种有用信息打下了基础。而在社会研究的定量分析中,描述统计是基础。,一、集中趋势统计量 统计分析首先要解决的第一个问题是,要用一统计指标来代表一系列的数据。这个具有代表性的统计指标,能够概括这一系列数据的特征,集中反映这一系列数据的一般水平。,
10、主要内容,算术平均数,中位数,众数,1算术平均数()简单算术平均数(对于未分组资料)注意:对求和符号,此时流动脚标的变动范围是1,2,3,N,N是总体单位数。例 求74、85、69、9l、87、74、69这些数字的算术平均数。解 78.4,加权算术平均数(对于分组资料)注意:对求和符号,此时流动脚标的变动范围是1,2,3,n,n是组数,而不是总体单位数。很显然,算术平均数不仅受各变量值(X)大小的影响,而且受各组单位数(频数)的影响。由于对于总体的影响要由频数(f)大小所决定,所以 f 也被称为权数。值得注意的是,在统计计算中,权数不仅用来衡量总体中各标志值在总体中作用,同时反映了指标的结构,
11、所以它有两种表现形式:绝对数(频数)和相对数(频率)。这样一来,在统计学中,凡对应于分组资料的计算式,都被称为加权式。,注意:分组资料有单项式和组距式两种。计算加权算术平均数,只有对每个变量值可分为一组的离散变量的分组资料(即单项式分组资料,参见下表)才能得到精确的结果。例 求下表(单项数列)所示数据的算术平均数。,对于组距数列(参见下表),要用每一组的组中值权充该组统一的变量值。例 求下表(组距数列)所示数据的算术平均数。,算术平均数的性质,各变量值与算术平均数的离差之和等于0。,各变量值对算术平均数的平方和,小于它们对任何他数偏差的平方和,算术平均数受抽样变动影响较小。,分组资料如遇有开放
12、组距时,不经特殊处理不能进行算术平均数的计算。,受极端值影响较大。,2中位数(Md),把总体单位某一数量标志的各个数值按大小顺序排列,位于正中处的变量值,即为中位数,用Md表示。Md可用于定序、定距、定比资料。,对未分组资料,(1)、先把所有数据按大小顺序排列,如果总体单位数为奇数,则取第(N+1)/2 位上的变量值为中位数;(2)、如果总体单位数为偶数。因为居中的数值不存在,按惯例,取第 N/2位和第(N+1)/2 位上的两个变量值的平均作为中位数。,数。,例 求54,65,78,66,43这些数字的中位数。例 求54,65,78,66,43,38 这些数字的中位数。,你会吗?,例 求72、
13、81、86、69、57这些数字的中位数。解 先将这几个数字由小到大排序:57、69、72、81、86,然后把居中那个数拿出来,于是 Md72,(1)单项数列,根据N/2在累计频数分布中找到中位数所在组,该组变量值就是Md。,中位数,对于分组资料,(2)组距数列按中位数所在组的下限:按中位数所在组的上限:,当根据组距数列求中位数时,要采用所谓的比例插值法:先根据N2在累计频数分布中找到中位数所在组,然后假定该组中各变量值是均匀分布的,再用以下任何一种方法求出中位数(注意:此处用的是向上累计)。,例 调查大一男生60人的身高如前表,求他们身高的中位数。解 第一种方法 166 4 1685(厘米),
14、请你用第二种方法来做一下,中位数的性质,(1)各变量值对中位数之差的绝对值总和,小于它们对任何其他数的绝对值总和。(2)中位数不受极端值的影响。(3)分组资料有不确定组距时,仍可求得中位数。(4)中位数受抽样变动的影响较算术平均数略大。,3众数(Mo),众数是在一组资料中,出现次数(或频数)呈现出“峰”值的那些变量值,用Mo表示。众数只与次数有关,可以用于定类、定序、定距、定比资料。,对于未分组资料 直接观察。首先,将所有数据顺序排列;然后,只要观察到某些变量值(与相邻变量值相比较)出现的次数(或频数)呈现“峰”值,这些变量值就是众数。,对于分组资料 单项式:观察频数分布(或频率分布)组距式:
15、,Lo为众数组下限;为众数组频数与前一组频数之差;为众数组频数与后一组频数之差;ho为众数组组距。,例 就72、81、56、86、81、57这几个数字求众数。解 按照众数的定义识别,众数是81。,例 调查大一男生60人的身高情况如前表,求他们身 高的众数。解 因为是组距式分组资料,运用前式计算,为什么众数有时不存在,有时有两个以上?,二、离中趋势统计量,主要内容:(1)全距;(2)异众比率;(3)标准差。,所谓离中趋势,是指数列中各变量值之间的差距和离散程度。离势小,平均数的代表性高;离势大,平均数代表性低。,例如有A、B、C、D四组学生各5人的成绩如下:A组:60,60,60,60,60 B
16、组:58,59,60,61,62 C组:40,50,60,70,80 D组:80,80,80,80,80 数据显示,平均数相同,离势可能不同;平均数不同,离势可能相同。,1.全距(R)R=Xmax Xmin 例 求74,84,69,91,87,74,69这些数字的全距。解 把数字按顺序重新排列:69,69,74,74,84,87,91,显然有 R=Xmax Xmin 91 6922,全距(R):最大值和最小值之差。也叫极差。全距越大,表示变动越大。,优点:缺点:,计算简单、直观。,(1)受极端值影响大;(2)没有量度中间各个单位间的差异性,数据利用率 低,信息丧失严重;(3)受抽样变动影响大,
17、大样本全距比小样本全距大。,2.异众比率(VR)所谓异众比率,是指非众数的频数与总体单位数的比值,用VR来表示 其中:为众数的频数;是总体单位数,异众比率能表明众数所不能代表的那一部分变量值在总体中的比重。,例 调查某小区50户家庭的人口情况如表9.5,求异众比率。解,3.标准差(S),在统计分析中,对于定距变量,用标准差来作为离中趋势统计量是最基本的做法。这是指在一组数据中,各数值之间的差距是不相等的,有的差距大,有的差距小,以它们之间平均相差多少作为标准来衡量一组数据的离散程度,即标准差。更准确地讲,标准差用于衡量各数值相对于算术平均数的平均偏离程度。,对于未分组资科,一个数据与该组数据的
18、算术平均数 的差叫离差。当一个数据大于 时,离差是正值,反之则为负值。为了消除离差正负号的影响,可求所有离差平方的算术平均,这是所谓的均方差,简称方差()。将方差开平方后所得的值就是标准差。方差:标准差:,例 求72、81、86、69、57 这些数字的标准差。,对于分组资料,计算左边数列的标准差,例 调查大一男生60人的身高情况如前表所示,求他们身高的标准差。解 因为是分组资料,运用(9.10)式,计算参见下表,值得注意的是,计算分组资料的标准差,也可以依据频率分布来进行计算式由此可以写成:,或者,第三节 统计分析二:推论统计,所谓推论统计,主要是依据概率论,研究如何依据有限资料对总体性质作推
19、断,从而使统计的功能大为扩充。,在社会研究中,抽样调查被公认为是一种最完善、最有科学根据的调查方法。然而它在数学上要求比较高,一定要有推论统计。那种认为样本理所当然能够代表总体的看法是没有根据的。,一、概率与概率分布,随机现象具有一定条件呈现多种可能结果的特性。,人们把随机现象的结果以及这些结果的集合体称作随机事件。,概率是与随机现象相联系的一个概念。所谓随机现象,是指事先不能精确预言其结果的现象,如即将出生的婴儿是男还是女?一枚硬币落地后其正面是朝上还是朝下?等等。所有这些现象都有一个共同的特点,那就是在给定的条件下,观察所得的结果不止一个。随机现象具有非确定性,但内中也有一定的规律性。例如
20、,事先我们虽不能准确预言一个婴儿出生后的性别,但大量观察,我们会发现妇女生男生女的可能性几乎一样大,都是0.5,这就是概率。,在推论统计中,概率和概率分布有着如同在描述统计中频率和频率分布那样的联系。现在我们了解了概率,但作为随机现象的全面研究这还很不够。概率仅仅告知了随机现象某一局部结果发生的可能性有多大,概率分布则要在满足完备性(穷举)和互不相容性(互斥)的前提下,回答随机现象一共会出现多少种结果,以及每种结果所伴随的概率是多少。,以抛掷十枚硬币的试验为例,概率分布不仅要回答一共会发生11种结果(从没有一枚硬币面朝上到所有十枚硬币面全朝上),而且要回答全部11种结果发生的概率各是多少。解决
21、了这两个问题,我们的讨论便从概率过渡到了概率分布。在推论统计中,我们是用先验的方法就每种结果算出其发生概率的,将它们一一列入右表中,我们就得到了著名的二项分布。,推而论之,在随机变量的取值满足“穷举”和“互斥”这两个原则的前提下,概率分布的一般形式如下表所示。,现在我们把这里所讲的概率分布与前面所讲的频数分布、频率分布作一比较,就会发现它们(特别是频率分布与概率分布)非常相象。当然概率分布与频率分布也有重要区别:频率分布是经资料整理而来的,概率分布却是先验的;频率分布随样本不同而有所不同,概率分布却是唯一的;频率分布有对应的频数分布,概率分布则没有。因此频率分布被称为随机变量的统计分布或经验分
22、布,而概率分布则被称为随机变量的理论分布。,二、分布函数 但是我们要特别注意,上表实际上只对离散型随机变量适用。因为离散型随机变量X的取值是可数的。如果对X的每个可能取值xi计算其实现的概率Pi,我们便得到了离散型随机变量的概率分布,即,像上面抛掷硬币的试验一样,有许多随机现象只包含两个结果,如男与女、是与非、生与死、同意与不同意、赞成与反对等等。通常,我们把其中比较关注那个结果称为“成功”,另一个结果则称为“失败”。每当试验如同抛掷硬币,是在相同的条件下重复n次,考虑的是“成功”的概率p(“失败”的概率q1p),且各次试验相互独立,我们都可以得到由二项分布所示的概率分布。二项分布是最著名的离
23、散型随机变量的概率分布,它的数学表达式是,连续型随机变量的取值充满某一区间,因而取某一数值讨论其概率是无意义的。为此,我们引进概率密度 的概念来表达连续型随机变量的概率分布。,以频率密度为纵坐标,可以作出频率分布直方图。类似地,以概率密度 为纵坐标,可以作出概率密度曲线。所不同的是,概率密度由于对组距求了x0的极限,其图形乃平滑曲线。,这样一来,随机变量X取值在区间x1,x2上的概率等于概率密度曲线 下面x1与x2两点之间面积,即,所以有概率密度的性质,因为概率不可能是负的,且,为了从数学上能够统一对随机变量的概率进行研究引入分布函数 的概念,它被定义为 有了分布函数,就可以很容易得到随机变量
24、X取值在任意区间x1,x2上的概率,即,连续型随机变量,离散型随机变量,和(离散变量)或(连续变量)的关系,就像向上累计频率和频率的关系一样。不同之处在于,累计的是概率。但使用分布函数的好处是很明显的,它不仅在数学上统一了对离散型随机变量和连续型随机变量概率的研究,而且由于它计算概率的起点都固定为,因而可以把概率值换算成表,以易于求得任何区间的概率,从而达到计算快捷和应用广泛之目的。,例 求两颗骰子点数的分布函数。,例 某特定社区人口的10%是少数民族,现随机抽取6人,问其中恰好2人是少数民族的概率是多少?解 根据附表3求得 B(2;6,0.1)F(2)F(3)0.11430.01590.09
25、84,三、数学期望与变异数 在前面统计分组的讨论中,我们在得到频数(或频率)分布后,为了对变量有系统概括的认识,分别研究了集中趋势和离中趋势。而对集中趋势和离中趋势量度,我们分别得到了平均指标和变异指标,其中最有代表性的是算术平均数和标准差。很显然,现在当我们面对随机变量的理论分布时,也要对随机变量的集中趋势和离中趋势作概括性的描述,这就引出数学期望和变异数这两个概念。所谓数学期望,是反映随机变量X取值的集中趋势的理论均值(算术平均),记作E(X)。,离散型随机变量,连续型随机变量,例 一家保险公司在投保的50万元人寿保险的保单中,估计每1000 保单每年有15个理赔,若每一保单每年的营运成本
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 资料的统计分析 资料 统计分析 PPT 课件
链接地址:https://www.31ppt.com/p-5608540.html