最新电大社会统计学期末备考资料小抄.doc
《最新电大社会统计学期末备考资料小抄.doc》由会员分享,可在线阅读,更多相关《最新电大社会统计学期末备考资料小抄.doc(12页珍藏版)》请在三一办公上搜索。
1、电大社会统计学期末复习小抄什么是统计学? 对与随机现象有关的数据资料进行收集、整理、计算和分析的过程。统计的内容l 统计描述:描述数据,包括资料的整理、分类和简化或特征研究。l 统计推论:使用数据从部分到整体进行推论,包括参数估计、假设检验、回归、列联、方差分析、等级相关等等。统计数据的分类(按计量尺度分) 分类数据(categorical data) n 对事物进行分类的结果n 数据表现为类别,用文字来表述例如,人口按性别分为男、女两类 顺序数据(rank data) n 对事物类别顺序的测度n 数据表现为类别,用文字来表述例如,产品分为一等品、二等品、三等品、次品等 数值型数据(metri
2、c data) n 对事物的精确测度n 结果表现为具体的数值例如:身高为175cm、168cm、183cm4种测量层次(一)定类尺度定类尺度也称类别尺度或列名尺度,是最粗略、计量层次最低的计量尺度。这种计量尺度只能按照事物的某种属性对其进行平行的分类或分组。 它具有和的数学特性。 所获得的数据只表示属性或类别。如,性别、态度(赞同、反对) (二)定序尺度定序尺度又称顺序尺度,是对事物之间等级差或顺序差别的一种测度。该尺度不仅可以将事物分成不同的类别,而且还可以确定这些类别的优劣或顺序。 该尺度具有和的数学特性,但不能进行加、减、乘、除等数学运算。所获得的数据可以按多少或大小排序。如,名次、能力
3、、喜好度(三)定距尺度定距尺度也称间隔尺度,它不仅能将事物区分为不同类型并进行排序,而且可以准确地指出类别之间的差距是多少。 其结果可以进行加、减运算。所获得的数据有量的大小,还有相等的单位。如,温度0100 (四)定比尺度定比尺度也称为比率尺度,它除了具有上述三种计量尺度的全部特性以外,还具有一个特性,那就是可以计算两个测度值之间的比值。这就要求定比尺度中必须有一个绝对固定的“零点”,这也是它与定距尺度的惟一差别。定比尺度可以进行加、减、乘、除运算。所获得的数据有量的大小、相等单位和绝对零点,可以以“倍数”的方式解释。如,身高、体重、时间、绝对温度区分测量的层次和数据的类型十分重要,因为对不
4、同类型的数据将采用不同的统计方法来处理。l 高层次的数据可以采用低层次数据的分析方法,但丢失资料的信息,反之不可。总体和样本 总体(population)n 所研究的全部元素的集合 ,其中的每一个元素称为个体 n 分为有限总体和无限总体n 有限总体的范围能够明确确定,且元素的数目是有限的n 无限总体所包括的元素是无限的,不可数的 样本 (sample)n 从总体中抽取的一部分元素的集合n 构成样本的元素的数目称为样本容量 参数和统计量 参数(parameter)n 研究者想要了解的总体的某种特征值n 所关心的参数主要有总体均值(m)、标准差(s)、总体比例(P)等n 总体参数通常用希腊字母表示
5、 统计量(statistic)n 根据样本数据计算出来的一个量 n 所关心的样本统计量有样本均值(x)、样本标准差(s)、样本比例(p)等n 样本统计量通常用小写英文字母来表示 变 量(Variable) 说明现象某种特征的概念n 如商品销售额、受教育程度、产品的质量等级等n 变量的具体表现称为变量值,即数据 变量可以分为n 分类变量(categorical variable) :说明事物类别的一个名称n 顺序变量(rank variable ) :说明事物有序类别的一个名称n 数值型变量(metric variable ) :说明事物数字特征的一个名称 l 离散变量:取有限个值 l 连续变量
6、:可以取无穷多个值 随机变量与随机事件l 随机现象:事先无法确定会出现哪种结果的现象。l 随机变量:用一些数字来表示,称这些数字为随机变量。 (x1,x2,xi)若xi为每个个体的值,则它也是随机变量;l 随机事件是随机变量的取值;l 随机事件,由一个或几个基本随机事件组成,如点大(四五六)点小(一二三)l 基本随机事件不可再分次数、频率、概率l 次数,又叫频数,用(f)表示l 频率,又叫相对次数,f/n,n为样本量,反映样本特征l 概率,无数次观测后得到的,频率的极限,用(P)表示,P=f/n,n趋近无穷,反映总体特征l 统计概率和古典概率的区别:总体无限与有限统计调查方式抽样调查 (Sam
7、ple survey)1.从总体中随机抽取一部分单位(样本)进行调查2.目的是推断总体的未知数字特征3.最常用的调查方式4.具有经济性、时效性强、适应面广、准确性高等特点普查(census)1.为特定目的专门组织的非经常性全面调查2.通常是一次性或周期性的3.一般需要规定统一的标准调查时间4.数据的规范化程度较高5.应用范围比较狭窄重点调查和典型调查l 重点调查(Key-point investigation)从调查对象的全部单位中选择少数重点单位进行调查调查结果不能用于推断总体 典型调查(Model survey)n 从调查对象的全部单位中选择少数典型单位进行调查n 目的是描述和揭示事物的本
8、质特征和规律n 调查结果不能用于推断总体第二章 数据的整理与显示整理与图示分类数据的整理(基本过程)1.列出各类别2. 计算各项指标3. 制作频数分布表4. 用图形显示数据分类数据的整理(可计算的指标) 频数(frequency) :落在各类别中的数据个数 比例(proportion) :某一类别数据占全部数据的比值 百分比(percentage) :将对比的基数作为100而计算的比值 比率(ratio) :不同类别数值的比值分类数据整理频数分布表分类数据的图示条形图(bar Chart) 用宽度相同的条形的高度或长短来表示各类别数据次数或百分比的图形 有单式条形图、复式条形图等形式 主要用于
9、反映分类数据的频数分布 绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图分类数据的图示饼图(pie Chart) 也称圆形图,是用圆形及园内扇形的面积来表示数值大小的图形 主要用于表示总体或样本中各组成部分所占的比例,对于研究结构性问题十分有用 绘制圆形图时,总体中各部分所占的百分比用园内的各个扇形面积表示,这些扇形的中心角度,是按各部分数据百分比占3600的相应比例确定的顺序数据的整理与图示顺序数据的整理(可计算的指标)l 1.累积频数(cumulative frequencies):各类别频数的逐级累加l 2.累积频率(cumulative percentages):各类
10、别频率(百分比)的逐级累加分组方法单变量值分组(要点)1.将一个变量值作为一组2.适合于离散变量3.适合于变量值较少的情况组距分组 (要点) 将变量值的一个区间作为一组 适合于连续变量 适合于变量值较多的情况 需要遵循“不重不漏”的原则 可采用等距分组,也可采用不等距分组组距分组(步骤) 确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,可以按 Sturges 提出的经验公式来确定组数K组距分组(几个概念)1. 下限(low limit) : 一个组的最小值 2. 上限(upper limit) : 一个组的最大值 3. 组距(class width) : 上限与下限之
11、差 下限值+上限值2组中值 =4. 组中值(class midpoint) : 下限与上限之间的中点值频数分布表的编制(步骤)确定组数:根据 Sturges 提出的经验公式得组数K为:确定各组的组距:等距变量在分组中需要注意的问题l 1.组数一般调查总数N与分组K的经验性关系2.组距分组与不等距分组等距分组n 各组频数的分布不受组距大小的影响n 可直接根据绝对频数来观察频数分布的特征不等距分组n 各组频数的分布受组距大小不同的影响n 各组绝对频数的多少不能反映频数分布的实际状况n 需要用频数密度(频数密度=频数/组距)反映频数分布的实际状况。分组数据直方图(histogram) 用矩形的宽度和
12、高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布 在直角坐标中,用横轴表示数据分组,纵轴表示各组的频次密度或频率密度,各组与相应的频数就形成了一个矩形,即直方图 直方图下的总面积等于1直方图(直方图与条形图的区别) 条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的 直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频次密度或频率密度,宽度则表示各组的组距,其高度与宽度均有意义 直方图的各矩形通常是连续排列,条形图则是分开排列 条形图主要用于展示分类数据,直方图则主要用于展示数值型数据统计表的设计 合理安排统计表的结构 总标题内容应满足3W
13、 要求 数据计量单位相同时,可放在表的右上角标明,不同时应放在每个指标后或单列出一列标明 表中的上下两条横线一般用粗线,其他线用细线 通常情况下,统计表的左右两边不封口 表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一 对于没有数字的表格单元,一般用“”表示 必要时可在表的下方加上注释简化一个变项之分布集中趋势测量法分类数据:众数l 一组数据中出现次数最多的变量值,称为众数。用Mo表示。众数(mode) 一组数据中出现次数最多的变量值 适合于数据量较多时使用 不受极端值的影响 一组数据可能没有众数或有几个众数 主要用于分类数据,也可用于顺序数据和数值型数据顺序数据:中位
14、数l 一组数据排序后,处于中间位置上的变量值,称为中位数,用Md表示。中位数(位置的确定)1.根据原始资料求中位数2.根据频次分布求中位数3.根据分组数据求中位数中位数(median) 排序后处于中间位置上的值 不受极端值的影响 主要用于顺序数据,也可用数值型数据,但不能用于分类数据数值型数据:均值l 一组数据相加后除以数据的个数而得到的结果,称为均值,也成为平均数。均值(Simple mean)设一组数据为:x1 ,x2 , ,xn(xN) 均值 分组数据求均值 (Weighted mean)设各组的组中值为:M1 ,M2 , ,Mk 相应的频数为: f1 , f2 , ,fk均值均值: 集
15、中趋势的最常用测度值 一组数据的均衡点所在 体现了数据的必然性特征 易受极端值的影响 用于数值型数据,不能用于分类数据和顺序数据众数、中位数和平均数的比较l 1.三值设计的目的是共同的,都是希望通过一个数值来描述整体特征,以便简化资料。众值:适用于定类、定序和定距变量中位值:适用于定序和定距变量均值:适用于定距变量l 2.从对资料的利用程度来区分:众值最低、中位值居中、均值最高。l 3.虽然均值对资料的信息利用最充分,但对严重偏态的分布,会失去它应有的代表性。众数、中位数和平均数的关系对称分布 均值中位数= 众数左偏分布均值 中位数 众数右偏分布 中位数均值众数分类数据:异众比率异众比率(va
16、riation ratio)1.对分类数据离散程度的测度2.非众数组的频数占总频数的比率3.计算公式为4. 用于衡量众数的代表性顺序数据:四分位差四分位差(quartile)排序后处于25%和75%位置上的值Q1Q2Q325%25%25%25%Md四分位数(位置的确定)未分组数据: 分组数据:四分位差(quartile deviation) 对顺序数据离散程度的测度 也称为内距或四分间距 上四分位数与下四分位数之差 Q= Q3 Q1 反映了中间50%数据的离散程度 不受极端值的影响 用于衡量中位数的代表性极差(range) 一组数据的最大值与最小值之差 离散程度的最简单测度值 易受极端值影响
17、未考虑数据的分布 计算公式为R = max(xi) - min(xi) 相对离散程度:离散系数离散系数1. 标准差与其相应的均值之比2. 对数据相对离散程度的测度3. 消除了数据水平高低和计量单位的影响4. 用于对不同组别数据离散程度的比较5. 计算公式为 数据类型和所适用的离散程度测度值数据类型分类数据 顺序数据数值型数据适用的测度值异众比率四分位差方差或标准差 异众比率离散系数(比较时用) 平均差 极差 四分位差 异众比率相对位置的测量:标准分数标准分数1. 标准分数,是变量值与其平均数的差除以标准差后的值,也称为标准化值或z分数。2.对某一个值在一组数据中相对位置的度量3.可用于判断一组
18、数据是否有离群点4.用于对变量的标准化处理5.计算公式为 第三章 抽样与统计推论抽样的意义l 社会学研究关注的是总体的情况,不是样本的情况。l 从样本中计算出来的数值,通常成为统计值,在总体中的数值,称为参数值。抽样方法l 一般分为随机抽样和非随机抽样法。l 非随机抽样包括:立意抽样法偶遇抽样法定额抽样法非随机抽样l 立意抽样法l 依据研究员的主观见解和判断,选取他认为是典型的个案。l 偶遇抽样法l 选取一些偶然遇见的个案作为样本,又称为方便抽样法。l 定额抽样法l 根据某些标准将总体分组,然后用立意或偶遇抽样法由每组中选取样本个案。随机抽样l 简单随机抽样l 系统随机抽样l 分层随机抽样简单
19、随机抽样从总体N个单位中随机地抽取n个单位作为样本,每个单位被抽入样本的机会是相等的特点n 简单、直观,在抽样框完整时,可直接从中抽取样本n 用样本统计量对目标量进行估计比较方便局限性n 当N很大时,不易构造抽样框n 抽出的单位很分散,给实施调查增加了困难n 没有利用其它辅助信息以提高估计的效率系统随机抽样首先将全部个案排列起来,按抽样比例分成间隔,并在每个间隔区内按同样的距离选取一个个案。分层随机抽样将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。分层随机抽样 优点n 保证样本的结构与总体的结构比较相近,从而提高估计的精度n 组织实施调查方便n 既可以对总
20、体参数进行估计,也可以对各层的目标量进行估计抽样分布l 抽样分布即显示由同一总体中反复不断抽取不同样本时,各个可能出现的样本统计值的分布情况。l 抽样分布有均值抽样分布、方差的抽样分布、比例的抽样分布等。样本均值的抽样分布(数学期望与方差) 样本均值的数学期望 样本均值的方差比较及结论:1. 样本均值的均值(数学期望) 等于总体均值 2. 样本均值的方差等于总体方差的1/n第四章 参数估计评价估计量的标准无偏性n 无偏性:估计量抽样分布的数学期望等于被估计的总体参数 有效性有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效 一致性n 一致性:随着样本容量的增大,估计量的值越来
21、越接近被估计的总体参数点估计的缺陷1. 没有给出估计值接近总体参数程度的信息。点估计完全正确的概率通常为0。因此,我们更多的是考虑用样本统计量去估计总体参数的范围 区间估计。区间估计:点估计的基础上,估计总体参数的区间范围,并给出区间估计成立的概率值。其中,称作置信区间 称作置信度,可信度,或置信水平 称作显著性水平。n 置信水平的一般取值:置信水平与的对应关系总体均值的区间估计 (正态总体、s已知,或非正态总体、大样本)s已知1.假定条件n 总体服从正态分布,且方差(s) 已知n 如果不是正态分布,可由正态分布来近似 (n 30) 总体均值 m 在1-a 置信水平下的置信区间为s未知1.假定
22、条件n 总体服从正态分布,大样本n 如果不是正态分布,可由正态分布来近似 (n 30) 总体均值 m 在1-a 置信水平下的置信区间为总体均值的区间估计(大样本)1.假定条件n 总体服从正态分布,方差已知或未知n 如果不是正态分布,可由正态分布来近似 (n 30),方差已知或未知 总体均值 m 在1-a 置信水平下的置信区间为总体均值的区间估计(小样本)1.假定条件n 总体服从正态分布,且方差(s) 未知n 小样本 (n 30)n 使用 t 分布统计量 总体均值 m 在1-a置信水平下的置信区间为 第 5章 假设检验假设检验的基本原理逻辑上运用反证法统计上依据小概率原理1.在一次试验中,一个几
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最新 电大 社会 统计学 期末 备考 资料
链接地址:https://www.31ppt.com/p-4079846.html